Наука о Данных Доты: статистика, машинное обучение и прочее

Предсказание результатов Shanghai Major: групповой этап

К вопросу анализа данных из Доты мы пытались подойти уже достаточно давно и даже успели сделать целый конкурс на Kaggle для студентов курса "Введение в Машинное Обучение" на Курсере, однако сейчас всё внимание приковано к Shanghai Major, поэтому мы решили сосредоточиться именно на нём.

Пару дней назад Нахаз и Ноксвилль -- пожалуй, одни из самый авторитетных людей в области статистики и анализа данных из Доты -- выпустили видео на YouTube c предсказаниями для Компендиума. Если вы его ещё не видели, то настоятельно рекомендуем вам это сделать прямо сейчас:

К сожалению, в данном видео они не успели затронуть тему предсказания итогов турнира или хотя бы его групповой части, ограничившись лишь созданием странички с прогнозируемым расположением команд в турнирной сетке, ссылку на которую вскоре опубликовали на Реддите. 

К ещё большему сожалению, времени на предсказания по компендиуму у нас совсем не было, так как мы готовили кое-что другое, о чём будет сказано чуть позже, однако мимо предсказаний результатов группового этапа мы пройти не могли. Поэтому в данном посте мы предствляем вам сравнение предсказаний, полученных нами и Ноксвиллем. 

Методика подсчёта в нашем случае была достаточно простая:

Мы посчитали вероятность побед для каждой пары. У нас всего 32 возможных исхода матчей (5 матчей два варианта победителя). Для каждого из 32 вариантов посчитали его вероятность. Для каждого варианта однозначно определяются места. Дальше мы считаем вероятности занять место. Сейчас вероятность победы мы считаем из Эло с сайта того же Ноксвилля. Что такое рейтинг Эло можно почитать в Википедии или посмотреть в предыдущем ролике Stats don't lie от Нахаза. Ниже представлены результаты нашей модели в сравнении с предсказаниями Ноксвилля: Сравнение двух моделей, основанных на Эло рейтинге Сразу оговоримся, что мы не ставили целью переплюнуть в точности предсказания Ноксвилля. Он занимается этим не первый год и имеет доступ ко всем данным по матчам участников с максимально возможной детализацией хода игры и соответствующих статистик. Нас же интересовала в первую очередь возможность быстро построить что-то похожее, сравнить результаты и даже попробовать сделать самый простой ансамбль моделей, усреднив результаты наших предсказаний.

Сначала сравним сходства и отличия. Как несложно заметить, в целом результаты получились достаточно схожими вплоть до неясности в расстановке Team Spirit и Fnatic на 3-4 место в группе B. Дополнительной экспертизы и аналитики по данному пункту у нас нет, поэтому желательный порядок расстановки в данном случае был бы продиктован скорее патриотическими соображениями. Из отличий стоит отметить то, что в двух других ситуациях, когда модели Ноксвилля сомневались между последними местами в группах А (CDEC и MVP Phoenix) и D (Virtus Pro и compLexity), наши результаты достаточно чётко (а в случае с Virtus Pro и даже желательно) расставили эти команды по местам. В остальном же из бросающихся в глаза различий можно отметить только значительная переоценка нашей моделью первых мест для EHOME и Alliance и чуть более лояльное отношение к Newbee. Если же сделать из этих двух моделей ансамбль, просто усреднив их результаты, то получается следующая картина:

Результат получен с помощью усреднения двух вышеописанных моделей

В общем, здесь не сильно что-то поменялось -- CDEC всё-таки должны обойти MVP Phoenix, в то время как позиции Team Spirit, Fnatic, Virtus Pro и compLexity в соответствующих группах пока остаются самыми неопределёнными.   Понятно, что подобного рода аналитика ни в коем случае не предопределяет реальный исход чемпионата (вспомним тех же CDEC на прошлом The International и Newbee на позапрошлом), однако она служит гораздо более надёжной основой для построения прогнозов, нежели личные предпочтения или подбрасывание монетки. Более того, она позволяет это делать людям, которые даже ни разу не играли в Доту, как автор разработанной нами модели.  

Как мы уже говорили в начале поста, на предсказание Компендиума у нас времени и сил не нашлось, но лишь потому, что они все ушли на нечто, чего ещё никто не делал в области анализа данных из Доты. Так что, как говорится, следите за обновлениями, благо долго ждать себя они не заставят.

Автор 
РЕЙТИНГ +15
Киберспорт. Самое интересное. Ничего лишнего.
Подпишитесь на нас в соцсетях:

Свежие записи в блоге

25 февраля 2016 05:50
Предсказание результатов Shanghai Major: групповой этап

Сегодня родились