Накрутил ли Никс рекордный онлайн? Я откопал все данные и проверил лично
Этот пост написан пользователем Sports.ru, начать писать может каждый болельщик (сделать это можно здесь).
В конце сентября NS обвинил Никса в накрутках на стриме. Якобы есть показатели, по которым можно определить подобное, говорил о вранье и приводил свои аргументы. Не будем вдаваться в подробности и отвечать на вопросы «как это возможно?!», просто сосредоточимся на данных. Судя по ним, эта история не похожа на накрутку. Попробуем это доказать.
Обо мне: я аналитик, работаю на крупном заводе. После тяжелого рабочего дня на заводе я прихожу домой и вместе с товарищем развиваю аналитический сервис с прямым парсингом данных с Twitch за весь последний год. В идеале этот сервис должен стать заменой Streamscharts, который является единственным сервисом с самым широким функционалом в инфлюенс-маркетинге.
📌 НС обвиняет Никса в накрутке зрителей. Что известно?
Контекст
Давайте еще раз проговорим: NS обвинил Никса в накрутках, заявляя, что есть показатели, по которым можно определить накрутку. По его словам, если удельное количество сообщений ниже, то велика вероятность мошенничества. Речь идет про «подозрительную» статистику, которая «не врет на больших масштабах». Давайте разбираться, в чем заблуждается Ярослав Кузнецов и как вообще вычислять накрутку на стримах.
С одной стороны, позиция Ярослава звучит логично. Разработчику ботов проще запустить тысячи «зрителей», которые молчат в чате. Писать сообщения – сложнее и дороже. С другой стороны, ничего не мешает реализовать простейший скрипт, который повторяет реакции, отображаемые в чате, присылать несколько связанных последовательных сообщений и задавать вопросы (как правило, на больших стримах они остаются без ответа) или отображать диалог между двумя ботами. Все это реализовать не так уж и сложно.
Однако низкий показатель активности чата не прямо указывает на накрутку, а скорее может быть расценен как низкая вовлеченность. Низкая вовлеченность (его еще называют engagement rate – ER) – типичная история для крупных инфлюенсеров на любой платформе, и Twitch не исключение. Насколько различным может быть этот показатель – вопрос открытый. Но это необязательно показатель накрутки. Слабые значения скорее снижают привлекательность стримера в глазах рекламодателя, но не более того.
В день максимального онлайна Никс наслаждался матчами The International, а именно финалом чемпионата мира. Он комментировал игры, выступал с аналитикой и приглашал гостей в эфир.
Матчи в Доте отличаются динамикой, и конец каждой карты или серии можно отследить через пики на графике онлайна. И у Никса здесь все естественно.
Накрутка зрителей на Твиче – явление давнее. За последние годы рынок накрутки растет за счет популярности и количества разных сервисов. Как в США, так и в России. Достаточно посмотреть на количество запросов в Google Trends.
Самые крупные чеки у самых солидных стримеров. Очевидная накрутка для них – риски. Поэтому (в теории) они готовы платить большой процент от гонораров ради искусно прописанных алгоритмов. Мы попробуем на основании данных обнаружить их у Никса.
Почему это важно?
В последнее время про накрутку стали говорить все чаще. Мысль, что стримеры «накручивают», дает сладкое понимание простому работяге: «Стримеры все обманщики, а я не популярен, потому что честный». Эта приятная ложь – грамотная позиция продвижения через конфликты. Но поскольку рынок накрутки растет и количество сервисов увеличивается – очевидно, что подобные рассуждения не безосновательны. Поэтому важно верно различать, когда утверждения имеют под собой факты, а когда – нет.
Анализируем данные
Мы делаем собственную платформу парсинга (пока на стадии отладки и доработки), поэтому количество данных ограничено диапазоном, изображенном на графике ниже. Стоит это учитывать.
Для обнаружения наиболее явных аномалий можно обратиться к подробному графику пикового стрима. На нем отразим процент зарегистрированных пользователей, частоту отправки сообщений и другие данные. Ниже на графике вы можете видеть характеристики исходных данных для анализа – количество сообщений, чаттерсов и онлайн. Для получения данных использовались Twitch API, из которых можно узнать:
- количество зрителей (синий график),
- все сообщения (скорость сообщений – зеленый график),
- количество зарегистрированных пользователей, или чаттерсов (красный график),
- список чаттерсов (количество ников из исходных данных, которые парсятся в несколько заходов – оранжевый график) и многое другое.
Через эти же API также можно получить информацию про самих чаттерсов (дата регистрации, история смены ников и т.д.), которая не будет задействована на данном этапе нашего анализа.
Особых аномалий на графике увидеть практически нельзя, однако частота дискретизации немного ниже, из-за чего пики видны хуже, чем у Twitchtracker. Особо наблюдательные могут также обнаружить слабую зависимость количества сообщений в минуту от пиков онлайна (вернее, с концом матчей, которые просматривались).
Вполне возможно, что мы можем выбрать некие удельные показатели для сравнения с другими стримами (например, разделить показатель среднего онлайна к пиковому). Сами по себе эти показатели могут ничего не означать, однако создать общую атмосферу аномальности и дать подсказку, куда рыть, – вполне.
Самый главный показатель, который мы можем сравнить относительно прошлых стримов, – количество новых пользователей, то есть сколько появилось уникальных ников без тех, что присутствовал на трех стримах до этого. Важно, что речь не про тех, кто пишет в чат, а тех, кто отображается как зарегистрированный зритель (их количество можно увидеть через Twitch Enhancer).
Получается, что около четверти пользователей (в пике) на трансляции ранее не заходили на канал на аналогичный ивент. Эту ситуацию (в случае, если мы допускаем накрутку) можно трактовать двумя способами.
Первый: Никс постоянно накручивает и на финал решил накрутить еще. В таком случае из текущего набора данных накрутку не обнаружить.
Второй: мы допускаем, что накрутка была разовая и именно в пиковый момент. В таком случае максимальный показатель, который накрутил Никс, не превышает около 80к онлайна (новых в 4 раза меньше старых). В условиях ограниченной выборки мы будем вынуждены проанализировать именно эту гипотезу, хотя в конце я предоставлю еще один подход для оценки общей репутации аудитории на стримах Никса.
Давайте сравним удельные показатели, отражающие поведенческие паттерны «накрученных» пользователей с типичными у Никса. «Накрученных» далее называем «новыми» зрителями, а те, что были у Никса до этого стрима, – «старыми».
Самые аномальные показатели – на графиках выше. По этим данным можно сделать вывод, что «накрученные» зрители реже пишут сообщения, а также в несколько раз чаще используют эмодзи в текстах. С одной стороны, это может указывать на накрутку, однако в целом по своему опыту могу сказать, что новым зрителям нужно время на привыкание к стримеру, и немногословность людей (а также типовые ответы со смайликами) может быть обусловлена именно этим. Точно можно сказать, что качество старой аудитории Никса намного выше «новой» (или «накрученой»).
На этом можно было бы и закончить… Но есть еще один способ оценить накрутку. В нашей базе собираются многие стримеры, поэтому мы можем позволить себе вводить показатель «репутации» для чаттерсов.
«Скажи мне, кто твой стример…»
Итак, последней итерацией для проверки на накрутку станет репутационный анализ аудитории по стримерам. К сожалению, алгоритмы определения накрутки на сегодняшний день все еще слабо развиты, поэтому мы будем опираться на неэкспертный источник в вопросах определения репутации (все-таки, чтобы создать такие методы, мне нужны деньги).
В качестве базы мы используем работу инфлюенсера OneGo, который составил таблицу каналов, разделив их на три категории:
- «зеленые» («0», или честный канал),
- «красные» («1», или канал с накруткой),
- «желтые» (сомнительные).
По тем, что обозначены как «-», данных нет. Подробный обзор его метода можно посмотреть здесь.
Мы же возьмем лишь его результаты и не будем подвергать их сомнению (пока что). Также посмотрим, с какими стримерами у Никса больше всего пересекается новая и старая аудитория. В выборку попадут и каналы с явной накруткой, и просто подозрительные.
Взяв этот набор данных, мы сравним пересечение аудитории и выдадим аналогичный рейтинг аудитории Никса (он, кстати, по таблице OneGo является честным).
Если предположить, что Никс действительно накручивает, то, вероятно, у него будет либо уникальная аудитория, которая никогда ранее никуда не заходила, либо заходила на аналогичные подозрительные каналы. Внимание на следующий показатель:
72% всей аудитории на стриме с финалом TI присутствует также на каналах других топ-300 стримеров.
При этом, если смотреть по «новым» чаттерсам, то процент уникальных среди них выше.
Однако количество уникальных новых чаттерсов незначительно по сравнению с неуникальными, то есть с теми, кто присутствует на других каналах. Важно – это не показатель зрителей (т.е. не 50к онлайна единовременно), это уникальные зрители, которые заходили и уходили со стрима Никса за 12 часов стрима. При пиковом онлайне в 400к это достаточно низкий показатель: общее количество ников за стрим – около 3 млн.
Исходя из количества непересекающейся аудитории, мы вновь пришли к примерно 25% накрутки (хотя новых & уникальных получается около 1% от общего количества).
Проверим, действительно ли у новых зрителей большой процент пересечения с подозрительными каналами.
По факту пересечения с подозрительными каналами у Никса минимальные и не превышают 2% по разным каналам по ВСЕЙ аудитории. По методике обнаружения накрутки OneGo – Никс точно не накручивает.
Давайте проверим, какие еще стримеры пользуются тем же сервисом накрутки, у кого еще можно наблюдать ту же аудиторию, и составим топ по проценту зрителей Никса в составе общей аудитории других стримеров.
Если говорить про «новых» зрителей, то топ по аналогам в топ-300 стримеров будет выглядеть так. Учитывая, что размеры каналов ниже в подавляющем количестве не превышают 2к онлайна, эта новая аудитория явно не похожа на накрутку (хотя есть и крупные).
Если кто-то из вас замечал, что на этих каналах присутствует подозрительная активность, – напишите в комментариях. Также, если мы обвиняем в накрутке стримеров выше, то и обвиняем тех, у кого сидит аудитория Никса, то есть следующая характеристика – это процент аудитории на стриме Никса, которая сидела у других стримеров.
Важно упомянуть, что аудитории пересекаются между стримерами, поэтому тут не должно получится 100% при суммировании. Но это по всей аудитории, а что с «новой» или «накрученной»?
Таким образом, если это накрутка, то под подозрением прежде всего sasavot. Есть ли подозрения в его сторону? NS считает, что стримеры выше накрутили онлайн? Спросите у него.
Ну и напоследок – самое интересное. У нас есть возможность проанализировать источники аудитории, которые перешли на канал Никса. То есть сначала эти чаттерсы присутствовали в чате у одного стримера, а потом через время пришли на канал Никса. Этот процент от общего количества чаттерсов, а не текущего онлайна. И важно, что учитываются только первые переходы (т.е. даже если они ходили туда-сюда между каналами, учитывается только первый переход).
Топ по переходу на канал Никса – канал just_ns, с которого и началось наше расследование. Вероятно, именно эта часть чата сидела молча. Цикл замкнулся… Или Твич настолько круто продвинул в топы Nix, что зрители NS’а ушли с трансляции? Этого мы не узнаем.
Выводы
На сегодняшний день никто не скажет вам, накручивается аудитория или нет, за исключением совершенно вопиющих очевидных случаев. Более того, в бизнесе сегодня нет интересантов, чтобы вырабатывать реальные средства для вскрытия накрутки (если такие интересанты есть – напишите, мне есть что вам предложить).
Из-за этого все обвинения будут иметь формат инфоповода и никогда не перейдут в юридическую, реально обоснованную плоскость. С одной стороны – это хорошо, потому что никто не пострадает. С другой – это показатель незрелости индустрии. Индустрия пока что не заинтересована в том, чтобы разбираться, куда тратятся деньги, главное – что тратятся. Это устраивает всех и на каждом этапе рекламной кампании (кроме того, где о проверке речи уже не идет). В этой связи не стоит придавать особого значения обвинениям… До соответствующей проверки.
Если говорить про накрутку Никса, то на основании приведенных данных множество факторов указывают на незначительность накрутки, даже если она была. Процент аудитории, который был накручен, явно не превышает 10% (и это самая смелая оценка). А если мы утверждаем, что Никс накручивает, то нам придется также утверждать, что накручивают очень многие люди, в том числе и NS… И если мы допускаем даже это, то на данном этапе у меня (и у кого бы то ни было) нет методологической возможности выявить это.
Учитывая, что Твич совсем недавно проводил чистку, подозреваю, что и у Твича на этот счет были размышления, и какие-то аккаунты были вычищены. В любом случае настолько сложное алгоритмическое поведение придется вычислять намного сложнее, необходимо более подробно проанализировать сервисы по накрутке, выявить общие алгоритмы… В целом это тема отдельного исследования, которое я в будущем, скорее всего, проведу.
Важно упомянуть, что статья не является окончательной и экспертной, подходы и методики в data-driven инфлюенс-маркетинге на Твиче только начинают развитие, и любое мнение имеет вес. Пишите свои комментарии, буду рад любой критике. Если у вас есть желание поиграть с сырыми данными – пишите мне в ТГ или VK. Также подписывайтесь на мой Твич, Ютуб и ТГ под ником pi14cyber. Возможно введу рубрику анализа аудитории ваших любимых стримеров…