Можно ли доверять SimilarWeb? Анализ 2350 сайтов Рунета
Вы смотрите посещаемость чужих сайтов через Similarweb? Да? Я тоже =). Но стоит ли доверять данным сервиса? Если да, то насколько? Я проанализировал 2350 сайтов в Рунете с открытой посещаемостью и в посте поделюсь полученными результатами.
Содержание:
Совсем немного о Similarweb
Про полезность Similarweb я не буду рассказывать. Если по каким-то причинам вы еще не пользуетесь сервисом, то потеряли много интересной информации.
Пару слов об источнике данных. Similarweb собирает информацию со многих баз: браузерные расширения, интернет-провайдеры, обезличенная статистика с компьютеров/мобильных устройств и т.п. Например, многие программы/приложения могут собирать такие данные и продавать их компании.
Задача — определить насколько точно данные по Similarweb соотносятся с реальной статистикой, определить некоторый общий процент погрешности.
Как проходило исследование?
Вы любите репрезентативность и выборку. Это есть у меня . С чего я начал? Конечно же, со старой доброй лирушечки (рейтинг сайтов liveinternet). Сначала я думал собрать информацию вручную, но потом понял, что ресурсов с открытой статистикой там намного больше, чем хотели бы видеть мои руки .
Пошел на биржи фриланса заказывать парсинг. По своим наблюдениям Similarweb не отображает данные для сайтов, у которых реальная посещаемость меньше 1000 уников в сутки (плюс-минус, конечно же). Поэтому я остановился на первых 15000 URL по рейтингу liveinternet.
С открытой статистикой получилось 3700+ шт. Я, на самом деле, удивился . Каждый 4-й сайт имеет открытую статистику (по крайней мере общие данные; например, поисковые запросы практически никто не открывает). По статистике liveinternet было спаршено (за ноябрь):
- Сессии — суммарные (аналог визитов в Similarweb);
- Среднее время на сайте;
- Количество просмотров страниц;
- Объем поискового трафика;
- Доли Яндекса и Google (для своих нужд : потом расскажу, если что-то получится).
Далее эти 3700+ урлов отправились на парсинг в Similarweb (как мне сообщил фрилансер, не такая уж была простая задача, пришлось попотеть). Собирались аналогичные данные.
Все это объединилось в сводную таблицу.
Из нее я удалил:
- визитки медиа-агентств, которые используют один счетчик на всех сайтах;
- URL, у которых отсутствовали данные по Similarweb;
- строки, которые сильно выбивались по отклонениям, например, в 10 раз (например, liveinternet отображает у banki.ru только 20.000 посетителей за ноябрь). Таких строк было немного (несколько десятков). На общую статистику они сильно не повлияли, а вот графики без них получились поприятнее .
- Редиректы на другие домены (доменное имя новое, а li-счетчик остался старый).
В итоге получилось 2350 строк. Изначально каждому сайту я хотел присвоить тематику и формат (информационный, интернет-магазин, агрегатор, новостник и т.п.) — было предположение, что погрешность может отличаться от этих критериев. Но из-за объемной (и, вероятно, бесполезной) ручной работы отказался.
Посещаемость
Сначала я рассчитал отклонение сессий Similarweb в процентах (в числителе) от реальных данных по сессиям liveinternet (в знаменателе). Высчитал для этого столбца:
- Среднее арифметическое — 10,97%. В среднем посещаемость с Similarweb больше реальной на 11%.
- Медиану — -1,3%. По этому показателю можно подумать, что Симиларвеб показывает практически идентичные данные (это, конечно, не так).
- Среднее отклонение (среднеквадратическое) — 55,07%. Говорит о том, что в выборке довольно сильный разброс значений. Погрешность в 55,07% (как в плюс, так и минус) от среднего отклонения между посещаемостью Симиларвеб и Liveinternet. Пока изучал этот показатель, почувствовал себя на 2-м курсе университета на семинаре по высшей математике .
Цифры получились довольно скучные. Ай-да смотреть на графики.
По графику видно, что сначала Similarweb занижает показания, потом плюс-минус ровно, а в конце сильно завышает. Я сделал 4 группы по трафику и определил значения для них.
Посещаемость | Среднее арифметическое | Медиана | Среднеквадратическое |
от 1 млн | -13,0295 | -14,7847 | 31,27018 |
от 200К до 1 млн | -4,29813 | -9,68749 | 41,65007 |
от 50К до 200К | 16,22788 | 3,49847 | 52,3621 |
до 50К | 85,057 | 60,55811 | 74,82938 |
Вывод. Если у сайта посещаемость:
- От 1 миллиона посетителей в месяц, то, скорее всего, Симиларвеб покажет заниженные данные процентов на 15-30.
- От 200.000 до 1 миллиона — заниженные на 10-20%.
- От 50.000 до 200.000 — завышенные на 15-25%.
- До 50.000 — завышенные на 80-100%.
Для низкопосещаемых сайтов Similarweb сильно завышает посещаемость, выравнивает ее к среднепосещаемым и занижает к высокопосещаемым. Как-то так .
Среднее время на сайте
Расчет отклонений по аналогичной формуле. Получились следующие результаты:
- Среднее арифметическое — 111,35%.
- Медиана — 92%
- Среднее отклонение (среднеквадратическое) — 91,5.
Здесь намного проще. Симиларвеб завышает время на сайте практически для всех сайтов (немного меньше для сайтов с высокой посещаемостью). Для простоты расчетов его можно делить на 2.
В целом график довольно ровный для более чем 2000 строк, но есть строки, которые сильно выбиваются (небоскребы).
А это график отклонения среднего времени относительно отклонения количества страниц за сеанс.
По нему видно, что чем больше отклонение по количеству просмотренных страниц, тем больше отклонение среднего времени на сайте. Что в принципе логично.
Страниц за посещение
- Среднее арифметическое — -24,5%.
- Медиана — -24,5%.
- Среднее отклонение (среднеквадратическое) — 35,2.
И здесь все довольно просто — similarweb занижает количество страниц, просмотренных пользователям за посещение. Чтобы получить реально количество я бы умножал процентов на 30-40.
Ниже график отклонений страниц за посещение с сортировкой по времени на сайте. Чем больше пользователь проводит времени на сайте, тем лучше считается статистика.
Источники трафика
Поисковые системы
Как и обещал, результаты по трафику с поиска опубликовал в телеграме .
Прямой трафик (директ)
Замечу, что для прямого, реферального и социального трафика могут быть более серьезные расхождения. Во-первых, similarweb и liveinternet могут их считать по-разному. Во-вторых, доля этих источников, как правило, невелика. По графикам же видно, что чем больше трафика, тем точнее статистика.
Полученные результаты ниже необходимо воспринимать со здравой долей скептицизма . Например, на сайт по liveinternet может идти 0,1% трафика из социальных сетей, а similarweb покажет 1%. Объем и там, и там небольшой, но разница в 10 раз (или на 900%).
В выборке 1572 сайта (строка "Закладки" в разделе "Переходы с сайтов" в LI).
- Среднее арифметическое — 71,7.
- Медиана — 38,9.
- Среднее отклонение — 150,3.
Но более интересна сортировка по % прямого трафика в liveinternet.
Здесь видно, что чем больше реального прямого трафика, тем точнее данные в similarweb. В целом же симиларвеб завышает показатель Direct.
Реферальный
В выборке (общие среднесуточные раздела "Переходы с сайтов" в liveinternet, умноженные на 30).
- Среднее арифметическое — -1934,8.
- Медиана — -1439,6.
- Среднее отклонение — 1745,3.
Здесь получились дикие результаты. Ориентироваться на них в принципе не стоит. Возможно, лучше было взять суммарный ежемесячный трафик по "Переходы с сайтов" и вычесть из него переходы по "Закладкам".
Социальные сети
В выборке 1465 сайтов (раздел "Из социальных сетей").
- Среднее арифметическое — 242,7.
- Медиана — 91.
- Среднее отклонение — 429,4.
А ниже сортировка по убыванию общей доли социального трафика в LI.
График похож на график по Direct .
Вывод
Перед исследованием я уже имел некоторое представление о точности Симиларвеб. По моим данным он всегда завышал уровень посещаемости. Теперь же я могу опираться на цифры. С этого момента для простоты расчетов:
- буду делить посещаемость на 1,5 для сайтов до 200-300К посетителей в месяц. Для более раскрученных проектов буду доверять данным Similarweb. Во-первых, погрешность там небольшая. Во-вторых, цифры берутся для ориентира и, по сути, не столь важно 1 млн трафика или 1,5 млн (в обоих случаях числа весомые).
- Делить в 2 раза время, проведенное посетителем.
- Умножать на 1,5 количество просмотренных страниц.
- Буду держать в голове, что симиларвеб, скорее всего, завышает доли прямого и социального трафика. Чем меньше доля, тем больше завышение.
Кстати, заметил интересную особенность: в Similarweb попадаются сайты со статистикой, которая подтягивается из Google Analytics.
Это вебмастера через аккаунт Analytics специально разрешают показывать . Если видите такое, то это наиболее точная статистика.
P.S. По поводу аудита в рамках предыдущего поста. На этой недели будет выбрана заявка.
ждем аудит
Спасибо за аналитику! Пользуюсь постоянно Similarweb. Теперь буду в уме корректировать показания ссылаясь на Ваши данные.
Окей, а какая альтернатива Similarweb? Или альтернатива — только поправка на ветер?
Альтернативы нет. Нужно просто научиться пользоваться
Респектище за материал.
Ты забыл одну важную вещь, счетчик liveinternet режется uBlock’ом, adBlock’ом и почти всеми остальными блокерами рекламы. Средний процент их использования ~20%, но сильно зависит от тематики, в it-сфере это где-то 70%. Из этого выходит, что сайты с посещалкой > 1млн как раз максимальную точность показывают, но все равно иследование интересное, спасибо!
Similarweb через платное api парсил или напрямую с формы через get запросы?
Никогда про это не слышал. Есть подробности? Такой же как Яндекс.Метрика или Google Analytics.
Не знаю, какие еще подробности дать) Можешь просто зайти на сайт с включенным ublock и не увидишь счетчика, статистика же по использованию блокеров легко гуглится. Касательно левых ботов, которых считает li, их не так много, и не все обрабатывают js. Счетчики Яндекса и гугла тоже блокируются, но гугла не всегда, так как он платит тому же adblock’у, чтобы не блокировал рекламу.
Я просто специально установил adblock и liveinternet не был заблокирован.
UPD. Установил ublock, liveinternet блочится. Также как и блочится google analytics. Скорее всего, им также блокируется и всякие бары, расширения и т.п., данные из которых собираются в similarweb.
А вообще, конечно, это исследование, чтобы прикинуть, а не определить точно.
Ничего себе adblock продался, все меньше и меньше блочит) У меня поэтому ublock. На сколько я знаю, у симиларвеба основной способ добычи статистики — выкуп открытых логов у провайдеров, в этом их главное отличие от других сервисов статистики.
По поводу парсинга Similarweb. Там программист какую-то лазейку нашел (по его словам). Получается, что напрямую.
Мне кажется, лирушка «цепляет» сильно много ботов. И стата очень часто кривая.
Интересно было бы посмотреть такой же эксперимент с Яндек.Радаром ( radar.yandex.ru/top_list ).
Кстати, прочитай как они собирают статистику для своего Топ-10000: radar.yandex.ru/about#section-radar-top
Ну вот, если лирушка цепляет много ботов и ее блокирует adblock’еры, то в среднем — все ок
Яндекс.Радар на заметке, но там топовые сайты, не совсем репрезентативная выборка получится. И задача была оценить именно Similarweb, так как он универсальнее, например, того же радара .
Ахрефс так же пытается прогнозировать трафик, причём даже маленький. Очень альтернатива. По моим данным сильно занижает реальный. Alexa ещё можно сравнить
Ahrefs платный: подойдет не для всех. По алексе тоже можно прикинуть, но опять же зная открытую статистку, например, по близким прямым конкурентам.
Если честно, то я раньше о данном проекте даже не слышал. Отличная статья.
По идеологии симелрвеба он считает по логам, которые выкупает у провайдеров.
Если сайт предоставляет какой-то сервис, ну там вставить калькулятор на Ваш сайт iframe,
данные будут завышены в 10-100 раз (за счет размытия по сайтам партнеров).
То же самое с картинками и прочим контентом.
Пример: Вы вставили картинку с чужого сайта на свой, пользователь зашел на Ваш сайт, получается прочитал картинку с чужого сайта, чужой сайт получил +1 уник…. По крайней мере 0.5 года назад было так.
Отличный анализ. Как то и сам хотел такой сделать, но всё никак. Теперь стало проще и нагляднее, спасибо!
Я проверяю через другой, никогда про этот сервис не слышала, но и тот что я использую не точный, но максимально близок к истине. Обычно такие сайты чуть завышают реальные данные.
Добавил в пост сравнение по источникам трафика: поисковые системы, прямой, реферальный, социальный трафик.
Скажите, пожалуйста, пользовались ли вы сервисом SEMrush? Каковы его преимущества и недостатки?
Пользовался, но довольно давно. В целом сервис хороший, но нужно отталкиваться от задач и подбирать инструмент под них.
У меня такой вопрос: как можно накрутить Similarweb и Serpstat для GGL?
Увеличивайте трафик, поисковую видимость (если по serpstat оцениваются ключевые слова). Не уверен, что мероприятия по накрутке этих показателей смогут существенно поднять заработок в GGL.
Спасибо большое за полезную статью. Как раз интересовался этим сервисом. С интересом всегда ваш сайт читаю.
Спасибо, очень интересная и полезная статья. Давно думал над тем, как оно коррелируется с реальностью.