Можно ли доверять SimilarWeb? Анализ 2350 сайтов Рунета
Вы смотрите посещаемость чужих сайтов через Similarweb? Да? Я тоже =). Но стоит ли доверять данным сервиса? Если да, то насколько? Я проанализировал 2350 сайтов в Рунете с открытой посещаемостью и в посте поделюсь полученными результатами.
Содержание:
Совсем немного о Similarweb
Про полезность Similarweb я не буду рассказывать. Если по каким-то причинам вы еще не пользуетесь сервисом, то потеряли много интересной информации.
Пару слов об источнике данных. Similarweb собирает информацию со многих баз: браузерные расширения, интернет-провайдеры, обезличенная статистика с компьютеров/мобильных устройств и т.п. Например, многие программы/приложения могут собирать такие данные и продавать их компании.
Задача — определить насколько точно данные по Similarweb соотносятся с реальной статистикой, определить некоторый общий процент погрешности.
Как проходило исследование?
Вы любите репрезентативность и выборку. Это есть у меня . С чего я начал? Конечно же, со старой доброй лирушечки (рейтинг сайтов liveinternet). Сначала я думал собрать информацию вручную, но потом понял, что ресурсов с открытой статистикой там намного больше, чем хотели бы видеть мои руки
.
Пошел на биржи фриланса заказывать парсинг. По своим наблюдениям Similarweb не отображает данные для сайтов, у которых реальная посещаемость меньше 1000 уников в сутки (плюс-минус, конечно же). Поэтому я остановился на первых 15000 URL по рейтингу liveinternet.
С открытой статистикой получилось 3700+ шт. Я, на самом деле, удивился . Каждый 4-й сайт имеет открытую статистику (по крайней мере общие данные; например, поисковые запросы практически никто не открывает). По статистике liveinternet было спаршено (за ноябрь):
- Сессии — суммарные (аналог визитов в Similarweb);
- Среднее время на сайте;
- Количество просмотров страниц;
- Объем поискового трафика;
- Доли Яндекса и Google (для своих нужд
: потом расскажу, если что-то получится).
Далее эти 3700+ урлов отправились на парсинг в Similarweb (как мне сообщил фрилансер, не такая уж была простая задача, пришлось попотеть). Собирались аналогичные данные.
Все это объединилось в сводную таблицу.
Из нее я удалил:
- визитки медиа-агентств, которые используют один счетчик на всех сайтах;
- URL, у которых отсутствовали данные по Similarweb;
- строки, которые сильно выбивались по отклонениям, например, в 10 раз (например, liveinternet отображает у banki.ru только 20.000 посетителей за ноябрь). Таких строк было немного (несколько десятков). На общую статистику они сильно не повлияли, а вот графики без них получились поприятнее
.
- Редиректы на другие домены (доменное имя новое, а li-счетчик остался старый).
В итоге получилось 2350 строк. Изначально каждому сайту я хотел присвоить тематику и формат (информационный, интернет-магазин, агрегатор, новостник и т.п.) — было предположение, что погрешность может отличаться от этих критериев. Но из-за объемной (и, вероятно, бесполезной) ручной работы отказался.
Посещаемость
Сначала я рассчитал отклонение сессий Similarweb в процентах (в числителе) от реальных данных по сессиям liveinternet (в знаменателе). Высчитал для этого столбца:
- Среднее арифметическое — 10,97%. В среднем посещаемость с Similarweb больше реальной на 11%.
- Медиану — -1,3%. По этому показателю можно подумать, что Симиларвеб показывает практически идентичные данные (это, конечно, не так).
- Среднее отклонение (среднеквадратическое) — 55,07%. Говорит о том, что в выборке довольно сильный разброс значений. Погрешность в 55,07% (как в плюс, так и минус) от среднего отклонения между посещаемостью Симиларвеб и Liveinternet. Пока изучал этот показатель, почувствовал себя на 2-м курсе университета на семинаре по высшей математике
.
Цифры получились довольно скучные. Ай-да смотреть на графики.
По графику видно, что сначала Similarweb занижает показания, потом плюс-минус ровно, а в конце сильно завышает. Я сделал 4 группы по трафику и определил значения для них.
Посещаемость | Среднее арифметическое | Медиана | Среднеквадратическое |
от 1 млн | -13,0295 | -14,7847 | 31,27018 |
от 200К до 1 млн | -4,29813 | -9,68749 | 41,65007 |
от 50К до 200К | 16,22788 | 3,49847 | 52,3621 |
до 50К | 85,057 | 60,55811 | 74,82938 |
Вывод. Если у сайта посещаемость:
- От 1 миллиона посетителей в месяц, то, скорее всего, Симиларвеб покажет заниженные данные процентов на 15-30.
- От 200.000 до 1 миллиона — заниженные на 10-20%.
- От 50.000 до 200.000 — завышенные на 15-25%.
- До 50.000 — завышенные на 80-100%.
Для низкопосещаемых сайтов Similarweb сильно завышает посещаемость, выравнивает ее к среднепосещаемым и занижает к высокопосещаемым. Как-то так .
Среднее время на сайте
Расчет отклонений по аналогичной формуле. Получились следующие результаты:
- Среднее арифметическое — 111,35%.
- Медиана — 92%
- Среднее отклонение (среднеквадратическое) — 91,5.
Здесь намного проще. Симиларвеб завышает время на сайте практически для всех сайтов (немного меньше для сайтов с высокой посещаемостью). Для простоты расчетов его можно делить на 2.
В целом график довольно ровный для более чем 2000 строк, но есть строки, которые сильно выбиваются (небоскребы).
А это график отклонения среднего времени относительно отклонения количества страниц за сеанс.
По нему видно, что чем больше отклонение по количеству просмотренных страниц, тем больше отклонение среднего времени на сайте. Что в принципе логично.
Страниц за посещение
- Среднее арифметическое — -24,5%.
- Медиана — -24,5%.
- Среднее отклонение (среднеквадратическое) — 35,2.
И здесь все довольно просто — similarweb занижает количество страниц, просмотренных пользователям за посещение. Чтобы получить реально количество я бы умножал процентов на 30-40.
Ниже график отклонений страниц за посещение с сортировкой по времени на сайте. Чем больше пользователь проводит времени на сайте, тем лучше считается статистика.
Источники трафика
Поисковые системы
Как и обещал, результаты по трафику с поиска опубликовал в телеграме .
Прямой трафик (директ)
Замечу, что для прямого, реферального и социального трафика могут быть более серьезные расхождения. Во-первых, similarweb и liveinternet могут их считать по-разному. Во-вторых, доля этих источников, как правило, невелика. По графикам же видно, что чем больше трафика, тем точнее статистика.
Полученные результаты ниже необходимо воспринимать со здравой долей скептицизма
. Например, на сайт по liveinternet может идти 0,1% трафика из социальных сетей, а similarweb покажет 1%. Объем и там, и там небольшой, но разница в 10 раз (или на 900%).
В выборке 1572 сайта (строка "Закладки" в разделе "Переходы с сайтов" в LI).
- Среднее арифметическое — 71,7.
- Медиана — 38,9.
- Среднее отклонение — 150,3.
Но более интересна сортировка по % прямого трафика в liveinternet.
Здесь видно, что чем больше реального прямого трафика, тем точнее данные в similarweb. В целом же симиларвеб завышает показатель Direct.
Реферальный
В выборке (общие среднесуточные раздела "Переходы с сайтов" в liveinternet, умноженные на 30).
- Среднее арифметическое — -1934,8.
- Медиана — -1439,6.
- Среднее отклонение — 1745,3.
Здесь получились дикие результаты. Ориентироваться на них в принципе не стоит. Возможно, лучше было взять суммарный ежемесячный трафик по "Переходы с сайтов" и вычесть из него переходы по "Закладкам".
Социальные сети
В выборке 1465 сайтов (раздел "Из социальных сетей").
- Среднее арифметическое — 242,7.
- Медиана — 91.
- Среднее отклонение — 429,4.
А ниже сортировка по убыванию общей доли социального трафика в LI.
График похож на график по Direct .
Вывод
Перед исследованием я уже имел некоторое представление о точности Симиларвеб. По моим данным он всегда завышал уровень посещаемости. Теперь же я могу опираться на цифры. С этого момента для простоты расчетов:
- буду делить посещаемость на 1,5 для сайтов до 200-300К посетителей в месяц. Для более раскрученных проектов буду доверять данным Similarweb. Во-первых, погрешность там небольшая. Во-вторых, цифры берутся для ориентира и, по сути, не столь важно 1 млн трафика или 1,5 млн (в обоих случаях числа весомые).
- Делить в 2 раза время, проведенное посетителем.
- Умножать на 1,5 количество просмотренных страниц.
- Буду держать в голове, что симиларвеб, скорее всего, завышает доли прямого и социального трафика. Чем меньше доля, тем больше завышение.
Кстати, заметил интересную особенность: в Similarweb попадаются сайты со статистикой, которая подтягивается из Google Analytics.
Это вебмастера через аккаунт Analytics специально разрешают показывать . Если видите такое, то это наиболее точная статистика.
P.S. По поводу аудита в рамках предыдущего поста. На этой недели будет выбрана заявка.
Спасибо за аналитику! Пользуюсь постоянно Similarweb. Теперь буду в уме корректировать показания ссылаясь на Ваши данные.
Окей, а какая альтернатива Similarweb? Или альтернатива — только поправка на ветер?
Альтернативы нет. Нужно просто научиться пользоваться
Респектище за материал.
Ты забыл одну важную вещь, счетчик liveinternet режется uBlock’ом, adBlock’ом и почти всеми остальными блокерами рекламы. Средний процент их использования ~20%, но сильно зависит от тематики, в it-сфере это где-то 70%. Из этого выходит, что сайты с посещалкой > 1млн как раз максимальную точность показывают, но все равно иследование интересное, спасибо!
Similarweb через платное api парсил или напрямую с формы через get запросы?
Никогда про это не слышал. Есть подробности?
Такой же как Яндекс.Метрика или Google Analytics.
Не знаю, какие еще подробности дать) Можешь просто зайти на сайт с включенным ublock и не увидишь счетчика, статистика же по использованию блокеров легко гуглится. Касательно левых ботов, которых считает li, их не так много, и не все обрабатывают js. Счетчики Яндекса и гугла тоже блокируются, но гугла не всегда, так как он платит тому же adblock’у, чтобы не блокировал рекламу.
Я просто специально установил adblock и liveinternet не был заблокирован.
UPD. Установил ublock, liveinternet блочится. Также как и блочится google analytics. Скорее всего, им также блокируется и всякие бары, расширения и т.п., данные из которых собираются в similarweb.
А вообще, конечно, это исследование, чтобы прикинуть, а не определить точно.
Ничего себе adblock продался, все меньше и меньше блочит) У меня поэтому ublock. На сколько я знаю, у симиларвеба основной способ добычи статистики — выкуп открытых логов у провайдеров, в этом их главное отличие от других сервисов статистики.
По поводу парсинга Similarweb. Там программист какую-то лазейку нашел (по его словам). Получается, что напрямую.
Мне кажется, лирушка «цепляет» сильно много ботов. И стата очень часто кривая.
Интересно было бы посмотреть такой же эксперимент с Яндек.Радаром ( radar.yandex.ru/top_list ).
Кстати, прочитай как они собирают статистику для своего Топ-10000: radar.yandex.ru/about#section-radar-top
Ну вот, если лирушка цепляет много ботов и ее блокирует adblock’еры, то в среднем — все ок
.
Яндекс.Радар на заметке, но там топовые сайты, не совсем репрезентативная выборка получится. И задача была оценить именно Similarweb, так как он универсальнее, например, того же радара
Ахрефс так же пытается прогнозировать трафик, причём даже маленький. Очень альтернатива. По моим данным сильно занижает реальный. Alexa ещё можно сравнить
Ahrefs платный: подойдет не для всех. По алексе тоже можно прикинуть, но опять же зная открытую статистку, например, по близким прямым конкурентам.
Если честно, то я раньше о данном проекте даже не слышал. Отличная статья.
По идеологии симелрвеба он считает по логам, которые выкупает у провайдеров.
Если сайт предоставляет какой-то сервис, ну там вставить калькулятор на Ваш сайт iframe,
данные будут завышены в 10-100 раз (за счет размытия по сайтам партнеров).
То же самое с картинками и прочим контентом.
Пример: Вы вставили картинку с чужого сайта на свой, пользователь зашел на Ваш сайт, получается прочитал картинку с чужого сайта, чужой сайт получил +1 уник…. По крайней мере 0.5 года назад было так.
Отличный анализ. Как то и сам хотел такой сделать, но всё никак. Теперь стало проще и нагляднее, спасибо!
Я проверяю через другой, никогда про этот сервис не слышала, но и тот что я использую не точный, но максимально близок к истине. Обычно такие сайты чуть завышают реальные данные.
Добавил в пост сравнение по источникам трафика: поисковые системы, прямой, реферальный, социальный трафик.
Скажите, пожалуйста, пользовались ли вы сервисом SEMrush? Каковы его преимущества и недостатки?
Пользовался, но довольно давно. В целом сервис хороший, но нужно отталкиваться от задач и подбирать инструмент под них.
У меня такой вопрос: как можно накрутить Similarweb и Serpstat для GGL?
Увеличивайте трафик, поисковую видимость (если по serpstat оцениваются ключевые слова). Не уверен, что мероприятия по накрутке этих показателей смогут существенно поднять заработок в GGL.
Спасибо большое за полезную статью. Как раз интересовался этим сервисом. С интересом всегда ваш сайт читаю.
Спасибо, очень интересная и полезная статья. Давно думал над тем, как оно коррелируется с реальностью.