Можно ли доверять SimilarWeb? Анализ 2350 сайтов Рунета

🔋 В телеграме @sosnovskij я публикую посты, которых нет в блоге. Подпишись, чтобы не пропустить ничего интересного 💪. Например, недавно я привел пример песочницы для Яндекса в 1 год для инфо-сайта.

Вы смотрите посещаемость чужих сайтов через Similarweb? Да? Я тоже =). Но стоит ли доверять данным сервиса? Если да, то насколько? Я проанализировал 2350 сайтов в Рунете с открытой посещаемостью и в посте поделюсь полученными результатами.

similarweb - анализ

Совсем немного о Similarweb

Про полезность Similarweb я не буду рассказывать. Если по каким-то причинам вы еще не пользуетесь сервисом, то потеряли много интересной информации.

Пару слов об источнике данных. Similarweb собирает информацию со многих баз: браузерные расширения, интернет-провайдеры, обезличенная статистика с компьютеров/мобильных устройств и т.п. Например, многие программы/приложения могут собирать такие данные и продавать их компании.

Задача — определить насколько точно данные по Similarweb соотносятся с реальной статистикой, определить некоторый общий процент погрешности.

Как проходило исследование?

Вы любите репрезентативность и выборку. Это есть у меня :smile:. С чего я начал? Конечно же, со старой доброй лирушечки (рейтинг сайтов liveinternet). Сначала я думал собрать информацию вручную, но потом понял, что ресурсов с открытой статистикой там намного больше, чем хотели бы видеть мои руки :smile:.

Пошел на биржи фриланса заказывать парсинг. По своим наблюдениям Similarweb не отображает данные для сайтов, у которых реальная посещаемость меньше 1000 уников в сутки (плюс-минус, конечно же). Поэтому я остановился на первых 15000 URL по рейтингу liveinternet.

С открытой статистикой получилось 3700+ шт. Я, на самом деле, удивился :cool:. Каждый 4-й сайт имеет открытую статистику (по крайней мере общие данные; например, поисковые запросы практически никто не открывает). По статистике liveinternet было спаршено (за ноябрь):

  1. Сессии — суммарные (аналог визитов в Similarweb);
  2. Среднее время на сайте;
  3. Количество просмотров страниц;
  4. Объем поискового трафика;
  5. Доли Яндекса и Google (для своих нужд :roll: : потом расскажу, если что-то получится).

какие параметры парсились с liveinternet

Далее эти 3700+ урлов отправились на парсинг в Similarweb (как мне сообщил фрилансер, не такая уж была простая задача, пришлось попотеть). Собирались аналогичные данные.

данные для парсинга с симиларвеб

Все это объединилось в сводную таблицу.

сводная таблица

Из нее я удалил:

  1. визитки медиа-агентств, которые используют один счетчик на всех сайтах;
  2. URL, у которых отсутствовали данные по Similarweb;
  3. строки, которые сильно выбивались по отклонениям, например, в 10 раз (например, liveinternet отображает у banki.ru только 20.000 посетителей за ноябрь). Таких строк было немного (несколько десятков). На общую статистику они сильно не повлияли, а вот графики без них получились поприятнее :smile:.
  4. Редиректы на другие домены (доменное имя новое, а li-счетчик остался старый).

В итоге получилось 2350 строк. Изначально каждому сайту я хотел присвоить тематику и формат (информационный, интернет-магазин, агрегатор, новостник и т.п.) — было предположение, что погрешность может отличаться от этих критериев. Но из-за объемной (и, вероятно, бесполезной) ручной работы отказался.

Посещаемость

Сначала я рассчитал отклонение сессий Similarweb в процентах (в числителе) от реальных данных по сессиям liveinternet (в знаменателе). Высчитал для этого столбца:

  1. Среднее арифметическое — 10,97%. В среднем посещаемость с Similarweb больше реальной на 11%.
  2. Медиану — -1,3%. По этому показателю можно подумать, что Симиларвеб показывает практически идентичные данные (это, конечно, не так).
  3. Среднее отклонение (среднеквадратическое) — 55,07%. Говорит о том, что в выборке довольно сильный разброс значений. Погрешность в 55,07% (как в плюс, так и минус) от среднего отклонения между посещаемостью Симиларвеб и Liveinternet. Пока изучал этот показатель, почувствовал себя на 2-м курсе университета на семинаре по высшей математике :smile:.

Цифры получились довольно скучные. Ай-да смотреть на графики.

график отклонения посещаемости (в %). Сортировка по убыванию реальной посещаемости
график отклонения посещаемости (в %). Сортировка по убыванию реальной посещаемости

По графику видно, что сначала Similarweb занижает показания, потом плюс-минус ровно, а в конце сильно завышает. Я сделал 4 группы по трафику и определил значения для них.

Посещаемость Среднее арифметическое Медиана Среднеквадратическое
от 1 млн -13,0295 -14,7847 31,27018
от 200К до 1 млн -4,29813 -9,68749 41,65007
от 50К до 200К 16,22788 3,49847 52,3621
до 50К 85,057 60,55811 74,82938

Вывод. Если у сайта посещаемость:

  • От 1 миллиона посетителей в месяц, то, скорее всего, Симиларвеб покажет заниженные данные процентов на 15-30.
  • От 200.000 до 1 миллиона — заниженные на 10-20%.
  • От 50.000 до 200.000 — завышенные на 15-25%.
  • До 50.000 — завышенные на 80-100%.

Для низкопосещаемых сайтов Similarweb сильно завышает посещаемость, выравнивает ее к среднепосещаемым и занижает к высокопосещаемым. Как-то так :smile:.

Среднее время на сайте

Расчет отклонений по аналогичной формуле. Получились следующие результаты:

  1. Среднее арифметическое — 111,35%.
  2. Медиана — 92%
  3. Среднее отклонение (среднеквадратическое) — 91,5.
график отклонения среднего времени (в %). Сортировка по убыванию реальной посещаемости
график отклонения среднего времени (в %). Сортировка по убыванию реальной посещаемости

Здесь намного проще. Симиларвеб завышает время на сайте практически для всех сайтов (немного меньше для сайтов с высокой посещаемостью). Для простоты расчетов его можно делить на 2.

В целом график довольно ровный для более чем 2000 строк, но есть строки, которые сильно выбиваются (небоскребы).

А это график отклонения среднего времени относительно отклонения количества страниц за сеанс.

 график отклонения среднего времени относительно отклонения количества страниц за сеанс

По нему видно, что чем больше отклонение по количеству просмотренных страниц, тем больше отклонение среднего времени на сайте. Что в принципе логично.

Страниц за посещение

  1. Среднее арифметическое — -24,5%.
  2. Медиана — -24,5%.
  3. Среднее отклонение (среднеквадратическое) — 35,2.
график отклонения количества страниц за посещение (в %). Сортировка по убыванию реальной посещаемости
график отклонения количества страниц за посещение (в %). Сортировка по убыванию реальной посещаемости

И здесь все довольно просто — similarweb занижает количество страниц, просмотренных пользователям за посещение. Чтобы получить реально количество я бы умножал процентов на 30-40.

Ниже график отклонений страниц за посещение с сортировкой по времени на сайте. Чем больше пользователь проводит времени на сайте, тем лучше считается статистика.

график отклонений страниц за посещение с сортировкой по времени на сайте

Источники трафика

Поисковые системы

Как и обещал, результаты по трафику с поиска опубликовал в телеграме :smile:.

Прямой трафик (директ)

Замечу, что для прямого, реферального и социального трафика могут быть более серьезные расхождения. Во-первых, similarweb и liveinternet могут их считать по-разному. Во-вторых, доля этих источников, как правило, невелика. По графикам же видно, что чем больше трафика, тем точнее статистика.

Полученные результаты ниже необходимо воспринимать со здравой долей скептицизма :smile:. Например, на сайт по liveinternet может идти 0,1% трафика из социальных сетей, а similarweb покажет 1%. Объем и там, и там небольшой, но разница в 10 раз (или на 900%).

В выборке 1572 сайта (строка "Закладки" в разделе "Переходы с сайтов" в LI).

  1. Среднее арифметическое — 71,7.
  2. Медиана — 38,9.
  3. Среднее отклонение — 150,3.
Отклонения, %. Сортировка по убыванию общей посещаемости
Отклонения, %. Сортировка по убыванию общей посещаемости

Но более интересна сортировка по % прямого трафика в liveinternet.

отклонения, сортировка по % прямого трафика в liveinternet

Здесь видно, что чем больше реального прямого трафика, тем точнее данные в similarweb. В целом же симиларвеб завышает показатель Direct.

Реферальный

В выборке (общие среднесуточные раздела "Переходы с сайтов" в liveinternet, умноженные на 30).

  1. Среднее арифметическое — -1934,8.
  2. Медиана — -1439,6.
  3. Среднее отклонение — 1745,3.
Отклонение, %. Сортировка по убыванию общего трафика
Отклонение, %. Сортировка по убыванию общего трафика

Здесь получились дикие результаты. Ориентироваться на них в принципе не стоит. Возможно, лучше было взять суммарный ежемесячный трафик по "Переходы с сайтов" и вычесть из него переходы по "Закладкам".

Социальные сети

В выборке 1465 сайтов (раздел "Из социальных сетей").

  1. Среднее арифметическое — 242,7.
  2. Медиана — 91.
  3. Среднее отклонение — 429,4.
Отклонения, %. Сортировка по убыванию общего трафика
Отклонения, %. Сортировка по убыванию общего трафика

А ниже сортировка по убыванию общей доли социального трафика в LI.

Отклонения, %. Сортировка по убыванию общей доли социального трафика

График похож на график по Direct :smile:.

Вывод

Перед исследованием я уже имел некоторое представление о точности Симиларвеб. По моим данным он всегда завышал уровень посещаемости. Теперь же я могу опираться на цифры. С этого момента для простоты расчетов:

  1. буду делить посещаемость на 1,5 для сайтов до 200-300К посетителей в месяц. Для более раскрученных проектов буду доверять данным Similarweb. Во-первых, погрешность там небольшая. Во-вторых, цифры берутся для ориентира и, по сути, не столь важно 1 млн трафика или 1,5 млн (в обоих случаях числа весомые).
  2. Делить в 2 раза время, проведенное посетителем.
  3. Умножать на 1,5 количество просмотренных страниц.
  4. Буду держать в голове, что симиларвеб, скорее всего, завышает доли прямого и социального трафика. Чем меньше доля, тем больше завышение.

Кстати, заметил интересную особенность: в Similarweb попадаются сайты со статистикой, которая подтягивается из Google Analytics.

связь статистики google analytics с similarweb

Это вебмастера через аккаунт Analytics специально разрешают показывать :smile:. Если видите такое, то это наиболее точная статистика.

P.S. По поводу аудита в рамках предыдущего поста. На этой недели будет выбрана заявка.

Рейтинг
1 звезда2 звезды3 звезды4 звезды5 звезд (7 голос., в среднем: 5,00 из 5)
Загрузка...

Аудит сайта

Найду причины, мешающие продвижению сайта. Подготовлю рекомендации, которые позволят увеличить трафик и конверсию. Составлю стратегию развития. Помогу с внедрением.

От 9900 руб.
Продвижение

Комплексное развитие проектов по актуальным направлениям в SEO. Используются методики, имеющие стабильный долгосрочный эффект (без накруток и спама).

От 20000 руб.
Консультации

Консультирую по вопросам поисковой оптимизации, продвижения сайтов. Лучший способ узнать мое подробное мнение по волнующей задаче/проблеме. Конкретные ответы на конкретные вопросы.

От 3000 руб.
Отзывов уже 24:
Написать комментарий
  1. 1. seoonly.ru

    :idea: ждем аудит

  2. 2. Станислав

    Спасибо за аналитику! Пользуюсь постоянно Similarweb. Теперь буду в уме корректировать показания ссылаясь на Ваши данные.

  3. 3. d

    Окей, а какая альтернатива Similarweb? Или альтернатива — только поправка на ветер?

    • 4. Sosnovskij

      Альтернативы нет. Нужно просто научиться пользоваться :)

  4. 5. My

    Респектище за материал.

  5. 6. YB

    Ты забыл одну важную вещь, счетчик liveinternet режется uBlock’ом, adBlock’ом и почти всеми остальными блокерами рекламы. Средний процент их использования ~20%, но сильно зависит от тематики, в it-сфере это где-то 70%. Из этого выходит, что сайты с посещалкой > 1млн как раз максимальную точность показывают, но все равно иследование интересное, спасибо!

    Similarweb через платное api парсил или напрямую с формы через get запросы?

    • 7. Sosnovskij

      Никогда про это не слышал. Есть подробности? :smile: Такой же как Яндекс.Метрика или Google Analytics.

      • 8. YB

        Не знаю, какие еще подробности дать) Можешь просто зайти на сайт с включенным ublock и не увидишь счетчика, статистика же по использованию блокеров легко гуглится. Касательно левых ботов, которых считает li, их не так много, и не все обрабатывают js. Счетчики Яндекса и гугла тоже блокируются, но гугла не всегда, так как он платит тому же adblock’у, чтобы не блокировал рекламу.

        • 9. Sosnovskij

          Я просто специально установил adblock и liveinternet не был заблокирован. :)

          UPD. Установил ublock, liveinternet блочится. Также как и блочится google analytics. Скорее всего, им также блокируется и всякие бары, расширения и т.п., данные из которых собираются в similarweb.

          А вообще, конечно, это исследование, чтобы прикинуть, а не определить точно. :)

          • 10. YB

            Ничего себе adblock продался, все меньше и меньше блочит) У меня поэтому ublock. На сколько я знаю, у симиларвеба основной способ добычи статистики — выкуп открытых логов у провайдеров, в этом их главное отличие от других сервисов статистики.

    • 11. Sosnovskij

      По поводу парсинга Similarweb. Там программист какую-то лазейку нашел (по его словам). Получается, что напрямую. :)

  6. 12. Joker

    Мне кажется, лирушка «цепляет» сильно много ботов. И стата очень часто кривая.
    Интересно было бы посмотреть такой же эксперимент с Яндек.Радаром ( radar.yandex.ru/top_list ).
    Кстати, прочитай как они собирают статистику для своего Топ-10000: radar.yandex.ru/about#section-radar-top

    • 13. Sosnovskij

      Ну вот, если лирушка цепляет много ботов и ее блокирует adblock’еры, то в среднем — все ок :x
      Яндекс.Радар на заметке, но там топовые сайты, не совсем репрезентативная выборка получится. И задача была оценить именно Similarweb, так как он универсальнее, например, того же радара :) .

  7. 14. Алекус

    Ахрефс так же пытается прогнозировать трафик, причём даже маленький. Очень альтернатива. По моим данным сильно занижает реальный. Alexa ещё можно сравнить

    • 15. Sosnovskij

      Ahrefs платный: подойдет не для всех. По алексе тоже можно прикинуть, но опять же зная открытую статистку, например, по близким прямым конкурентам. :)

  8. 16. Александр

    Если честно, то я раньше о данном проекте даже не слышал. Отличная статья. ;-)

  9. 17. doorwaymoney

    По идеологии симелрвеба он считает по логам, которые выкупает у провайдеров.

    Если сайт предоставляет какой-то сервис, ну там вставить калькулятор на Ваш сайт iframe,
    данные будут завышены в 10-100 раз (за счет размытия по сайтам партнеров).
    То же самое с картинками и прочим контентом.

    Пример: Вы вставили картинку с чужого сайта на свой, пользователь зашел на Ваш сайт, получается прочитал картинку с чужого сайта, чужой сайт получил +1 уник…. По крайней мере 0.5 года назад было так.

  10. 18. Александр

    Отличный анализ. Как то и сам хотел такой сделать, но всё никак. Теперь стало проще и нагляднее, спасибо!

  11. 19. Елена

    Я проверяю через другой, никогда про этот сервис не слышала, но и тот что я использую не точный, но максимально близок к истине. Обычно такие сайты чуть завышают реальные данные.

  12. 20. Sosnovskij

    Добавил в пост сравнение по источникам трафика: поисковые системы, прямой, реферальный, социальный трафик.

  13. 21. Bevisible

    Скажите, пожалуйста, пользовались ли вы сервисом SEMrush? Каковы его преимущества и недостатки?

    • 22. Sosnovskij

      Пользовался, но довольно давно. В целом сервис хороший, но нужно отталкиваться от задач и подбирать инструмент под них.

  14. 23. Ecopywriter

    У меня такой вопрос: как можно накрутить Similarweb и Serpstat для GGL?

    • 24. Sosnovskij

      Увеличивайте трафик, поисковую видимость (если по serpstat оцениваются ключевые слова). Не уверен, что мероприятия по накрутке этих показателей смогут существенно поднять заработок в GGL. :)

Добавить комментарий

 

* Нажимая на кнопку "Добавить комментарий" я соглашаюсь с Политикой конфиденциальности.