Как я удалил 55% сайта и что из этого вышло

Провел небольшой эксперимент. Сайт на 1000+ страниц. Я удалил 600+ страниц (около 55% от его объема). Ниже расскажу, зачем я это сделал, как сделал и к чему это привело.

как убить зомби

С чего началось или немного про Zombie-страницы

Наверняка, вы уже слышали про Zombie Pages или Зомби-Страницы. Этот термин пришел к нам недавно из западного SEO. В него я вкладываю не только мусорные страницы, которые не должны быть в индексе (по типу архивов, календаря и т. п.), но и документы, которые лежат "мертвым грузом" (русскоязычная интерпретация понятия термина :smile:). То есть находятся в индексе, но их никто не посещает (либо посещают, но очень редко).

Еще с былых времен sape в вебмастерской среде была простая формула: больше страниц = больше дохода. Потом в обиход вошло понятие "масштаб проекта" — чем больше документов по тематике запроса, тем релевантнее должен быть сайт. Логика в этом, безусловно, была.

Правила игры постоянно меняются. Интернет разрастается быстрыми темпами и поисковым системам нужно огромное количество серверов, чтобы держать все это в индексе. Стратегия однозапросных страниц (1 страниц = 1 запрос) канула в Лету. Теперь лучше 1 качественный материал, чем 10 посредственных.

Западные коллеги проверяли гипотезу, удаляя из индекса зомби-страницы. В большинстве случаях это приводило к росту органической посещаемости из Google. Я решил проверить, как дела обстоят в Рунете. Кому не интересны детали, можете пролистать вниз до результатов эксперимента.

Если соберетесь проводить похожий эксперимент, то делайте все на свой страх и риск. Результаты в прошлом не гарантируют таких же результатов в будущем. На всякий случай предупредил ;-).

Как найти "зомби" на сайте?

Здесь я не буду рассказывать, как искать дублированный контент (если интересно, можете почитать пост в блоге по дублям) или классические мусорные страницы (служебные файлы, архивы и т.д.). Суть моего эксперимента именно в удалении зомби-страниц. Найти их не совсем сложно (на примере Яндекс.Метрики и Microsoft Excel).

Шаг 1. Определяем список страниц сайта.

Предположу, что у каждого проекта есть sitemap.xml с полным перечнем полезных страниц (те, которые должны быть в индексе).

1. Заходим на https://site.ru/sitemap.xml.

2. Выделяем и копируем URL's.

sitemap.xml

В зависимости от формата вывода копироваться будут лишние элементы. Нам нужны только урлы без дополнительной информации. Удаление "мусора" будет зависеть от конкретной ситуации. На скриншоте пример вывода sitemap.xml с помощью плагина All in One SEO Pack. Для того чтобы удалить ненужную информацию, я копирую выделенное, затем вставляю его в обычный текстовый документ, далее выделяю все содержимое и вставляю уже в Excel. Так очиститься форматирование (можно также очистить формат непосредственно в Excel).

3. Создаем файл Excel, вставляем в него полученные данные из 2-го пункта, удаляем ненужные столбцы — оставляем только урлы.

список страниц сайта

Шаг 2. Определяем список страниц сайта, отсортированных по просмотрам/посетителям.

1. Заходим в Отчеты -> Стандартные отчеты -> Содержание -> Популярное.

Отчет "Популярное содержание"

2. Выбираем нужный период.

Если ваш проект имеет сезонный контент, то выбирайте период, учитывая этот фактор. Например, сайт с поздравлениями имеет ярко-выраженную сезонность. Выбрав короткий период, можно безосновательно удалить важный контент (в мае не запрашивают поздравления с 23 февраля. Тут оптимально выбрать 1 год.

Для несезонного сайта я рекомендую выбирать последние 2 месяца.

3. Скачиваем список URL's с количеством просмотров/посещений ("Данные таблицы").

4. Открываем скачанный файл, прокручиваем вправо до конца. Там будут столбцы со списком URL и количеством просмотров/посещений. Вот они как раз и нужны.

список URL

Выделяем и копируем УРЛы, которые больше определенной цифры. Я ставлю ориентир 3-4 просмотра за 2 последних месяца. Можно делать поправку на тематику.

5. Добавляем полученный список в наш Excel-файл.

полученные данные

Шаг 3. Определяем zombie-страницы.

1. Выделяем урлы в 2-х столбцах. Далее "Условное форматирование" -> "Правила выделения ячеек" -> "Повторяющиеся значения". Потом "Ок".

повторяющиеся значения

выделение цветом ячеек с одинаковым значением

Получаем URL's, которые есть и в первом и во втором столбцах.

2. Сортируем первый столбец по цвету и удаляем все URL с красным фоном.

3. Ура :smile:! Конечный список страниц и будет считаться зомби (документы с посещаемостью от 3-4 просмотров и ниже). Их-то и можно удалять — в любом случае прямая посещаемость от их удаления серьезно не пострадает.

итоговый список zombie-страниц

Как правильно удалять?

Удалять нужно тоже с умом. Я буду рассматривать вариант для WordPress. Полагаю, что в других CMS будет примерно также. Какие есть варианты:

  1. Просто удаление. Страницы будут отдавать 404-ошибку. Не лучший способ, когда больше половины сайта будет под 404.
  2. 301-редирект. Уже лучше, но не идеально. URL, с которых будет стоять редирект в любом случае будут фигурировать на сайте, например, в плагине похожих статей.
  3. <meta name="robots" content="noindex, nofollow"/>. Аналогично 2-му пункту.

Я сделал комбо из 2-х вариантах. Сначала удалил (точнее добавил в черновик) и поставил 301-редирект на главную страницу. 301-редирект в .htaccess, самый простой:

Redirect 301 /page-1/ https://site.ru/

Придется каждый URL добавлять вручную. Есть способы немного ускорить процесс, но они уже за рамками этого поста. Скорее всего, зомби-страниц будет много, и вы не сможете их удалить за короткий период. Поэтому советую удалять и настраивать редиректы блоками, чтобы поисковые системы не успели зайти на удаленные документы с 404-ошибками.

Если у вас проект чисто под поисковый трафик, то не забывайте, что страницы, созданные за последние несколько месяцев, могут еще не "выстрелить". Я не рекомендую затрагивать (удалять) документы, которые младше 12 месяцев.

В идеале после удаления страниц, удалить и внутренние ссылки на них (при наличии). Если проект небольшой, то это не займет много времени. Если большой, то не трудно или недорого создать/заказать скрипт или плагин, который удалит внутренние ссылки на URL определенного списка.

Ход и результаты эксперимента

Что имеем:

  1. Сайт на 1000+ страниц.
  2. Более-менее стабильная поисковая посещаемость на протяжении последних 6-7 месяцев без резких взлетов и падений.
  3. До и во время эксперимента дополнительно с проектом ничего не проводилось.

С 10 июля по 16 августа примерно через равные промежутки времени (11 отрезков) и равное количество страниц за раз было удалено около 55% контента сайта (+ добавлен 301-редирект). Посещаемость с Google:

даты начала и конца удаления страниц

В начале октября трафик с гугла поднялся примерно на 50%. Можно было предположить, что это именно результат от удаления зомби-страниц. Сделали ресурс более качественным — получили больше трафика. Но 24 сентября было анонсировано обновление основного алгоритма — Google September 2019 Core Update. Первая "шапка" была получена сразу после него (25 числа). Пик — 30 сентября (возможно, отголоски апдейта). Вот данные по силе обновлений выдачи:

Данные по изменению поисковой выдачи google за последние 30 дней

Для себя буду считать, что новый алгоритм положительно воспринял изменения на сайте и улучшил ранжирование ;-).

А что с Яндексом?

начало и конец удаления в яндексе

Яндексу, скорее, такой эксперимент не понравился. Примерно через 10 дней после окончательного удаления зомби-документов посещаемость с него упала примерно на те же 50%. Сейчас она практически восстановилась.

Буду считать, что эксперимент удался — общая поисковая посещаемость подросла. Но необходимо делать поправки на:

  1. Один сайт — не показатель. Проведение эксперимента занимает довольно большое количество времени. Реализовать его на 1000, 100 или хотя бы на 10 проектах будет не просто.
  2. Резкий рост посещаемости с Google не совпал, но был рядом с September 2019 Core Update. Возможно, это влияние обновления алгоритма, а не удаления зомби-страниц.

А вы проводили похожие эксперименты? Если да, то что получилось в итоге? Ваши мысли и отзывы с нетерпением жду в комментариях ;-)!

Результаты конкурса на 10-летие блога

Большое спасибо за поздравления с днем рождения блога! Очень приятно, что среди читателей есть "старички" и те, кто подключился недавно. Спасибо тем, кто принял участие в разгадывании кроссворда. Правильный ответ - "десяточка" :smile:.

Поздравляю пятерку призеров:

  1. Василий;
  2. Лилия;
  3. Andrew;
  4. Владислав;
  5. Александр.

призеры

А вот те, кто стал призером в конкурсе комментаторов:

10

20

30

40

  • Руслан;
  • Людмила;
  • Александр;
  • Zorbasmedia.

Жду ваши WMZ на почту с тех же e-mail, которые были указаны в опубликованных комментариях.

Рейтинг
1 звезда2 звезды3 звезды4 звезды5 звезд (8 голос., в среднем: 4,50 из 5)
Загрузка...
Аудит сайта

Найду причины, мешающие продвижению сайта. Подготовлю рекомендации, которые позволят увеличить трафик и конверсию. Составлю стратегию развития. Помогу с внедрением.

От 9900 руб.
Продвижение

Комплексное развитие проектов по актуальным направлениям в SEO. Используются методики, имеющие стабильный долгосрочный эффект (без накруток и спама).

От 20000 руб.
Консультации

Консультирую по вопросам поисковой оптимизации, продвижения сайтов. Лучший способ узнать мое подробное мнение по волнующей задаче/проблеме. Конкретные ответы на конкретные вопросы.

От 3000 руб.
Отзывов уже 22:
Написать комментарий
  1. 1. Артем

    В начале года проводил подобный эксперимент. Удалил порядка 60%. Сайт минимально, но подрос по обеим поисковым системам где-то на 30%. Кроме редиректов по некоторым статьям делал объединения, т.е из нескольких статей одну.

  2. 2. Ал

    Удалял статьи, но редирект делал на другие продвигаемые у которых есть трафик. Второй вариант, если статьи все же приносят трафик, но мало, то обновлял контент, учитывая что статьи уже в индексе, то результат проще и быстрее получить.

  3. 3. seoonly

    :roll: :roll: шикарно-)) Спасибо!

  4. 4. Nik

    Спасибо за статью. Но почему нельзя редиректить на 404 если статья отсутсвует на сайте?

    • 5. Sosnovskij

      Когда это единичные случаи, то нормально, но когда в 404 падает больше половины сайта, то для ПС может показаться странным. По крайней мере, я бы не рекомендовал в данном случае (как в приведенном примере) оставлять 404.

  5. 6. Дмитрий

    Как-то чистил один проект, просто удалил статьи без трафика (в основном это были как раз тех из времен — больше страниц=выше доход по 2000 знаков).
    Редирект ставил только с тех страниц, на которые были ссылки в сети. Масштаб был поменьше, процентов 10-15 страниц.
    Ни к каким видимым изменениям ни в Я ни в Г не привело.
    Из плюсов — чуть места на хостинге освободилось и карта сайта для людей стала более адекватной.

  6. 7. Лилия

    Спасибо за статью, надо будет тоже попробовать потестить)
    Деньги за второе место получила.
    Всё честно и правдиво! Благодарю)

  7. 8. Александр

    Приз за конкурс получил. Спасибо! :shock: :razz:

  8. 9. Andrew

    Интересный эксперимент. Очень практическая и полезная информация.
    Пы.Сы. Приз за конкурс получил. Спасибо!

  9. 10. Александр

    Я на одном сайте тоже был удалил 20% статей, так у меня трафик серьёзно просел. По поводу конкурса сейчас напишу на почту. ;-)

  10. 11. Руслан

    Свой приз получил, спасибо!

  11. 12. Владислав

    И я свой приз за конкурс забрал, сенк ю :???:

  12. 13. Александр

    Приз за участие в конкурсе получил. Спасибо! :idea:

  13. 14. pushland

    Статья интересная, однако, как мне кажется, нужна достаточно большая выборка сайтов как в ру, так и в бурже, на которых были аналогичные манипуляции с зомби-страницами, чтобы понять действенный способ или же это банальное совпадение.

  14. 15. Роман

    А нет смысла доработать эти статьи до текущих требований ПС?

    И попутно вопрос: как массово проверить страницы сайта на количество трафика из ПС и при этом провести корреляцию по потенциальному объёму трафика по семантике каждой статьи?

    • 16. Sosnovskij

      1. В моем случае смысла дорабатывать не было. В других случаях необходимо принимать решение по ситуации (какие-то материалы дорабатывать смысла нет, какие-то можно доработать).

      2. Я такого инструмента не знаю.

      • 17. WebMigration

        Доброго времени суток

        Если я правильно вас понял, то предлагаю сделать анализ следующим образом:

        1) Экспортируем данные из Ahrefs (Semrush или Serpstat) на видимость сайта по ключам.
        У Ahrefs есть свой параметр частотности SearchVolume. Можно опираться на него, либо дополнительно спарсить частотность по Google и Yandex. Для этого можно использовать сторонние сервисы.

        2) Для каждой страницы группируем ключи и суммируем частотность на видимость в top3, top10, top20 и до нужной вам глубины. Эта операция группировки реализовывается в пару строк кода на любом языке программирования.

        3) Если у вас есть доступ к аналитике, то экспортируем данные оттуда и объединяем с уже имеющимися.

        И так, у вас должна получится наглядная картина видимости по каждой странице сайта и потенциальная частотность по нужной вам глубине выдачи.

        Допустим мы видим, что страница n видна в top20 выдачи с общие частотностью ключей 10000 в месяц — то я бы попробовал улучшить эту страницу и добить ее до топа, чтобы получить больше трафика.

        Если вам это показалось сложно, то могу сделать наглядный отчет для вашего сайта.

        • 18. Sosnovskij

          Да, хороший способ. Не совсем простой, но эффективный. По типу поиска самых перспективных страниц для продвижения.
          Повторюсь, в моем случае дорабатывать смысла не было. :)

  15. 19. Mik Foxi

    Я раньше тоже был приверженцем 301 редиректа на что-то новое у удаленных страниц. Но потом как показала моя практика — 404 все-таки намного лучше. В особенности если удаляются мусорные страницы, не имеющие веса и траста.

    • 20. Sosnovskij

      Почему такое сложилось впечатление? Быстрее из индекса выпадают? :smile:

      • 21. Mik Foxi

        При 404 значительно быстрее выпадает старое из индекса, при редиректе последнее время гугл старую страницу с редиректом не выкидывает из индекса, а держит ее там некоторое время с новым заглавием и описанием страницы, на которую редирект, т.е какой-то дубль в индексе получается.

        • 22. Sosnovskij

          Да, также было замечено, что страницы с 301-редиректом не сильно быстро пропадают из индекса.

Добавить комментарий

 

* Нажимая на кнопку "Добавить комментарий" я соглашаюсь с Политикой конфиденциальности.