Прогон по 4 млн сайтов

Эксперимент: Как быстрее всего удалить сайт из индекса Яндекса и Google

Привет, друзья! Надеюсь, что вы отлично отдохнули на майские праздники: наездились на природу, наелись шашлык и нагулялись по расцветающей природе. Теперь же нужно возвращаться к активной работе =) .

Сегодня я покажу результаты одного небольшого эксперимента по удалению всех страниц сайта из поисковых систем Яндекса и Google. Его выводы помогут при выборе одного из методов для запрета индексирования всего ресурса или отдельных его частей.

гвоздь и гвоздодер

Передо мной встала задача — закрыть сайт к индексированию без потери его функционала. То есть ресурс должен работать, но удалиться из индекса поисковых систем. Конечно, самый верный способ просто удалить проект с хостинга. Документы будут отдавать 404-ошибку и со временем "уйдут" из базы поисковиков. Но задача у меня была другая.

Детали эксперимента

Цели:

  • определить, какой метод запрета индексации приоритетней для поисковых систем;
  • понаблюдать в динамике за скоростью удаления страниц из индекса;
  • собственно, удалить проекты из баз ПС.

В эксперименте участвовало 2 сайта (всем больше года). Первый: в индексе Яндекса 3000 страниц, Google - 2090. Второй: Яндекс - 734, Google - 733. Если не удалять ресурс с хостинга, то остаются 2 популярных варианта: тег meta name="robots" и запрет в robots.txt.

Для первого сайта на каждой странице была добавлена строка:

<meta name="robots" content="noindex, nofollow"/>

Для второго был составлен следующий robots.txt:

User-agent: *
Disallow: /

Эксперимент стартовал 14 декабря и продолжился до 9 мая. Данные снимались примерно на даты апдейтов Яндекса.

Результаты

Ниже графики динамики количества проиндексированных страниц. Сначала сайт №1 (метод удаления тег meta name="robots").

динамика по первому сайту

Как видно, поисковые системы вели себя примерно по одному сценарию. Но есть и различия. В Яндексе ресурс был полностью удален 10 февраля, когда в Google оставалось еще 224 страницы. Что говорить, спустя 5 месяцев там еще остается 2 десятка документов. Гугл очень трепетно относится к проиндексированным страницам и не хочет никак их отпускать :smile:.

Сайт №2 (способ запрета файл — robots.txt).

динамика для второго ресурса

Здесь ситуация разворачивалась интереснее :smile:. Яндекс достаточно быстро (меньше чем за месяц) удалил все страницы. Гугл же за месяц выкинул из индекса около 100 документов, потом через месяц еще 200 и практически застыл на месте.

4 апреля мне надоело ждать и я поменял метод запрета с robots.txt на meta name="robots". Это принесло свои плоды — через месяц в базе Google осталось только 160 страниц. Примерно такое же количество остается и по сей день.

Примечателен еще один момент. Несмотря на то, что страницы из индекса удалялись достаточно долго, трафик с поисковиков начал падать значительно быстрее.

ресурс №1

Проект №2

Получается, что ПС понимают, что вебмастер запретил ресурс или его документы к индексированию, но почему-то продолжают их там держать :smile:.

Выводы

  1. Яндекс любит больше работу с robots.txt;
  2. Google любит больше работу с meta name="robots". В связи с тем, что Гугл крайне не любит robots.txt, то универсальным будет именно способ с тегом. Совмещать методы нельзя, потому как, запретив ресурс в robots.txt, поисковый паук не сможет прочитать правила для meta name="robots".
  3. Зеркало Рунета достаточно быстро удаляет документы при любом методе. Зарубежный поисковик делает это неохотно — очень тяжело добиться полного удаления из базы.

Вот такой получился небольшой эксперимент. Да, конечно, выборка совсем небольшая, но и она смогла подтвердить мои предположения. В прикладном плане это можно использовать, когда есть необходимость закрыть определенные документы для индексирования: предпочтительно использовать meta name="robots" вместо директив в robots.txt.

А какие наблюдения по этой теме есть у вас? Поделитесь своим опытом в комментариях ;-)!

1 звезда2 звезды3 звезды4 звезды5 звезд (6 голос., в среднем: 5,00 из 5)
Загрузка...

Поделиться
Плюсануть
Дата: 10.05.2017
Получайте актуальные статьи по SEO, блоггингу и заработку в Интернете
прямо на ваш почтовый ящик. Уже более 2000 подписчиков!
Отзывов уже 15:
  1. 1. Игорь | 10 мая 2017

    Проводил похожий анализ для одного сайта. Сначала в robots.txt закрыл его от Яши, а потом от Гоши. Яша выкинул из индекса за 2 недели, гугл удалил только половину страниц.

  2. 2. Жека | 10 мая 2017

    Игорь, а как вы закрыли отдельно для яндекса и отдельно для гугла?

  3. 3. Игорь | 10 мая 2017

    Жека, ну тут легко :) Запрещаю индексацию только для Яши:
    User-agent: Yandex
    Disallow: /

    Только для Гоши:
    User-agent: Googlebot
    Disallow: /

  4. 4. Айк | 10 мая 2017

    Ну вот дождались,лучший результат дает именно эксперимент а не тыканье пальцем …

    Спасибо за эксперимент :)

  5. 5. seoonly | 10 мая 2017

    Спасибо-)!!!

  6. 6. Александр | 11 мая 2017

    Очень интересный эксперимент. :)

  7. 7. Александр | 11 мая 2017

    На мой взгляд, как повезет, robots возможно и помогает, а возможно и не всегда. Я пробовал robots и на мой взгляд это долго и непонятно как реагируют поисковики.
    Для себя сделал вывод, действующий способ, это запрет по ip в файле .htaccess для всех кроме меня, работает точно.

    Если нужно, чтобы сайт вылетел, запрещайте доступ сайту по ip для всех в файле .htaccess, как вариант, если robots не сработал или не хотите долго ждать.

  8. 8. Sosnovskij | 11 мая 2017

    Александр, да, хороший метод, но у меня задача была такая, чтобы сайты работали для всех :)

  9. 9. NMitra | 12 мая 2017

    А почему бы не отдавать ответ сервера 404? Через .htaccess или php это можно сделать даже для существующих страниц.

  10. 10. Sosnovskij | 12 мая 2017

    NMitra, а как они будут функционировать для рядового пользователя? :)

  11. 11. NMitra | 18 мая 2017

    Sosnovskij, как обычные страницы. Одно время на всех конференциях трубили: делайте на несуществующих страницах ответ ошибки 404, а не 200. Накосячить наоборот так же легко :)

  12. 12. Sosnovskij | 18 мая 2017

    NMitra, точно. Не в ту степь «подумал» :) Спасибо за вариант, но, скорее всего, он мне бы не совсем подходил.

  13. 13. Николай | 14 июня 2017

    Спасибо за материал.
    Sosnovskij, а не подскажите директива disallow: * и disallow: / равнозначны?

  14. 14. Sosnovskij | 15 июня 2017

    Николай, правило должно начинаться со слеша. Ваш первый вариант некорректный.

  15. 15. Инна37 | 29 августа 2017

    Что один способ, что второй показал довольно быстрый результат. Здесь особо считаю выбирать и нечего…

* Нажимая на кнопку "Добавить комментарий" я соглашаюсь с политикой конфиденциальности.
css.php Подняться наверхПодняться наверх