8 правил, которые помогают улучшить и ускорить индексацию сайтов с огромным количеством страниц
Когда на сайте 10, 100 или 1000 страниц, то о полноте индексации, как правило, переживать не стоит. Но если речь идет о большом проекте (в основном, это интернет-магазины) с сотнями тысяч документов (а порой и несколькими миллионами), то с индексированием могут возникнуть проблемы.
Ниже я расскажу, как улучшить индексацию, чтобы добиться максимального количества эффективных посадочных страниц в индексе поисковых систем.
Содержание:
- Почему это важно?
- От чего отталкиваться?
- 1. Настройте Last-Modified и If-Modified-Since
- 2. Избавьтесь от дублей и "мусорных" страниц
- 3. Организуйте грамотную перелинковку
- 4. Создайте Sitemap: XML + HTML
- 5. Уменьшите время загрузки сайта и оптимизируйте сервер
- 6. Плавно увеличивайте число страниц
- 7. Направьте трафик на непроиндексированные страницы
- 8. Поставьте ссылки
Почему это важно?
Индексация — основа поискового трафика. Непроиндексированная страница не принесет посетителей из поиска. Плохое качество индексации — один из главных "звонков" о проблемах в ранжировании сайта.
Поисковые системы стали более избирательны, чем ранее. С каждым годом количество сайтов и, соответственно, страниц растет чуть ли не в геометрической прогрессии. Если добавлять в индекс все, что на них публикуется, то это будет дополнительными расходами на серверные мощности. Поэтому поисковики выбирают, что и сколько им индексировать.
Ниже мои советы и рекомендации, которые позволят достичь наиболее полной индексации для сайтов с большим количеством документов (кстати, для "мелких" проектов они тоже будут полезны ).
От чего отталкиваться?
Нельзя просто ввести, например, в google site:domen.ru, посмотреть результаты и сказать, что мой сайт плохо индексируется. Почему? Во-первых, количество проиндексированных страниц необходимо смотреть в Google Search Console и/или Яндекс.Вебмастер. Данные из поисковой выдачи могут серьезно отличаться от реальных.
Во-вторых, полученное количество документов в индексе нужно сравнивать с числом полезных страниц ресурса. Что сюда входит:
- Категории/разделы;
- Карточки товаров;
- Статьи в блоге;
- Фильтры, метки или теги (если индексируются);
- Обзоры пользователей;
- Отзывы;
- Служебное меню ("О компании", "Услуги", "Оплата", "Доставка" и т. п.);
- Бренды/производители;
- Новости
В общем, необходимо проанилизировать структуру проекта и сложить количество всех полезных страниц. Затем полученную сумму сравнивать с числом документов в индексе по данным поисковых систем. Если:
- цифры примерно совпадают — все в порядке (с учетом, если нет дублей и "мусора");
- в индексе больше документов, чем на самом деле на сайте — есть дубли и "мусор";
- проиндексировано меньше, чем на самом деле — вот это и будем разбирать ниже .
Главные задачи:
- запретить к индексации все лишнее на сайте;
- давать только измененный и непроиндексированный контент;
- помочь поисковым системам найти важные страницы.
1. Настройте Last-Modified и If-Modified-Since
Это HTTP-заголовки, которые сообщают индексирующему роботу о последнем изменении страницы. Если она изменена, то он зайдет на нее и проиндексирует (в случае если о ней до этого не знал)/переиндексирует. Если нет (сервер возвращает ответ "304 Not Modified") — проигнорирует и перейдет к другой.
Зачем это делать? Дело в том, что у каждого ресурса имеются свои ограничения по количеству просканированных документов за раз — краулинговый бюджет. На его величину влияет качество проекта, актуальность контента, частота обновлений и т.п.
В итоге краулинговый бюджет не тратится на неизмененные страницы — увеличивается число проиндексированных документов.
2. Избавьтесь от дублей и "мусорных" страниц
Второй по счету, но не по важности пункт. Краулинговый бюджет может тратиться не только на неизмененный контент, но и также на дубли и "мусор". Что сюда входит? В основном это страницы:
- поиска;
- с ошибками 404;
- календаря;
- пагинации;
- с сессиями в URL;
- фильтров;
- тегов/меток;
- с некачественным контентом: пустые, спамные;
- служебные (корзина, административная панель);
- с версиями для печати;
- сортировок.
Это далеко не полный список. Все случаи индивидуальны. Как правило, качественный аудит расставляет точки над i .
На заметку. Редиректы и альтернативные страницы (AMP, hreflang и, вероятно, Турбо) также забирают краулинговый бюджет.
3. Организуйте грамотную перелинковку
Пункт "лежит" на поверхности, но не все им пользуются. Грамотная перелинковка — сильный фактор для улучшения индексации. На что здесь можно обратить внимание:
- блок "похожие товары";
- сопутствующее;
- популярные;
- со скидкой и по акции;
- предыдущий/следующий товар;
- хлебные крошки
Чем меньше вложенность страниц, тем лучше для индексации. Следите, чтобы до любого документа можно было добраться с главной за 3-5 кликов.
4. Создайте Sitemap: XML + HTML
Тоже общеизвестный пункт, но со своими особенностями. Частые ошибки:
- неработающие подкарты со старыми урлами (когда-то все работало, но спустя время перестало — необходимо иногда проверять sitemap);
- все ссылки на одной странице (ограничение 50.000 URL на одну карту; если больше - создавать несколько подкарт);
- sitemap на поддомене (нужно публиковать карту в рамках основного доменного имени).
Есть следующий интересный способ. В карту сайта добавляются не все, а только непроиндексированные документы. Сам такой метод не тестировал, но логика в нем несомненно имеется . Первое — реализовать подобное будет не совсем просто (необходима дополнительная разработка, взаимодействие с Яндекс.Вебмастером/Google Search Console). Второе — использовать только тогда, когда стоит задача добавить в индекс, действительно, большое количество URL's.
5. Уменьшите время загрузки сайта и оптимизируйте сервер
Многие вебмастера знают, что если сканировать медленный сайт, например, Screaming Frog SEOSpider или XENU, то программы работают существенно дольше. У индексирующих роботов схожий принцип работы. Чем меньше 5хх-ошибок и быстрее:
- ответ от сервера;
- генерация страниц;
- отдача контента;
- и т. п.
тем легче поисковому пауку будет взаимодействовать с сайтом, тем полнее он будет индексироваться.
Пункт важен не только в индексации, но и в рамках ранжировании. Им в принципе пренебрегать не стоит.
6. Плавно увеличивайте число страниц
Если ваш контент уже опубликован на сайте, то переходите к следующему пункту. Бывают ситуации, когда небольшой каталог продукции (100-500 страниц) превращается в большой онлайн-магазин (например, выгружаются все позиции из 1С).
Поставьте планировщик, который будет публиковать все страницы постепенно. Например, можно разделить общее количество на 2-6 месяцев (в зависимости от масштабов). Так поисковому роботу будет легче индексировать ресурс. Дополнительный бонус — раз проект постоянно обновляется, то он развивается (сигнал для ранжирования).
7. Направьте трафик на непроиндексированные страницы
"Трафик и индексация, где здесь связь?" - спросите вы. Раньше, может быть и не было, но сейчас есть. 2 пункта:
- Сервисы статистики (например, Яндекс.Метрика) могут отправлять непроиндексированные документы на индексацию. Что мешает Google Analytics делать то же самое (хотя официальных подтверждений я не нашел).
- Браузеры (Яндекс.Браузер, Google Chrome) могут поступать аналогично.
Логика в следующем: раз страницу посещают, то, скорее всего, она полезная, а значит должна быть в индексе. Устанавливайте сервисы статистики от поисковых систем и приобретайте трафик. Не обязательно дорогой контекстный. Можно задействовать и другие источники:
- социальные сети;
- тизерные системы;
- задания на почтовиках;
- САРы.
Соответственно, "лить" трафик на непроиндексированные документы.
8. Поставьте ссылки
Еще один дополнительный сигнал поисковым системам о том, что сайт нужно индексировать наиболее полно. Вечные ссылки на каждую страницу, конечно же, не поставишь. Здесь больше важен общий уровень доверия со стороны поисковиков.
Можно использовать общую ссылочную стратегию для основных продвигаемых страниц (будет также полезно). Немного "рискованный" вариант — использование арендных ссылок, но без фанатизма (подбирать более-менее качественные площадки, высокий уровень вложенности и использовать естественные анкоры).
Добавить в индекс несколько миллионов документов не совсем простая задача. В каких-то случаях может помочь только 1-2 пункта, но лучше использовать весь комплекс. А какие способы вам кажутся самыми эффективными? Может быть, вы знаете другие варианты? Буду рад пообщаться с вами на эту тему в комментариях.
Часть советов в новинку, спасибо.
Четкий свод законов и правил
Пока Яндекс не прикрыл лавочку — работает такая тема: banochkin.com/tools/indexer/ .
А точно «5. Уменьшите скорость загрузки сайта»?
Может надо увеличить?
Как то я не понял…
Руслан Баночкин, это продолжение 7-го пункта? Нехитрый метод
Дмитрий, спасибо, имел в виду время, а не скорость
Все в принципе стандартно, кроме браузеров, метрики и отправки в сайтмап только неиндекса. За это респект. Есть ли какие-нибудь инструменты для этого?
Артак, метрику можно самостоятельно поставить По поводу браузеров есть ссылка выше, но сам не тестировал. C отправкой в sitemap только непроиндексированных страниц нужно повозиться в любом случае — инструментов не видел.
Хорошие советы. А разве дубли страниц поисковые системы ещё не научились определять? Думаю. что они особо не влияют. Хотя для общего улучшения сайта, от них конечно же, нужно избавляться.
Александр, мало того, что поисковые роботы заходят на дубли, так они еще их и индексируют Поэтому отдавать все на волю алгоритмов не стоит.
Руслан Баночкин,
Пробовал этот ресурс, месяц как не пользуюсь, но до этого хорошо робот посещал сайты с него. indexme.site
Всегда уделял основное внимание грамотной перелинковке и проблем с индексацией не было. Теперь ещё стараюсь делать хорошую карту sitemap.xml.
Спасибо. Отличная подборка правил и рекомендаций. Некоторые моменты были неизвестны, некоторые увидели в новом ракурсе. Можно смело использовать, как краткую «методичку».
Да сейчас уже ничего не помогает при продвижении.. Не понятно как сайты толкать.