Как устроена индексация сайтов в Google

Привет, друзья! В сегодняшнем посте я затрону тему индексации сайта в поисковой системе Google. Какие проблемы возникают с ней? Существует ли сейчас основной и дополнительный индекс? Все мои наблюдения на этот счет ниже.

логотип поисковой системы Google

Не знаю как у вас, а у меня Google индексирует меньше страниц, чем Яндекс. По крайней мере он показывает это по таким запросам:

индексация сайта в google

Кстати в этой записи все буду разбирать на примере блога. Он находится в dmoz-каталоге, на нем авторские уникальные статьи, теги, архивы и другие, дублирующие контент страницы (кроме категорий и нумерации страниц по средствам плагины PageNavi) запрещены в robots.txt. Что на такой запрос говорит Яндекс?

индексация сайта в яндекс

Тут уже 281 страница. Причем вообще в sitemap записано примерно 200 страниц + примерно 80 - это как раз те, которые создаются постраничной навигацией. Эти цифры ближе к реальности :smile:.

Вернемся опять к гуглу. Получилось, что сейчас он знает только о 172 страницах моего блога. Что же на самом деле? У меня получилась следующая картина:

таблица индексации сайта sosnovskij.ru

Сейчас я объясню всю эту таблицу ;-).

  • Основной индекс. Существуют такие понятия как основной индекс в Google и дополнительный. Страницы основного участвуют в ранжировании на общих основаниях. Страницы, которые находятся в дополнительном ("в соплях" - supplemental) очень редко появляются в выдаче, и то только по тем запросам, по которым нет ответов у страниц из "основы" (например, некоторые низкочастотные запросы или long tail). Чтобы определить, сколько документов находится в основном индексе Google, необходимо ввести запрос site:https://sosnovskij.ru/&. У меня получилось 95. А у вас сколько? Причем интересно то, что сюда попадают страницы вида https://sosnovskij.ru/page/4/, то есть не особо полезные для пользователей.
  • Дополнительный индекс. По мнению гугла это некачественные страницы, которые не могут дать хороших, исчерпывающих ответов на поисковые запросы. Эти страницы часто включаются в "опущенные результаты<". Они были определены путем исключения из тех 172 страниц 95, которые находятся в основном. Как видно, что 172-95=77, а не 38. В цифре 172 также много страниц навигации.
  • Нет в индексе. Это самый понятный пункт :smile:.
  • Не определено. Этих страниц не было в числе 172, не было в числе основного индекса, но Google о них знает. Поиск был как просто по url, так и по кускам текста.
  • Всего страниц в sitemap. Это только посты, страницы и категории.

Что же получается? Google оказывается знает о 187 страницах + несколько десятков навигационных, а не о 172. По-моему кто-то что-то скрывает или прячет ;-).

Выводы по поводу индексации в Google

  1. Дополнительный индекс или "сопли" точно существует, потому что некоторые из страниц выдаются по запросу url не на первой строчке. Также я проверил некоторые среднечастотные и низкочастотные запросы на этих страницах. Их не было в ТОП 100.
  2. В категории "не определено" скорее всего, те же "сопли", так как страницы ведут себя также.
  3. дополнительный индекс в Google

  4. Часто страницы, которые находятся в дополнительном индексе, находятся в выдаче ниже сайтов, копирующих и грабящих контент. То есть одна из причин попадания в "сопли" - это неуникальный контент.
  5. Нельзя судить по запросу site:https://sosnovskij.ru/ о точном количестве проиндексированных страниц в этой поисковой системе. Их больше, но они будут не в основном индексе, и посетителей с гугла скорее всего не принесут. В доказательство этому 185 страниц, на которые были посещения в течение месяца.
    количество страниц блога, которые вызвали посещения через поисковую систему google

До проведения данного анализа я считал, что у моих сайтов проблемы с индексацией страниц в Google. На самом же деле проблемы с тем, что некоторые документы попадают в дополнительный индекс, а о других Google знает, но молчит :smile:.

Почему Google отправляет страницы в дополнительный индекс?

  1. Как я уже написал выше, причиной может служить дублирование контента. Для этого можно запретить к индексации дублирующие страницы: теги, архивы и так далее.
  2. Часто страницы с копированным контентом тоже отправляются в сопли, либо просто с незначительным его количеством или низким качеством.
  3. Ошибки поисковой системы. Поисковой робот может неправильно проанализировать страницу, несмотря на то, что она будет являться первоисточником с уникальным и интересным контентом.

Как же вывести страницы из соплей? А вот этим я и буду заниматься. В одном из последующих постов опубликую результаты эксперимента, который должен будет вытащить некоторые страницы блога в основной индекс. Не пропустите ;-). Что вы думаете по поводу индексации ваших сайтов в гугл? Какие особенности были замечены?

Рейтинг
1 звезда2 звезды3 звезды4 звезды5 звезд (9 голос., в среднем: 4,56 из 5)
Загрузка...
Аудит сайта

Найду причины, мешающие продвижению сайта. Подготовлю рекомендации, которые позволят увеличить трафик и конверсию. Составлю стратегию развития. Помогу с внедрением.

От 19000 руб.
Продвижение

Комплексное развитие проектов по актуальным направлениям в SEO. Используются методики, имеющие стабильный долгосрочный эффект (без накруток и спама).

От 25000 руб.
Консультации

Консультирую по вопросам поисковой оптимизации, продвижения сайтов. Лучший способ узнать мое подробное мнение по волнующей задаче/проблеме. Конкретные ответы на конкретные вопросы.

От 5000 руб.
Отзывов уже 57:
Написать комментарий
  1. 1. Sasha_RIS

    Интересно, а автор в курсе, что у гугла уже годика два нет разделения индекса на дополнительный и основной?

  2. 2. Sosnovskij

    Sasha_RIS, я где-то видел, что гугловцы отрицают разделение. Как вы, например, объясните наличие тех страниц, которые по урлу находятся на 5-6 строчках? Дополнительный индекс, скрытый индекс можно называть это по-разному. Тот факт, что страницы ведут себя по-разному есть.

  3. 3. Sasha_RIS

    Sosnovskij, раньше Гугл подтверждал наличие разделения индекса на дополнительный и основной. Сейчас же этой грани нет.. скорее вообще граней нет… уже работает совсем другой алгоритм, который по-другому оценивает релевантность страницы определенному запросу..

  4. 4. Just-Seo.RU

    У меня в Google наоборот больше страниц в индексе. Возможно потому, что блогу всего месяц :smile: .

  5. 5. haserk

    С Директа как прибыль Саня?

  6. 6. zusicks438

    В Google за сателлитами забавно наблюдать: значения ежедневно могут меняться процентов на 80. В Яндексе такое невозможно в принципе.

  7. 7. Sosnovskij

    Sasha_RIS, согласен, может и другой алгоритм, но очень схож со старым. :smile:
    haserk, это вопрос к Sasha_RIS?
    zusicks438, в гугле все меняется намного динамичней :smile:

  8. 8. seoded

    Проставьте внешних ссылок на нужные страницы, они и вылезут. Бывает, что Google скрывает страницы, сильно похожие друг на друга. Например, на странице небольшой пост, а «окружение» (меню, код, метатеги и т.д.) одинаковое для всех и сильно больше поста. С вероятностью в 90 % этой страницы не будет в основном индексе.

  9. 9. Дмитрий

    С удовольствием почитаю, как можно вытягивать из неосновного индекса. У меня там много страниц блога.

    seoded, спасибо за советы.

  10. 10. Дмитрий

    А у меня точно та же ботва, что и у автора — ровно 172 страницы выдает)) а в яхе 400.

  11. 11. Еремин

    Нет я думаю все таки разделение на дополнительный и основной индекс есть. Это можно сказать по падению траффика на сайте. В общем история такая. Было два сайта сайт N и сайт X. Домен сайта N трастовый, сайта X свежий. Оба сайта постоянно обновлялись и в основном индексе были почти все важные страницы. Индексация сайта Яндексом была примерно на том же уровне. В Я. где то 380 страниц в Г. 400 на обоих сайтах. На сайт N была установлена sape, а через пол года обновление закончили. Сайт X продолжал обновляться. В итоге страницы с сайта N вылетели с основного индекса полностью и трафик с гугла упал в 3раза. Позже медленно, но страницы стали возвращаться, но даже сейчас в основном индексе их не более 120 и постоянно +-20. Сайт X так и остался в основном индексе.
    Тематика одинаковая. Контент уникальный. Делаем выводы. :evil:

  12. 12. Александр Spirit

    Индексация у гугла чем-то напоминает американские горки :smile:

  13. 13. Блог о Диабете

    Мой конкурент имеет пиар 0-ТИЦ10. И ссылок меньше. В Гугле выше меня в выдаче :cool:

  14. 14. Алеша

    Блог о Диабете, Тиц ни чего не решает! главное сколько ссылок на конкурента ведёт и какие они:)

  15. 15. Bahus

    У меня гугл вообще кажет в 3 раза больше страниц.

  16. 16. Eugene

    Есть вопросы! В самом начале статьи ты прописывал site:https://sosnovskij.ru/ — и получил «Результатов: 172, страницы 23 (0,05 сек.) «. Но дело в том, что чаще всего,когда начинаешь листать выдачу по страничкам то получается не 172, а 100
    Только что сканировал твой сайт и мне google показал 306 страниц, но когда я листал выдачу,оказалось 230 страниц.
    Почему такая разница в цифрах? Это глюк google?
    Если вводить site:_https://sosnovskij.ru/& то в этом случае все совпадает
    95 страниц найдено и я могу просмотреть все 95 страниц.

  17. 17. Sosnovskij

    Eugene, да, сейчас количество проиндексированных выросло практически в 2 раза. Ищется меньше страниц, потому что остальные типо «скрытые» и содержат «похожие результаты». Точную формулу какие страницы, где находятся так и не получилось добиться.

  18. 18. Eugene

    Sosnovskij, почему через robots на блоге не закроешь tags и categories?

  19. 19. Sosnovskij

    Eugene, они у меня не индексируются. Через плагин All in one seo закрыты, но надо и туда добавить. Спасибо ;-) .

  20. 20. Eugene

    Sosnovskij, пусть твой блог растет бальшой и сильный :idea:

  21. 21. Sosnovskij

    Eugene, спасибо :smile:

  22. 22. Новичок

    Странно, но гугл мои новые блоги индексирует относительно быстро, а от Яши как всегда индексацию нужно ждать прилично времени. Интересно, с чем это связанно?

  23. 23. Sosnovskij

    Новичок, google в принципе быстрее индексирует сайты, но в посте речь все же не о скорости, а о количестве проиндексированных страниц. :smile:

  24. 24. Александр

    Sosnovskij, Чтобы узнать, какие страницы находятся в основном индексе Гугла, существует (недокументированный) запрос:

    «site:/*» — (имя домена, слэш, звездочка).

    Таким образом, на данный момент на сайте sosnovskij.ru 110 страниц в основном индексе, и там же видно, какие именно.

    Более подробно читайте у меня на сайте: bizsoftlab.com/blog/archives/302 .

    Но там с супплементалом все не так просто. Дело в том, что по данным одного западного исследования есть страницы, которые виртуально присутствуют и там, и там. Так что возможно, «сопли» — вещь динамическая.

  25. 25. Sosnovskij

    Александр, я его и указал в статье, только там не *, а &. Результаты одни и те же. На счет «соплей» все верно. Они есть, но «пляшут» туда сюда и точно их сложно отследить.

  26. 26. oldvovk

    Да не совсем одни и теже, цифры то близки, но набор страниц разный.
    Пытаюсь разобраться, но не выходит.

    Мне б кто про сайт рассказал ))) больше 400 стр, в индексе кажет 116, в основном где-то 40, а об остальных знает гад, но ни туда ни сюда не сует.

  27. 27. Дмитрий

    Для отслеживания соплей даже сервис специальный есть, если кому интеренсо)):
    supplemental.name
    Вот что он говорит, о данном сайте:
    —————————————————————
    В индексе гугла 208 страниц сайта sosnovskij.ru
    Из них в основном индексе 110 страниц;
    В дополнительном индексе 98 страниц.
    Качество сайта sosnovskij.ru 53%
    Это отличный показатель — сайт явно трастовый.
    —————————————————————
    Хвалит))

  28. 28. Eugene

    Дмитрий, потестил несколько сайтов и порой показатели, которые дает сервис) очень сильно отличаются от того, что дает google через site:mysite/*
    Но вобщем тема хорошая. Спасибо.

  29. 29. Дмитрий

    Eugene, пожалуйста.

  30. 30. Sosnovskij

    Дмитрий, да, Дмитрий, видел я этот сервис, но встречал противоречивые мнения о нем. :smile: Что типа не всегда точные результаты.

  31. 31. Дмитрий

    Sosnovskij, да, но и поисковые системы — это, само собой, вещи не определенные, что уж о сервисах говорить))

  32. 32. strikestar

    А как можно избавиться от шаблонности wordpress. Ведь на каждой странице есть меню, категории, и прочее? :oops:

    И еще хотелось бы узнать, рисунок в посте четвертый сверху (таблица) — это результат какого нибудь сервиса или ручной подсчет? Просто у меня постоянно скачет число страниц в индексе гугла и хотелось бы определить что в основном индексе, а что в дополнительном :smile:

  33. 33. Sosnovskij

    strikestar, удалить ненужные элементы :)
    Таблица — это ручной подсчет.

  34. 34. strikestar

    Sosnovskij, лишнего не держу. Просто думал может есть какой то способ чтобы отражать определенные элементы не на всех страницах, а на нескольких…

  35. 35. Sosnovskij

    strikestar, какие-то решения наверняка есть, но стоит ли их реализовывать? Меню и категории плохого не сделают, а архивы и теги можно просто убрать ;-) .

  36. 36. strikestar

    Sosnovskij, понятно, спасибо :| , а архивов, тегов у меня и так нет ;-)

  37. 37. 007

    Точно молчит, у меня так же. Забьёшь в поиск находит, а в админ панели Гугла ее нет среди проиндексированных.

  38. 38. Данила

    Тоже хочу провести эксперимент. Как можно получить список страниц которые находятся в «соплях»?

  39. 39. Sosnovskij

    Данила, я ручками определял. Достаточно муторное и долгое дело :smile: .

  40. 40. mixac

    Может Гугл плохо индексирует зону ru, Яндекс все-таки наш Российский, а Гугл буржуй.

  41. 41. admin

    mixac, не уверен, что корни проблемы в зоне ru.

  42. 42. Илья

    Пробую сделать сайт для англоязычной аудитории. Добавил пока 10 новостей по прошествии недели ни одной страницы в индекс google не добавилось. Знание английского языка у меня среднее поэтому попробовал писать уникальные тексты на русском языке, а затем переводить на английский с помощью переводчика (например онлайн переводчик Google – translate.google.com).
    Как вы считаете достаточно ли такого перевода для поисковика Google, чтобы он заносил эти тексты в поисковой запрос? Или же это будет отсеиваться, как корявый текст?

  43. 43. Sosnovskij

    Илья, проиндексировать то он такие тексты сможет, но вряд ли они будут показываться высоко в выдаче. Нужна хотя бы какая-нибудь редакция.

  44. 44. Петр

    Здравствуйте! Вот ВЕЗДЕ указывается, как проверить какие страницы попали в сопливый индекс гугл, — вводишь в поисковую строку site:ваш сайт.ru — site:v-ваш сайт.ru/& (или на конце *), и гугл вам выдает, какие же страницы в его сопливом отстое. Ерунда полная!
    Мой сайт bablo-v-seti.ru/, ввожу сначала «site:bablo-v-seti.ru/&» или «site:bablo-v-seti.ru/*» — выдает почти все страницы сайта. Это основной индекс.
    Дале ввожу site:bablo-v-seti.ru/-site:bablo-v-seti.ru/& (*) — также все страницы.
    Никакой разницы. Такое впечатление, что по этому запросу — как определить споливый индекс своего сайта, — переписали статью друг у друга и все.
    Хрень полная.

  45. 45. Sosnovskij

    Петр, о второй конструкции я не писал.

  46. 46. укр лодка

    Да.. вот как обстоят дела.
    Было бы лучше если бы гугл научился не индексировать канонические ссылки, как например, яндекс. В выдаче по условиях в файле robots.txt указано четко и ясно не сканировать такой параметр, а в выдачу лезет пустые ссылки без описаний и т.д.
    С яндексом вообще проблем нет, robots.txt создал и радуйся жизни.

  47. 47. Дмитрий

    У меня вообще солянку выдает при запросах!

  48. 48. Юрий

    Дмитрий,
    Присоединяюсь ))

  49. 49. Анатолий

    Здравствуйте!
    google.com.ua/?gws_rd=ssl#q=terratel
    Помогите пожалуйста разобраться, 5 строка «террател — terratel», откуда взялся такой тайтл страницы и как ее изменить (в коде вообще ничего подобного не было).

  50. 50. Sosnovskij

    Анатолий, у меня на 5-й строчке другой title. Покажите скриншот :)

  51. 51. Виктория

    Я тоже давно еще заметила, что проиндексированные страницы в Гугле и Яндексе значительно разнятся, и как-то просто смирилась с этим, поставив плагины, запрещающие дубли и ссылки, а оказывается нужно принимать радикальные меры по борьбе с ними

  52. 52. Владимир

    Сергей, здравствуйте!
    Сайту уже 10 месяцев. Тематика: заболевания суставов. Трафик с ПС около 1,6 к в сутки — и все Яндекс. Домен куплен без истории, сайт наполняется постоянно, ссылки покупаются ежемесячно. Гугл вообще не дает трафика (20 чел в сутки это смешно). Индексация в Яше — 410 стр, в гугле — 344 стр.
    В чем может быть проблема и как ее решить?

  53. 53. Sosnovskij

    Владимир, всегда ли был такой трафик с google и довольно большое количество рекламы?

  54. 54. Владимир

    Трафика не было с гугла сразу и по сей день его нет. Обильная монетизация началась примерно месяца с 5-6 существования сайта, как пошел трафик (перевалил за 300-400).

  55. 55. Sosnovskij

    Владимир, значит, скорее всего, какой-то фильтр. Нужно анализировать детальнее.

  56. 56. Владимир

    Не могу представить даже какой это может быть фильтр, а главное ЗА ЧТО. Ведь реклама вешалась, когда трафик пошел с Яндекса, а с гугла как не было так и нет. Может идти речь о какой то жесткой песочнице для мед сайтов?

    P.S. Кстати ссылочное, которое так любит гугл пристутствует. Закупаем (понемногу 3-4 шт ежемесячно) вечные ссылки с ГГЛ и Миралинкса, почекав доноров чектрастом и xtool. Именно поэтому теряюсь просто в вопросе. Может ли редирект с нового домена, например комовский решить проблему?

  57. 57. Sosnovskij

    Владимир, о жесткой песочнице для медицинских проектов со стороны google не слышал.

    Редирект с какого-то другого домена на существующий вряд ли изменит ситуацию.

Добавить комментарий

 

* Нажимая на кнопку "Добавить комментарий" я соглашаюсь с Политикой конфиденциальности.

Привет! А еще у меня есть телеграм-канал @sosnovskij. Туда я публикую чаще =).
Это короткие, но емкие посты по SEO: эксперименты, наблюдения, личный опыт. Заходите, читайте, подписывайтесь ;-) .