Собери свой сайт бесплатно

Как устроена индексация сайтов в Google

Привет, друзья! В сегодняшнем посте я затрону тему индексации сайта в поисковой системе Google. Какие проблемы возникают с ней? Существует ли сейчас основной и дополнительный индекс? Все мои наблюдения на этот счет ниже.

логотип поисковой системы Google

Не знаю как у вас, а у меня Google индексирует меньше страниц, чем Яндекс. По крайней мере он показывает это по таким запросам:

индексация сайта в google

Кстати в этой записи все буду разбирать на примере блога. Он находится в dmoz-каталоге, на нем авторские уникальные статьи, теги, архивы и другие, дублирующие контент страницы (кроме категорий и нумерации страниц по средствам плагины PageNavi) запрещены в robots.txt. Что на такой запрос говорит Яндекс?

индексация сайта в яндекс

Тут уже 281 страница. Причем вообще в sitemap записано примерно 200 страниц + примерно 80 — это как раз те, которые создаются постраничной навигацией. Эти цифры ближе к реальности :smile:.

Вернемся опять к гуглу. Получилось, что сейчас он знает только о 172 страницах моего блога. Что же на самом деле? У меня получилась следующая картина:

таблица индексации сайта sosnovskij.ru

Сейчас я объясню всю эту таблицу ;-).

  • Основной индекс. Существуют такие понятия как основной индекс в Google и дополнительный. Страницы основного участвуют в ранжировании на общих основаниях. Страницы, которые находятся в дополнительном («в соплях» — supplemental) очень редко появляются в выдаче, и то только по тем запросам, по которым нет ответов у страниц из «основы» (например, некоторые низкочастотные запросы или long tail). Чтобы определить, сколько документов находится в основном индексе Google, необходимо ввести запрос site:http://sosnovskij.ru/&. У меня получилось 95. А у вас сколько? Причем интересно то, что сюда попадают страницы вида http://sosnovskij.ru/page/4/, то есть не особо полезные для пользователей.
  • Дополнительный индекс. По мнению гугла это некачественные страницы, которые не могут дать хороших, исчерпывающих ответов на поисковые запросы. Эти страницы часто включаются в «опущенные результаты<«. Они были определены путем исключения из тех 172 страниц 95, которые находятся в основном. Как видно, что 172-95=77, а не 38. В цифре 172 также много страниц навигации.
  • Нет в индексе. Это самый понятный пункт :smile:.
  • Не определено. Этих страниц не было в числе 172, не было в числе основного индекса, но Google о них знает. Поиск был как просто по url, так и по кускам текста.
  • Всего страниц в sitemap. Это только посты, страницы и категории.

Что же получается? Google оказывается знает о 187 страницах + несколько десятков навигационных, а не о 172. По-моему кто-то что-то скрывает или прячет ;-).

Выводы по поводу индексации в Google

    1. Дополнительный индекс или «сопли» точно существует, потому что некоторые из страниц выдаются по запросу url не на первой строчке. Также я проверил некоторые среднечастотные и низкочастотные запросы на этих страницах. Их не было в ТОП 100.
    2. В категории «не определено» скорее всего, те же «сопли», так как страницы ведут себя также.

дополнительный индекс в Google

  1. Часто страницы, которые находятся в дополнительном индексе, находятся в выдаче ниже сайтов, копирующих и грабящих контент. То есть одна из причин попадания в «сопли» — это неуникальный контент.
  2. Нельзя судить по запросу site:http://sosnovskij.ru/ о точном количестве проиндексированных страниц в этой поисковой системе. Их больше, но они будут не в основном индексе, и посетителей с гугла скорее всего не принесут. В доказательство этому 185 страниц, на которые были посещения в течение месяца.

количество страниц блога, которые вызвали посещения через поисковую систему google

До проведения данного анализа я считал, что у моих сайтов проблемы с индексацией страниц в Google. На самом же деле проблемы с тем, что некоторые документы попадают в дополнительный индекс, а о других Google знает, но молчит :smile:.

Почему Google отправляет страницы в дополнительный индекс?

  1. Как я уже написал выше, причиной может служить дублирование контента. Для этого можно запретить к индексации дублирующие страницы: теги, архивы и так далее.
  2. Часто страницы с копированным контентом тоже отправляются в сопли, либо просто с незначительным его количеством или низким качеством.
  3. Ошибки поисковой системы. Поисковой робот может неправильно проанализировать страницу, несмотря на то, что она будет являться первоисточником с уникальным и интересным контентом.

Как же вывести страницы из соплей? А вот этим я и буду заниматься. В одном из последующих постов опубликую результаты эксперимента, который должен будет вытащить некоторые страницы блога в основной индекс. Не пропустите ;-). Что вы думаете по поводу индексации ваших сайтов в гугл? Какие особенности были замечены?

1 звезда2 звезды3 звезды4 звезды5 звезд (7 голос., в среднем: 5,00 из 5)
Loading ... Loading ...

Дата: 24.09.2010
Получайте актуальные статьи по SEO, блоггингу и заработку в Интернете
прямо на ваш почтовый ящик. Уже более 3000 подписчиков!

Отзывов уже 51:

  1. 1. Sasha_RIS | twitter.com/Sasha_RIS | 24 Сентябрь 2010

    Интересно, а автор в курсе, что у гугла уже годика два нет разделения индекса на дополнительный и основной?

  2. 2. Sosnovskij | sosnovskij.ru | 24 Сентябрь 2010

    Sasha_RIS, я где-то видел, что гугловцы отрицают разделение. Как вы, например, объясните наличие тех страниц, которые по урлу находятся на 5-6 строчках? Дополнительный индекс, скрытый индекс можно называть это по-разному. Тот факт, что страницы ведут себя по-разному есть.

  3. 3. Sasha_RIS | twitter.com/Sasha_RIS | 24 Сентябрь 2010

    Sosnovskij, раньше Гугл подтверждал наличие разделения индекса на дополнительный и основной. Сейчас же этой грани нет.. скорее вообще граней нет… уже работает совсем другой алгоритм, который по-другому оценивает релевантность страницы определенному запросу..

  4. 4. Just-Seo.RU | just-seo.ru | 24 Сентябрь 2010

    У меня в Google наоборот больше страниц в индексе. Возможно потому, что блогу всего месяц :smile: .

  5. 5. haserk | haserk.ru | 24 Сентябрь 2010

    С Директа как прибыль Саня?

  6. 6. zusicks438 | www.seo-stories.ru | 24 Сентябрь 2010

    В Google за сателлитами забавно наблюдать: значения ежедневно могут меняться процентов на 80. В Яндексе такое невозможно в принципе.

  7. 7. Sosnovskij | sosnovskij.ru | 24 Сентябрь 2010

    Sasha_RIS, согласен, может и другой алгоритм, но очень схож со старым. :smile:
    haserk, это вопрос к Sasha_RIS?
    zusicks438, в гугле все меняется намного динамичней :smile:

  8. 8. seoded | twitter.com/seoded | 25 Сентябрь 2010

    Проставьте внешних ссылок на нужные страницы, они и вылезут. Бывает, что Google скрывает страницы, сильно похожие друг на друга. Например, на странице небольшой пост, а «окружение» (меню, код, метатеги и т.д.) одинаковое для всех и сильно больше поста. С вероятностью в 90 % этой страницы не будет в основном индексе.

  9. 9. Дмитрий | bzzz.od.ua | 25 Сентябрь 2010

    С удовольствием почитаю, как можно вытягивать из неосновного индекса. У меня там много страниц блога.

    seoded, спасибо за советы.

  10. 10. Дмитрий | boxingblog.com.ua | 25 Сентябрь 2010

    А у меня точно та же ботва, что и у автора — ровно 172 страницы выдает)) а в яхе 400.

  11. 11. Еремин | eremin.us | 25 Сентябрь 2010

    Нет я думаю все таки разделение на дополнительный и основной индекс есть. Это можно сказать по падению траффика на сайте. В общем история такая. Было два сайта сайт N и сайт X. Домен сайта N трастовый, сайта X свежий. Оба сайта постоянно обновлялись и в основном индексе были почти все важные страницы. Индексация сайта Яндексом была примерно на том же уровне. В Я. где то 380 страниц в Г. 400 на обоих сайтах. На сайт N была установлена sape, а через пол года обновление закончили. Сайт X продолжал обновляться. В итоге страницы с сайта N вылетели с основного индекса полностью и трафик с гугла упал в 3раза. Позже медленно, но страницы стали возвращаться, но даже сейчас в основном индексе их не более 120 и постоянно +-20. Сайт X так и остался в основном индексе.
    Тематика одинаковая. Контент уникальный. Делаем выводы. :evil:

  12. 12. Александр Spirit | spiritblog.ru | 26 Сентябрь 2010

    Индексация у гугла чем-то напоминает американские горки :smile:

  13. 13. Блог о Диабете | blog-o-diabete.livejournal.com | 27 Сентябрь 2010

    Мой конкурент имеет пиар 0-ТИЦ10. И ссылок меньше. В Гугле выше меня в выдаче :cool:

  14. 14. Алеша | 27 Сентябрь 2010

    Блог о Диабете, Тиц ни чего не решает! главное сколько ссылок на конкурента ведёт и какие они:)

  15. 15. Bahus | www.dendrblog.ru | 28 Сентябрь 2010

    У меня гугл вообще кажет в 3 раза больше страниц.

  16. 16. Eugene | 28 Сентябрь 2010

    Есть вопросы! В самом начале статьи ты прописывал site://sosnovskij.ru/ — и получил «Результатов: 172, страницы 23 (0,05 сек.) «. Но дело в том, что чаще всего,когда начинаешь листать выдачу по страничкам то получается не 172, а 100
    Только что сканировал твой сайт и мне google показал 306 страниц, но когда я листал выдачу,оказалось 230 страниц.
    Почему такая разница в цифрах? Это глюк google?
    Если вводить site:_http://sosnovskij.ru/& то в этом случае все совпадает
    95 страниц найдено и я могу просмотреть все 95 страниц.

  17. 17. Sosnovskij | sosnovskij.ru | 28 Сентябрь 2010

    Eugene, да, сейчас количество проиндексированных выросло практически в 2 раза. Ищется меньше страниц, потому что остальные типо «скрытые» и содержат «похожие результаты». Точную формулу какие страницы, где находятся так и не получилось добиться.

  18. 18. Eugene | 28 Сентябрь 2010

    Sosnovskij, почему через robots на блоге не закроешь tags и categories?

  19. 19. Sosnovskij | sosnovskij.ru | 1 Октябрь 2010

    Eugene, они у меня не индексируются. Через плагин All in one seo закрыты, но надо и туда добавить. Спасибо ;-) .

  20. 20. Eugene | 1 Октябрь 2010

    Sosnovskij, пусть твой блог растет бальшой и сильный :idea:

  21. 21. Sosnovskij | sosnovskij.ru | 1 Октябрь 2010

    Eugene, спасибо :smile:

  22. 22. Новичок | globaldrugs.ru | 3 Октябрь 2010

    Странно, но гугл мои новые блоги индексирует относительно быстро, а от Яши как всегда индексацию нужно ждать прилично времени. Интересно, с чем это связанно?

  23. 23. Sosnovskij | sosnovskij.ru | 3 Октябрь 2010

    Новичок, google в принципе быстрее индексирует сайты, но в посте речь все же не о скорости, а о количестве проиндексированных страниц. :smile:

  24. 24. Александр | bizsoftlab.com/blog | 5 Октябрь 2010

    Sosnovskij, Чтобы узнать, какие страницы находятся в основном индексе Гугла, существует (недокументированный) запрос:

    «site:/*» — (имя домена, слэш, звездочка).

    Таким образом, на данный момент на сайте sosnovskij.ru 110 страниц в основном индексе, и там же видно, какие именно.

    Более подробно читайте у меня на сайте: http://bizsoftlab.com/blog/archives/302 .

    Но там с супплементалом все не так просто. Дело в том, что по данным одного западного исследования есть страницы, которые виртуально присутствуют и там, и там. Так что возможно, «сопли» — вещь динамическая.

  25. 25. Sosnovskij | sosnovskij.ru | 5 Октябрь 2010

    Александр, я его и указал в статье, только там не *, а &. Результаты одни и те же. На счет «соплей» все верно. Они есть, но «пляшут» туда сюда и точно их сложно отследить.

  26. 26. oldvovk | whets.ru | 6 Октябрь 2010

    Да не совсем одни и теже, цифры то близки, но набор страниц разный.
    Пытаюсь разобраться, но не выходит.

    Мне б кто про сайт рассказал ))) больше 400 стр, в индексе кажет 116, в основном где-то 40, а об остальных знает гад, но ни туда ни сюда не сует.

  27. 27. Дмитрий | boxingblog.com.ua | 6 Октябрь 2010

    Для отслеживания соплей даже сервис специальный есть, если кому интеренсо)):
    supplemental.name
    Вот что он говорит, о данном сайте:
    —————————————————————
    В индексе гугла 208 страниц сайта sosnovskij.ru
    Из них в основном индексе 110 страниц;
    В дополнительном индексе 98 страниц.
    Качество сайта sosnovskij.ru 53%
    Это отличный показатель — сайт явно трастовый.
    —————————————————————
    Хвалит))

  28. 28. Eugene | 6 Октябрь 2010

    Дмитрий, потестил несколько сайтов и порой показатели, которые дает сервис) очень сильно отличаются от того, что дает google через site:mysite/*
    Но вобщем тема хорошая. Спасибо.

  29. 29. Дмитрий | boxingblog.com.ua | 6 Октябрь 2010

    Eugene, пожалуйста.

  30. 30. Sosnovskij | sosnovskij.ru | 6 Октябрь 2010

    Дмитрий, да, Дмитрий, видел я этот сервис, но встречал противоречивые мнения о нем. :smile: Что типа не всегда точные результаты.

  31. 31. Дмитрий | boxingblog.com.ua | 6 Октябрь 2010

    Sosnovskij, да, но и поисковые системы — это, само собой, вещи не определенные, что уж о сервисах говорить))

  32. 32. strikestar | www.webliberty.ru | 18 Ноябрь 2010

    А как можно избавиться от шаблонности wordpress. Ведь на каждой странице есть меню, категории, и прочее? :oops:

    И еще хотелось бы узнать, рисунок в посте четвертый сверху (таблица) — это результат какого нибудь сервиса или ручной подсчет? Просто у меня постоянно скачет число страниц в индексе гугла и хотелось бы определить что в основном индексе, а что в дополнительном :smile:

  33. 33. Sosnovskij | sosnovskij.ru | 18 Ноябрь 2010

    strikestar, удалить ненужные элементы :)
    Таблица — это ручной подсчет.

  34. 34. strikestar | www.webliberty.ru | 19 Ноябрь 2010

    Sosnovskij, лишнего не держу. Просто думал может есть какой то способ чтобы отражать определенные элементы не на всех страницах, а на нескольких…

  35. 35. Sosnovskij | sosnovskij.ru | 19 Ноябрь 2010

    strikestar, какие-то решения наверняка есть, но стоит ли их реализовывать? Меню и категории плохого не сделают, а архивы и теги можно просто убрать ;-) .

  36. 36. strikestar | www.webliberty.ru | 19 Ноябрь 2010

    Sosnovskij, понятно, спасибо :| , а архивов, тегов у меня и так нет ;-)

  37. 37. 007 | 007.dmrexpress.ru | 6 Декабрь 2010

    Точно молчит, у меня так же. Забьёшь в поиск находит, а в админ панели Гугла ее нет среди проиндексированных.

  38. 38. Данила | 7 Декабрь 2010

    Тоже хочу провести эксперимент. Как можно получить список страниц которые находятся в «соплях»?

  39. 39. Sosnovskij | sosnovskij.ru | 7 Декабрь 2010

    Данила, я ручками определял. Достаточно муторное и долгое дело :smile: .

  40. 40. mixac | narodrecepter.ru | 21 Январь 2011

    Может Гугл плохо индексирует зону ru, Яндекс все-таки наш Российский, а Гугл буржуй.

  41. 41. admin | 22 Январь 2011

    mixac, не уверен, что корни проблемы в зоне ru.

  42. 42. Илья | 6 Март 2011

    Пробую сделать сайт для англоязычной аудитории. Добавил пока 10 новостей по прошествии недели ни одной страницы в индекс google не добавилось. Знание английского языка у меня среднее поэтому попробовал писать уникальные тексты на русском языке, а затем переводить на английский с помощью переводчика (например онлайн переводчик Google – translate.google.com).
    Как вы считаете достаточно ли такого перевода для поисковика Google, чтобы он заносил эти тексты в поисковой запрос? Или же это будет отсеиваться, как корявый текст?

  43. 43. Sosnovskij | sosnovskij.ru | 6 Март 2011

    Илья, проиндексировать то он такие тексты сможет, но вряд ли они будут показываться высоко в выдаче. Нужна хотя бы какая-нибудь редакция.

  44. 44. Петр | bablo-v-seti.ru | 16 Ноябрь 2011

    Здравствуйте! Вот ВЕЗДЕ указывается, как проверить какие страницы попали в сопливый индекс гугл, — вводишь в поисковую строку site:ваш сайт.ru — site:v-ваш сайт.ru/& (или на конце *), и гугл вам выдает, какие же страницы в его сопливом отстое. Ерунда полная!
    Мой сайт bablo-v-seti.ru/, ввожу сначала «site:bablo-v-seti.ru/&» или «site:bablo-v-seti.ru/*» — выдает почти все страницы сайта. Это основной индекс.
    Дале ввожу site:bablo-v-seti.ru/-site:bablo-v-seti.ru/& (*) — также все страницы.
    Никакой разницы. Такое впечатление, что по этому запросу — как определить споливый индекс своего сайта, — переписали статью друг у друга и все.
    Хрень полная.

  45. 45. Sosnovskij | sosnovskij.ru | 18 Ноябрь 2011

    Петр, о второй конструкции я не писал.

  46. 46. укр лодка | 6 Март 2012

    Да.. вот как обстоят дела.
    Было бы лучше если бы гугл научился не индексировать канонические ссылки, как например, яндекс. В выдаче по условиях в файле robots.txt указано четко и ясно не сканировать такой параметр, а в выдачу лезет пустые ссылки без описаний и т.д.
    С яндексом вообще проблем нет, robots.txt создал и радуйся жизни.

  47. 47. Дмитрий | 8 Июль 2013

    У меня вообще солянку выдает при запросах!

  48. 48. Юрий | 26 Июнь 2014

    Дмитрий,
    Присоединяюсь ))

  49. 49. Анатолий | 3 Сентябрь 2015

    Здравствуйте!
    google.com.ua/?gws_rd=ssl#q=terratel
    Помогите пожалуйста разобраться, 5 строка «террател — terratel», откуда взялся такой тайтл страницы и как ее изменить (в коде вообще ничего подобного не было).

  50. 50. Sosnovskij | 5 Сентябрь 2015

    Анатолий, у меня на 5-й строчке другой title. Покажите скриншот :)

  51. 51. Виктория | 3 Ноябрь 2015

    Я тоже давно еще заметила, что проиндексированные страницы в Гугле и Яндексе значительно разнятся, и как-то просто смирилась с этим, поставив плагины, запрещающие дубли и ссылки, а оказывается нужно принимать радикальные меры по борьбе с ними

Подняться наверхПодняться наверх
WordPress: 53.86MB | MySQL:32 | 1,142sec