Собери свой сайт бесплатно

Как найти удаленные страницы, на которые ссылаются другие сайты

Всем привет! Недавно на почту прислали один достаточно нетривиальный вопрос — «Как найти удаленные страницы сайта, на которые ссылаются другие ресурсы?». То есть когда-то был документ, на который сослался другой проект. Потом страницу удалили (случайно или специально) либо изменили URL, и ссылка стала вести на документ с 404-ошибкой. Что делать в такой ситуации?

восстановление страниц с обратными ссылками

Прежде чем продолжить пост, хочу выразить всем огромное спасибо за поздравления с днем рождения и комментарии к этому посту! Приятные и жизненные пожелания — очень приятно :grin:! Результаты мини-конкурса будут подведены в конце статьи.

Молодые сайты, как правило, не страдают проблемой пропавших страниц. Это больше относится к уже старым проектам, на которых спустя долгий период что-то было удалено.

Итак, найти удаленные страницы с обратными ссылками будет полезно по нескольким причинам (тем более это бесплатно, либо с небольшими затратами). Во-первых, вы узнаете, какие документы были удалены. Впредь подобные страницы лучше не удалять (ведь они собирают линки). Во-вторых, скорее всего, на эти документы были поставлены естественные ссылки (раз вы о них не знали; если бы знали — ничего не удаляли ;-)). В-третьих, вы найдете некорректные линки, которые были поставлены на ваш ресурс (сможете исправить ситуацию). В-четвертых, можно будет узнать, не ставит ли никто специально обратки на разные несуществующие страницы проекта.

Поиск страниц с обратной ссылочной массой

Сначала я задался вопрос — «Как это все сделать?». Очевидно, что нужно анализировать ссылочную массу, а точнее страницы, на которые ведет хотя бы 1 линк. Для этого есть несколько инструментов. Не в ручную же все делать!? ;-)

1. Яндекс.Вебмастер. Заходим в «Индексирование» -> «Входящие ссылки» и скачиваем архив с данными по входящей ссылочной массе.

обратки в Яндекс.Вебмастере

Там будут как документы доноров, так и ваши. Единственное, файл в формате txt, поэтому для удобства работы необходимо все из него скопировать и вставить в таблицу, например, excel.

2. Google Webmaster. Практически все тоже самое проделываем и с инструментарием, который предоставляет Гугл. Заходим в «Поисковый трафик» -> «Ссылки на ваш сайт». Далее жмем «Дополнительно» в блоке «Ваши страницы, на которые чаще всего ссылаются».

входящие в гугл вебмастер

Выводим показ по 500 штук. Выделяем все строки, копируем и вставляем в тот же excel, после, удалив все ненужное. Тут будет неудобный момент с подстановкой имени домена к кускам страниц (в Google Webmaster показываются только уникальные части линков). Вероятно, как-то можно удобно сделать подстановку основного домена через макрос в том же excel. Если кто-то знает расскажите, пожалуйста, в комментариях ;-). Спасибо Profitcore за простое решение!

уникальные части ссылок

В итоге получаем excel-файл с 2-мя базами. Большинство вебмастеров может остановиться на этом моменте. Перфекционисты могут пойти дальше, немного заплатив за дополнительную информацию.

3. Ahrefs.com. Я думаю, что с этим сервисом многие знакомы. В отличие от первых 2-х он платный. Ahrefs также может предоставить подобную информацию. Вероятно, база ахрефс будет содержать страницы, которые не показал ни Яндекс, ни Google.

страницы с обратными ссылками в ahrefs

4. Backlink от Page Weight. Это ссылка на пост в блоге, который описывает работу сервиса. В 2-х словах — бюджетный аналог ahrefs для тех, у кого нет там платного аккаунта. База используется одна и та же, но стандартная подписка стоит 500 рублей.

В итоге получаем базу со страницами, на которые ведут ссылки с разных источников. Скорее всего, она будет содержать дубли. Чтобы не нагружать себя, свой и чужие компьютеры лишними данными, нужно их удалить. В excel 2007 года это делается очень легко. Сначала выделяем все строки (можно Ctrl+A). Затем идем в раздел «Данные» и нажимаем на «Удалить дубликаты».

удаление дубликатов в microsoft excel

В появившемся окне кликаем «Ок». Все — дубли удалены. Очень полезная функция ;-).

Массовая проверка ответа сервера

Теперь необходимо узнать, все ли страницы нашего сайта, имеющие обратную ссылочную массу, работают как надо, либо есть те, которые отдают 404-ошибку (документ не найден). Для этого добавим наш список в один из следующих сервисов (спасибо создателям за их разработку):

  1. http://4seo.biz/tools/31/ — бесплатно, быстро и понятно.
  2. http://coolakov.ru/tools/ping/ — подольше.
  3. http://www.seolium.com/seo/tools/http-status-checker/ — также не особо быстро.

С помощью первого сервиса я получил 1 страницу со статусом 404.

документ с 404-ошибкой

Перехожу на нее. Действительно — «Ничего не найдено». По URL понимаю, что это относится к данному посту. Вот только ссылка неправильная. Не 10.000, а 1.000. По файлу из Яндекс.Вебмастера смотрю, откуда ведет этот линк.

линки с grabr.ru

Получаю 4 обратки с grabr.ru. Вероятно, когда-то я неправильно указал URL, когда давал анонс в этой социальной сети для вебмастеров :smile:.

Дальнейшие действия

Существует несколько сценариев действий, которые зависят от разных ситуаций:

  1. В моем случае будет уместен 301-редирект (ссылаться на уже существующий документ по другому URL). Так и сделал.
  2. Если ошибку совершил владелец площадки, то можно написать ему и попросить сменить адрес на корректный.
  3. Восстановить (если это уместно) или создать (если, например, линк с качественной площадки, а владелец не отвечает на письма) страницу по URL, который отдает 404-ошибку.

Вот таким нехитрым образом можно восстановить некоторые ссылки, которые могут быть полезны при продвижении сайта. Отличный пункт для todo-листа проекта с возрастом более 2-х лет. Не правда ли :smile:? Это мероприятие можно проводить раз в 1-2 года, как для своих ресурсов, так и для клиентских сайтов.

Если вы знаете вариант, как проще найти подобные страницы, то напишите, пожалуйста, в комментариях. Буду рад ознакомиться. А то, может быть, изобрел велосипед :smile:.

Итоги деньрожденского мини-конкурса

Еще раз большое спасибо за ваши комментарии и поздравления! Подвожу итоги мини-конкурса. Как многие знают, в блоге стоит премодерация на комментаторов, у которых нет хотя бы одного одобренного комментария (защита от спамеров). В связи с этим та картина, которая была вчера, отличается от той, которая показывается сейчас: сегодня доодобрил все отзывы к посту.

Во-первых, это держало некоторую интригу. Во-вторых, не показывало пример очень настойчивых комментаторов :smile:. Итак, вот победители конкурса (номер комментария и имя):

13 — Бульбаш
26 — Сергей
39 — Александр
52 — Алексей
65 — fktrc
78 — albedo

Жду ваши R-кошельки, направленные с той же почты, с которой оставлялся отзыв :smile:. На сегодня все — до новых встреч!

1 звезда2 звезды3 звезды4 звезды5 звезд (7 голос., в среднем: 4,86 из 5)
Loading ... Loading ...

Дата: 27.01.2016
Получайте актуальные статьи по SEO, блоггингу и заработку в Интернете
прямо на ваш почтовый ящик. Уже более 3000 подписчиков!

Отзывов уже 12:

  1. 1. seoonly | 27 Январь 2016

    Бульбаш везунчик)

  2. 2. Profitcore | 27 Январь 2016

    Насчет пункта №2 — если пользуетесь блокнотом вроде Notepad++, то можно сделать так: в меню выбрать «Поиск» -> «Замена»; в поле «Найти» указать «\n» (без кавычек), в поле «Заменить на» указать «\ndomain.com» (без кавычек, вместо domain.com указать свой домен); «Режим поиска» переключить на «Расширенный». Нажать на кнопку «Заменить все» и домен добавится

  3. 3. Сергей | 27 Январь 2016

    Вроде очевидные вещи

  4. 4. Sosnovskij | 28 Январь 2016

    Profitcore, точно, спасибо!
    Сергей, вещи очевидные, а задача на первый взгляд все-таки не совсем стандартная :)

  5. 5. SiteTop | 28 Январь 2016

    Годный пост, что-то новенькое. Спасибо и в закладки.

  6. 6. Сергей | 28 Январь 2016

    По пункту 2 в Excel используйте знак & (амперсанд) для объединения двух ячеек.
    Для подстановки своего домена запишите его в ячейку, а затем объедините ссылку вида /otvety.html с вашим доменом.
    =A1&B1

  7. 7. Юлия | 28 Январь 2016

    Воспользовалась предложенным методом, нашла около 20 страниц со статусом 404. Давно хотела проверить ссылки, но не видела верного решения. Скажите, пожалуйста, как лучше сделать редирект на существующие страницы? С помощью файла .htaccess, или есть другой способ? Спасибо.

  8. 8. Sosnovskij | 29 Январь 2016

    Сергей, спасибо за информацию :)
    Юлия, http://sosnovskij.ru/poisk-udalennyh-stranic-s-obratnymi-ssylkami/#i-3 здесь 3 варианта :)

  9. 9. Александр | 29 Январь 2016

    Информация отличная и своевременная.
    Кстати, спасибо за подарок за конкурс на день рождения, выплату получил, еще раз с наступившим!!!

  10. 10. Дмитрий | 2 Февраль 2016

    Вообще очень хороший и полезный пост. И поздравляю всех победителей!

  11. 11. Бузони | 1 Март 2016

    Самый легкий способ поиска — это просто вбить в поисковые системы адрес сайта и перебирать в ручную все варианты, долго, нудно, но зато эффективно.

  12. 12. Sosnovskij | 3 Март 2016

    Бузони, каким образом? Можно подробнее? :)

Подняться наверхПодняться наверх
WordPress: 51MB | MySQL:29 | 0,661sec