Как найти удаленные страницы, на которые ссылаются другие сайты

Всем привет! Недавно на почту прислали один достаточно нетривиальный вопрос - "Как найти удаленные страницы сайта, на которые ссылаются другие ресурсы?". То есть когда-то был документ, на который сослался другой проект. Потом страницу удалили (случайно или специально) либо изменили URL, и ссылка стала вести на документ с 404-ошибкой. Что делать в такой ситуации?

восстановление страниц с обратными ссылками

Прежде чем продолжить пост, хочу выразить всем огромное спасибо за поздравления с днем рождения и комментарии к этому посту! Приятные и жизненные пожелания - очень приятно :grin:! Результаты мини-конкурса будут подведены в конце статьи.

Молодые сайты, как правило, не страдают проблемой пропавших страниц. Это больше относится к уже старым проектам, на которых спустя долгий период что-то было удалено.

Итак, найти удаленные страницы с обратными ссылками будет полезно по нескольким причинам (тем более это бесплатно, либо с небольшими затратами). Во-первых, вы узнаете, какие документы были удалены. Впредь подобные страницы лучше не удалять (ведь они собирают линки). Во-вторых, скорее всего, на эти документы были поставлены естественные ссылки (раз вы о них не знали; если бы знали - ничего не удаляли ;-)). В-третьих, вы найдете некорректные линки, которые были поставлены на ваш ресурс (сможете исправить ситуацию). В-четвертых, можно будет узнать, не ставит ли никто специально обратки на разные несуществующие страницы проекта.

Поиск страниц с обратной ссылочной массой

Сначала я задался вопрос - "Как это все сделать?". Очевидно, что нужно анализировать ссылочную массу, а точнее страницы, на которые ведет хотя бы 1 линк. Для этого есть несколько инструментов. Не в ручную же все делать!? ;-)

1. Яндекс.Вебмастер. Заходим в "Индексирование" -> "Входящие ссылки" и скачиваем архив с данными по входящей ссылочной массе.

обратки в Яндекс.Вебмастере

Там будут как документы доноров, так и ваши. Единственное, файл в формате txt, поэтому для удобства работы необходимо все из него скопировать и вставить в таблицу, например, excel.

2. Google Webmaster. Практически все тоже самое проделываем и с инструментарием, который предоставляет Гугл. Заходим в "Поисковый трафик" -> "Ссылки на ваш сайт". Далее жмем "Дополнительно" в блоке "Ваши страницы, на которые чаще всего ссылаются".

входящие в гугл вебмастер

Выводим показ по 500 штук. Выделяем все строки, копируем и вставляем в тот же excel, после, удалив все ненужное. Тут будет неудобный момент с подстановкой имени домена к кускам страниц (в Google Webmaster показываются только уникальные части линков). Вероятно, как-то можно удобно сделать подстановку основного домена через макрос в том же excel. Если кто-то знает расскажите, пожалуйста, в комментариях ;-). Спасибо Profitcore за простое решение!

уникальные части ссылок

В итоге получаем excel-файл с 2-мя базами. Большинство вебмастеров может остановиться на этом моменте. Перфекционисты могут пойти дальше, немного заплатив за дополнительную информацию.

3. Ahrefs.com. Я думаю, что с этим сервисом многие знакомы. В отличие от первых 2-х он платный. Ahrefs также может предоставить подобную информацию. Вероятно, база ахрефс будет содержать страницы, которые не показал ни Яндекс, ни Google.

страницы с обратными ссылками в ahrefs

4. Backlink от Page Weight. Это ссылка на пост в блоге, который описывает работу сервиса. В 2-х словах - бюджетный аналог ahrefs для тех, у кого нет там платного аккаунта. База используется одна и та же, но стандартная подписка стоит 500 рублей.

В итоге получаем базу со страницами, на которые ведут ссылки с разных источников. Скорее всего, она будет содержать дубли. Чтобы не нагружать себя, свой и чужие компьютеры лишними данными, нужно их удалить. В excel 2007 года это делается очень легко. Сначала выделяем все строки (можно Ctrl+A). Затем идем в раздел "Данные" и нажимаем на "Удалить дубликаты".

удаление дубликатов в microsoft excel

В появившемся окне кликаем "Ок". Все - дубли удалены. Очень полезная функция ;-).

Массовая проверка ответа сервера

Теперь необходимо узнать, все ли страницы нашего сайта, имеющие обратную ссылочную массу, работают как надо, либо есть те, которые отдают 404-ошибку (документ не найден). Для этого добавим наш список в один из следующих сервисов (спасибо создателям за их разработку):

  1. http://4seo.biz/tools/31/ - бесплатно, быстро и понятно.
  2. http://coolakov.ru/tools/ping/ - подольше.
  3. http://www.seolium.com/seo/tools/http-status-checker/ - также не особо быстро.

С помощью первого сервиса я получил 1 страницу со статусом 404.

документ с 404-ошибкой

Перехожу на нее. Действительно - "Ничего не найдено". По URL понимаю, что это относится к данному посту. Вот только ссылка неправильная. Не 10.000, а 1.000. По файлу из Яндекс.Вебмастера смотрю, откуда ведет этот линк.

линки с grabr.ru

Получаю 4 обратки с grabr.ru. Вероятно, когда-то я неправильно указал URL, когда давал анонс в этой социальной сети для вебмастеров :smile:.

Дальнейшие действия

Существует несколько сценариев действий, которые зависят от разных ситуаций:

  1. В моем случае будет уместен 301-редирект (ссылаться на уже существующий документ по другому URL). Так и сделал.
  2. Если ошибку совершил владелец площадки, то можно написать ему и попросить сменить адрес на корректный.
  3. Восстановить (если это уместно) или создать (если, например, линк с качественной площадки, а владелец не отвечает на письма) страницу по URL, который отдает 404-ошибку.

Вот таким нехитрым образом можно восстановить некоторые ссылки, которые могут быть полезны при продвижении сайта. Отличный пункт для todo-листа проекта с возрастом более 2-х лет. Не правда ли :smile:? Это мероприятие можно проводить раз в 1-2 года, как для своих ресурсов, так и для клиентских сайтов.

Если вы знаете вариант, как проще найти подобные страницы, то напишите, пожалуйста, в комментариях. Буду рад ознакомиться. А то, может быть, изобрел велосипед :smile:.

Итоги деньрожденского мини-конкурса

Еще раз большое спасибо за ваши комментарии и поздравления! Подвожу итоги мини-конкурса. Как многие знают, в блоге стоит премодерация на комментаторов, у которых нет хотя бы одного одобренного комментария (защита от спамеров). В связи с этим та картина, которая была вчера, отличается от той, которая показывается сейчас: сегодня доодобрил все отзывы к посту.

Во-первых, это держало некоторую интригу. Во-вторых, не показывало пример очень настойчивых комментаторов :smile:. Итак, вот победители конкурса (номер комментария и имя):

13 - Бульбаш
26 - Сергей
39 - Александр
52 - Алексей
65 - fktrc
78 - albedo

Жду ваши R-кошельки, направленные с той же почты, с которой оставлялся отзыв :smile:. На сегодня все - до новых встреч!

Рейтинг
1 звезда2 звезды3 звезды4 звезды5 звезд (7 голос., в среднем: 4,86 из 5)
Загрузка...
Аудит сайта

Найду причины, мешающие продвижению сайта. Подготовлю рекомендации, которые позволят увеличить трафик и конверсию. Составлю стратегию развития. Помогу с внедрением.

От 19900 руб.
Продвижение

Комплексное развитие проектов по актуальным направлениям в SEO. Используются методики, имеющие стабильный долгосрочный эффект (без накруток и спама).

От 25000 руб.
Консультации

Консультирую по вопросам поисковой оптимизации, продвижения сайтов. Лучший способ узнать мое подробное мнение по волнующей задаче/проблеме. Конкретные ответы на конкретные вопросы.

От 5000 руб.
Отзывов уже 14:
Написать комментарий
  1. 1. seoonly

    Бульбаш везунчик)

  2. 2. Profitcore

    Насчет пункта №2 — если пользуетесь блокнотом вроде Notepad++, то можно сделать так: в меню выбрать «Поиск» -> «Замена»; в поле «Найти» указать «\n» (без кавычек), в поле «Заменить на» указать «\ndomain.com» (без кавычек, вместо domain.com указать свой домен); «Режим поиска» переключить на «Расширенный». Нажать на кнопку «Заменить все» и домен добавится

  3. 3. Сергей

    Вроде очевидные вещи

  4. 4. Sosnovskij

    Profitcore, точно, спасибо!
    Сергей, вещи очевидные, а задача на первый взгляд все-таки не совсем стандартная :)

  5. 5. SiteTop

    Годный пост, что-то новенькое. Спасибо и в закладки.

  6. 6. Сергей

    По пункту 2 в Excel используйте знак & (амперсанд) для объединения двух ячеек.
    Для подстановки своего домена запишите его в ячейку, а затем объедините ссылку вида /otvety.html с вашим доменом.
    =A1&B1

  7. 7. Юлия

    Воспользовалась предложенным методом, нашла около 20 страниц со статусом 404. Давно хотела проверить ссылки, но не видела верного решения. Скажите, пожалуйста, как лучше сделать редирект на существующие страницы? С помощью файла .htaccess, или есть другой способ? Спасибо.

  8. 8. Sosnovskij

    Сергей, спасибо за информацию :)
    Юлия, https://sosnovskij.ru/poisk-udalennyh-stranic-s-obratnymi-ssylkami/#i-3 здесь 3 варианта :)

  9. 9. Александр

    Информация отличная и своевременная.
    Кстати, спасибо за подарок за конкурс на день рождения, выплату получил, еще раз с наступившим!!!

  10. 10. Дмитрий

    Вообще очень хороший и полезный пост. И поздравляю всех победителей!

  11. 11. Бузони

    Самый легкий способ поиска — это просто вбить в поисковые системы адрес сайта и перебирать в ручную все варианты, долго, нудно, но зато эффективно.

  12. 12. Sosnovskij

    Бузони, каким образом? Можно подробнее? :)

  13. 13. BOMBERuss

    Мне Яндекс.Вебмастер сам их показывает, после чего я делаю редирект данного адреса на оглавление или на подобную страницу.

  14. 14. Sosnovskij

    BOMBERuss, раньше в Я.вебмастере подобной информации не было :)

Добавить комментарий

 

* Нажимая на кнопку "Добавить комментарий" я соглашаюсь с Политикой конфиденциальности.

Привет! А еще у меня есть телеграм-канал @sosnovskij. Туда я публикую чаще =).
Это короткие, но емкие посты по SEO: эксперименты, наблюдения, личный опыт. Заходите, читайте, подписывайтесь ;-) .