Как найти удаленные страницы, на которые ссылаются другие сайты
Всем привет! Недавно на почту прислали один достаточно нетривиальный вопрос - "Как найти удаленные страницы сайта, на которые ссылаются другие ресурсы?". То есть когда-то был документ, на который сослался другой проект. Потом страницу удалили (случайно или специально) либо изменили URL, и ссылка стала вести на документ с 404-ошибкой. Что делать в такой ситуации?
Прежде чем продолжить пост, хочу выразить всем огромное спасибо за поздравления с днем рождения и комментарии к этому посту! Приятные и жизненные пожелания - очень приятно ! Результаты мини-конкурса будут подведены в конце статьи.
Молодые сайты, как правило, не страдают проблемой пропавших страниц. Это больше относится к уже старым проектам, на которых спустя долгий период что-то было удалено.
Итак, найти удаленные страницы с обратными ссылками будет полезно по нескольким причинам (тем более это бесплатно, либо с небольшими затратами). Во-первых, вы узнаете, какие документы были удалены. Впредь подобные страницы лучше не удалять (ведь они собирают линки). Во-вторых, скорее всего, на эти документы были поставлены естественные ссылки (раз вы о них не знали; если бы знали - ничего не удаляли ). В-третьих, вы найдете некорректные линки, которые были поставлены на ваш ресурс (сможете исправить ситуацию). В-четвертых, можно будет узнать, не ставит ли никто специально обратки на разные несуществующие страницы проекта.
Содержание:
Поиск страниц с обратной ссылочной массой
Сначала я задался вопрос - "Как это все сделать?". Очевидно, что нужно анализировать ссылочную массу, а точнее страницы, на которые ведет хотя бы 1 линк. Для этого есть несколько инструментов. Не в ручную же все делать!?
1. Яндекс.Вебмастер. Заходим в "Индексирование" -> "Входящие ссылки" и скачиваем архив с данными по входящей ссылочной массе.
Там будут как документы доноров, так и ваши. Единственное, файл в формате txt, поэтому для удобства работы необходимо все из него скопировать и вставить в таблицу, например, excel.
2. Google Webmaster. Практически все тоже самое проделываем и с инструментарием, который предоставляет Гугл. Заходим в "Поисковый трафик" -> "Ссылки на ваш сайт". Далее жмем "Дополнительно" в блоке "Ваши страницы, на которые чаще всего ссылаются".
Выводим показ по 500 штук. Выделяем все строки, копируем и вставляем в тот же excel, после, удалив все ненужное. Тут будет неудобный момент с подстановкой имени домена к кускам страниц (в Google Webmaster показываются только уникальные части линков). Вероятно, как-то можно удобно сделать подстановку основного домена через макрос в том же excel. Если кто-то знает расскажите, пожалуйста, в комментариях . Спасибо Profitcore за простое решение!
В итоге получаем excel-файл с 2-мя базами. Большинство вебмастеров может остановиться на этом моменте. Перфекционисты могут пойти дальше, немного заплатив за дополнительную информацию.
3. Ahrefs.com. Я думаю, что с этим сервисом многие знакомы. В отличие от первых 2-х он платный. Ahrefs также может предоставить подобную информацию. Вероятно, база ахрефс будет содержать страницы, которые не показал ни Яндекс, ни Google.
4. Backlink от Page Weight. Это ссылка на пост в блоге, который описывает работу сервиса. В 2-х словах - бюджетный аналог ahrefs для тех, у кого нет там платного аккаунта. База используется одна и та же, но стандартная подписка стоит 500 рублей.
В итоге получаем базу со страницами, на которые ведут ссылки с разных источников. Скорее всего, она будет содержать дубли. Чтобы не нагружать себя, свой и чужие компьютеры лишними данными, нужно их удалить. В excel 2007 года это делается очень легко. Сначала выделяем все строки (можно Ctrl+A). Затем идем в раздел "Данные" и нажимаем на "Удалить дубликаты".
В появившемся окне кликаем "Ок". Все - дубли удалены. Очень полезная функция .
Массовая проверка ответа сервера
Теперь необходимо узнать, все ли страницы нашего сайта, имеющие обратную ссылочную массу, работают как надо, либо есть те, которые отдают 404-ошибку (документ не найден). Для этого добавим наш список в один из следующих сервисов (спасибо создателям за их разработку):
- http://4seo.biz/tools/31/ - бесплатно, быстро и понятно.
- http://coolakov.ru/tools/ping/ - подольше.
- http://www.seolium.com/seo/tools/http-status-checker/ - также не особо быстро.
С помощью первого сервиса я получил 1 страницу со статусом 404.
Перехожу на нее. Действительно - "Ничего не найдено". По URL понимаю, что это относится к данному посту. Вот только ссылка неправильная. Не 10.000, а 1.000. По файлу из Яндекс.Вебмастера смотрю, откуда ведет этот линк.
Получаю 4 обратки с grabr.ru. Вероятно, когда-то я неправильно указал URL, когда давал анонс в этой социальной сети для вебмастеров .
Дальнейшие действия
Существует несколько сценариев действий, которые зависят от разных ситуаций:
- В моем случае будет уместен 301-редирект (ссылаться на уже существующий документ по другому URL). Так и сделал.
- Если ошибку совершил владелец площадки, то можно написать ему и попросить сменить адрес на корректный.
- Восстановить (если это уместно) или создать (если, например, линк с качественной площадки, а владелец не отвечает на письма) страницу по URL, который отдает 404-ошибку.
Вот таким нехитрым образом можно восстановить некоторые ссылки, которые могут быть полезны при продвижении сайта. Отличный пункт для todo-листа проекта с возрастом более 2-х лет. Не правда ли ? Это мероприятие можно проводить раз в 1-2 года, как для своих ресурсов, так и для клиентских сайтов.
Если вы знаете вариант, как проще найти подобные страницы, то напишите, пожалуйста, в комментариях. Буду рад ознакомиться. А то, может быть, изобрел велосипед .
Итоги деньрожденского мини-конкурса
Еще раз большое спасибо за ваши комментарии и поздравления! Подвожу итоги мини-конкурса. Как многие знают, в блоге стоит премодерация на комментаторов, у которых нет хотя бы одного одобренного комментария (защита от спамеров). В связи с этим та картина, которая была вчера, отличается от той, которая показывается сейчас: сегодня доодобрил все отзывы к посту.
Во-первых, это держало некоторую интригу. Во-вторых, не показывало пример очень настойчивых комментаторов . Итак, вот победители конкурса (номер комментария и имя):
13 - Бульбаш
26 - Сергей
39 - Александр
52 - Алексей
65 - fktrc
78 - albedo
Жду ваши R-кошельки, направленные с той же почты, с которой оставлялся отзыв . На сегодня все - до новых встреч!
Бульбаш везунчик)
Насчет пункта №2 — если пользуетесь блокнотом вроде Notepad++, то можно сделать так: в меню выбрать «Поиск» -> «Замена»; в поле «Найти» указать «\n» (без кавычек), в поле «Заменить на» указать «\ndomain.com» (без кавычек, вместо domain.com указать свой домен); «Режим поиска» переключить на «Расширенный». Нажать на кнопку «Заменить все» и домен добавится
Вроде очевидные вещи
Profitcore, точно, спасибо!
Сергей, вещи очевидные, а задача на первый взгляд все-таки не совсем стандартная
Годный пост, что-то новенькое. Спасибо и в закладки.
По пункту 2 в Excel используйте знак & (амперсанд) для объединения двух ячеек.
Для подстановки своего домена запишите его в ячейку, а затем объедините ссылку вида /otvety.html с вашим доменом.
=A1&B1
Воспользовалась предложенным методом, нашла около 20 страниц со статусом 404. Давно хотела проверить ссылки, но не видела верного решения. Скажите, пожалуйста, как лучше сделать редирект на существующие страницы? С помощью файла .htaccess, или есть другой способ? Спасибо.
Сергей, спасибо за информацию
Юлия, https://sosnovskij.ru/poisk-udalennyh-stranic-s-obratnymi-ssylkami/#i-3 здесь 3 варианта
Информация отличная и своевременная.
Кстати, спасибо за подарок за конкурс на день рождения, выплату получил, еще раз с наступившим!!!
Вообще очень хороший и полезный пост. И поздравляю всех победителей!
Самый легкий способ поиска — это просто вбить в поисковые системы адрес сайта и перебирать в ручную все варианты, долго, нудно, но зато эффективно.
Бузони, каким образом? Можно подробнее?
Мне Яндекс.Вебмастер сам их показывает, после чего я делаю редирект данного адреса на оглавление или на подобную страницу.
BOMBERuss, раньше в Я.вебмастере подобной информации не было