header 2018m

Stevsky.ru Начало Хистори Анализ ссылок

Анализ ссылок

detectiveПоиск и удаление внешних ссылок на сайте

Яндекс из года в год всё грозится снижением значимости ссылок при индексации ресурсов, однако их влияние не то что не уменьшается, но кажется, даже возрастает.

Так, если у вас на сайте много исходящих ссылок на сторонние ресурсы (вы продавали ссылки), то через них "утекает" ваш ТИЦ и из-за этого снижается посещаемость.

Большинство оптимизаторов советуют либо не давать исходящие ссылки вовсе, либо закрывать их в noindex+nofollow. И если на сайте 100 исходящих ссылок против 1000 входящих, то посещаемость у него так себе. Если же снизить число внешних ссылок до 10 или даже меньше, то индексация резко бьёт в потолок и приток посетителей происходит практически незамедлительно. Вот как важно убирать внешние ссылки...

Осознав сей факт, я задался вопросом, как же найти ВСЕ исходящие ссылки на сайте?

Полез в интернет в поисках инструмента и застрял там, потому как 99% результатов говорят о том, как найти ВХОДЯЩИЕ ссылки на сайт, а не исходящие с него.

И вот, спустя несколько месяцев, в очередной раз вернувшись к проблеме, я, наконец, нашёл подходящий инструмент! Им оказалась маленькая древняя утилита Xenu`s link sleuth - Сыщик ссылок Xenu, которая сканирует сайт и находит на нём ВСЕ ссылки: исходящие наружу, внутренние, битые, циклические, со сбоями в кодировке анкоров и т.д.

 

Утилита маленькая, быстрая, ресурсов жрёт кот наплакал. Однозначно рекомендуется к скачиванию!

strelka vniz 1

Xenu`s link sleuth (426КБ, установщик в архиве)

Помимо основной функции Xenu ещё и битые картинки находит... Красота! Давно хотел что-то подобное, такое же простое и бесплатное...

Ошибка 404 - страница не найдена

404 - самая распространённая проблема в инете и истинно головная боль всех вебмастеров. Появляется ошибка вследствие смены адресов материалов на сайте, что бывает при их переименовании или перемещении из раздела в раздел.

Всё было бы ничего, если бы материалы раз и навсегда получали жёсткий адрес вида сайт/?articleid=155 или типа того, но ведь в современном обществе требуются человеческие адреса: сайт/obzor-smartfonov/samsung-galaxy-s6 и всё такое. Это называется SEF-ссылки (Search-engines friendly) или ЧПУ (человеко-понятный УРЛ), и без них сайт индексируется намного хуже, ведь во всех чеклистах указано, что физический адрес страницы также должно быть оптимизирован и содержать ключевые слова. А это без SEF не бывает.

Так вот, SEF - штука подвижная. Переименовали вы статью, перенесли в другой раздел, или просто исправили опечатку, которая пошла в публикацию по недогляду - и ваш материал уже задвоился, зачетверился, размножился как тараканы... С одной стороны хорошо: яндекс вместо одной новой страницы видит N и считает, что у вас очень большой и активно наполняемый ресурс. Но в итоге всё печально: и поисковики в конце-концов соображают, что читают одну и ту же страницу с разными адресами, и редактор SEF-ссылок не безгрешен и у вас в структуре появляются пробелы. То тут, то там вылезают 404-е ошибки и приходится их выправлять.

У меня таких ошибок много по трём причинам: 

  1. Очень много статей
  2. Я их довольно часто перемещаю, улучшая структуру сайта
  3. Очень распространена внутренняя перелинковка статичными адресами

Причём все причины нужные и отказаться от любой из них нельзя. Потому как:

  • чем больше на сайте хороших, качественно написанных и уникальных статей, тем выше он в глазах у поисковиков
  • допиливание и переделка структуры - это норма. Объединить две категории в одну или, наоборот, разбить одну на несколько - это во-первых, полезно с эстетической точки зрения, а во-вторых, сильно подстёгивает всё ту же индексацию, ради которой и есть весь сыр-бор
  • внутренняя перелинковка необходима, это без комментариев, а вот статичные адреса опять же положительно влияют на индексацию внутренних ссылок. Можно каждую ссылку давать на технический адрес статьи (сайт/?articleid=155) и тогда она никуда не денется, но и перераспределение веса между страницами происходить не будет! А это, чёрт возьми, тоже важно!

Как найти все страницы 404 на сайте

 

Шарить по всем ссылкам наугад и искать 404-е ошибки - это дикость. Использовать яндекс.метрику и гугл аналитику вроде как эффективнее, но там есть свои нюансы. Я нашёл инструмент поиска 404-х страниц случайно и он меня полностью устроил.

Оказалось, что онлайн-генератор карты сайта freesitemapgenerator.com свою основную функцию исполняет фигово (яндекс отказался брать сгенерированный sitemap.xml), зато показывает ошибки на сервере и на сайте. 

С 500-503 ошибками я расквитался быстро, а вот список из сотни 404-х разгребаю уже который день...

Эррорлист указывает на какой странице нашёл битую ссылку и сам адрес, который не бьётся. Когда он отправляет меня в конкретную статью, тут всё просто, но вот когда ссылка расположена в блоге категории, тут начинается расследование: нужно открыть упомянутый блог, найти в нём нужную ссылку (а анкоры бывают ой какие неоднозначные!), определить, в какой статье произошёл косяк и после этого уже идти в админку с правками. 

После устранения всех 404 я прогнал сервис ещё разок и он нашёл мне новые полсотни багов, как будто в первый раз их и не было...

Сейчас добиваю вторую волну и готовлюсь пускать проверку в третий раз..

Как я исправляю ошибки 404

Вариантов у меня три:

  1. Удалить битую ссылку нахрен и забыть о ней
  2. Исправить ссылку, заменив либо на жёсткую привязку к структуре, либо на исправную полную ссылку с сайта
  3. Прописать 301-й редирект в Htaccess

Последний пункт актуален, когда в нескольких статьях я ссылался на один и тот же материал, а он потом сменил адрес. Чем править десяток статей с упоминанием этого материала, лучше один раз прописать редирект в htaccess и одним махом устранить десяток 404-х.

Редирект прописывается так:

Redirect 301 /старый_адрес_статьи http;//сайт/новый_адрес_статьи

Здесь важна семантика: пробел между Redirect и 301, затем пробел между 301 и старым адресом. Старый адрес пишется без www и названия сайта, просто внутренний адрес, начиная со слэша. Затем пробел и новый адрес с http и www

Здесь главное не переборщить и не создать вложенные или даже циклические редиректы, а то потом греха не оберёшься...

 



Новые материалы по этой тематике:
Старые материалы по этой тематике:

Обновлено ( 11.12.2015 00:42 )  

Цитата дня

Знать и думать, что не знаешь - высшее;
Не знать, а думать, что знаешь - ошибка.
Лао-Цзы

Популярное

Google+