22.05.2015

Ищем причины плохой индексации сайта

Используйте чек-лист и будьте на виду поисковых систем
Опубликовано: 22.05.2015 | 1788

 

Вы работаете над сайтом, а поисковые системы в упор не желают видеть страниц ресурса? Нам знакома эта проблема и причин может быть несколько:

  1. Робот не знает о существовании страницы или ресурса в целом.
  2. Робот не имеет доступа к странице или ресурсу в целом.
  3. Ресурс находится в «бане».
  4. Имеют место технические ошибки
  5. Качество страниц или ресурса в целом недопустимо низко.

Давайте уточним каждый из пунктов и решим, что с этим делать.

Причина №1: Робот не знает о существовании страницы или ресурса в целом

а) Робот просто не успел побывать на вашей странице

Поисковые системы замечают новые ресурсы и страницы не сразу. Сигналом о вас может послужить внешняя или внутренняя ссылка или заход на сайт из браузера, в который установлен тулбар. Альтернативный вариант – вы сами можете сообщить поисковикам о новых страницах:

  • В Яндекс.Вебмастере есть кнопка «»: вставляете ссылку и жмете «Проверить».Проверить URL в Яндекс.Вебмастере
  • В Инструментах для веб-мастеров Google открываете вкладку сканирование и выбираете пункт «Посмотреть как Googlebot»:

Посмотреть как Googlebot

Такая операция не отправит ресурс в индекс мгновенно, но ускорит знакомство поисковиков с сайтом.

Не стоит паниковать, даже если сервер говорит, что робот бывал на сайте, но страница не попала в индекс (так чаще всего бывает с Яндексом). Дождитесь следующего апдейта поисковой системы. Имейте в виду, что Google по сути находится в процессе постоянного обновления, а апдейты Яндекс случаются в среднем 1 раз в 2 недели. Так что самый оперативный срок попадания в его индекс – 2 недели. Если вы оказались там раньше, сайт был замечен быстроботом: такие позиции могут слететь до появления основного робота.

b) Нет внутренних/внешних ссылок

Чем выше активность сайта, тем чаще робот индексирует его. И наоборот. Если ваш сайт обновляется редко, появление ботов будет праздником. И хорошо, если робот найдет подсказки о появлении новой страницы в виде ссылок с главной или со сторонних ресурсов. Без таких дело может затянуться.

Причина №2: Робот не имеет доступа к странице или ресурсу в целом

И это могло стать последствием даже ваших действий, направленных, например, на оптимизацию сайта.

а) Домен не привязан к определенному серверу (не делегирован) или снят с делегирования (запланировано или принудительно по жалобе)

В обоих случаях пользователи не смогут попасть на сайт по вашему доменному имени. Жалоба может быть подана, например, на пиратский контент – музыку, клипы и прочую интеллектуальную собственность иных обладателей, если она размещена на сайте без согласия последних.

b) Доступ закрыт через txt

Это может произойти по вине разработчиков, которые на момент работ по тестированию добавляют директиву “Disallow: /”, чтобы сайт не индексировался, и забывают её удалить после «выката» сайта. Либо же закрытой может оказаться папка с шаблонами, скриптами и изображениями.

Если ваш домен имеет файл /robots.txt, откройте его и проверьте каждый из разделов: закрыто лишь то, что не должно индексироваться поисковой системой?

c) Доступ закрыт через тег meta-robots

Еще один способ спрятать страницу от поисковых систем. Хоть нужно отметить, все более редкий способ (прочем, WordPress его активно использует). Многие из современных CMS позволяют легко задавать этот тег, допуская или запрещая индексацию страниц. Проверьте, не содержит ли ваш meta-robots  CONTENT="NOINDEX, NOFOLLOW"

d) Доступ закрыт через User-Agent или IP

Это касается хостера. Был, например, прецедент с поисковой системой Yahoo, которая так дотошно исследовала большие сайты, что хостинг ложился и его владельцам приходилось блокировать бот по IP.

Стоит проверить, и не находится ли ваш адрес в черном списке. Для этого проанализируйте access_log: если сайт доступен поисковикам, должны быть признаки посещения ботов. И напоследок обратитесь к программистам своего ресурса: теоретически их система может блокировать ресурс.

e) Доступ закрыт через http-заголовки X-ROBOTS-TAG

Причина совсем уж нечастая, однако вполне вероятная. Страницы ресурса могут отдавать разные заголовки. Проверьте, как это происходит у вас и включают ли заголовки x-robots-tag.

f) Сайт использует ajax-элементы или flash

А поисковые системы им не симпатизируют. Если структура такого сайта будет слишком сложной, бот может считать его некорректно. Чтобы убедиться, что все в порядке, зайдите в меню «Сканирование» Веб-мастера ».

g) Доступ закрыт через тег noindex

Тег полезный, а потому любимый. Но переусердствовать можно даже с положительными приемами. Проверьте все, что закрыто от индекса тегом noindex: нет ли среди «скрытых» элементов хорошего уникального контента, который увеличил бы вес сайта, если бы был зафиксирован поисковиком?

Причина №3: Ресурс находится в бане

У поисковых систем есть свои черные списки, в которые можно попасть несколькими путями:

а) Наложение санкций

В одних случаях наложение санкций сопровождается предупреждением, в других – вы можете отнюдь не сразу понять, что что-то не так. Причинами для наложения санкций могу стать:

  • Плохая история домена. Проверить её можно, воспользовавшись сервисом WebArchive.
  • Дубль сайта на другом домене (афиллиат).
  • Абсолютное отсутствие чего-либо ценного для человека; ориентация на поисковые системы.
  • Черное seo-продвижение сайта (огромное количество спамных ссылок, некачественные доноры, скрытые и перенасыщенные ключами seо-тексты и т.д.).

b) Заражение вирусом

Так могут поступить недоброжелательные конкуренты: взломать ресурс и поместить в него вредоносный код. Как только поисковая система обнаружит его, доверие будет потеряно, а развитие событий может стать самым разным (сайт вылетит из индекса сразу или через время; не вылетит, но новые страницы не будут индексироваться и т.д.).

Причина№4: Имеет место техническая ошибки

Такие ошибки могут быть элементарными (и, тем не менее, важными для поисковых систем). Корректная настройка быстро исправит ситуацию.

  • Ошибка в http-заголовке

Страницы, открытые к индексу, должны отдавать код ответа сервера «200». Для проверки можно использовать "консоль разработчика", плагин Firebug или сервис https://2ip.ru/server-response/

  • Ошибка в DOCTYPE

Для того чтобы боты правильно считывали ваши страницы, определяли виды контента и понимали главные блоки, html-коды должны соответствовать стандартам. Проверьте свои и убедитесь, что в них нет лишних тегов.

  • Некорректные редиректы

Самая распространенная проблема – использование временного 302-го редиректа вместо постоянного 301-го. Для пользователя, может, это и не важно, зато вы теряете вес старой страницы и она начинает индексироваться как новая. Ошибки индексации также могут случаться из-за некорректно прописанного тега rel=“canonical”.

  • Проблемы с кодировкой

Как правило, поисковые системы быстро и без проблем определяют нужную кодировку. Но может случиться и иначе и пользователь увидеть набор замысловатых символов вместо связанного набора букв, который несет смысл. Так происходит, когда контент страницы имеет одну кодировку, мета-теги – другую, а http-заголовок – третью.

Причина№5: Качество страниц или ресурса в целом недопустимо низко

Если проблем с перечисленными выше пунктами нет, поисковые системы приступают к оценке сайта и здесь также могут возникнуть сложности. Дело в том, что изначально поисковик дает вашему сайту квоту: индексирует определенное количество страниц и, если они вызывают доверие, постепенно «считывает» остальные страницы, добавляя их в индекс. Если же доверие не оправдывается, ресурс может попасть в так называемую «песочницу» и еще очень долго не фигурировать в результатах выдачи. Что же может расстроить поисковую систему и с самого знакомства усложнить взаимоотношения с поисковыми системами?

  • Неуникальный контент

Может случиться так, что поисковая система проиндексирует ваш сайт и увидит сотни страниц, но при этом не допустит их к ранжированию и выдаче. Так всегда происходит с сайтами, которые копируют чужой контент.

  • Дублирующийся контент

В данном случае речь о дублированном внутреннем контенте. Слишком схожие страницы сайта будут оценены как бесполезные и определены не в основной, а в дополнительный индекс. Если это вам не на руку, потрудитесь сделать страницы оригинальными.

  • Слишком малые объемы уникального текста

Текста менее чем в 500 символов недостаточно, чтобы поисковая система определила его полезность. Даже если этот текст уникален. Поэтому имеет смысл распространять информацию. Конечно, если вы ходите видеть страницу в индексе.

  • Заголовки и тексты по шаблону

Конечно, возможность автоматической генерации заголовков, к примеру, по определенному заданному шаблону спасает в случае, когда речь идет о магазине с тысячами карточек товаров. Но поисковые системы шаблонности все-таки не любят. Поэтому в ваших интересах потратить время на написание оригинальных заголовков.  Такие страницы лучше попадают в индекс.

  • 4-й уровень вложенности

Показатель важности страницы напрямую пропорционален вложенности. Если хотите, чтобы поисковая система «съела» страницу и успешно демонстрировала её в выдаче, остановитесь на 2-ом–3-ем уровне вложенности.

  • Слишком много страниц 404

Несколько страниц с ошибками поисковики еще переварят (с кем не бывает?). Но много их быть не должно, в противном случае доверие к вам станет падать и это безусловно отразится на выдаче.

  • Медленная скорость загрузки

Этот фактор помешает не только вашей аудитории, но и поисковой системе: индексация пройдет лучше, если скорость загрузки будет оптимизирована.

Так что угождайте роботам: упрощайте коды, сжимайте изображения и делайте все, чтобы ресурс работал как можно быстрее!

 

Автор: Webmart Group



Статьи по теме