- Почему проиндексированная страница может покинуть serp
- Что представляет из себя индекс google
- Как узнать, что сайт плохо индексируется?
- Nofollow и noindex
- Rel=”canonical”
- В чем разница между индексированием и ранжированием
- Выходной файл в сервисе проверки индексации
- Использование поисковых операторов
- Как выглядит индекс google
- Как закрыть сайт от индексации
- Как работает индексирование
- Как создается индекс google: все этапы
- Как ускорить индексацию
- Канонические страницы
- Методы ускоренной индексации
- Можно ли ускорить индексирование новых страниц
- Названо условие для повышенной индексации пенсий
- Панели вебмастера
- Причины выпадения страниц из индекса
- Причины плохой индексации сайта
- Проверка индексации с помощью rds бара
- Проверка проиндексированных страниц
- Руководство по работе с редактированием задачи
- Способ №3
- Способы управления индексацией сайта
- Заключение
Почему проиндексированная страница может покинуть serp
Причин выпадения из индекса довольно много. Я перечислю самые распространенные, с которыми сам регулярно сталкиваюсь:
Что представляет из себя индекс google
Как мы уже выяснили выше, индекс – это большая база данных, которая состоит из нескольких ключевых разделов. Углубляться в них не буду – это не так важно. Скажу лишь, что в этой базе данных имеются сведения о нескольких миллионах страниц. При сканировании краулеры «ощупывают» не только видимую посетителю текстовую информацию страницы, но и другие данные: атрибуты документа, информацию из тегов (alt, title, description), другие технические данные.
Как узнать, что сайт плохо индексируется?
Сайт или страница редко индексируется, если дата сохраненной копии (кеша) старше двух недель. Проверяем дату кеша документа в Google через оператор cache: cache:analitik-expert.ru
Если дата кэшированной копии старше месяца – с индексацией серьезные проблемы. Результаты сканирования вашего сайта поисковыми системами можно посмотреть в специальных отчетах Google и Яндекс. Для поисковой системы Google данный отчет доступен в сервисе Search Console. Вот что пишет Google о своем отчете:
Пример отчета в Google Search Console:
Такого же типа отчет есть и в Яндексе. Доступен он в Яндекс Вебмастер. Визуализация отчета:
Чаще всего, проблема краулинга касается только очень больших сайтов. Если ваш сайт имеет до 1000 страниц и они индексируются раз в месяц или реже, то основная причина плохой индексации где-то на самих страницах. Рассмотрим основные ошибки, влияющие на сканирование и индексирование страниц.
Nofollow и noindex
Для настройки индексации используются также специальные атрибуты и html-теги.
У «Яндекса» есть собственный тег <noindex>, с помощью которого можно указать роботу, какую часть текста он не должен индексировать. Чаще всего это служебные части текста, которые не должны отображаться в сниппете, или фрагменты, которые не должны учитываться при оценке качества страницы (неуникальный контент).
Проблема в том, что этот тег практически никто кроме «Яндекса» не понимает, поэтому при проверке кода большинство валидаторов выдают ошибки. Это можно исправить, если слегка изменить внешний вид тегов:
Rel=”canonical”
Еще один способ борьбы с дублями – использование атрибута rel=”canonical”. Для каждой страницы можно задать канонический (предпочитаемый) адрес, который и будет отображаться в поисковой выдаче. Прописывая атрибут в коде дубля, вы «прикрепляете» его к основной странице, и путаницы c ee версиями не возникнет. При наличии у дубля ссылочного веса он будет передаваться основной странице.
Вернемся к примеру с пагинацией в WordPress. С помощью плагина All in One SEO можно в один клик решить проблему с дублями этого типа. Посмотрим, как это работает.
Зайдем главную страницу блога и откроем, к примеру, вторую страницу пагинации.
Теперь посмотрим исходный код, а именно – тег <link> с атрибутом rel=”canonical” в разделе <head>. Изначально он выглядит так:
В чем разница между индексированием и ранжированием
Начинающие вебмастера и оптимизаторы часто путают индексирование с ранжированием. Эти понятия взаимосвязаны, но обозначают разные явления и процессы.
Ранжирование – конечная сортировка сайтов, которые находятся в выдаче, и присвоение им определенных позиций или рангов. Конкретный ранг может быть дан определенной странице, когда она окажется в индексе, и только в тот момент, когда пользователь осуществит поиск по какой-то фразе. Такой порядок внедрен, чтобы обеспечить наличие максимально релевантных страниц в результатах поиска.
Индексирование – процесс добавления (обновления) данных о странице.
Выходной файл в сервисе проверки индексации
В файле каждый URL будет помечен как 1 или 0 (1 – страница находится в индексе поисковой системы, 0 – страница не в индексе).
Проверка индексации страниц сайта в Rush Analytics
Использование поисковых операторов
Поисковые системы разработали специальные поисковые операторы, позволяющие уточнять поисковой запрос. Например, с помощью оператора «site:» можно узнать приблизительное количество проиндексированных страниц.
Большая разница между количеством проиндексированных страниц в Яндексе и в Google может свидетельствовать о том, что у сайта проблемы с технической оптимизацией.
С помощью оператора url: в Яндексе можно проверить проиндексирована ли конкретная страница:
Как выглядит индекс google
Google использует так называемый инвертированный (преобразованный в противоположную сторону) индекс. Условно, краулеры сперва проверяют код ответа сервера, затем – данные из хед и данные по индексации. Только после всех этих технических проверок следует проверка текста. Схематично инвертированный индекс выглядит следующим образом:
Как закрыть сайт от индексации
Если вам по какой-то причине нужно, чтобы сайт исчез из выдачи всех поисковых систем, сделать это очень просто:
Крайне желательно делать это, пока сайт находится в разработке. Чтобы снова открыть сайт для поисковых роботов, достаточно убрать слеш (главное – не забыть это сделать при запуске сайта).
Как работает индексирование
Индексирование происходит благодаря краулеру: он обходит страницы всех сайтов в интернете и отправляет получаемую информацию в базу данных поисковой системы. Она и называется индексом. В дальнейшем собранные данные задействуются по-разному. Частично – для выстраивания ранжирования и формирования максимально релевантных поисковой фразе результатов поиска. Частично – для иных, например, служебных целей.
Поисковик может использовать данные только с тех страниц, которые уже были проиндексированы им. Пока первичная индексация не состоялась, его не будет существовать для Google. Зато после Google быстро найдет любую информацию в своих базах данных, и поиск по нескольким миллионам страниц займет считанные миллисекунды.
Стоит отметить, что, даже если краулер уже «обошел» страницу, это не гарантия того, что она мгновенно или вообще когда-либо попадет в поисковую выдачу. Да, краулер обходит абсолютно все страницы, но в SERP попадают только страницы с полезным и уникальным контентом.
Тяжело создавать контент, который удовлетворит не только запросы поисковиков, но и пользователей? Обращайтесь за помощью в «Текстерру».
Обмануть поисковую систему точно не удастся, а если и удастся, то ненадолго: для распознавания некачественного контента у Google есть собственные наработки, защищенные патентами.
Индекс E-A-T, рейтинг Page Quality и алгоритм BERT – все эти разработки позволяют точно определять полезность контента на странице и автоматически распознать его качество. В их основе лежит взаимодействие машинного обучения и других разработок Google, связанных с оценкой пользовательского опыта.
Как создается индекс google: все этапы
Если представить формирование индекса поэтапно, он будет включать в себя четыре стадии.
- Первая – извлечение текста. На этой стадии происходит конвертирование страницы и «удаление» с нее всех вспомогательных элементов: текст отделяется от остальных составляющих, включая изображения, разметочные и структурные элементы.
- Вторая – формирование списка слов-лексем. Краулер формирует специальную выборочную совокупность. Делается это, чтобы в дальнейшем выделить так называемую лексему. Если вы имеете какое-то отношение к изучению русского языка, то знаете, что в лингвистике термин «лексема» передает некое слово или выражение, которые принято считать за одну единицу. Собственно, аналогичные лексемы выделяются и на втором этапе индексирования страницы. Лексемы собираются со всех текстов (точнее, выделяются со всех слов), которые есть на странице.
- Третья – упорядочивание и обработка. На этой стадии все сформированные лексемы выстраиваются в алфавитном порядке, нумеруются. Так каждая лексема получает собственный номер страницы (обозначает первоначальный источник происхождения лексемы) и номер вхождения.
- Четвертая – формирование индексной записи. Выглядит она следующим образом:
Краулеры могут сформировать и более сложную запись, но ее скелет все равно будет иметь в основе нарисованную выше схему.
Как ускорить индексацию
Поисковые системы рано или поздно узнают о вашем сайте, даже если вы ничего для этого не сделаете. Но вы наверняка хотите получать клиентов и посетителей как можно раньше, а не через месяцы, поэтому затягивать с индексацией – себе в убыток.
Регулярное быстрое индексирование необходимо не только новым, но и действующим сайтам – для своевременного обновления данных в поиске. Представьте, что вы решили оптимизировать старые непривлекательные заголовки и сниппеты, чтобы повысить CTR в выдаче. Если ждать, пока робот сам переиндексирует все страницы, можно потерять кучу потенциальных клиентов.
Вот еще несколько причин, чтобы как можно быстрее «скормить» роботам новые странички:
- На сайте публикуется контент, быстро теряющий актуальность. Если сегодняшняя новость проиндексируется и попадет в выдачу через неделю, какой от нее толк?
- О сайте узнали мошенники и следят за обновлениями быстрее любого робота: как только у вас публикуется новый материал, они копируют его себе и благополучно попадают на первые позиции благодаря более быстрому индексированию.
- На страницах появляются важные изменения. К примеру, у вас изменились цены или ассортимент, а в поиске показываются старые данные. В результате пользователи разочаровываются, растет показатель отказов, а сайт рискует опуститься в поисковой выдаче.
Ускорение индексации – работа комплексная. Каких-то конкретных способов здесь нет, так как каждый сайт индивидуален (как и серверы, на которых они расположены). Но можно воспользоваться общими рекомендациями, которые, как правило, позитивно сказываются на скорости индексирования.
Перечислим кратко, что можно сделать, чтобы сайт индексировался быстрее:
Канонические страницы
С помощью настройки канонического адреса (canonical) можно явно поисковым системам указать, какая страница является предпочтительной для индексации. Настраивать атрибут canonical необходимо в том случае, если на сайте присутствуют документы с одинаковым содержанием:
- страницы пагинации;
- страницы с UTM-метками;
- страницы фильтрации;
- и др
Для настройки канонических страниц необходимо в разделе head указать следующий код:
Методы ускоренной индексации
Если страница новая или отсутствует в индексе по какой-то причине (и причина выпадения из индекса исправлена), то с помощью следующих способов, можно ускорить добавление ее в индекс:
- Указание страницы (страниц) в файле sitemap.xml с датой обновления и приоритетом на индексирование;
- Отправка в инструмент “Переобход страниц” в Яндексе;
- Размещение ссылок на документ на внешних ресурсах;
- Размещение ссылок на документ в социальных сетях;
- Получение моментального трафика с хорошей активностью, где источником трафика может быть даже e-mail-рассылка;
- Корректная настройка внутренней перелинковки на сайте.
Можно ли ускорить индексирование новых страниц
Можно, но не прямым образом. Если страница долго не появляется в результатах поиска, нужно убедиться, что она не закрыта для краулеров.
Названо условие для повышенной индексации пенсий
МОСКВА, 28 июн — ПРАЙМ. Индексация пенсий может вырасти за счет доходности, которую приносит Пенсионный фонд России (ПФР) инвестирование средств, считает член комитета Госдумы по финансовому рынку Алексей Изотов, пишет URA.RU.
“Нужно задуматься о том, что приносит нормальную хорошую доходность, а не пассивный доход от депозитов”, — цитирует СМИ депутата.
Он напомнил, что ПФР ранее размещал средства под 1-2% годовых, и это вызывало много нареканий к его работе, но нужно быть активнее. По его словам, “есть множество разных инструментов, например облигации федерального займа (ОФЗ), которые гарантируют доходность от государства.
Также депутат обратил внимание на рынок недвижимости, который показывает рост последнее время.
Панели вебмастера
«Яндекс.Вебмастер» и Google Search Console предоставляют подробную информацию об индексировании. Так сказать, из первых уст.
В старой версии GSC можно также посмотреть статистику сканирования и ошибки, с которыми сталкиваются роботы при обращении к страницам.
Подробнее о данных об индексировании, представленных в панелях вебмастеров, можно почитать в соответствующих разделах наших руководств по «Яндекс.Вебмастеру» и Google Search Console.
Причины выпадения страниц из индекса
Большое количество выпавших посадочных страниц из поиска Яндекса и Google приводит к падению позиций сайта и трафика. Можно выделить несколько основных причин выпадения страниц из индекса поисковых систем:
Для предотвращения выпадения посадочных страниц ресурса из индекса поисковых систем следует следить за технической оптимизацией сайта и своевременно устранять возникающие ошибки. Но если, поисковая система удалила страницу из поиска, то следует воспользоваться следующим алгоритмом:
- Определить причину выпадения из индекса;
- Устранить причину;
- Отправить выпавшую страницу на индексацию (переиндексацию).
Причины плохой индексации сайта
Чтобы разобраться, почему сайт плохо индексируется, нужно определиться с понятиями «краулинг» и «краулинговый бюджет».
Краулинг — это процесс сканирования страниц ботами поисковых систем. Основная цель краулинга — найти максимальное количество полезных и актуальных документов.
Краулинговый бюджет — это лимит, который выделяется каждому сайту на сканирование. Другими словами это ограничение числа страниц, которые поисковый робот может просканировать в заданный промежуток времени. Краулинговый бюджет рассчитывается для каждого сайта отдельно, исходя из частоты обновления контента, качества ресурса, ответа сервера, размера страниц и других параметров.
Логично, если на сайте 10 страниц и ничего не меняется годами – роботы поисковых систем не будут сканировать такие сайты часто. Нет смысла тратить ресурсы на эту задачу.
Исходя из понятия «краулинга» и нашего SEO-опыта рассмотрим ошибки и способы их исправления.
Проверка индексации с помощью rds бара
Панель инструментов RDS бар — это плагин для браузеров Google Chrome и Mozilla Firefox, который в браузере отображается в виде дополнительной панели инструментов. Данный плагин позволяет быстро просмотреть основные показатели ресурса:
- количество проиндексированных страниц в Яндексе и в Google;
- проиндексирована ли текущая страница в Яндексе и в Google;
Проверка проиндексированных страниц
Для проверки корректной индексации ресурса можно воспользоваться несколькими способами.
Руководство по работе с редактированием задачи
Здесь можно:
Способ №3
Можно посмотреть, есть ли конкретная страница в выдаче, используя тот же алгоритм, что и в способе №1. В этом случае нужно добавить site: к конкретному url-адресу. Пример:
Способы управления индексацией сайта
Для того чтобы оптимизировать расход краулингового бюджета необходимо корректно управлять индексацией сайта – давать возможность индексировать роботам только те страницы, которые важны для продвижения ресурса.
Заключение
Управление индексацией – важная часть работы при продвижении. В отличие от работы с внешними факторами поисковой оптимизации – возможность влиять на индексацию страниц всегда доступна и изменения быстрее отражаются в индексе поисковых систем, но лучше всего предусмотреть грамотное взаимодействие сайта с поисковыми роботами еще на этапе разработки ресурса.
Важно вовремя отслеживать все внутренние ошибки на сайте, чтобы иметь возможность быстро их устранить до того, как поисковые системы удалят страницы из индекса. А если это уже произошло – необходимо оперативно отправить выпавшие (либо новые) страницы на индексацию.