SEO

Все о статусе «Страница просканирована, но пока не проиндексирована» в Google

Автор: Томек Рудзки (Tomek Rudzki) – специалист по техническому SEO, R&D-менеджер Onely.

В справочной документации Google определяет этот статус так:

«Страница просканирована, но пока не проиндексирована. В дальнейшем она может быть проиндексирована, а может и остаться в текущем состоянии; вновь отправлять этот URL на сканирование не нужно».

Обычно это объяснение не сильно помогает, особенно если это касается важной для бизнеса страницы. Google не проясняет, что именно случилось, и что может сделать владелец сайта. Он лишь говорит, что Googlebot просканировал страницу, но по какой-то причине решил ее не индексировать.

Согласно нашим данным, статус «Страница просканирована, но пока не проиндексирована» – это самая частая ошибка в отчете об индексировании. Это значит, что вы или уже сталкивались с ней, или столкнетесь в будущем.

Очень важно решить эту проблему максимально быстро: если страница не проиндексирована, она не будет появляться в результатах поиска и не получит органического трафика из Google.

В этой статье мы рассмотрим возможные причины возникновения этой ошибки и разберемся, как их устранить.

Где найти этот статус

Этот статус можно увидеть в отчете об индексировании и в инструменте проверки URL в Search Console.

Отчет об индексировании

URL со статусом «Страница просканирована, но пока не проиндексирована» относится к категории исключенных, и Google не считает отсутствие этой страницы в индексе ошибкой.

В Справке этот статус определяется так:

«Исключено. Страница не проиндексирована, скорее всего потому, что таково было ваше решение. В частности, это может быть связано с тем, что страница исключена вами при помощи директивы noindex или является копией уже проиндексированной канонической страницы».

Прим. ред.: интересно, что в англоязычной версии Справки упор делается на решение Google, а не владельца сайта: «These pages are typically not indexed, and we think that is appropriate. These pages are either duplicate of indexed pages, or blocked from indexing by some mechanism on your site, or otherwise not indexed for a reason that we think is not an error». При переводе этот смысл потерялся, но именно на него ориентируется автор статьи.

После клика по статусу «Страница просканирована, но пока не проиндексирована» отображается список всех таких URL. В первую очередь нужно будет заняться теми страницами, которые являются наиболее ценными для сайта.

Отчет также можно выгрузить. Однако экспортировать можно лишь до 1000 URL. Если затронуто больше страниц, то можно увеличить количество экспортируемых URL, отфильтровав их по Sitemap. Например, если у сайта два файла Sitemap, в каждом из которых по 1000 URL, то их можно будет скачать по отдельности.

Инструмент проверки URL

Найти страницы со статусом «Страница просканирована, но пока не проиндексирована» также можно с помощью инструмента проверки URL в Search Console.

Верхний раздел отчета показывает, может ли страница быть найдена в Google. Если в отчете об индексировании проверяемый URL отнесен к категории «Исключено», то инструмент сообщит, что страница отсутствует в индексе, но это не связано с ошибкой.

Ошибка в отчетности: страница на самом деле может быть проиндексирована

    Заметив статус «Страница просканирована, но пока не проиндексирована», первое, что нужно сделать – проверить, действительно ли страницы нет в индексе. Нередко можно увидеть, что страница помечена как просканированная, тогда как инструмент проверки URL показывает, что на самом деле она проиндексирована.

    Инструмент проверки URL также позволяет получить более детальную информацию о конкретной странице, включая:

    • Ошибки индексации;
    • Ошибки структурированных данных;
    • Оптимизация для мобильных и т.д.

    Также можно просмотреть загруженные ресурсы (например, JavaScript), запросить индексацию и увидеть обработанную версию страницы.

    Важно помнить, что данные о статусе индексации страницы в отчете об индексировании и инструменте проверки URL могут не совпадать. Согласно Google, это связано с тем, что в отчете об индексировании данные обновляются немного по-другому и медленнее, чем в инструменте проверки URL. Однако это не всегда задержка. Иногда это баг в работе отчетности.

    В сентябре мы заметили, что некоторые из наших проиндексированных статей получили статус «Страница просканирована, но не проиндексирована» в Search Console. Это определенно не было задержкой, поскольку также были затронуты и более старые статьи.

    Вскоре после этого на проблему обратили внимание и другие специалисты, в том числе Лили Рэй (Lily Ray):

    Что делать в такой ситуации и какому отчету доверять

    Как правило, инструмент проверки URL показывает более актуальные данные, чем отчет об индексировании. Поэтому, выбирая между этими двумя отчетами, ориентируйтесь на данные инструмента проверки URL.

    Причины возникновения такой ошибки и как ее устранить

    Теперь давайте перейдем к сути проблемы: почему появляется этот статус, и что можно сделать, чтобы страницы были проиндексированы.

    Google не дает четкого ответа, почему страница получила такой статус, но есть несколько возможных причин, по которым он может появиться. В их числе:

    • Задержка индексации
    • Страница не соответствует стандартам качества
    • Страница была деиндексирована
    • Проблема с архитектурой сайта
    • Проблемы с дублированным контентом

    Задержка индексации

    Для индексации нужно время. Интернет бесконечно велик, и Google должен определить, какие страницы будут проиндексированы в первую очередь.

    В своей статье Ultimate Guide to Indexing SEO мы показали, сколько времени обычно требуется страницам на популярных сайтах для индексации. Вот некоторые результаты из нашего исследования:

    • Google индексирует только 56% индексируемых URL через 1 день после публикации.
    • Через 2 недели индексируется 87% URL-адресов.

    Если вы только что опубликовали страницу, вполне нормально, если она пока не проиндексирована. Нужно немного подождать, и она появится в индексе.

    Решение

    Вы не можете повлиять на сканирование и индексирование страницы в краткосрочной перспективе, но есть несколько вещей, которые помогут сайту в более долгосрочном периоде:

    • Создайте стратегию индексирования, чтобы помочь Google приоритизировать нужные страницы на сайте. Для этого следует решить, какие страницы должны индексироваться, и выбрать лучшие методы сообщить об этом Google.
    • Убедитесь, что на те страницы, которые для вас важны, есть внутренние ссылки. Это поможет Google найти эти страницы и лучше понять их контекст.
    • Создайте хорошо оптимизированную карту сайта. Перечислите в ней самые ценные URL. Google будет использовать этот файл в качестве дорожной карты и сможет быстрее находить страницы.

    Страница не соответствует стандартам качества

    Google не может индексировать все страницы в интернете. Хранилище ограничено и поэтому необходимо фильтровать низкокачественный контент.

    Цель Google – предоставлять пользователям страницы высокого качества, которые лучше всего отвечают их намерению. Это значит, что если страница более низкого качества, то Google может ее проигнорировать, чтобы оставить место для более качественного контента. И мы ожидаем, что в будущем стандарты качества будут лишь ужесточаться.

    Решение

    Как владелец сайта, вы должны убедиться, что каждая страница содержит контент высокого качества. Проверьте, может ли страница удовлетворить намерение пользователя, и добавьте качественный контент при необходимости.

    В справочном руководстве по ключевым обновлениям Google предлагает список вопросов, которые помогают определить ценность контента. Вот некоторые из них:

    • Размещены ли на сайте оригинальные материалы (факты, репортажи, исследования, аналитика)?
    • Содержит ли ваш сайт глубокую аналитику или интересные и неочевидные факты?
    • Если взят контент из других источников, то переработан ли он в достаточной мере, чтобы представлять существенную ценность в таком виде?
    • Готовы ли вы поделиться такой страницей с друзьями, добавить ее в закладки или порекомендовать другим пользователям?

    Кроме того, вы можете воспользоваться советами по качественному контенту из Руководства для асессоров Google. Хотя этот документ ориентирован прежде всего на асессоров, чтобы они могли оценивать качество сайтов, вебмастера могут использовать его для улучшения собственных ресурсов.

    UGC-контент

    Генерируемый пользователями контент тоже может быть проблемой с точки зрения качества. Например, у вас есть форум, и кто-то задает вопрос. Если на момент сканирования ответов в теме не было, то Google может квалифицировать эту страницу как низкокачественный контент – несмотря на то, что такие ответы могут появиться в будущем.

    Как защититься от такой ситуации?

    Сервис вопросов и ответов Quora разработал отличную стратегию на этот случай: любой неотвеченный вопрос имеет префикс /unanswered/ в URL. Например:

    https://www.quora.com/unanswered/Are-you-really-happy-with-your-results

    Файл robots.txt блокирует все страницы с префиксом /unanswered/. В итоге Googlebot не может их сканировать. Как только в теме появляется ответ, URL меняется и становится доступным для сканирования.

    Таким образом Quora блокирует доступ к потенциально низкокачественному контенту, генерируемому пользователями.

    Google удалил страницу из индекса

    URL может получить статус «Страница просканирована, но не проиндексирована», если страница была проиндексирована, но со временем Google решил удалить ее из индекса.

    Почему страницы могут выпадать из индекса? Google может заменять их на более качественный контент.

    Также важно следить за обновлениями поисковых алгоритмов. Деиндексация может стать результатом одного из таких апдейтов.

    Выпадение страниц из индекса также может быть связано со сбоем на стороне Google. Такие ситуации тоже возможны. Например, Google как-то удалил из индекса сайт Search Engine Land потому что ошибочно решил, что он был взломан.

    Решение

    Решение для деиндексированных страниц тесно связано с их качеством. Следите за тем, чтобы страница предоставляла качественный и актуальный контент. Не думайте, что если страница проиндексирована, то больше ничего с ней делать не нужно. Продолжайте отслеживать и внедряйте изменения и улучшения при необходимости.

    «Если после определенного ключевого обновления эффективность страниц снизилась, это не значит, что с ними что-то не так. Они не нарушают наши рекомендации для вебмастеров, и к ним не применялись никакие меры – ни вручную, ни автоматически. Ключевые обновления не нацелены на конкретные страницы и сайты. Они предназначены для того, чтобы наши системы могли в целом лучше оценивать контент», — объяснили в Google.

    Прим. ред. В англоязычной версии документа, опять же, смысл немного другой: «Убедитесь, что предлагаете максимально качественный контент. Это то, что наши алгоритмы стремятся вознаграждать».

    После устранения проблем отправьте запрос на повторную индексацию этих URL, чтобы Google быстрее увидел изменения.

    Проблемы с архитектурой сайта

    Когда сотрудника Google Джона Мюллера спросили о возможных причинах, по которым страница может иметь статус «просканирована, но пока не проиндексирована», он упомянул еще одну возможную причину – плохую структуру сайта.

    Например, на сайте есть страница хорошего качества, но Google может найти ее только через файл Sitemap. Googlebot может посетить эту страницу и просканировать ее, но поскольку внутренних ссылок нет, он может решить, что эта страница менее ценная, чем другие. На сайте нет никакой семантической или структурной информации, которая помогла бы ему должным образом оценить страницу. И это может быть одной из причин, по которой Google решил сосредоточиться на других страницах, а эту оставить без индексации после сканирования.

    Решение

    Хорошая архитектура сайта является ключом к тому, чтобы максимально увеличить шансы на индексацию. Продуманная структура позволяет роботам поисковых систем обнаруживать контент и лучше понимать взаимосвязь между страницами.

    Вот почему так важно обеспечить хорошую архитектуру сайта и внутренние ссылки на ту страницу, которую нужно проиндексировать.

    Дублированный контент

    В октябре 2021 года SEO-консультант Адам Гент (Adam Gent) поделился интересным кейсом. Его страница получала статус «Просканирована, но пока не проиндексирована», поскольку Google посчитал ее дубликатом.

    Google хочет предоставлять уникальный и ценный контент своим пользователям. Поэтому, когда при сканировании он видит, что некоторые страницы идентичны или практически идентичны, то может индексировать лишь одну из них.

    Обычно страницы, не попавшие в индекс по этой причине, в отчете об индексировании получают статус «Страница является копией», однако не всегда. Иногда Google присваивает им статус «Страница просканирована, но пока не проиндексирована».

    Почему Google может выбирать этот статус, до конца не понятно. Одно из возможных объяснений состоит в том, что этот статус может измениться в будущем, когда Google увидит, что есть более подходящий URL.

    Также причина может быть в ошибке: Google может попросту ошибиться при назначении статуса. Такая ситуация более сложная, поскольку статус «Страница просканирована, но пока не проиндексирована» не дает столько информации, как специальный статус для дублированного контента.

    Как проверить, показывается ли дубликат в результатах поиска:

    • Перейдите на страницу, которая не проиндексирована, и скопируйте небольшой фрагмент текста.
    • Возьмите его в кавычки и выполните поиск по этому запросу в Google.
    • Проанализируйте результаты. Если в выдаче присутствует другой URL с этим текстом, значит ваша страница не индексируется, потому что Google выбрал другой URL.

    Решение

    Прежде всего, убедитесь, что создаете оригинальные страницы. Если необходимо, добавьте уникальный контент.

    К сожалению, избежать появления дублированного контента не всегда возможно апример, если есть мобильная и десктопная версия сайта). У нас не так много контроля над тем, что появляется в результатах поиска, но мы можем дать Google некие подсказки о том, какая версия является оригиналом.

    Если вы видите, что Google индексирует много дублированного контента, то проверьте следующие элементы:

    • Канонические теги. Эти HTML-теги сообщают поисковым системам, какие версии страниц являются оригиналами.
    • Внутренние ссылки. Убедитесь, что внутренние ссылки указывают на оригинальный контент. Google может использовать это как индикатор важности страницы.
    • Файлы Sitemap. Убедитесь, что в них содержится только каноническая версия страницы.

    Помните, что это только подсказки, и Google не обязан им следовать. В случае, описанном Адамом Гентом, Google выбрал для индексации RSS-фид, хотя многие сигналы указывали на другой URL. Адам решил проблему, настроив ошибку 404, чтобы оставалась только оригинальная версия. Он также настроил HTTP-заголовок X-Robots-Tag на всех URL фидов таким образом, чтобы запретить их индексацию.

    «Страница просканирована, но пока не проиндексирована» vs «Обнаружена, не проиндексирована»

    Статус «Страница просканирована, но пока не проиндексирована» часто путают с другой проблемой индексации в отчете об индексировании: «Обнаружена, не проиндексирована».

    Оба статуса показывают, что страница не проиндексирована. Однако в первом случае Google уже посетил страницу, а во втором – поисковик знает об URL, но пока его не просканировал.

    Если вы видите статус «Обнаружена, не проиндексирована», попробуйте выяснить, почему Google не смог или не захотел просканировать эту страницу. Например, этот статус может указывать на проблемы с качеством сайта в целом, бюджетом сканирования или перегрузкой сервера.

    Подводим итоги

    Статус «Страница просканирована, но пока не проиндексирована» часто связывают с качеством страницы, но в действительности он может указывать на множество других проблем, таких как плохая архитектура сайта или дублированный контент.

    Что сделать, чтобы избавиться от этого статуса:

    • Добавьте на страницы уникальный и ценный контент. После этого отправьте заявку на повторное сканирование. Так поисковик сможет быстрее заметить изменения.
    • Проверьте архитектуру сайта и убедитесь, что на ценные страницы есть внутренние ссылки.
    • Решите, какие страницы должны и не должны индексироваться Google. Помогите поисковой системе приоритизировать более ценные URL.

    Источник: Onely.com

    Источник

    Добавить комментарий

    Кнопка «Наверх»