Обычно вам не хотелось бы, чтобы ваш сайт-постановщик появлялся в результатах поиска, поэтому как вы можете запретить Google индексировать этот контент? Обозреватель Патрик Стокс предлагает несколько советов.Одна из наиболее распространенных технических проблем SEO, с которыми я сталкиваюсь, - непреднамеренное индексирование серверов разработки, промежуточных сайтов, производственных серверов или любого другого имени, которое вы используете. Это происходит по ряду причин: от людей, которые думают, что никто никогда не свяжется с этими областями с техническими недоразумениями. Эти части веб-сайта, как правило, чувствительны по своей природе и имеют в индексе поисковых систем риски, связанные с планируемыми кампаниями, бизнес-аналитикой или частными данными.

Как определить, индексирован ли ваш сервер dev

Вы можете использовать поиск Google, чтобы определить, индексируется ли ваш промежуточный сайт. Например, чтобы найти промежуточный сайт, вы можете найти Google для сайта: domain.com и просмотреть результаты или добавить операторов, таких как -inurl: www, чтобы удалить любые URL-адреса www.domain.com. Вы также можете использовать сторонние инструменты, такие как SimilarWeb или SEMrush, чтобы найти поддомены. Могут быть и другие чувствительные области, которые содержат порталы входа или информацию, не предназначенную для общественного потребления. В дополнение к различным поисковым операторам Google (также известным как Google Dorking), сайты, как правило, блокируют эти области в файлах robots.txt, сообщая вам, где именно вы не должны смотреть. Что может пойти не так, как сказать людям, где найти информацию, которую вы не хотите видеть? Есть много действий, которые вы можете предпринять, чтобы посетители и поисковые системы не отображали серверы и другие уязвимые области сайта. Вот варианты:

Хорошо: аутентификация HTTP

Все, что вы хотите оставить вне индекса, должно включать проверку подлинности на стороне сервера. Требование аутентификации для доступа является предпочтительным методом для хранения пользователей и поисковых систем.

Хорошо: белый список IP

Разрешить использование только известных IP-адресов, таких как принадлежащие вашей сети, клиентам и т. Д., - еще один отличный шаг в обеспечении безопасности вашего веб-сайта и обеспечение того, чтобы его видели только те пользователи, которым необходимо видеть область веб-сайта.

Возможно: Noindex в файле robots.txt

Noindex в robots.txt официально не поддерживается, но может работать для удаления страниц из индекса. Проблема, с которой я сталкиваюсь в этом методе, заключается в том, что она все еще говорит людям, где они не должны выглядеть, и это может не работать навсегда или со всеми поисковыми системами. Причина, по которой я говорю, что это «возможно», заключается в том, что она может работать и фактически может быть объединена с запретом в файле robots.txt, в отличие от некоторых других методов, которые не работают, если вы запретите сканирование (о чем я расскажу позже в этом статья).

Возможно: теги Noindex

Тег noindex в метатеге роботов или X-Robots-Tag в HTTP-заголовке может помочь сохранить ваши страницы вне результатов поиска. Одна из проблем, которые я вижу в этом, заключается в том, что это означает, что поисковые системы просматривают больше страниц, которые обходятся в вашем бюджете обхода. Обычно я вижу этот тег, используемый, когда есть также запрет в файле robots.txt. Если вы говорите Google не сканировать страницу, они не могут уважать тег noindex, потому что они не видят его. Другая распространенная проблема заключается в том, что эти теги могут быть применены на промежуточном сайте, а затем оставлены на странице, когда она идет в прямом эфире, эффективно удаляя эту страницу из индекса.

Может быть: Canonical

Если на вашем промежуточном сервере есть канонический набор, который указывает на ваш основной сайт, по сути, все сигналы должны быть правильно скомпонованы. В контенте могут быть несоответствия, которые могут вызвать некоторые проблемы, и, как и в случае с тегами noindex, Google придется сканировать дополнительные страницы. Веб-мастера также склонны добавлять запрет в файл robots.txt, поэтому Google еще раз не может сканировать страницу и не может уважать канонические, потому что они не могут ее увидеть. Вы также рискуете, что эти теги не будут меняться при переходе с рабочего сервера на живую, что может привести к тому, что вы не хотите показывать канонической версией.

Плохо: ничего не делать

Не делать ничего, чтобы предотвратить индексацию промежуточных сайтов, обычно потому, что кто-то предполагает, что никто никогда не свяжется с этой областью, так что ничего не нужно делать. Я также слышал, что Google просто «разобрался», но я бы не стал им доверять, повторяя проблемы с дублирующимся содержимым. Не могли бы вы?

Плохо: Запретить в файле robots.txt

Вероятно, это самый распространенный способ, с помощью которого люди пытаются индексировать индексный сайт. С директивой disallow в файле robots.txt вы говорите поисковым системам, чтобы они не сканировали страницу, но это не мешает им индексировать страницу. Они знают, что страница существует в этом месте и все равно покажет ее в результатах поиска, даже не зная точно, что там. У них есть подсказки из ссылок, например, о типе информации на странице. Когда Google индексирует страницу, заблокированную от обхода, в результатах поиска обычно появляется следующее сообщение: «Описание этого результата недоступно из-за этого файла robots.txt этого сайта». Если вы вспомните ранее, эта директива также не позволит Google видеть другие теги на странице, такие как noindex и канонические теги, поскольку это мешает им видеть что-либо на странице вообще. Вы также рискуете не забывать удалить это запрещение при посещении веб-сайта в реальном времени, что может предотвратить сканирование при запуске.

Что делать, если вы случайно что-то индексировали?

Сканирование может занять время в зависимости от важности URL-адреса (вероятно, в случае промежуточного сайта). Может потребоваться несколько месяцев до повторного обхода URL-адреса, поэтому любой блок или проблема может не обрабатываться довольно долгое время. Если у вас есть что-то индексированное, чего не должно быть, лучше всего отправить запрос на удаление URL-адреса в Google Search Console. Это должно удалить его около 90 дней, что дает вам время для принятия корректирующих действий. Мнения, выраженные в этой статье, принадлежат авторам гостевых изданий, а не обязательно поисковым системам. Здесь перечислены авторы работ.
Share To:

celcumplit

Post A Comment:

0 comments so far,add yours