Google сертифицирует протокол исключений для поисковых роботов

Google сертифицирует протокол исключений для поисковых роботов
03.07.2019
10638

Google впервые раскрыл подробности алгоритмов своего поискового робота, анализирующего файл robots.txt. Компания планирует сделать свой протокол исключений для ботов стандартом в отрасли.

Файл robots.txt – текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. В результате анализа файла robots.txt, поисковые роботы получают инструкции:

  • частичный доступ: доступно сканирование отдельных элементов сайта;
  • полный доступ: сканировать можно все;
  • полный запрет: робот ничего не может сканировать.

Библиотека из 90-х

Google опубликовал на GitHub репозиторий своего парсера – программы для анализа и обработки данных – для robots.txt. В файле, расположенном в корневом каталоге сайта, можно прописать директивы для поисковых роботов различных систем. Выложенный код показывает, как анализирует данные программа от Google. 

Репозиторий содержит библиотеку C++, Google использует ее для парсинга 20 лет. Некоторые части библиотеки написаны еще в 90-х годах, хотя большая часть кода постоянно обновляется. Google дорабатывает библиотеку в соответствии с накопленными знаниями о том, как веб-мастера заполняют robots.txt, с какими проблемами сталкиваются.

Кроме самого парсера, ИТ-гигант также представил инструменты для его тестирования, которые позволяют быстро проверить несколько директив для поискового робота. 

На пути к стандарту

Открытие исходного кода библиотеки, используемой поисковым ботом – лишь часть масштабного проекта Google по стандартизации своего протокола Robots Exclusion Protocol (REP). Команда, принимавшая участие в его разработке, задокументировала принципы использования REP в современных веб-технологиях. Представленные сведения уже поданы на рассмотрение Инженерным советом интернета (IETF), который примет окончательное решение. 

Идею использовать файл robots.txt в качестве протокола исключений для роботов придумал и реализовал в 1994 году Мартейн Костер. За 25 лет существования REP стал неофициальным стандартом для веб-мастеров. Из-за неопределенного статуса возникали проблемы при заполнении инструкций для ботов: разработчики могут интерпретировать протокол по-разному, а выработка четко описанных принципов работы REP сильно затруднена. 

За все время своего существования протокол исключений ни разу не обновлялся и во многом перестал соответствовать современным трендам веб-разработки. В качестве примера представитель Google назвал ситуацию, в которой файл robots.txt весит более сотни мегабайт. Разработчику может быть не ясно, что с ним делать и как заставить робота обработать его. 

Изменения грядут

Для стандартизации REP Google обновил документацию, касающуюся работы с robots.txt. Из нее удалены неподдерживаемые правила. Парсер перестанет работать с ними с 1 сентября 2019 года. Среди наиболее значимых изменений:

  • больше не поддерживается директива noindex, используемая для запрета индексации определенных ссылок. Вместо нее рекомендуется применять аналогичный метатег, disallow в robots.txt или возвращать код ответа HTTP 404 и 410.
  • поисковый бот пробует пять раз найти в корне сайта файл с инструкциями. Если robots.txt за это время не будет найден, то цикл прерывается и возвращается ошибка 404;
  • если файл был найден ранее, но позднее перестал быть доступен в течение 30 дней, то робот будет использовать последнюю версию документа, сохраненную в кэше. Если к ней тоже нельзя получить доступ, поисковый бот будет считать весь сайт открытым для индексирования;
  • неудачные запросы или неполные данные обрабатываются как ошибка сервера;
  • максимально допустимый объем для файла robots.txt – 500 КБ. Робот игнорирует файлы, превышающие это значение. 

Репозиторий парсера для robots.txt на GitHub

Полный список изменений

Автор:
Аналитик

См. также

Google выпустила новую версию мобильной ОС Android 14. Изменения затронули настройки внешнего вида и безопасности. Были расширены возможности камеры и инструментов для хранения данных.

12.10.2023    1214    VKuser24342747    0       

1

В версии Google Chrome 116 появится поддержка алгоритмов шифрования, устойчивых к попыткам дешифрации при помощи квантовых вычислений. Технология объединяет преимущества классической и инновационной криптографии.

24.08.2023    818    VKuser24342747    0       

1

По итогам внедрения поддержки разработки на Rust снизилось число уязвимостей, связанных с управлением памятью. Инженеры считают, что основное внимание нужно уделить написанию нового кода, а не переписыванию старого.

14.12.2022    7524    VKuser24342747    0       

3

Google провела исследование, в котором озвучила ключевые направления развития индустрии машинного обучения (МО) в 2021 году. Компания ожидает в ближайшие годы научных прорывов в отрасли.

27.01.2022    31696    VKuser24342747    0       

1

Google сообщила, что работает над крупным обновлением для Chrome OS, которое позволит более эффективно работать с Android-приложениями, поэтому разработчикам стоит задуматься над адаптацией своих программ.

28.12.2021    23289    VKuser24342747    0       

1

На выставке The Game Awards компания Google заявила, что Android-игры придут в Windows на десктопе уже в 2022 году.

20.12.2021    18177    user1015646    0       

1

Со следующего года Google изменит комиссию на прибыль от оформления платных подписок с 30% до 15%. Также компания снижает сборы с разработчиков приложений для стриминга электронных книг и музыки.

28.10.2021    16973    VKuser24342747    1       

1

В мае Google объявил о новом требовании для Android-приложений, которые будут публиковаться в официальном магазине. Теперь для этого в Google Play Console появился соответствующий раздел Data safety (безопасность данных).

27.10.2021    30812    user1015646    1       

1
Инфостарт бот

Оставьте свое сообщение