Google сертифицирует протокол исключений для поисковых роботов

Google впервые раскрыл подробности алгоритмов своего поискового робота, анализирующего файл robots.txt. Компания планирует сделать свой протокол исключений для ботов стандартом в отрасли.

Файл robots.txt – текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. В результате анализа файла robots.txt, поисковые роботы получают инструкции:

частичный доступ: доступно сканирование отдельных элементов сайта;
полный доступ: сканировать можно все;
полный запрет: робот ничего не может сканировать.

Библиотека из 90-х

Google опубликовал на GitHub репозиторий своего парсера – программы для анализа и обработки данных – для robots.txt. В файле, расположенном в корневом каталоге сайта, можно прописать директивы для поисковых роботов различных систем. Выложенный код показывает, как анализирует данные программа от Google.

Репозиторий содержит библиотеку C++, Google использует ее для парсинга 20 лет. Некоторые части библиотеки написаны еще в 90-х годах, хотя большая часть кода постоянно обновляется. Google дорабатывает библиотеку в соответствии с накопленными знаниями о том, как веб-мастера заполняют robots.txt, с какими проблемами сталкиваются.

Кроме самого парсера, ИТ-гигант также представил инструменты для его тестирования, которые позволяют быстро проверить несколько директив для поискового робота.

На пути к стандарту

Открытие исходного кода библиотеки, используемой поисковым ботом – лишь часть масштабного проекта Google по стандартизации своего протокола Robots Exclusion Protocol (REP). Команда, принимавшая участие в его разработке, задокументировала принципы использования REP в современных веб-технологиях. Представленные сведения уже поданы на рассмотрение Инженерным советом интернета (IETF), который примет окончательное решение.

Идею использовать файл robots.txt в качестве протокола исключений для роботов придумал и реализовал в 1994 году Мартейн Костер. За 25 лет существования REP стал неофициальным стандартом для веб-мастеров. Из-за неопределенного статуса возникали проблемы при заполнении инструкций для ботов: разработчики могут интерпретировать протокол по-разному, а выработка четко описанных принципов работы REP сильно затруднена.

За все время своего существования протокол исключений ни разу не обновлялся и во многом перестал соответствовать современным трендам веб-разработки. В качестве примера представитель Google назвал ситуацию, в которой файл robots.txt весит более сотни мегабайт. Разработчику может быть не ясно, что с ним делать и как заставить робота обработать его.

Изменения грядут

Для стандартизации REP Google обновил документацию, касающуюся работы с robots.txt. Из нее удалены неподдерживаемые правила. Парсер перестанет работать с ними с 1 сентября 2019 года. Среди наиболее значимых изменений:

больше не поддерживается директива noindex, используемая для запрета индексации определенных ссылок. Вместо нее рекомендуется применять аналогичный метатег, disallow в robots.txt или возвращать код ответа HTTP 404 и 410.
поисковый бот пробует пять раз найти в корне сайта файл с инструкциями. Если robots.txt за это время не будет найден, то цикл прерывается и возвращается ошибка 404;
если файл был найден ранее, но позднее перестал быть доступен в течение 30 дней, то робот будет использовать последнюю версию документа, сохраненную в кэше. Если к ней тоже нельзя получить доступ, поисковый бот будет считать весь сайт открытым для индексирования;
неудачные запросы или неполные данные обрабатываются как ошибка сервера;
максимально допустимый объем для файла robots.txt – 500 КБ. Робот игнорирует файлы, превышающие это значение.

Репозиторий парсера для robots.txt на GitHub

Полный список изменений

Если вам удобнее смотреть новости в телеграме, то вот наша группа – ИНФОСТАРТ.

Автор:

Александр Вашкевич

Аналитик

Google выпустила финальную версию Android 14

+1 –

Google выпустила новую версию мобильной ОС Android 14. Изменения затронули настройки внешнего вида и безопасности. Были расширены возможности камеры и инструментов для хранения данных.

12.10.2023 1487 VKuser24342747 0

Google Chrome начнет поддерживать квантово-устойчивые алгоритмы шифрования

+1 –

Новость Google Безопасность ИТ и 1С

В версии Google Chrome 116 появится поддержка алгоритмов шифрования, устойчивых к попыткам дешифрации при помощи квантовых вычислений. Технология объединяет преимущества классической и инновационной криптографии.

24.08.2023 1139 VKuser24342747 0

Google рассказала о проблемах и преимуществах поддержки разработки на Rust в Android 13

+3 –

Новость Google ИТ и 1С Языки программирования

По итогам внедрения поддержки разработки на Rust снизилось число уязвимостей, связанных с управлением памятью. Инженеры считают, что основное внимание нужно уделить написанию нового кода, а не переписыванию старого.

14.12.2022 7735 VKuser24342747 0

Google назвала пять трендов машинного обучения в 2021 году

+1 –

Новость Google Искусственный интеллект ИТ и 1С

Google провела исследование, в котором озвучила ключевые направления развития индустрии машинного обучения (МО) в 2021 году. Компания ожидает в ближайшие годы научных прорывов в отрасли.

27.01.2022 31920 VKuser24342747 0

Google посоветовала разработчикам адаптировать Android-приложения под Chrome OS

+1 –

Новость ОС Android Google ИТ и 1С

Google сообщила, что работает над крупным обновлением для Chrome OS, которое позволит более эффективно работать с Android-приложениями, поэтому разработчикам стоит задуматься над адаптацией своих программ.

28.12.2021 23461 VKuser24342747 0

В Windows можно будет запускать Android-игры

+1 –

Новость Windows Google ИТ и 1С Мобильные приложения

На выставке The Game Awards компания Google заявила, что Android-игры придут в Windows на десктопе уже в 2022 году.

20.12.2021 18464 user1015646 0

Google в два раза снизит комиссию на доход разработчиков от платных подписок

+1 –

Новость Android Google ИТ и 1С Мобильные приложения

Со следующего года Google изменит комиссию на прибыль от оформления платных подписок с 30% до 15%. Также компания снижает сборы с разработчиков приложений для стриминга электронных книг и музыки.

28.10.2021 17051 VKuser24342747 1

В Google Play добавили новый раздел для разработчиков

+1 –

Новость Android Google ИТ и 1С Мобильные приложения

В мае Google объявил о новом требовании для Android-приложений, которые будут публиковаться в официальном магазине. Теперь для этого в Google Play Console появился соответствующий раздел Data safety (безопасность данных).

27.10.2021 30989 user1015646 1

Оставьте свое сообщение

E-mail:

Москва: (495) 668-08-22
Санкт-Петербург: (812)309-06-46
Россия: 8-800-5555-256
Часы работы: с 8:00 до 19:00 по Мск (пн-пт).
Адрес главного офиса: Санкт-Петербург, ул. Бухарестская 30/32, ТЦ Континент, 5 этаж, оф. 5.61.
support@infostart.ru
infostart.ru

Google сертифицирует протокол исключений для поисковых роботов

Библиотека из 90-х

На пути к стандарту

Изменения грядут

См. также