Google сертифицирует протокол исключений для поисковых роботов

03.07.2019     

Google впервые раскрыл подробности алгоритмов своего поискового робота, анализирующего файл robots.txt. Компания планирует сделать свой протокол исключений для ботов стандартом в отрасли.

Файл robots.txt – текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. В результате анализа файла robots.txt, поисковые роботы получают инструкции:

  • частичный доступ: доступно сканирование отдельных элементов сайта;
  • полный доступ: сканировать можно все;
  • полный запрет: робот ничего не может сканировать.

Библиотека из 90-х

Google опубликовал на GitHub репозиторий своего парсера – программы для анализа и обработки данных – для robots.txt. В файле, расположенном в корневом каталоге сайта, можно прописать директивы для поисковых роботов различных систем. Выложенный код показывает, как анализирует данные программа от Google. 

Репозиторий содержит библиотеку C++, Google использует ее для парсинга 20 лет. Некоторые части библиотеки написаны еще в 90-х годах, хотя большая часть кода постоянно обновляется. Google дорабатывает библиотеку в соответствии с накопленными знаниями о том, как веб-мастера заполняют robots.txt, с какими проблемами сталкиваются.

Кроме самого парсера, ИТ-гигант также представил инструменты для его тестирования, которые позволяют быстро проверить несколько директив для поискового робота. 

На пути к стандарту

Открытие исходного кода библиотеки, используемой поисковым ботом – лишь часть масштабного проекта Google по стандартизации своего протокола Robots Exclusion Protocol (REP). Команда, принимавшая участие в его разработке, задокументировала принципы использования REP в современных веб-технологиях. Представленные сведения уже поданы на рассмотрение Инженерным советом интернета (IETF), который примет окончательное решение. 

Идею использовать файл robots.txt в качестве протокола исключений для роботов придумал и реализовал в 1994 году Мартейн Костер. За 25 лет существования REP стал неофициальным стандартом для веб-мастеров. Из-за неопределенного статуса возникали проблемы при заполнении инструкций для ботов: разработчики могут интерпретировать протокол по-разному, а выработка четко описанных принципов работы REP сильно затруднена. 

За все время своего существования протокол исключений ни разу не обновлялся и во многом перестал соответствовать современным трендам веб-разработки. В качестве примера представитель Google назвал ситуацию, в которой файл robots.txt весит более сотни мегабайт. Разработчику может быть не ясно, что с ним делать и как заставить робота обработать его. 

Изменения грядут

Для стандартизации REP Google обновил документацию, касающуюся работы с robots.txt. Из нее удалены неподдерживаемые правила. Парсер перестанет работать с ними с 1 сентября 2019 года. Среди наиболее значимых изменений:

  • больше не поддерживается директива noindex, используемая для запрета индексации определенных ссылок. Вместо нее рекомендуется применять аналогичный метатег, disallow в robots.txt или возвращать код ответа HTTP 404 и 410.
  • поисковый бот пробует пять раз найти в корне сайта файл с инструкциями. Если robots.txt за это время не будет найден, то цикл прерывается и возвращается ошибка 404;
  • если файл был найден ранее, но позднее перестал быть доступен в течение 30 дней, то робот будет использовать последнюю версию документа, сохраненную в кэше. Если к ней тоже нельзя получить доступ, поисковый бот будет считать весь сайт открытым для индексирования;
  • неудачные запросы или неполные данные обрабатываются как ошибка сервера;
  • максимально допустимый объем для файла robots.txt – 500 КБ. Робот игнорирует файлы, превышающие это значение. 

Репозиторий парсера для robots.txt на GitHub

Полный список изменений


Автор:
Александр Вашкевич Аналитик


В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
В этой теме еще нет сообщений.
Оставьте свое сообщение

См. также

Нейросеть научили писать код на С и С++

Новость Искусственный интеллект ИТ-новость

Популярной нейросети GPT-2 нашли новое применение. Ее научили генерировать фрагменты кода на С и С++, и даже опытный разработчик не всегда отличит эти листинги от реальных.

сегодня в 11:53    332    user1015646    0       

Самые медленные языки программирования с динамической типизацией

Новость ИТ-новость Языки программирования

Скорость выполнения программы зависит не только от аппаратной части, но и от языка, на котором она написана. Однако, не все языки программирования могут похвастаться высокой скоростью выполнения кода. Расскажем о некоторых подробнее.

03.03.2021    1218    SKravchenko    2       

Мэрия Москвы разработала мессенджер для замены Telegram и Skype

Новость Импортозамещение ИТ-новость Мессенджеры

Российская компания ID Partner совместно с правительством Москвы создала приложение TDM Messenger. Согласно описанию, оно позволяет полностью заменить другие мессенджеры, в том числе Telegram и Skype.

02.03.2021    1708    VKuser24342747    7       

Совсем взрослый стал: Python исполнилось 30 лет

Новость ИТ-новость Языки программирования

Python является самым молодым из наиболее популярных языков программирования. Впрочем, все относительно: на днях Python исполнилось 30 лет.

02.03.2021    917    user1015646    1       

Энтузиасты создали для популярного эмулятора патч с поддержкой процессоров «Эльбрус»

Новость ИТ-новость Микроэлектроника Новости компаний

Свободный эмулятор QEMU получил неофициальную поддержку отечественной архитектуры процессоров «Эльбрус». В разработке реализовано около 80% набора инструкций «Эльбрус-8С».

01.03.2021    1910    VKuser24342747    0       

Российский разработчик создал неофициальную версию Clubhouse для Android

Новость Android ИТ-новость Мессенджеры Мобильные приложения

Бывший разработчик из «ВКонтакте» Григорий Клюшников выпустил приложение для Android, предоставляющее доступ к большинству функций Clubhouse. Официально соцсеть доступна только пользователям iOS.

26.02.2021    2224    VKuser24342747    0       

Масштабное обновление Trello: пять новых видов досок и интеграция с Google Docs

Новость ИТ-новость Новости компаний

Компания Atlassian выпустила масштабное обновление сервиса управления проектами Trello. Разработчики изменили дизайн, добавили пять новых видов досок и реализовали для карточек возможность отображать информацию из сторонних сервисов.

25.02.2021    3932    user1015646    0       

Видеоигра на базе нейросетевого генератора текстов стала бизнес-консультантом

Новость Видеоигры Искусственный интеллект ИТ-новость

Энтузиаст использовал возможности текстового квеста, генерирующего разнообразные миры при помощи нейросети GPT-3, чтобы получать советы по ведению бизнеса. Часть идей ИИ оказалась пригодной для использования.

25.02.2021    2265    VKuser24342747    1       

В ближайшие годы возрастет потребность в персонале центров обработки данных

Новость Дата-центры ИТ-новость Цифровая экономика

Согласно отчету Uptime Institute, количество сотрудников, необходимых для обеспечения работы ЦОД, вырастет с 2 млн. в 2019 году до 2,3 млн. в 2025 году.

24.02.2021    2198    SKravchenko    0       

Google кардинально изменит дизайн Android 12

Новость Android Google ИТ-новость Мобильные приложения Новости компаний

Компания Google анонсировала глобальное обновление популярной операционной системы Android. Новая версия выйдет под номером 12. Говорят, что Android 12 назовут «Snow cone» – летний десерт из сладкого колотого льда.

24.02.2021    2621    mouse187    0       

Google представила новый сервис для поиска уязвимостей в открытом ПО

Новость Google Безопасность ИТ-новость

Компания Google запустила платформу с открытым исходным кодом OSV (Open Source Vulnerabilities). Она создана для поиска и закрытия уязвимостей в свободном ПО.

18.02.2021    1358    user1015646    0       

Отечественная компания представила сервер приложений Java EE

Новость ИТ-новость Новости компаний Языки программирования

Российская компания Bellsoft представила отечественный аналог сервера Oracle и IBM для JavaEE. Раньше продукт на базе открытого кода был доступен только для некоторых клиентов организации.

17.02.2021    2396    VKuser24342747    4       

Rustоманы из Долины: Google, Microsoft, Huawei, Mozilla и AWS основали фонд поддержки языка программирования

Новость Google ИТ-новость Новости компаний Языки программирования

Rust – перспективный язык, который широко применяется в разработке операционных систем и высоконагруженных веб-сервисов. Rust Foundation будет заниматься поддержкой и развитием языка.

16.02.2021    1634    user1015646    0       

В Microsoft Teams появилась платформа для общения и обучения

Новость Интернет ИТ-новость Мессенджеры Новости компаний

Microsoft добавила новые функции в корпоративный мессенджер Teams. В подключенной к нему платформе Viva можно пройти обучение, пообщаться с коллегами или улучшить организацию работы.

15.02.2021    3213    user1015646    0       

Google рассказала, как защищает Android от взломов

Новость Android Google Безопасность ИТ-новость

Google опубликовала информацию о том, как компания пытается улучшить безопасность Android, и какие шаги предпринимаются для борьбы с распространенными угрозами. Отчеты об уязвимостях играют в этом значительную роль.

12.02.2021    1949    SKravchenko    0       

Для регионов разработают приложение онлайн-записи на прием к врачам

Новость ИТ-новость Медицина Минкомсвязь Цифровая экономика

О возможностях приложения рассказали в Минздраве и Минцифре.

10.02.2021    1958    Senator_I    2       

Google разработает новую мобильную ОС

Новость MobileOS Google ИТ-новость Мобильные приложения

Корпорация Google создаст мобильную операционную систему для повышения безопасности использования устройств. Проект запущен под рабочим названием microdroid.

09.02.2021    2184    user1015646    0       

Google закрывает собственную игровую студию Stadia

Новость Google Видеоигры ИТ-новость Новости компаний

1 февраля Google официально закрыл собственную студию разработки игр для проекта Stadia, чтобы сосредоточить внимание на технологиях, лежащих в основе платформы.

09.02.2021    1547    SKravchenko    0       

Google представила технологию для замены cookies

Новость Google Интернет ИТ-новость

Методы сбора файлов cookies для повышения точности подбора рекламы не раз упрекали в нарушении личного пространства пользователей. Компания Google представила технологию, которая позволит отказаться от cookies и повысить уровень конфиденциальности.

09.02.2021    1297    user1015646    0       

Украинская команда FireWay одержала победу в хакатоне NASA Space Apps Challenge 2020

Новость ИТ-новость Стартапы

Украинская команда FireWay из Днепра стала победителем международного хакатона NASA Space Apps Challenge. Их изобретение было описано как «решение, которое демонстрирует наиболее инновационное использование технологии».

05.02.2021    2018    SKravchenko    2       

Китайцы разработали целых две альтернативы Flash

Новость Интернет ИТ-новость

Китайцам пришлось разработать собственную технологию ReFla взамен Flash для предотвращения сбоев в работе систем. Также они выпустили доработанную версию Flash Player с кодом 34.0.0.92.

04.02.2021    2166    mouse187    4       

Популярные дистрибутивы Linux могут лишиться поддержки Chromium

Новость Linux Google Интернет ИТ-новость

Из дистрибутивов Arch Linux, Fedora, Debian, Slackware и openSUSE может исчезнуть поддержка браузеров на движке Chromium. Причина – жесткие правила Google, из-за которых возникли проблемы с синхронизацией данных.

03.02.2021    2437    user1015646    3       

Microsoft участвует в разработке цифрового паспорта вакцинации от Covid-19

Новость ИТ-новость Медицина

Крупнейшие корпорации из сектора здравоохранения и ИТ-гиганты, такие как Microsoft, Salesforce и другие, объединились для создания цифровых идентификационных карт, которые подтверждают статус вакцинации против Covid-19.

02.02.2021    1813    capitan    3       

Что нового в Chrome 88: проверка надежности паролей и поддержка профилей

Новость Google Интернет ИТ-новость

Компания Google представила новый релиз браузера Chrome и обновила движок Chromium. Теперь ПО будет предупреждать о небезопасных паролях, а пользователь сможет создать привязанный к учетной записи профиль для персонализации работы в сети.

01.02.2021    2284    user1015646    0       

280 символов для науки: Twitter откроет доступ ученым к архиву твитов

Новость ИТ-новость Соцсети

Twitter предоставит академическим исследователям социальных сетей бесплатный доступ почти ко всем твитам. Исключение площадка сделает только для заблокированных аккаунтов.

29.01.2021    1523    VKuser24342747    1