Google сертифицирует протокол исключений для поисковых роботов

03.07.2019     

Google впервые раскрыл подробности алгоритмов своего поискового робота, анализирующего файл robots.txt. Компания планирует сделать свой протокол исключений для ботов стандартом в отрасли.

Файл robots.txt – текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. В результате анализа файла robots.txt, поисковые роботы получают инструкции:

  • частичный доступ: доступно сканирование отдельных элементов сайта;
  • полный доступ: сканировать можно все;
  • полный запрет: робот ничего не может сканировать.

Библиотека из 90-х

Google опубликовал на GitHub репозиторий своего парсера – программы для анализа и обработки данных – для robots.txt. В файле, расположенном в корневом каталоге сайта, можно прописать директивы для поисковых роботов различных систем. Выложенный код показывает, как анализирует данные программа от Google. 

Репозиторий содержит библиотеку C++, Google использует ее для парсинга 20 лет. Некоторые части библиотеки написаны еще в 90-х годах, хотя большая часть кода постоянно обновляется. Google дорабатывает библиотеку в соответствии с накопленными знаниями о том, как веб-мастера заполняют robots.txt, с какими проблемами сталкиваются.

Кроме самого парсера, ИТ-гигант также представил инструменты для его тестирования, которые позволяют быстро проверить несколько директив для поискового робота. 

На пути к стандарту

Открытие исходного кода библиотеки, используемой поисковым ботом – лишь часть масштабного проекта Google по стандартизации своего протокола Robots Exclusion Protocol (REP). Команда, принимавшая участие в его разработке, задокументировала принципы использования REP в современных веб-технологиях. Представленные сведения уже поданы на рассмотрение Инженерным советом интернета (IETF), который примет окончательное решение. 

Идею использовать файл robots.txt в качестве протокола исключений для роботов придумал и реализовал в 1994 году Мартейн Костер. За 25 лет существования REP стал неофициальным стандартом для веб-мастеров. Из-за неопределенного статуса возникали проблемы при заполнении инструкций для ботов: разработчики могут интерпретировать протокол по-разному, а выработка четко описанных принципов работы REP сильно затруднена. 

За все время своего существования протокол исключений ни разу не обновлялся и во многом перестал соответствовать современным трендам веб-разработки. В качестве примера представитель Google назвал ситуацию, в которой файл robots.txt весит более сотни мегабайт. Разработчику может быть не ясно, что с ним делать и как заставить робота обработать его. 

Изменения грядут

Для стандартизации REP Google обновил документацию, касающуюся работы с robots.txt. Из нее удалены неподдерживаемые правила. Парсер перестанет работать с ними с 1 сентября 2019 года. Среди наиболее значимых изменений:

  • больше не поддерживается директива noindex, используемая для запрета индексации определенных ссылок. Вместо нее рекомендуется применять аналогичный метатег, disallow в robots.txt или возвращать код ответа HTTP 404 и 410.
  • поисковый бот пробует пять раз найти в корне сайта файл с инструкциями. Если robots.txt за это время не будет найден, то цикл прерывается и возвращается ошибка 404;
  • если файл был найден ранее, но позднее перестал быть доступен в течение 30 дней, то робот будет использовать последнюю версию документа, сохраненную в кэше. Если к ней тоже нельзя получить доступ, поисковый бот будет считать весь сайт открытым для индексирования;
  • неудачные запросы или неполные данные обрабатываются как ошибка сервера;
  • максимально допустимый объем для файла robots.txt – 500 КБ. Робот игнорирует файлы, превышающие это значение. 

Репозиторий парсера для robots.txt на GitHub

Полный список изменений


Автор:
Александр Вашкевич Аналитик


В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
В этой теме еще нет сообщений.
Оставьте свое сообщение

См. также

Microsoft предложила установить финальную версию Windows 11 на неделю раньше

Новость Windows ИТ-новость

Официальная дата релиза Windows 11 – 5 октября 2021 года. Однако Microsoft открыла доступ к обновлению ОС уже сейчас через канал тестирования Release Preview.

вчера в 12:29    2603    VKuser24342747    3       

JetBrains открыла ранний доступ к новой IDE для Data Science

Новость ИТ-новость Новости компаний

7 сентября JetBrains разместила в своем блоге статью с информацией о том, что новая IDE DataSpell, которая с марта 2021 года находилась в закрытом тестировании по программе раннего доступа (EAP), становится доступной для всех желающих.

24.09.2021    7133    capitan    2       

Microsoft предлагает отказаться от паролей в пользу сервиса Authentication

Новость Безопасность Интернет ИТ-новость Новости компаний

Microsoft видит проблему в стандартных паролях, которые зачастую повторяются и имеют низкую надежность. В компании убеждены, что альтернативные способы аутентификации более безопасны.

24.09.2021    1867    VKuser24342747    3       

Правительство утвердило разработку российского аналога GitHub

Новость ИТ-новость Цифровая экономика

Премьер-министр Михаил Мишустин на форуме Kazan Digital Week анонсировал создание отечественного репозитория, аналогичного GitHub. Проект реализуется в рамках второго пакета поддержки ИТ.

22.09.2021    6244    VKuser24342747    19       

Microsoft присоединилась к Open Infrastructure Foundation для развития облаков

Новость ИТ-новость Новости компаний Облачные технологии

Microsoft стала платиновым членом организации Open Infrastructure Foundation. Компания будет представлять интересы своих телекоммуникационных клиентов в OpenStack.

15.09.2021    4118    VKuser24342747    0       

Microsoft разрешит устанавливать Windows 11 на старые компьютеры

Новость Windows ИТ-новость Новости компаний

Microsoft пересмотрела правила установки Windows 11, которые не позволяли использовать ОС на компьютерах, не соответствующих системным требованиям. Для инсталляции придется создать загрузочный диск.

14.09.2021    3098    VKuser24342747    0       

Оплата лицом заработает на всех станциях метро Москвы

Новость Искусственный интеллект ИТ-новость Цифровая экономика

В столичном метрополитене внедряют систему FacePay. С 15 октября оплатить проезд можно будет, не доставая смартфон, карту или жетоны из кармана.

14.09.2021    3102    user1015646    2       

«Яндекс» представил технологию автоматического перевода любых видео на русский язык

Новость ИТ-новость Яндекс

«Яндекс» сделал функцию автоматического закадрового перевода иностранных роликов доступной для почти любых видео в интернете. Функция встроена в фирменный браузер компании.

13.09.2021    2737    VKuser24342747    4       

Исследователи синтезировали выразительную устную речь

Новость Искусственный интеллект ИТ-новость

Синтетическое воспроизведение речи от голосовых помощников и автопереводчиков не передает эмоций и интонаций. Специалисты NVIDIA разработали систему искусственного интеллекта, которая решает эту проблему: ее речь сложно отличить от естественной.

10.09.2021    9602    user1015646    0       

GitHub выпустил веб-редактор кода: возможности, о которых вы могли не знать

Новость GitHub Автоматизация Интернет ИТ-новость

Начинающим программистам часто сложно настроить среду разработки и установить весь необходимый софт. Для них, а также для специалистов, которые работают в распределенных командах, GitHub запустил новый сервис github.dev.

10.09.2021    5800    user1015646    0       

Раскрыта дата релиза Windows 11

Новость Windows ИТ-новость Новости компаний

Microsoft официально объявила, когда станет доступна новая версия самой популярной десктопной ОС. Обновиться с Windows 10 до Windows 11 можно будет уже 5 октября 2021 года.

09.09.2021    10228    user1015646    0       

В Google научились увеличивать изображения в 16 раз с восстановлением деталей

Новость Искусственный интеллект ИТ-новость

Раньше увеличить видео с камер наблюдения в десятки раз получалось только у героев фильмов. Но теперь такая возможность существует и в реальной жизни – инженеры Google разработали прорывную технологию масштабирования изображений.

09.09.2021    4520    user1015646    3       

Эксперты подготовили рекомендации по использованию кириллицы в доменах и почте

Новость Интернет ИТ-новость

Рабочая группа представила стандарты внедрения, обработки, хранения, валидации и адаптации кириллических символов для программ, поддерживающих доменные имена и email-адреса.

07.09.2021    3001    VKuser24342747    0       

Госструктуры перейдут на российские системы видеоконференций

Новость Импортозамещение ИТ-новость Облачные технологии

Российских чиновников переводят на использование отечественного сервиса видеоконференций. Будут внедрять систему TrueConf на базе ОС Astra Linux и процессоров Baikal-M от «Байкал Электроникс».

03.09.2021    3458    user1015646    0       

Минэкономики раскритиковало требования к обновлению оборудования для суверенного Рунета

Новость Импортозамещение Интернет ИТ-новость Телекоммуникации

Минэкономики пришло к выводу, что требования Минцифры затормозят развитие связи в России. По мнению специалистов ведомства, возможным последствием может стать ухудшение интернет-услуг провайдеров.

03.09.2021    2802    VKuser24342747    0       

Разработчики назвали любимые языки программирования

Новость ИТ-новость Языки программирования

Крупнейший форум для разработчиков Stack Overflow составил рейтинг любимых языков программирования. Первую строчку списка занял молодой, но перспективный Rust.

02.09.2021    5436    user1015646    3       

Петербургские ученые обучили нейросеть находить вредоносных ботов в соцсетях

Новость Безопасность Искусственный интеллект ИТ-новость Соцсети

Сотрудники Санкт-Петербургского федерального исследовательского центра Российской академии наук (СПб ФИЦ РАН) создали решение для поиска ботов, размещающих спам и дезинформацию на любом языке.

02.09.2021    2536    VKuser24342747    1       

Windows Server исключается из эксперимента по поставке обновлений Microsoft WaaS

Новость Windows ИТ-новость Новости компаний Облачные технологии

По результатам четырехлетнего эксперимента Windows as a Service Microsoft решила, что больше не будет обновлять Windows Server несколько раз в год. Для серверной ОС было решено вернуться к практике обновления каждые 2-3 года.

01.09.2021    5697    SKravchenko    0       

Microsoft добавила в Power BI инструменты аналитики для Angular-приложений

Новость Аналитика ИТ-новость

Microsoft представила новый компонент для создания веб-сервисов аналитики данных. Он позволит интегрировать функции Power BI в Angular-приложения.

31.08.2021    3531    user1015646    0       

Windows 11 лишится нескольких функций предыдущей версии системы

Новость Windows ИТ-новость

Microsoft в бета-версии Windows 11 изменила привычные функции. Из ОС исчезло отображение секунд на часах и возможность быстро добавлять события в календарь, а кнопка «Пуск» переместилась в центр панели задач.

31.08.2021    5099    VKuser24342747    6       

GitHub в версии утилиты CLI 2.0 добавил поддержку расширений

Новость GitHub ИТ-новость Новости компаний

Разработчики GitHub представили вторую версию утилиты для управления проектами при помощи командной строки CLI. Приложение поддерживает несколько стандартных расширений и создание собственных.

27.08.2021    6606    VKuser24342747    0       

Круглая дата: ядру Linux исполнилось 30 лет

Новость Linux ИТ-новость Новости компаний

Ядро Linux отмечает юбилей. О создании новой ОС 21-летний Линус Торвальдс объявил 25 августа 1991 года.

27.08.2021    5027    user1015646    2       

Искусственный интеллект научился распознавать изображения лучше человека

Новость Искусственный интеллект ИТ-новость

Алгоритм компьютерного зрения впервые превзошел человека. В экспериментах людям и системе искусственного интеллекта предлагали определить, что изображено на фото, и ответить на вопросы. Результат ИИ оказался выше, чем у человека.

26.08.2021    3841    user1015646    5       

Facebook представил криптобиблиотеку для разработчиков – Winterfell

Новость ИТ-новость Новости компаний

Специалисты Facebook выпустили новую библиотеку Winterfell. Проект с открытым исходным кодом может генерировать доказательство вычислительной целостности STARK.

24.08.2021    5544    user1015646    3       

В GitHub добавлена поддержка цитирования из репозиториев

Новость GitHub ИТ-новость

GitHub позволил использовать файл CITATION.cff, в котором можно указать, как правильно ссылаться на содержимое репозитория при написании академических публикаций.

24.08.2021    5995    VKuser24342747    0