Эксперт Google: для быстрой индексации сайта необходимо использовать HTML

20.09.2018      12141

Google объяснила, как добиться быстрой индексации – внесения информации об интернет-ресурсе в поисковую базу – контента на сайте. Для ускорения попадания в результаты выдачи представители компании рекомендуют использовать HTML.

Оперативный HTML

HTML (HyperText Markup Language) – наиболее популярный язык разметки в Интернете для создания веб-ресурсов. Большая часть содержимого сайтов отображается именно благодаря ему. HTML-код указывает браузеру, как должна быть сгенерирована страница. И, как недавно выяснилось, использование этого языка улучшает индексацию сайта в Google.

Специалист по качеству поиска Google Джон Мюллер в обсуждении двухэтапной системы индексации веб-ресурсов раскрыл некоторые особенности работы алгоритмов поисковика. Отвечая на вопрос в своем Twitter-аккаунте, он сообщил, что поисковый бот быстрее обрабатывает страницы, представленные в виде HTML-кода. Разработчик отметил, что особенно этот совет актуален для сайтов, которые часто обновляют контент: он сможет оперативнее попадать в результаты выдачи.

Эту же информацию подтвердил и SEO-консультант Алан Блейвейс. Он поделился в Twitter своим опытом и указал на то, что содержимое страницы, сгенерированное с помощью JavaScript, может ожидать полной индексации несколько недель.

Почему Googlebot тормозит

Googlebot, инструмент поисковой системы для рендеринга страниц и анализа их содержимого, имеет ограниченные ресурсы. Сайты, активно использующие JavaScript, требуют много вычислительной мощности для того, чтобы сгенерировать свое содержимое. Из-за недостатка ресурсов поисковый бот не может сразу изучить контент на «тяжелых» сайтах, потому что иначе индексация будет занимать слишком много времени.

Чтобы избежать этой проблемы, Googlebot использует двухэтапную систему анализа. При первом заходе на сайт робот обрабатывает «легкий» HTML-код и индексирует контент, который в нем находит. Во время второго обхода, когда поисковый бот получит достаточно ресурсов для детального изучения сайта, генерируется остальное содержимое, которое в первый раз Googlebot посчитал слишком тяжеловесным.

Промежуток между двумя визитами робота обычно составляет не менее одной недели, что и приводит к значительно более быстрой индексации HTML-контента.

Борьба за чистоту выдачи

Также Джон Мюллер на онлайн-конференции поделился информацией о том, как поисковый робот отличает уникальный контент на странице от сгенерированного автоматически. По словам специалиста, пока что Googlebot не всегда может выявить уровень качества содержимого и определить, где используется авторский текст, а где – созданный с помощью машинного перевода.

Такие веб-ресурсы с «бредотекстом» используются вебмастерами для быстрого заработка с минимальным вложением средств. Google активно борется с сайтами, захламляющими поисковую выдачу бессмысленным контентом и относит их к категории спамных.

Мюллер видит проблему в создании алгоритма, способного успешно определять случаи злоупотребления машинным переводом. Не всегда его использование – однозначная проблема. Нередко владельцы сайтов прибегают к подобному инструменту, чтобы создать мультиязычную версию веб-страницы, особенно если необходимо представить контент на экзотических языках для небольшой аудитории. Такие веб-ресурсы не стоит наказывать, уверен Мюллер.

Сотрудник Google обратился к сообществу вебмастеров с просьбой присылать примеры случаев, где поисковые алгоритмы не смогли успешно определить качество содержимого и ошибочно применили к сайту пессимизацию в выдаче. Это поможет сделать инструмент лучше и точнее.


Автор:
Аналитик


См. также

Новость Android Google ИТ-Новость

Google выпустила новую версию мобильной ОС Android 14. Изменения затронули настройки внешнего вида и безопасности. Были расширены возможности камеры и инструментов для хранения данных.

12.10.2023    892    VKuser24342747    0       

1

Новость Google Безопасность ИТ-Новость

В версии Google Chrome 116 появится поддержка алгоритмов шифрования, устойчивых к попыткам дешифрации при помощи квантовых вычислений. Технология объединяет преимущества классической и инновационной криптографии.

24.08.2023    560    VKuser24342747    0       

1

Новость Google ИТ-Новость Языки программирования

По итогам внедрения поддержки разработки на Rust снизилось число уязвимостей, связанных с управлением памятью. Инженеры считают, что основное внимание нужно уделить написанию нового кода, а не переписыванию старого.

14.12.2022    7354    VKuser24342747    0       

3

Новость Законодательство Интернет ИТ-Новость

Информационная система позволит российским сайтам получать сертификаты безопасности без участия иностранных организаций. Для их выдачи будет применяться отечественная криптография.

09.12.2022    6230    VKuser24342747    0       

0

Новость Интернет ИТ-Новость

Microsoft прекратила выпуск обновлений для своего браузера Internet Explorer, а с августа начнет удалять приложение из актуальных версий Windows. Эксперты полагают, что из-за этого пострадает много бизнес-пользователей.

17.06.2022    9852    VKuser24342747    4       

1

Новость Импортозамещение Интернет ИТ-Новость

Российская компания BrandAnalytics запустила платформу «Детектор сбоев», предназначенную для отслеживания работоспособности сайтов и сервисов, в том числе русскоязычных.

16.06.2022    8141    VKuser24342747    0       

2

Новость Безопасность Интернет ИТ-Новость

Информационная система под названием «Антифишинг» способна обнаруживать мошеннические веб-ресурсы, которые выглядят как официальные сайты госорганов, компаний и соцсетей.

14.06.2022    8515    VKuser24342747    0       

1

Новость Безопасность Импортозамещение Интернет ИТ-Новость

Национальный удостоверяющий центр (НУЦ) предложил владельцам сайтов получить сертификаты безопасности с поддержкой технологии прозрачности. Они работают в российских браузерах.

25.05.2022    7400    VKuser24342747    1       

2

Всегда ли вы находите в поисковике Google то, что ищите?


Да, всегда (23.08%, 6 голосов)
23.08%
Примерно в половине случаев (46.15%, 12 голосов)
46.15%
Редко нахожу нужное (3.85%, 1 голосов)
3.85%
Не пользуюсь Google (26.92%, 7 голосов)
26.92%

Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. vano-ekt 124 20.09.18 10:28 Сейчас в теме
спс, кэп
Sapiens_bru; Ziggurat; dimisa; fuxic; +4 2 Ответить
2. fuxic 298 20.09.18 11:00 Сейчас в теме
А как минус статье поставить? Я думал сейчас по структуре мета и микроразметке пройдется, может по пределу скорости загрузки и новым критериям релевантности и поведенчеству, а тут... HTML! :)
Sapiens_bru; dimisa; +2 Ответить
3. 🅵🅾️🆇 524 15.10.18 12:31 Сейчас в теме
(2) (1) Сори за некропостинг, тут вывод, наверное, другой напрашивается. Просто журналист не смог грамотно донести.
Если у вас на сайте много динамического контента и js, то для бота надо делать "отдельный сайт". Этакое простое оглавление на html, куда пересылать поискового паука с помощью проксирующего сервера, например nginx.

Например тело нашего навороченного корпоративного портала по учету рабочего времени и проектов состоит из:
<div id="root"></div><sc ript type="text/javascript" src="/bundle.js?nnnnn"></sc ript>


Как сами понимаете, еслиб оно должно былоб индексироваться, паучку это не очень пришлось бы по вкусу.
Я не веб девелопер и возможно это прям совсем "капитанство", но всеже.
4. fuxic 298 15.10.18 15:33 Сейчас в теме
(3) Тут проблема стояла скорей аякса и динамических данных. То есть когда подгрузка происходит "запоздало", даже ожидая действий юзера. А по запросу получает лишь обертку приложения. Это новая фишка приложений SPA/PWA на базе angular/vue/react/ember и тому подобного клиентского. Бандлы вебпака или гульпа с версией и есть постоянно обновляющееся ядро при изменениях приложения - это вся логика. Но код кодом, а меняются сами данные страницы, которые тащатся фетчем/аяксом. Там даже роуты могут не обновляться и это вообще не понять как отследить боту. Тут спасает серверный рендеринг и много денег гугла, которые вроде уже научили ботов индексации динамического содержимого
5. 🅵🅾️🆇 524 15.10.18 15:35 Сейчас в теме
(4) Но ведь проще скармливать боту отдельную html страничку специально подготовленную для него.
Так он и лишнего не возьмет и в поисковую выдачу выдаст так как надо.

Разве не так?

А эту "урезаную версию сайта", наверное, можно использовать и для RSS агрегаторов или еще чегонить.

Я не веб дев, так что могу и бред молоть)
6. fuxic 298 15.10.18 15:56 Сейчас в теме
(5) Зачем серверу знать как рисовать страничку или график? Он управляет данными, защищает и оптимизирует их. Даже 1с уже разделяет эти понятия. А "рисовашками" занимается клиентская часть, которая получает сухие данные и оформляет их на лету даже под конкретного пользователя.
8. 🅵🅾️🆇 524 15.10.18 16:00 Сейчас в теме
(6)
А "рисовашками" занимается клиентская часть, которая получает сухие данные и оформляет их на лету даже под конкретного пользователя.


В целом все так.
Но как мне кажется, разумнее разделять "пользователя" и "паука".
Для паука не начинать сеанс, просто писать в табличку "зашел такойто краулер, во столькото" и отдавать ему заранее подготовленную, закэшированную и отрендеренную страничку и роботс.тхт.
7. TODD22 19 15.10.18 16:00 Сейчас в теме
(5)
Но ведь проще скармливать боту отдельную html страничку специально подготовленную для него.
Так он и лишнего не возьмет и в поисковую выдачу выдаст так как надо.

Клоакинг изобрёл? Поисковики то же не глупые, или в выдаче понизят или забанят.
Оставьте свое сообщение