Возврат к списку

Эксперт Google: для быстрой индексации сайта необходимо использовать HTML

20.09.2018     

Google объяснила, как добиться быстрой индексации – внесения информации об интернет-ресурсе в поисковую базу – контента на сайте. Для ускорения попадания в результаты выдачи представители компании рекомендуют использовать HTML.

Оперативный HTML

HTML (HyperText Markup Language) – наиболее популярный язык разметки в Интернете для создания веб-ресурсов. Большая часть содержимого сайтов отображается именно благодаря ему. HTML-код указывает браузеру, как должна быть сгенерирована страница. И, как недавно выяснилось, использование этого языка улучшает индексацию сайта в Google.

Специалист по качеству поиска Google Джон Мюллер в обсуждении двухэтапной системы индексации веб-ресурсов раскрыл некоторые особенности работы алгоритмов поисковика. Отвечая на вопрос в своем Twitter-аккаунте, он сообщил, что поисковый бот быстрее обрабатывает страницы, представленные в виде HTML-кода. Разработчик отметил, что особенно этот совет актуален для сайтов, которые часто обновляют контент: он сможет оперативнее попадать в результаты выдачи.

Эту же информацию подтвердил и SEO-консультант Алан Блейвейс. Он поделился в Twitter своим опытом и указал на то, что содержимое страницы, сгенерированное с помощью JavaScript, может ожидать полной индексации несколько недель.

Почему Googlebot тормозит

Googlebot, инструмент поисковой системы для рендеринга страниц и анализа их содержимого, имеет ограниченные ресурсы. Сайты, активно использующие JavaScript, требуют много вычислительной мощности для того, чтобы сгенерировать свое содержимое. Из-за недостатка ресурсов поисковый бот не может сразу изучить контент на «тяжелых» сайтах, потому что иначе индексация будет занимать слишком много времени.

Чтобы избежать этой проблемы, Googlebot использует двухэтапную систему анализа. При первом заходе на сайт робот обрабатывает «легкий» HTML-код и индексирует контент, который в нем находит. Во время второго обхода, когда поисковый бот получит достаточно ресурсов для детального изучения сайта, генерируется остальное содержимое, которое в первый раз Googlebot посчитал слишком тяжеловесным.

Промежуток между двумя визитами робота обычно составляет не менее одной недели, что и приводит к значительно более быстрой индексации HTML-контента.

Борьба за чистоту выдачи

Также Джон Мюллер на онлайн-конференции поделился информацией о том, как поисковый робот отличает уникальный контент на странице от сгенерированного автоматически. По словам специалиста, пока что Googlebot не всегда может выявить уровень качества содержимого и определить, где используется авторский текст, а где – созданный с помощью машинного перевода.

Такие веб-ресурсы с «бредотекстом» используются вебмастерами для быстрого заработка с минимальным вложением средств. Google активно борется с сайтами, захламляющими поисковую выдачу бессмысленным контентом и относит их к категории спамных.

Мюллер видит проблему в создании алгоритма, способного успешно определять случаи злоупотребления машинным переводом. Не всегда его использование – однозначная проблема. Нередко владельцы сайтов прибегают к подобному инструменту, чтобы создать мультиязычную версию веб-страницы, особенно если необходимо представить контент на экзотических языках для небольшой аудитории. Такие веб-ресурсы не стоит наказывать, уверен Мюллер.

Сотрудник Google обратился к сообществу вебмастеров с просьбой присылать примеры случаев, где поисковые алгоритмы не смогли успешно определить качество содержимого и ошибочно применили к сайту пессимизацию в выдаче. Это поможет сделать инструмент лучше и точнее.


Автор:
Александр Вашкевич Аналитик


Всегда ли вы находите в поисковике Google то, что ищите?


Да, всегда (23.08%, 6 голосов)
23.08%
Примерно в половине случаев (46.15%, 12 голосов)
46.15%
Редко нахожу нужное (3.85%, 1 голосов)
3.85%
Не пользуюсь Google (26.92%, 7 голосов)
26.92%

Комментарии
Избранное Подписка Сортировка: Древо
1. vano-ekt 441 20.09.18 10:28 Сейчас в теме
спс, кэп
Sapiens_bru; Ziggurat; dimisa; fuxic; +4 2 Ответить
2. fuxic 292 20.09.18 11:00 Сейчас в теме
А как минус статье поставить? Я думал сейчас по структуре мета и микроразметке пройдется, может по пределу скорости загрузки и новым критериям релевантности и поведенчеству, а тут... HTML! :)
Sapiens_bru; dimisa; +2 Ответить
3. 🅵🅾️🆇 404 15.10.18 12:31 Сейчас в теме
(2) (1) Сори за некропостинг, тут вывод, наверное, другой напрашивается. Просто журналист не смог грамотно донести.
Если у вас на сайте много динамического контента и js, то для бота надо делать "отдельный сайт". Этакое простое оглавление на html, куда пересылать поискового паука с помощью проксирующего сервера, например nginx.

Например тело нашего навороченного корпоративного портала по учету рабочего времени и проектов состоит из:
<div id="root"></div><sc ript type="text/javascript" src="/bundle.js?nnnnn"></sc ript>


Как сами понимаете, еслиб оно должно былоб индексироваться, паучку это не очень пришлось бы по вкусу.
Я не веб девелопер и возможно это прям совсем "капитанство", но всеже.
4. fuxic 292 15.10.18 15:33 Сейчас в теме
(3) Тут проблема стояла скорей аякса и динамических данных. То есть когда подгрузка происходит "запоздало", даже ожидая действий юзера. А по запросу получает лишь обертку приложения. Это новая фишка приложений SPA/PWA на базе angular/vue/react/ember и тому подобного клиентского. Бандлы вебпака или гульпа с версией и есть постоянно обновляющееся ядро при изменениях приложения - это вся логика. Но код кодом, а меняются сами данные страницы, которые тащатся фетчем/аяксом. Там даже роуты могут не обновляться и это вообще не понять как отследить боту. Тут спасает серверный рендеринг и много денег гугла, которые вроде уже научили ботов индексации динамического содержимого
5. 🅵🅾️🆇 404 15.10.18 15:35 Сейчас в теме
(4) Но ведь проще скармливать боту отдельную html страничку специально подготовленную для него.
Так он и лишнего не возьмет и в поисковую выдачу выдаст так как надо.

Разве не так?

А эту "урезаную версию сайта", наверное, можно использовать и для RSS агрегаторов или еще чегонить.

Я не веб дев, так что могу и бред молоть)
6. fuxic 292 15.10.18 15:56 Сейчас в теме
(5) Зачем серверу знать как рисовать страничку или график? Он управляет данными, защищает и оптимизирует их. Даже 1с уже разделяет эти понятия. А "рисовашками" занимается клиентская часть, которая получает сухие данные и оформляет их на лету даже под конкретного пользователя.
8. 🅵🅾️🆇 404 15.10.18 16:00 Сейчас в теме
(6)
А "рисовашками" занимается клиентская часть, которая получает сухие данные и оформляет их на лету даже под конкретного пользователя.


В целом все так.
Но как мне кажется, разумнее разделять "пользователя" и "паука".
Для паука не начинать сеанс, просто писать в табличку "зашел такойто краулер, во столькото" и отдавать ему заранее подготовленную, закэшированную и отрендеренную страничку и роботс.тхт.
7. TODD22 17 15.10.18 16:00 Сейчас в теме
(5)
Но ведь проще скармливать боту отдельную html страничку специально подготовленную для него.
Так он и лишнего не возьмет и в поисковую выдачу выдаст так как надо.

Клоакинг изобрёл? Поисковики то же не глупые, или в выдаче понизят или забанят.
Оставьте свое сообщение