«Яндекс» внедрил генеративную нейросеть для поиска ответов

11.06.2021      23059

«Яндекс» представил новую версию своего поисковика Y1. В числе прочих изменений – использование машинного обучения для генерации подзаголовков объектных ответов и классификации сниппетов. 

Технология обучения

Датасет используемой нейросети «Яндекс» обучал на реальных текстах, размещенных в интернете. В него вошли как качественные источники вроде «Википедии», книг и новостей, так и более «грязные» материалы, из которых исключены неестественные словарные конструкции: дубликаты, объявления и т.д. 

Для обучения модели используется комбинированный подход. Инженеры «Яндекса» применяют метод для тренировки больших сетей Pipeline parallelism, который разделяет модель, поэтому каждая ее карточка хранит лишь несколько первых слоев. Для экономии ресурсов задействуется подход Tensor parallelism от Nvidia, который разделяет модель не поперек слоев, а вдоль, из-за чего они сохраняются сразу на нескольких карточках. Также использован метод ZeRO, разработанный Microsoft.

В итоге «Яндекс» создал две модели, которые составляют его собственное семейство YaLM. Старшая модель насчитывает 13 млрд параметров, младшая — 1 млрд.

Где используется

Модели YaLM применяются компанией для доработки объектных ответов – быстрой выдачи на популярные запросы, которые загружаются из «Википедии». Нейросеть помогает упростить такие описания, сгенерировав для пользователя простую и понятную фразу. Благодаря машинному обучению система из краткого текста с информацией создает одно предложение, описывающее ответ, например «Короче, ТНТ – это телеканал» или «Короче, Booking.com – это сайт бронирования отелей».

Также нейросеть используется не только для генерации, но и для классификации. В «Яндексе» для выбора лучшего сниппета (короткого ответа на вопрос, взятого с разных сайтов) задействуются собственная технология машинного обучения CatBoost. Благодаря YaLM будет дополнительно рассчитываться вероятность слов из этой модели. 

Кроме того, новая разработка «Яндекса» должна улучшить ответы голосового помощника «Алиса». Сейчас он работает на базе диалогов, написанных редакторами с учетом характера персонажа. Однако виртуальный ассистент оказался недостаточно «живым» в общении из-за малого охвата тем. Для решения этой проблемы разработчики намерены использовать YaLM, применив к модели специфические настройки, например, заморозив все весы, кроме обучаемых параметров в слоях layer norm.  Первые эксперименты показали, что такой подход не «отупляет» «Алису» и позволяет сохранить задуманный для нее характер. 

Другие обновления

Кроме внедрения генеративной нейросети, «Яндекс» представил и другие изменения для своего поисковика. 

Система научилась находить видео с инструкциями, соответствующими запросу пользователя, и вычленять из него наиболее подходящий отрывок. В результатах поиска теперь будет отображаться пользовательский рейтинг организаций по нескольким критериям и отзывы.  Умная камера, предназначенная для распознавания объектов, по заверениям разработчиков, стала работать в пять раз точнее. Для пользователей мобильного приложения «Яндекс» доступен автоматический определитель номера, который позволяет блокировать нежелательные вызовы. 


Автор:
Аналитик


См. также

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    202    user1915669    0       

1

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    360    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    413    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    522    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1058    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    860    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    653    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    796    VKuser24342747    2       

1
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
Оставьте свое сообщение