«Яндекс» внедрил генеративную нейросеть для поиска ответов

«Яндекс» внедрил генеративную нейросеть для поиска ответов
11.06.2021
23149

«Яндекс» представил новую версию своего поисковика Y1. В числе прочих изменений – использование машинного обучения для генерации подзаголовков объектных ответов и классификации сниппетов. 

Технология обучения

Датасет используемой нейросети «Яндекс» обучал на реальных текстах, размещенных в интернете. В него вошли как качественные источники вроде «Википедии», книг и новостей, так и более «грязные» материалы, из которых исключены неестественные словарные конструкции: дубликаты, объявления и т.д. 

Для обучения модели используется комбинированный подход. Инженеры «Яндекса» применяют метод для тренировки больших сетей Pipeline parallelism, который разделяет модель, поэтому каждая ее карточка хранит лишь несколько первых слоев. Для экономии ресурсов задействуется подход Tensor parallelism от Nvidia, который разделяет модель не поперек слоев, а вдоль, из-за чего они сохраняются сразу на нескольких карточках. Также использован метод ZeRO, разработанный Microsoft.

В итоге «Яндекс» создал две модели, которые составляют его собственное семейство YaLM. Старшая модель насчитывает 13 млрд параметров, младшая — 1 млрд.

Где используется

Модели YaLM применяются компанией для доработки объектных ответов – быстрой выдачи на популярные запросы, которые загружаются из «Википедии». Нейросеть помогает упростить такие описания, сгенерировав для пользователя простую и понятную фразу. Благодаря машинному обучению система из краткого текста с информацией создает одно предложение, описывающее ответ, например «Короче, ТНТ – это телеканал» или «Короче, Booking.com – это сайт бронирования отелей».

Также нейросеть используется не только для генерации, но и для классификации. В «Яндексе» для выбора лучшего сниппета (короткого ответа на вопрос, взятого с разных сайтов) задействуются собственная технология машинного обучения CatBoost. Благодаря YaLM будет дополнительно рассчитываться вероятность слов из этой модели. 

Кроме того, новая разработка «Яндекса» должна улучшить ответы голосового помощника «Алиса». Сейчас он работает на базе диалогов, написанных редакторами с учетом характера персонажа. Однако виртуальный ассистент оказался недостаточно «живым» в общении из-за малого охвата тем. Для решения этой проблемы разработчики намерены использовать YaLM, применив к модели специфические настройки, например, заморозив все весы, кроме обучаемых параметров в слоях layer norm.  Первые эксперименты показали, что такой подход не «отупляет» «Алису» и позволяет сохранить задуманный для нее характер. 

Другие обновления

Кроме внедрения генеративной нейросети, «Яндекс» представил и другие изменения для своего поисковика. 

Система научилась находить видео с инструкциями, соответствующими запросу пользователя, и вычленять из него наиболее подходящий отрывок. В результатах поиска теперь будет отображаться пользовательский рейтинг организаций по нескольким критериям и отзывы.  Умная камера, предназначенная для распознавания объектов, по заверениям разработчиков, стала работать в пять раз точнее. Для пользователей мобильного приложения «Яндекс» доступен автоматический определитель номера, который позволяет блокировать нежелательные вызовы. 

Автор:
Аналитик

См. также

Минцифры подготовило проект постановления по запуску платформы, на которой ИТ-специалисты могут пройти добровольное тестирование и подтвердить свою квалификацию.

11.12.2024    979    user1915669    3       

2

Федеральная налоговая служба запустила интерактивный сервис, позволяющий формировать в машиночитаемом виде договоры, контракты, соглашения и спецификации. Чтобы создать документ и скачать получившийся файл, регистрация не требуется.

03.12.2024    788    user2114475    0       

2

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024    949    user1915669    0       

3

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев IPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024    1251    AnastasiaKl    0       

4

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    1236    user1915669    2       

2

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    868    user1915669    0       

2

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    982    AnastasiaKl    0       

1

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    1059    user1915669    0       

1
Инфостарт бот

Оставьте свое сообщение