«Сбер» предоставил свободный доступ к языковой модели ruGPT-3.5, предназначенной для генерации текста на русском языке. Кроме того, стала доступна нейросеть mGPT, поддерживающая 61 язык, включая языки СНГ и малых народов России.
Модель для русского языка
Модель Russian Generative Pretrained Transformer версии 3.5 с 13 млрд параметров (ruGPT-3.5 13B) была разработана для использования в чат-боте «Сбера» GigaChat. Кроме нее, при разработке сервиса применялась NeONKA (NEural Omnimodal Network with Knowledge-Awareness).
Нейросеть ruGPT-3.5 13B представляет собой доработанную архитектуру GPT-3 от OpenAI, заточенную под генерацию текстов на русском языке. Кроме того, модель способна работать с английским языком и языками программирования. Длина ее контекста составляет 2048 токенов.
Для обучения применялся массив текстов весом более 1 ТБ. В него входили текстовые данные из открытых источников, часть открытого сета с кодом The Stack от коллаборации исследователей BigCode и корпусы новостных текстов. Тренировали нейросеть команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI.
Модель ruGPT-3.5 опубликована под лицензий MIT, что позволяет использовать ее всем разработчикам. Получить доступ к нейросети можно через сервис HuggingFace либо на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub.
Мультиязычная модель
В открытом доступе стала доступна модель mGPT 13B. Она также содержит 13 млрд параметров. Нейросеть способна генерировать продолжение текста на 61 языке, среди которых представлены языки СНГ и малых народов России. Длина контекста модели – 512 токенов. Для обучения применялись 600 ГБ данных, собранных из открытых источников и очищенных и подготовленных датасетов на разных языках.
Модель mGPT подойдет для генерации текста, решения различных задач в области обработки естественного языка. Нейросеть возможно дообучить или применять в составе нескольких моделей.
Как и ruGPT-3.5, модель «Сбера» распространяется под лицензией MIT и доступна в HuggingFace и ML Space.
Цель проектов
Андрей Белевцев, руководитель блока «Технологии» Сбербанка, рассказал, что технологическая компания выступает за открытость технологий и возможность обмениваться опытом с профессиональным сообществом. В замкнутой среде потенциал разработок снижается.
В «Сбере» уверены, что свободный доступ к обученным моделям поможет российским исследователям и разработчикам в их работе, для которой нужны сверхмощные языковые нейросети. С их помощью специалисты смогут создавать собственные технологические продукты и решения.