OpenAI представила инструмент, который генерирует краткое содержание книг при помощи машинного обучения. Нейросеть способна ужать произведение из тысяч слов до нескольких сотен.
Как работает технология
Модель искусственного интеллекта, способная создавать выжимки из книг, разработана на базе GPT-3. Инструмент обрабатывает текст в несколько этапов. Сперва нейросеть анализирует структуру произведения и разбивает его на разделы, затем генерирует краткое содержимое каждой из частей, объединяет получившийся результат в один текст и снова укорачивает его, пока не получит финальную выжимку с заданными параметрами.
В качестве демонстрации работы ИИ исследователи OpenAI сократили «Алису в стране чудес». Книга Льюиса Кэрролла содержит более 26 тыс. слов. После первого этапа обработки нейросеть представила 66 выжимок по 6 тыс. слов, после сократила объем текста до шести разделов по 830 слов. На выходе получился краткий пересказ книги из 136 слов.
Как заявляют исследователи, нейросеть способна создавать выжимки на уровне литературного произведения, которые содержат большую часть исходной ключевой информации. Тем не менее, иногда ИИ допускает неточные утверждения из-за того, что не распознает контекст. Авторы проекта уточняют, что инструмент способен работать с книгами любого размера, даже состоящими из тысяч страниц.
Метод обучения
По словам представителей OpenAI, создание инструмента для генерации выжимок из литературы – часть постоянных исследований организации по совершенствованию возможностей искусственного интеллекта. Компания не намерена делать сервис доступным для других пользователей, публиковать его исходный код и делать проект открытым.
Для тренировки нейросети OpenAI использовала базу данных из художественных англоязычных книг в обучающем наборе GPT-3. Каждое произведение в среднем содержало не менее 100 тыс. слов. Чтобы оценить результаты генерации краткого содержания, исследователи отобрали 40 бестселлеров 2020 года и поручили двум людям прочитать эти книги и самостоятельно написать выжимку. После результаты человеческого труда сравнили с итогами машинной обработки текста.
Несмотря на достаточно детальное изложение фактов, нейросеть, по словам авторов проекта, скорее генерирует список событий из книги, а не связанный краткий пересказ. Кроме того, ИИ иногда принимает незначительные детали за существенные, особенно в детективных романах.