OpenAI научила нейросеть кратко пересказывать содержимое книг

30.09.2021      30482

OpenAI представила инструмент, который генерирует краткое содержание книг при помощи машинного обучения. Нейросеть способна ужать произведение из тысяч слов до нескольких сотен.

Как работает технология

Модель искусственного интеллекта, способная создавать выжимки из книг, разработана на базе GPT-3. Инструмент обрабатывает текст в несколько этапов. Сперва нейросеть анализирует структуру произведения и разбивает его на разделы, затем генерирует краткое содержимое каждой из частей, объединяет получившийся результат в один текст и снова укорачивает его, пока не получит финальную выжимку с заданными параметрами.

В качестве демонстрации работы ИИ исследователи OpenAI сократили «Алису в стране чудес». Книга Льюиса Кэрролла содержит более 26 тыс. слов. После первого этапа обработки нейросеть представила 66 выжимок по 6 тыс. слов, после сократила объем текста до шести разделов по 830 слов. На выходе получился краткий пересказ книги из 136 слов.

Как заявляют исследователи, нейросеть способна создавать выжимки на уровне литературного произведения, которые содержат большую часть исходной ключевой информации. Тем не менее, иногда ИИ допускает неточные утверждения из-за того, что не распознает контекст. Авторы проекта уточняют, что инструмент способен работать с книгами любого размера, даже состоящими из тысяч страниц.

Метод обучения

По словам представителей OpenAI, создание инструмента для генерации выжимок из литературы – часть постоянных исследований организации по совершенствованию возможностей искусственного интеллекта. Компания не намерена делать сервис доступным для других пользователей, публиковать его исходный код и делать проект открытым.

Для тренировки нейросети OpenAI использовала базу данных из художественных англоязычных книг в обучающем наборе GPT-3. Каждое произведение в среднем содержало не менее 100 тыс. слов. Чтобы оценить результаты генерации краткого содержания, исследователи отобрали 40 бестселлеров 2020 года и поручили двум людям прочитать эти книги и самостоятельно написать выжимку. После результаты человеческого труда сравнили с итогами машинной обработки текста.

Несмотря на достаточно детальное изложение фактов, нейросеть, по словам авторов проекта, скорее генерирует список событий из книги, а не связанный краткий пересказ. Кроме того, ИИ иногда принимает незначительные детали за существенные, особенно в детективных романах.


Автор:
Аналитик


Комментарии
Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. dka80 20 30.09.21 16:56 Сейчас в теме
"После результаты человеческого труда сравнили с итогами машинной обработки текста."
Какой результат сравнения?
2. booksfill 30.09.21 18:09 Сейчас в теме
Хотелось бы хотя бы минимальной конкретики.

Сиречь примера, с той же Алисой.

А так... вот вам выжимка из "Алисы", которую я ожидал бы от ИИ, в 11 слов: "Девочка Алиса во сне попадает в сказочную страну, и, после ряда удивительных приключений, просыпается."
Здесь просчитывается абсолютно всё, включая слово "удивительных".

Задача как раз для программы - довольно легко высчитать начало и конец истории, сказочность остальных персонажей, пол, приблизительный возраст и наиболее часто встречающийся персонаж - скорее-всего, он же, главный герой.
Можно добавить несколько слов про имена и роли персонажей - встречается с сумасшедшим шляпником, гусеницей - наркоманкой, наблюдает за битвой единорога со львом, знакомится с королевой и т.п.

Если это оно, то, честно говоря, особого восторга механизм не вызывает.


"исследователи отобрали 40 бестселлеров 2020 года и поручили двум людям прочитать эти книги" - бедные. Обычно среди "бестселлеров" столько же интересных, сколько и среди оскароносных фильмов, т.е. процентов 10. А им пришлось читать все, да еще сочинения писать. Понятно, что ИИ справился не сильно хуже.
И, хотя бы из милосердия и понимания того как проводится эксперимент, я дал бы по 3 одинаковых книги 100 разных людей. Причем не случайным, а достаточно образованным и умеющим грамотно излагать свои мысли, что большая редкость.


P.S.
Кстати, охотно верю, что выжимку от ИИ вполне можно запихать в предисловие. Которое, в большинстве случаев, достаточно тоскливо.
Но, разумеется, я понимаю, что ИИ создается не для написания предисловий.
Оставьте свое сообщение

См. также

«Сколково» объявил отбор перспективных ИИ-проектов для получения грантов

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    358    AnastasiaKl    3       

3

В программу подготовки спортивных программистов вошли бег и скорость печати

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    692    VKuser24342747    2       

1

Росстандарт утвердил протокол LoRaWAN для интернета вещей

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    485    VKuser24342747    0       

2

Новый закон откладывает на год вступление в силу изменений в порядок регистрации на сайтах

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    653    VKuser24342747    2       

1

Вышло крупное обновление для Android Studio

Новость Мобильные приложения ИТ-Новость

Новая версия Android Studio под номером 2023.1 получила имя Hedgehog. Появились возможности контролировать производительность приложений и управлять подключенными устройствами.

07.12.2023    796    VKuser24342747    2       

3

GitHub опубликовал результаты ежегодного исследования проектов с открытым исходным кодом

Новость GitHub ИТ-Новость

GitHub собрал данные об Open Source проектах в рамках ежегодного исследования Octoverse. Компания изучила географию репозиториев, используемые языки программирования и нейросети, а также активность сообщества.

15.11.2023    526    VKuser24342747    1       

2

Некоммерческие проекты смогут получить бесплатный доступ к GigaChat API

Новость ИТ-компания ИТ-Новость

Компания «Сбер» заявила, что будет бесплатно предоставлять доступ к API нейросети для генерации текста GigaChat для некоммерческих проектов. Однако для них будет ограничено число доступных токенов.

01.11.2023    654    VKuser24342747    2       

3

Состоялся релиз свободной среды разработки Geany 2.0

Новость ИТ-Новость Программист

Вышла новая версия Geany 2.0. Обновление затронуло внешний вид программы, расширило поддержку файлов и сторонних проектов, добавило новые способы работы с кодом.

25.10.2023    708    VKuser24342747    0       

1

Минцифры подготовило критерии по выбору оператора реестра провайдеров хостинга

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило проект постановления, которое утверждает требования к организации, претендующей на статус оператора реестра провайдеров хостинга.

25.10.2023    381    VKuser24342747    0       

1

Минцифры составило алгоритм действий для компаний, у которых не работает VPN

Новость Минцифры ИТ-Новость

Минцифры подготовило разъяснения для российских организаций, у которых возникли перебои в работе VPN-сервисов для клиентов и сотрудников из-за блокировки запрещенных ресурсов Роскомнадзором.

24.10.2023    635    VKuser24342747    0       

0

«Сбер» объявила о доступности SberLinux OS Server для российских компаний

Новость Импортозамещение ИТ-Новость

«СберТех», дочерняя компания «Сбера», объявила о предоставлении доступа к собственной серверной операционной системе SberLinux OS Server российским компаниям. ОС включена в реестр отечественного ПО.

20.10.2023    885    VKuser24342747    0       

2

Минцифры внесло изменения в проект правил идентификации клиентов веб-хостингов

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило изменения в пакет документов, которые устанавливают новые требования для провайдеров хостинга. Ведомство расширило перечень допустимых методов идентификации клиентов.

18.10.2023    471    VKuser24342747    0       

1

Google выпустила финальную версию Android 14

Новость Android Google ИТ-Новость

Google выпустила новую версию мобильной ОС Android 14. Изменения затронули настройки внешнего вида и безопасности. Были расширены возможности камеры и инструментов для хранения данных.

12.10.2023    697    VKuser24342747    0       

1

Яндекс объявил об открытии исходного кода DataLens

Новость Аналитика ИТ-Новость Яндекс

BI-система Yandex DataLens теперь развивается в опенсорс. Код продукта выложен для всех на GitHub. Любой желающий сможет развернуть DataLens на своем железе и доработать его под свои сценарии применения.

03.10.2023    1421    ЕленаЧерепнева    1       

6

Роскомнадзор создаст реестр хостинг-провайдеров

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило несколько проектов постановлений, которые утверждают правила ведения реестра поставщиков хостинг-услуг, а также новые требования к провайдерам.

02.10.2023    602    VKuser24342747    0       

1

«СберТех» представил репозиторий GitVerse с ИИ-помощником для написания кода

Новость Импортозамещение ИТ-Новость Программист

«СберТех» начал прием заявок на тестирование веб-сервиса для публикации ИТ-проектов GitVerse. Платформа подходит для разработки программ с открытым и закрытым кодом.

26.09.2023    828    VKuser24342747    2       

1

ИП и юрлица смогут использовать смартфон для создания и замены электронной подписи

Новость ИТ-Новость ФНС Цифровая подпись

ФНС внесла изменения в правила оформления электронной подписи руководителя организации и ИП. Станет возможным продлевать ее и записывать при помощи мобильного устройства.

18.09.2023    437    VKuser24342747    1       

1

Журнал IEEE Spectrum опубликовал рейтинг популярности языков программирования

Новость ИТ-Новость Языки программирования

Журнал Института инженеров электротехники и электроники IEEE Spectrum подготовил рейтинг самых популярных языков программирования в 2023 году. Статистика разделена на три категории.

01.09.2023    1310    VKuser24342747    4       

2

В бета-версии Microsoft 365 появилась поддержка языка Python для Excel

Новость ИТ-Новость Языки программирования

С помощью библиотек и средств визуализации Python можно будет манипулировать данными Excel, а затем использовать полученные результаты в формулах, диаграммах и сводных таблицах.

28.08.2023    665    VKuser24342747    0       

2

Специалисты Калифорнийского университета установили, что боты справляются с CAPTCHA лучше, чем люди

Новость ИТ-Новость

Международная группа исследователей изучила эффективность тестов CAPTCHA. Ученые пришли к выводу, что технология больше мешает людям, потому что боты научились с ней справляться.

24.08.2023    1166    VKuser24342747    23       

2

Google Chrome начнет поддерживать квантово-устойчивые алгоритмы шифрования

Новость Google Безопасность ИТ-Новость

В версии Google Chrome 116 появится поддержка алгоритмов шифрования, устойчивых к попыткам дешифрации при помощи квантовых вычислений. Технология объединяет преимущества классической и инновационной криптографии.

24.08.2023    484    VKuser24342747    0       

1

В реестр российского ПО включен первый комплекс обработки больших данных

Новость Импортозамещение Минцифры ИТ-Новость Реестр ПО

Минцифры внесло в реестр отечественного ПО программно-аппаратный комплекс «Скала-Р», предназначенный для обработки больших данных. Это первый комплекс с таким функционалом, включенный в перечень.

22.08.2023    473    VKuser24342747    0       

1

Microsoft внедрила новые функции в GitHub Copilot и анонсировала Windows Copilot

Новость GitHub Искусственный интеллект

ИИ-помощник для разработчиков GitHub Copilot теперь не только в реальном времени анализирует код, предлагает варианты для его улучшения и помогает найти решение проблем в разработке, но и  показывает ссылки на репозитории, из которых взят код. 

17.08.2023    1167    VKuser24342747    0       

1

В JetBrains разработали ИИ-помощника для аналитиков данных

Новость Аналитика Искусственный интеллект

JetBrains представила нейросеть Ask AI для онлайн-блокнота Datalore. Виртуальный ассистент способен генерировать код на нескольких языках, предлагать доработки и упрощать процесс аналитики данных. 

16.08.2023    671    VKuser24342747    0       

1

Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании

Новость Искусственный интеллект ИТ-Новость

Чат-бот OpenAI ошибается в 52% случаев, когда отвечает на вопросы по программированию. Однако делает это так убедительно, что пользователи не замечают ошибки. 

14.08.2023    1044    VKuser24342747    5       

3