IBM обучит нейросеть программированию на 14 млн фрагментов кода

19.05.2021      19335

IBM представила набор данных Project CodeNet, который предназначен для тренировки нейросетей написанию рабочего программного кода. В датасет вошли сведения о 55 языках программирования.

Размер базы

Американская ИТ-компания на конференции сравнила свой проект с приложением Rosetta Stone для изучения иностранных языков, с той лишь разницей, что набор данных позволит обучать программированию искусственный интеллект. Научный сотрудник IBM Ручир Пури рассказал, что датасет не уступает аналогичному комплексу для разработки систем компьютерного зрения ImageNet.

В базу CodeNet вошло множество сведений о различных аспектах разработки приложений. Набор данных содержит 14 млн фрагментов кода и 500 млн строк на 55 языках – от устаревших COBOL и FORTRAN до актуальных Java, C ++ и Python. Также в датасете включено около 4 тыс. задач по программированию.

Проблемы обучения ИИ

По словам авторов проекта, первый шаг в обучении нейросетей программированию – это возможность искусственного интеллекта переводить код с одного языка на другой. Ручир Пури отмечает, что тренировка системы на датасете, который включает несколько языков, позволит применять ИИ в парных операциях. Например, станет возможным переписать COBOL-код на Java или наоборот.

Такой подход поможет упростить понимание, разработку и развертывание приложений. Программирование работает по определенным правилам, но их знания нейросети будет недостаточно для того, чтобы перевести программу с одного языка на другой. Авторы Project CodeNet в качестве примера приводят COBOL, который давно уже устарел, но его все равно продолжают использовать, потому что уже написанные на нем приложения еще применяются в бизнесе. Автоматизировать процесс перехода на современный язык мешает контекст конкретного решения. Без понимания связей перевести возможно не более 60% программы.

Возможности датасета

Набор данных CodeNet уникален не только по объему информации, но и по качеству метаданных и аннотаций к коду. Кроме того, в базу включены описание проблем и примеры их решения средствами программирования.

Поэтому датасет IBM позволяет использовать искусственный интеллект для поиска фрагментов кода и обнаружения клонов. CodeNet также может выступать в роли эталонного набора данных. Каждый образец помечен временем работы процессора и объемом памяти, благодаря чему разработчики имеют возможность проводить регрессионные исследования, создавать собственные системы, поддерживающие автоматическую коррекцию кода.

Изучить данные CodeNet и использовать их в работе можно при помощи репозитория на GitHub.


Автор:
Аналитик


Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. Darklight 32 19.05.21 14:03 Сейчас в теме
14млн фрагментов? Всего-то! Надеюсь приложение "Hello World" хоть сможет написать? А при не стандартной постановке?
2. o.nikolaev 211 19.05.21 19:39 Сейчас в теме
(1) Смейся, смейся - кожаный мешок! Это начало конца нашей профессии. Как вовремя я решил выучиться на сварщика-то...
vsesam80; Артано; chg; +3 Ответить
3. Darklight 32 19.05.21 20:07 Сейчас в теме
(2)Роботы сварщики уже давно есть - Вы выучили не ту профессию
4. o.nikolaev 211 19.05.21 20:12 Сейчас в теме
(3) Да нет, это вы ошиблись с выбором.
5. chg 20.05.21 06:54 Сейчас в теме
(4)на сантехника вернее:
- видишь этот кран? Так вот он как стоил пузырь, так и будет стоить.
o.nikolaev; Артано; +2 Ответить
6. Артано 760 20.05.21 07:47 Сейчас в теме
На самом деле не повод для смеха, еще несколько лет назад давал прогноз, что через 20 лет, профессия кодера будет автоматизирована. Останутся архитекторы и сопричастные.
Сейчас всего лишь проводятся первые эксперименты для оценки трудоёмкости, возможных проблем и потенциальной коммерческой эффективности
o.nikolaev; +1 Ответить
7. Darklight 32 20.05.21 10:22 Сейчас в теме
(6)Кодеры - уйдут в прошлое! Но... вряд ли за 20 лет. Но за 100 - скорее всего! И это правильно. А языки программирования должны эволюционировать до более высокоуровневого состояния. 5-его поколение не предел - на него нужно выйти во второй половине XXI века (в массовой разработке прикладных приложений). А в XXII веке нужно будет выйти и на языки 6-го поколения (о них сейчас даже почти никто и не помышляет). Вот только после этого профессия кодера начнёт массово отмирать!
Может я силишкам пессимистичен в прогнозах! Или излишне пессимистичны те, кто предрекает смерть профессии кодера уже в XXI веке (не говоря уже о первой половине XXI века).
Да и много ли Вы знаете кодеров в 1С Предприятие 8? Кодингом да - многие занимаются - но не в меньшей степени чем разработкой, а многие такие "кодеры" ещё и архитекторы СУБД администраторы.
И это положение дел навряд ли сильно изменится даже если к середине века выйдет гипотетическая революционно новая платформа - 1С Предприятие 9 - тут нужно скакнуть аж "через две головы", чтобы свести кодинг в среде 1С Предприятие к минимуму! Но что-то уже не верится в то, что фирма 1С на такое будет способна (даже в 1С Предприятие 10, лет через 70-80-100). Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...
8. Артано 760 21.05.21 04:46 Сейчас в теме
(7)
Скорее всего то новое поколение разработчиков прикладных решений на специализированных платформах уже перейдут на иные учётные системы - созданные молодыми и амбициозными командами, имеющих, в своём составе, если и не гениев, то хотя бы неординарных специалистов, готовых внедрять новые идеи и перенимать мировые достижения. Старым командам 1С это уже не подсилу... и не понять...


Да, в недавнем споре подобный сценарий я и выдвигал как наиболее вероятный применительно к одинесникам. не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента. Разумеется, под присмотром архитектора =)

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению. Получается намного дешевле и быстрее и багов меньше чем в твоей нетленке, которую ты пилишь уже 5-10-15 лет.
9. Darklight 32 21.05.21 10:03 Сейчас в теме
(8)
не будет новой платформы, будут принципиально иные решения не требующие штата программистов и кастомизируемых роботами под конкретного клиента

"Не в нашу смену" ;-) не стоит этого ждать в ближайшие лет 100, или я не понимаю вашего мнения.
До подобных систем ещё очень далеко (такого подобия нет ни у кого ещё), всё-таки платформы будут развиваться более плавно. Как я написал выше - моё мнение, что это уровень не ниже 1С Предприятие 10 (а в Вашем описании - технологии, скорее 11-го поколения) - т.е. это уже XXII век - таково моё мнение. Но я скептически отнёсся к тому, что 1С Предприятие доживёт до 10-ой генерации (а если вдруг доживёт - то на ней и загнётся, не в силу конкурировать - разве что Россия к тому времени не будет в полной изоляции и 1С будет иметь около 100% всего рынка за неимением доступа конкурентов извне, если только в России не появятся свои новые конкуренты к тому времени). Но в то, что рано или поздно выйдет 1С Предприятие 9 - я верю (не верю, что скоро выйдет, тут скорее руководство в 1С должно будет в корне поменяться, ну или перед своим уходом Б. Нуралиев выпустить прощальный подарок - своё последнее виденье новой платформы). Но при любом раскладе - вряд ли 1С Предприятие 9 далеко уйдёт от 8-ки - вообще фантазии на эту тему, наверное, достойный отдельной статьи, если эти фантазии, далёкого от компании 1С человека, интересны, а сотрудникам 1С - до сообщества дела нет, тем более до фантазий - от них ждать не стоит.

А моё мнение таково - что в 9-ке поменяется язык (вероятно на основе 1С Исполнителя - а он, лично мне по вкусу не пришёлся), поменяется движок: вероятно перейдёт на Java - что, в общем-то не плохо, возможно и язык конфигураций будет исполняться на Java платформе - что логично (хотя я бы выбрал LLVM или .NET(а для web будет компилироваться в Web-assembler). Вероятно внешнре компоненты можно будет подключать бесшовно, как на OneScript. Переработают язык запросов (но вряд ли он станет менее похотим на SQL). Уйдёт в прошлое 1С-конфигуратор (его заменит EDT - или что-то в этом духе). Появится много инструментов и смарт-помощников для программиста (для анализа, рефакторинга, кодинга...). Архитектура клиент-сервера перейдёт на микросервисы. Возможно, сделают свою СУБД (гибридную, с поддержкой реляционной и нереляционной алгебры) с миркросервисами, которые можно будет и расширять (на каком-то языке - возможно на Java, имея низкоуровневый доступ). Переработают дерево метаданных (не знаю - останется ли жёсткое разделена на справочники, документы и т.п. - считаю это всё пережитком прошлого, хоть это и ключевая фишка платформы - но её можно оставить через логические представления - видимые для пользователей). Структура метаданных станет более гибкой и вложенной. Появится голосовое управление. Появятся песевдо-AI-помшники для помощи в обработке данных и их анализу. Поддержка национальной локализации архитектуры станет ещё более гибкой. Пожалуй, наверное, всё - чего-то большего ждать за 20-30 лет от компании 1С не стоит. Ну разве, что появится гибкая поддержка модульности (особенно это нужно для национальной лаколизации) - как дальнейшее развитие идеи расширений (но это под вопросом, хотя многие больше всего ждут именно этого). Вероятнее всего поменяется лицензионная политика (не знаю в какую сторону, вероятно на разные микросервисы нужны будут свои лицензии, изменится и лицензионное масштабирование - став более прозрачным, но более дорогим).
В общем - тут много революционных идей, но в целом - ничего особенного и сверхъестественного. Всё уже давно назрело. Без многих идей делать новое поколение платформы просто бессмысленно. Ничего того, что можно было бы сделать уже сейчас тут нет. Бери - да делай - и тут просто нужно время.
И здесь нет ничего, что бы существенно сокращало штат программистов.

Если хотите знать своё конкретное будущее, то рано или поздно вам скажут, что мы купили новую программу для нашего учета, вместе с сервисом по доработкам и сопровождению

Перейдём в разработку таких систем и расширений к ним.
Оставьте свое сообщение

См. также

В программу подготовки спортивных программистов вошли бег и скорость печати

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    643    VKuser24342747    2       

1

Росстандарт утвердил протокол LoRaWAN для интернета вещей

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    425    VKuser24342747    0       

2

Новый закон откладывает на год вступление в силу изменений в порядок регистрации на сайтах

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    607    VKuser24342747    2       

1

Вышло крупное обновление для Android Studio

Новость Мобильные приложения ИТ-Новость

Новая версия Android Studio под номером 2023.1 получила имя Hedgehog. Появились возможности контролировать производительность приложений и управлять подключенными устройствами.

07.12.2023    719    VKuser24342747    2       

3

GitHub опубликовал результаты ежегодного исследования проектов с открытым исходным кодом

Новость GitHub ИТ-Новость

GitHub собрал данные об Open Source проектах в рамках ежегодного исследования Octoverse. Компания изучила географию репозиториев, используемые языки программирования и нейросети, а также активность сообщества.

15.11.2023    486    VKuser24342747    1       

2

Некоммерческие проекты смогут получить бесплатный доступ к GigaChat API

Новость ИТ-компания ИТ-Новость

Компания «Сбер» заявила, что будет бесплатно предоставлять доступ к API нейросети для генерации текста GigaChat для некоммерческих проектов. Однако для них будет ограничено число доступных токенов.

01.11.2023    602    VKuser24342747    2       

3

Состоялся релиз свободной среды разработки Geany 2.0

Новость ИТ-Новость Программист

Вышла новая версия Geany 2.0. Обновление затронуло внешний вид программы, расширило поддержку файлов и сторонних проектов, добавило новые способы работы с кодом.

25.10.2023    691    VKuser24342747    0       

1

Минцифры подготовило критерии по выбору оператора реестра провайдеров хостинга

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило проект постановления, которое утверждает требования к организации, претендующей на статус оператора реестра провайдеров хостинга.

25.10.2023    356    VKuser24342747    0       

1

Минцифры составило алгоритм действий для компаний, у которых не работает VPN

Новость Минцифры ИТ-Новость

Минцифры подготовило разъяснения для российских организаций, у которых возникли перебои в работе VPN-сервисов для клиентов и сотрудников из-за блокировки запрещенных ресурсов Роскомнадзором.

24.10.2023    611    VKuser24342747    0       

0

«Сбер» объявила о доступности SberLinux OS Server для российских компаний

Новость Импортозамещение ИТ-Новость

«СберТех», дочерняя компания «Сбера», объявила о предоставлении доступа к собственной серверной операционной системе SberLinux OS Server российским компаниям. ОС включена в реестр отечественного ПО.

20.10.2023    829    VKuser24342747    0       

2

Минцифры внесло изменения в проект правил идентификации клиентов веб-хостингов

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило изменения в пакет документов, которые устанавливают новые требования для провайдеров хостинга. Ведомство расширило перечень допустимых методов идентификации клиентов.

18.10.2023    456    VKuser24342747    0       

1

Google выпустила финальную версию Android 14

Новость Android Google ИТ-Новость

Google выпустила новую версию мобильной ОС Android 14. Изменения затронули настройки внешнего вида и безопасности. Были расширены возможности камеры и инструментов для хранения данных.

12.10.2023    672    VKuser24342747    0       

1

Яндекс объявил об открытии исходного кода DataLens

Новость Аналитика ИТ-Новость Яндекс

BI-система Yandex DataLens теперь развивается в опенсорс. Код продукта выложен для всех на GitHub. Любой желающий сможет развернуть DataLens на своем железе и доработать его под свои сценарии применения.

03.10.2023    1370    ЕленаЧерепнева    1       

6

Роскомнадзор создаст реестр хостинг-провайдеров

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило несколько проектов постановлений, которые утверждают правила ведения реестра поставщиков хостинг-услуг, а также новые требования к провайдерам.

02.10.2023    561    VKuser24342747    0       

1

«СберТех» представил репозиторий GitVerse с ИИ-помощником для написания кода

Новость Импортозамещение ИТ-Новость Программист

«СберТех» начал прием заявок на тестирование веб-сервиса для публикации ИТ-проектов GitVerse. Платформа подходит для разработки программ с открытым и закрытым кодом.

26.09.2023    765    VKuser24342747    2       

1

ИП и юрлица смогут использовать смартфон для создания и замены электронной подписи

Новость ИТ-Новость ФНС Цифровая подпись

ФНС внесла изменения в правила оформления электронной подписи руководителя организации и ИП. Станет возможным продлевать ее и записывать при помощи мобильного устройства.

18.09.2023    415    VKuser24342747    1       

1

Журнал IEEE Spectrum опубликовал рейтинг популярности языков программирования

Новость ИТ-Новость Языки программирования

Журнал Института инженеров электротехники и электроники IEEE Spectrum подготовил рейтинг самых популярных языков программирования в 2023 году. Статистика разделена на три категории.

01.09.2023    1262    VKuser24342747    4       

2

В бета-версии Microsoft 365 появилась поддержка языка Python для Excel

Новость ИТ-Новость Языки программирования

С помощью библиотек и средств визуализации Python можно будет манипулировать данными Excel, а затем использовать полученные результаты в формулах, диаграммах и сводных таблицах.

28.08.2023    643    VKuser24342747    0       

2

Специалисты Калифорнийского университета установили, что боты справляются с CAPTCHA лучше, чем люди

Новость ИТ-Новость

Международная группа исследователей изучила эффективность тестов CAPTCHA. Ученые пришли к выводу, что технология больше мешает людям, потому что боты научились с ней справляться.

24.08.2023    1141    VKuser24342747    23       

2

Google Chrome начнет поддерживать квантово-устойчивые алгоритмы шифрования

Новость Google Безопасность ИТ-Новость

В версии Google Chrome 116 появится поддержка алгоритмов шифрования, устойчивых к попыткам дешифрации при помощи квантовых вычислений. Технология объединяет преимущества классической и инновационной криптографии.

24.08.2023    466    VKuser24342747    0       

1

В реестр российского ПО включен первый комплекс обработки больших данных

Новость Импортозамещение Минцифры ИТ-Новость Реестр ПО

Минцифры внесло в реестр отечественного ПО программно-аппаратный комплекс «Скала-Р», предназначенный для обработки больших данных. Это первый комплекс с таким функционалом, включенный в перечень.

22.08.2023    452    VKuser24342747    0       

1

Microsoft внедрила новые функции в GitHub Copilot и анонсировала Windows Copilot

Новость GitHub Искусственный интеллект

ИИ-помощник для разработчиков GitHub Copilot теперь не только в реальном времени анализирует код, предлагает варианты для его улучшения и помогает найти решение проблем в разработке, но и  показывает ссылки на репозитории, из которых взят код. 

17.08.2023    1138    VKuser24342747    0       

1

В JetBrains разработали ИИ-помощника для аналитиков данных

Новость Аналитика Искусственный интеллект

JetBrains представила нейросеть Ask AI для онлайн-блокнота Datalore. Виртуальный ассистент способен генерировать код на нескольких языках, предлагать доработки и упрощать процесс аналитики данных. 

16.08.2023    650    VKuser24342747    0       

1

Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании

Новость Искусственный интеллект ИТ-Новость

Чат-бот OpenAI ошибается в 52% случаев, когда отвечает на вопросы по программированию. Однако делает это так убедительно, что пользователи не замечают ошибки. 

14.08.2023    988    VKuser24342747    5       

3

Минцифры проведет эксперимент по цифровизации «жизненного цикла» госслужащего

Новость Минцифры ИТ-Новость

Минцифры подготовило постановление о проведении эксперимента по внедрению ИТ в управление «жизненным циклом» госслужащего. Ведомство намерено автоматизировать все этапы работы сотрудников госструктур.

04.08.2023    547    VKuser24342747    0       

2