Валерий Бобров. От ChatGPT до GigaChat: как объективно оценить и выбрать LLM для разработки на 1С
            Большие языковые модели все чаще применяются для генерации кода на 1С, но до сих пор нет единого способа объективно сравнить их качество. Объясняем, как работают метрики BLEU, CodeBLEU и pass@k, и как их можно адаптировать для оценки LLM в экосистеме 1С. Показываем, какие задачи – от простых функций до рефакторинга – помогают полноценно оценить интеллект модели и ее знание платформы. Разбираем ключевую проблему проверки логики и синтаксиса в автоматическом режиме и показываем бенчмарк, который решает эту задачу, сравнивая ChatGPT, Claude, GigaChat и другие модели по единым стандартам.
Доклад в виде статьи: https://infostart.ru/1c/articles/2518237/
                    
            Доклад в виде статьи: https://infostart.ru/1c/articles/2518237/
                                
    
    
    
        
        Подписаться на ответы
    
        
            
            Инфостарт бот
        
    
            Сортировка:
                
                                            Древо развёрнутое
                                    
                
            
    
            
                    
	
	    	    
                
            
                
            Свернуть все        
    
    
    
    
    
                
	        Для отправки сообщения требуется
		    регистрация/авторизация
	    
    
                            Прямая ссылка:
                
BB-код для форумов и блогов:
                
HTML-код:
                
                    
    BB-код для форумов и блогов:
HTML-код: