Оценка корректности сгенерированного нейросетями кода: вероятностный подход


Оценка корректности сгенерированного нейросетями кода: вероятностный подход

Авагян Д.А. (МГУ, Москва, Россия)

Аннотация

Большие языковые модели находят всё более широкое применение в разработке программного обеспечения. Однако исследование корректности генерируемого ими кода осложняется недостаточной формализацией понятия корректности программ. В данной работе описан вероятностный подход к оценке корректности кода, генерируемого нейросетями. Предложена метрика корректности TSA (Test Suite Accuracy), естественным образом выводимая в данной формализации, а также проводится сравнение с метрикой Pass@1. Проведённые эксперименты с 5 языковыми моделями Phi-1, Phi-2, Phi-3-mini-4k, Phi-4-mini и Qwen2.5-Coder подтверждают описанные теоретические свойства метрик. Практическим результатом проведённого исследования являются набор задач HumanEval++, расширяющий набор данных HumanEval+, и построенная на его основе реализация метрики TSA.

Ключевые слова

большие языковые модели; программная инженерия; генерация кода; качество кода; корректность кода; метрики.

Издание

Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 111-128.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(2)-8

Для цитирования

Авагян Д.А. Оценка корректности сгенерированного нейросетями кода: вероятностный подход. Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 111-128. DOI: 10.15514/ISPRAS-2026-38(2)-8.

Полный текст статьи в формате pdf Вернуться к содержанию тома