Оценка вызова функций для русского языка


Оценка вызова функций для русского языка

Ионов Т.Р. (Университет ИТМО, Санкт-Петербург, Россия)
Малых В.А. (Университет ИТМО, Санкт-Петербург, Россия)

Аннотация

В статье представлен RFCB (Russian Function-Calling Benchmark) — русскоязычная адаптация одно- и многоходовых подмножеств тестового набора BFCL (Berkeley Function-Calling Leaderboard), предназначенного для оценки способности больших языковых моделей вызывать внешние функции. Пользовательские запросы, описания функций и строковые значения переведены на русский язык; идентификаторы функций, JSON-схемы и типизированные поля сохранены без изменений. Проведена оценка закрытых и открытых моделей разного размера. Предложен обучающий конвейер, собирающий траектории выполнения задач и поддерживающий три режима оптимизации: дообучение с учителем (SFT), прямую оптимизацию предпочтений (DPO) и групповую относительную оптимизацию политики (GRPO). Конвейер построен на модифицированной платформе FTRL с параллельным исследованием нескольких траекторий решения задачи. Представлены результаты межъязыкового сопоставления по одноходовым показателям, по успешности многоходовых задач (оцениваемой по итоговому состоянию окружения), по устойчивости к длинному контексту и отсутствующим данным, а также по вычислительной эффективности. Одноходовая точность остаётся близкой к исходной при устойчивом отставании русскоязычной версии от английской, тогда как многоходовая оценка выявляет заметные преимущества увеличения размера модели и применения методов обучения с подкреплением (DPO, GRPO). Наилучший результат даёт обучение методом GRPO, причём на русскоязычной версии показатели превосходят английские на 6,5 процентных пункта, обращая вспять типичное межъязыковое отставание.

Ключевые слова

вызов функций; большие языковые модели; использование инструментов; оценка качества; перевод.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 131-144.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-51

Для цитирования

Ионов Т.Р., Малых В.А. Оценка вызова функций для русского языка. Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 131-144. DOI: 10.15514/ISPRAS-2026-38(3)-51.

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома