Новости
Оценка вызова функций для русского языка
Аннотация
В статье представлен RFCB (Russian Function-Calling Benchmark) — русскоязычная адаптация одно- и многоходовых подмножеств тестового набора BFCL (Berkeley Function-Calling Leaderboard), предназначенного для оценки способности больших языковых моделей вызывать внешние функции. Пользовательские запросы, описания функций и строковые значения переведены на русский язык; идентификаторы функций, JSON-схемы и типизированные поля сохранены без изменений. Проведена оценка закрытых и открытых моделей разного размера. Предложен обучающий конвейер, собирающий траектории выполнения задач и поддерживающий три режима оптимизации: дообучение с учителем (SFT), прямую оптимизацию предпочтений (DPO) и групповую относительную оптимизацию политики (GRPO). Конвейер построен на модифицированной платформе FTRL с параллельным исследованием нескольких траекторий решения задачи. Представлены результаты межъязыкового сопоставления по одноходовым показателям, по успешности многоходовых задач (оцениваемой по итоговому состоянию окружения), по устойчивости к длинному контексту и отсутствующим данным, а также по вычислительной эффективности. Одноходовая точность остаётся близкой к исходной при устойчивом отставании русскоязычной версии от английской, тогда как многоходовая оценка выявляет заметные преимущества увеличения размера модели и применения методов обучения с подкреплением (DPO, GRPO). Наилучший результат даёт обучение методом GRPO, причём на русскоязычной версии показатели превосходят английские на 6,5 процентных пункта, обращая вспять типичное межъязыковое отставание.
Ключевые слова
Издание
Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 131-144.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).
DOI: 10.15514/ISPRAS-2026-38(3)-51
Для цитирования
Полный текст статьи в формате pdf (на английском)
Вернуться к содержанию тома