Оценка вызова функций для русского языка

Новости

08 Июня, 2026 IX Международная конференция ИСП РАН «Иванниковские чтения»

20 Мая, 2026 Итоги конкурса на замещение вакантных должностей

29 Апреля, 2026 Итоги конкурса на замещение вакантных должностей

Оценка вызова функций для русского языка

Ионов Т.Р. (Университет ИТМО, Санкт-Петербург, Россия)
Малых В.А. (Университет ИТМО, Санкт-Петербург, Россия)

Аннотация

В статье представлен RFCB (Russian Function-Calling Benchmark) — русскоязычная адаптация одно- и многоходовых подмножеств тестового набора BFCL (Berkeley Function-Calling Leaderboard), предназначенного для оценки способности больших языковых моделей вызывать внешние функции. Пользовательские запросы, описания функций и строковые значения переведены на русский язык; идентификаторы функций, JSON-схемы и типизированные поля сохранены без изменений. Проведена оценка закрытых и открытых моделей разного размера. Предложен обучающий конвейер, собирающий траектории выполнения задач и поддерживающий три режима оптимизации: дообучение с учителем (SFT), прямую оптимизацию предпочтений (DPO) и групповую относительную оптимизацию политики (GRPO). Конвейер построен на модифицированной платформе FTRL с параллельным исследованием нескольких траекторий решения задачи. Представлены результаты межъязыкового сопоставления по одноходовым показателям, по успешности многоходовых задач (оцениваемой по итоговому состоянию окружения), по устойчивости к длинному контексту и отсутствующим данным, а также по вычислительной эффективности. Одноходовая точность остаётся близкой к исходной при устойчивом отставании русскоязычной версии от английской, тогда как многоходовая оценка выявляет заметные преимущества увеличения размера модели и применения методов обучения с подкреплением (DPO, GRPO). Наилучший результат даёт обучение методом GRPO, причём на русскоязычной версии показатели превосходят английские на 6,5 процентных пункта, обращая вспять типичное межъязыковое отставание.

Ключевые слова

вызов функций; большие языковые модели; использование инструментов; оценка качества; перевод.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 131-144.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-51

Для цитирования

Ионов Т.Р., Малых В.А. Оценка вызова функций для русского языка. Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 131-144. DOI: 10.15514/ISPRAS-2026-38(3)-51.

Полный текст статьи в формате pdf (на английском)

Вернуться к содержанию тома

На нашем сайте мы используем cookie файлы, содержащие информацию о предыдущих посещениях веб-сайта. Данные обрабатываются для улучшения качества работы нашего веб-сайта. Если вы не хотите использовать cookie файлы, измените настройки браузера.

Понятно