Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов


Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов

Мельникова А.В. (ТюмГУ, Тюмень, Россия)
Воробьева М.С. (ТюмГУ, Тюмень, Россия)
Глазкова А.В. (ТюмГУ, Тюмень, Россия; НКРЯ, Москва, Россия)
Морозов Д.А. (НГУ, Новосибирск, Россия; НКРЯ, Москва, Россия)

Аннотация

В работе исследовалась задача извлечения из студенческих отчетов ИТ-направлений предметно-ориентированных сущностей (ПОС), являющихся ключевыми терминами, навыками, именованными сущностями, отражающими тематическую специфику текста. В качестве решений рассматривались инструмент извлечения ключевых слов rutermextract, дообученная языковая модель mBART, большие языковые модели, управляемые инструкциями (YandexGPT, Saiga, Tlite). Дообучение mBART эффективно при достаточном объеме данных. Модели на инструкциях превзошли rutermextract, перспективны при малых объемах данных, особенно Saiga, выявляющая ядро сущностей. Выявлено, что стратегия выделения ПОС в тексте точнее, чем извлечение в виде списка. Однако задача требует дополнительных исследований: ошибочное извлечение ПОС (67-89%), проявляющееся в отсутствии пересечений с эталонными ПОС, указывает на трудности моделей в отделении ядра сущности от контекста. Основные ограничения – малый корпус (2933 текста) и простые инструкции. Перспективы исследования: детализированные инструкции, оценка подходов в других областях и типах текстов.

Ключевые слова

предметно-ориентированные сущности; извлечение сущностей; обработка естественного языка; предварительно обученные языковые модели; модели на основе инструкций; генеративные языковые модели; анализ отчетных документов; обучение на основе инструкций.

Издание

Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 165182.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(2)-11

Для цитирования

Мельникова А.В., Воробьева М.С., Глазкова А.В., Морозов Д.А. Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов. Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 165182. DOI: 10.15514/ISPRAS-2026-38(2)-11.

Полный текст статьи в формате pdf Вернуться к содержанию тома