Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов
Новости
Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов
Аннотация
В работе исследовалась задача извлечения из студенческих отчетов ИТ-направлений предметно-ориентированных сущностей (ПОС), являющихся ключевыми терминами, навыками, именованными сущностями, отражающими тематическую специфику текста. В качестве решений рассматривались инструмент извлечения ключевых слов rutermextract, дообученная языковая модель mBART, большие языковые модели, управляемые инструкциями (YandexGPT, Saiga, Tlite). Дообучение mBART эффективно при достаточном объеме данных. Модели на инструкциях превзошли rutermextract, перспективны при малых объемах данных, особенно Saiga, выявляющая ядро сущностей. Выявлено, что стратегия выделения ПОС в тексте точнее, чем извлечение в виде списка. Однако задача требует дополнительных исследований: ошибочное извлечение ПОС (67-89%), проявляющееся в отсутствии пересечений с эталонными ПОС, указывает на трудности моделей в отделении ядра сущности от контекста. Основные ограничения – малый корпус (2933 текста) и простые инструкции. Перспективы исследования: детализированные инструкции, оценка подходов в других областях и типах текстов.
Ключевые слова
Издание
Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 165182.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).
DOI: 10.15514/ISPRAS-2026-38(2)-11
Для цитирования
Полный текст статьи в формате pdf
Вернуться к содержанию тома