Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов

Новости

14 Апреля, 2026 На «Иванниковских чтениях» 2026 пройдут культурно-просветительская программа и медицинский трек

02 Апреля, 2026 Конкурс на замещение должности

30 Марта, 2026 ИСП РАН приглашает к участию в конференции «Иванниковские чтения» 2026

Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов

Мельникова А.В. (ТюмГУ, Тюмень, Россия)
Воробьева М.С. (ТюмГУ, Тюмень, Россия)
Глазкова А.В. (ТюмГУ, Тюмень, Россия; НКРЯ, Москва, Россия)
Морозов Д.А. (НГУ, Новосибирск, Россия; НКРЯ, Москва, Россия)

Аннотация

В работе исследовалась задача извлечения из студенческих отчетов ИТ-направлений предметно-ориентированных сущностей (ПОС), являющихся ключевыми терминами, навыками, именованными сущностями, отражающими тематическую специфику текста. В качестве решений рассматривались инструмент извлечения ключевых слов rutermextract, дообученная языковая модель mBART, большие языковые модели, управляемые инструкциями (YandexGPT, Saiga, Tlite). Дообучение mBART эффективно при достаточном объеме данных. Модели на инструкциях превзошли rutermextract, перспективны при малых объемах данных, особенно Saiga, выявляющая ядро сущностей. Выявлено, что стратегия выделения ПОС в тексте точнее, чем извлечение в виде списка. Однако задача требует дополнительных исследований: ошибочное извлечение ПОС (67-89%), проявляющееся в отсутствии пересечений с эталонными ПОС, указывает на трудности моделей в отделении ядра сущности от контекста. Основные ограничения – малый корпус (2933 текста) и простые инструкции. Перспективы исследования: детализированные инструкции, оценка подходов в других областях и типах текстов.

Ключевые слова

предметно-ориентированные сущности; извлечение сущностей; обработка естественного языка; предварительно обученные языковые модели; модели на основе инструкций; генеративные языковые модели; анализ отчетных документов; обучение на основе инструкций.

Издание

Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 165182.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(2)-11

Для цитирования

Мельникова А.В., Воробьева М.С., Глазкова А.В., Морозов Д.А. Экспериментальное исследование моделей на основе инструкций для извлечения предметно-ориентированных сущностей из студенческих отчетов. Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 165182. DOI: 10.15514/ISPRAS-2026-38(2)-11.

Полный текст статьи в формате pdf

Вернуться к содержанию тома

На нашем сайте мы используем cookie файлы, содержащие информацию о предыдущих посещениях веб-сайта. Данные обрабатываются для улучшения качества работы нашего веб-сайта. Если вы не хотите использовать cookie файлы, измените настройки браузера.

Понятно