Институт системного программирования им. В.П. Иванникова РАН


Методы автоматического извлечения терминов из коллекции текстов предметной области

Авторы

Н.А. Астраханцев, Д.Г. Федоренко, Д.Ю. Турдаков.

Аннотация

Приложения, работающие с текстами предметных областей, часто используют глоссарии и онтологии, основной этап построения которых заключается в извлечении терминов.
В данной работе приводится обзор существующих определений термина, в том числе его лингвистических признаков, выделяются постановки задачи извлечения терминов и анализируются разработанные методы автоматического извлечения терминов: методы сбора кандидатов; методы на основе статистики и контекстов вхождений; методы, использующие тематическое моделирование; методы на основе внешних ресурсов, таких как коллекции текстов других предметных областей, онтологии, Википедии.
Также приводится обзор принятых методологий и наборов данных для экспериментальных исследования.

Издание

Программирование, 2015, № 6, с. 18-37

Научная группа

Информационные системы

Все публикации за 2015 год Все публикации