Новости
Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов.
Аннотация
В статье предлагается новый метод извлечения ключевых терминов из текстовых документов. В качестве важной особенности метода мы отмечаем тот факт, что результатом его работы являются группы ключевых терминов; при этом термины из каждой группы семантически связаны одной из основных тем документа. Метод основан на комбинации следующих двух техник: мера семантической близости терминов, посчитанная с использованием Википедии; алгоритм для обнаружения сообществ в сетях. Одним из преимуществ нашего метода является отсутствие необходимости в предварительном обучении, поскольку метод работает с базой знаний Википедии. Экспериментальная оценка метода показала, что он извлекает ключевые термины с высокой точностью и полнотой.
Издание
Труды Института системного программирования РАН, том 16, 2009, стр. 155-165.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).
Для цитирования
Полный текст статьи в формате pdf
