News
Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов.
Abstract
В статье предлагается новый метод извлечения ключевых терминов из текстовых документов. В качестве важной особенности метода мы отмечаем тот факт, что результатом его работы являются группы ключевых терминов; при этом термины из каждой группы семантически связаны одной из основных тем документа. Метод основан на комбинации следующих двух техник: мера семантической близости терминов, посчитанная с использованием Википедии; алгоритм для обнаружения сообществ в сетях. Одним из преимуществ нашего метода является отсутствие необходимости в предварительном обучении, поскольку метод работает с базой знаний Википедии. Экспериментальная оценка метода показала, что он извлекает ключевые термины с высокой точностью и полнотой.
Edition
Proceedings of the Institute for System Programming, vol. 16 (in Russian), 2009, Стр. 155-165.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).