Обзор и экспериментальное сравнение методов кластеризации текстов
Авторы
Аннотация
Кластеризация текстовых документов применяется во многих приложениях, таких как информационный поиск, исследовательский поиск, определение спама. Этой задаче посвящено множество научных работ, однако в настоящее время остается недостаточно изученным влияние специфики научных статей, в частности принадлежности документов одной предметной области или недоступности полных текстов, на эффективность кластеризации. В данной работе предлагаются обзор и экспериментальное сравнение методов кластеризации текстовых документов в приложении к научным статьям. Исследуются методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).
Полный текст статьи в формате pdfКлючевые слова
Издание
Труды ИСП РАН, том 29, вып. 2, 2017 г., стр. 161-200.
DOI: 10.15514/ISPRAS-2017-29(2)-6