Обзор и экспериментальное сравнение методов кластеризации текстов

Авторы

П. А. Пархоменко, А. А. Григорьев, Н. А. Астраханцев.

Аннотация

Кластеризация текстовых документов применяется во многих приложениях, таких как информационный поиск, исследовательский поиск, определение спама. Этой задаче посвящено множество научных работ, однако в настоящее время остается недостаточно изученным влияние специфики научных статей, в частности принадлежности документов одной предметной области или недоступности полных текстов, на эффективность кластеризации. В данной работе предлагаются обзор и экспериментальное сравнение методов кластеризации текстовых документов в приложении к научным статьям. Исследуются методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).

Полный текст статьи в формате pdf

Ключевые слова

кластеризация текстовых документов, мешок слов, извлечение терминологии, тематическое моделирование, векторное представление, искусственные нейронные сети

Издание

Труды ИСП РАН, том 29, вып. 2, 2017 г., стр. 161-200.

DOI: 10.15514/ISPRAS-2017-29(2)-6

Научная группа

Информационные системы

Все публикации за 2017 год

Все публикации