Сборники трудов ИСП РАН


Обзор и экспериментальное сравнение методов кластеризации текстов

П.А. Пархоменко (ИСП РАН, Москва, Россия; МГУ, Москва, Россия)
А.А. Григорьев (ИСП РАН, Москва, Россия; Ниу ВШЭ, Москва, Россия)
Н.А. Астраханцев (ИСП РАН, Москва, Россия)

Аннотация

Кластеризация текстовых документов применяется во многих приложениях, таких как информационный поиск, исследовательский поиск, определение спама. Этой задаче посвящено множество научных работ, однако в настоящее время остается недостаточно изученным влияние специфики научных статей, в частности принадлежности документов одной предметной области или недоступности полных текстов, на эффективность кластеризации. В данной работе предлагаются обзор и экспериментальное сравнение методов кластеризации текстовых документов в приложении к научным статьям. Исследуются методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).

Ключевые слова

кластеризация текстовых документов; мешок слов; извлечение терминологии; тематическое моделирование; векторное представление; искусственные нейронные сети

Издание

Труды Института системного программирования РАН, том 29, вып. 2, 2017, стр. 161-200.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2017-29(2)-6

Полный текст статьи в формате pdf Вернуться к содержанию тома