Сборники трудов ИСП РАН


Тематическое моделирование текстов на естественном языке.

Антон Коршунов, Андрей Гомзин.

Аннотация

Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков. Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — ориентированных графических вероятностных моделях, позволяющих учитывать авторство документов, связи между словами, темами, документами и авторами, а также другие типы сущностей и метаданных. В статье приведён сравнительный обзор различных моделей, описаны способы оценивания их параметров и качества результатов, а также приведены примеры открытых программных реализаций.

Ключевые слова

тематическое моделирование; тематический поиск; классификация документов; графические вероятностные модели; Байесовские сети; скрытое размещение Дирихле; уменьшение размерности; анализ текста; извлечение информации; машинное обучение

Издание

Труды Института системного программирования РАН, том 23, 2012, стр. 215-244.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2012-23-13

Полный текст статьи в формате pdf Вернуться к содержанию тома