Сборники трудов ИСП РАН


Комбинирование признаков для извлечения тематических цепочек в новостном кластере.

А.А. Алексеев, Н.В. Лукашевич.

Аннотация

В данной работе предлагается метод для извлечения цепочек семантически близких слов и выражений, описывающих различных участников сюжета – тематических узлов. Предполагается, что выделение основных участников позволит улучшить качество обработки новостного кластера. Метод основан на структурной организации новостных кластеров и анализе контекстов вхождения языковых выражений. Контексты слов используются в качестве базиса для извлечения многословных выражений и построения тематических узлов. Оценка предложенного алгоритма производится в задаче построения обзорных рефератов новостных кластеров.

Ключевые слова

извлечение квазисинонимов; многодокументное аннотирование; моделирование структуры текста

Издание

Труды Института системного программирования РАН, том 23, 2012, стр. 257-276.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2012-23-15

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома