Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии.


Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии.

Авторы

Варламов М.И., Коршунов А.В.

Аннотация

В задачах автоматической обработки текстовой информации часто возникает необходимость определить, насколько сильно та или иная пара концептов (понятий) связана по смыслу, — иначе говоря, оценить степень семантической близости между ними. В данной работе исследуется применимость к вычислению семантической близости пары концептов расстояния между соответствующими им статьями в графе ссылок Википедии. При этом для оценки расстояния между вершинами в графе используется длина кратчайшего пути между ними. Предлагается ряд мер семантической близости, использующих расстояния по различным типам ссылок Википедии; выявляются типы ссылок, наиболее релевантные для данной задачи (внутритекстовые и категорийные). В сравнении с мерой Дайса, используемой в системе анализа текстов Текстерра, показывается, что использование кратчайших путей позволяет как повысить корреляцию получаемых оценок близости с экспертными, так и достичь лучших результатов в задаче разрешения лексической многозначности.

Полный текст статьи в формате pdf

Ключевые слова

семантическая близость; кратчайшие пути; разрешение лексической многозначности; Википедия

Издание

Труды конференции ИОИ-2014: Интеллектуализация обработки информации, 5-10 октября 2014 года, Греция. Стр. 197.

Научная группа

Информационные системы

Все публикации за 2014 год Все публикации