Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии.
Авторы
Аннотация
В задачах автоматической обработки текстовой информации часто возникает необходимость определить, насколько сильно та или иная пара концептов (понятий) связана по смыслу, — иначе говоря, оценить степень семантической близости между ними. В данной работе исследуется применимость к вычислению семантической близости пары концептов расстояния между соответствующими им статьями в графе ссылок Википедии. При этом для оценки расстояния между вершинами в графе используется длина кратчайшего пути между ними. Предлагается ряд мер семантической близости, использующих расстояния по различным типам ссылок Википедии; выявляются типы ссылок, наиболее релевантные для данной задачи (внутритекстовые и категорийные). В сравнении с мерой Дайса, используемой в системе анализа текстов Текстерра, показывается, что использование кратчайших путей позволяет как повысить корреляцию получаемых оценок близости с экспертными, так и достичь лучших результатов в задаче разрешения лексической многозначности.
Полный текст статьи в формате pdfКлючевые слова
Издание
Труды конференции ИОИ-2014: Интеллектуализация обработки информации, 5-10 октября 2014 года, Греция. Стр. 197.