Сборники трудов ИСП РАН


Применение словарей и векторов слов для автоматического построения лексической онтологии

Д.А. Усталов (ИММ УрО РАН, Екатеринбург, Россия)

Аннотация

В статье представлен подход к автоматическому построению лексической онтологии путём извлечения и связывания структурированных данных, направленный на повторное использование материалов существующих лексических ресурсов неизвестного качества. Подход состоит из двух этапов. На первом этапе производится построение и кластеризация графа синонимов с целью вывода отдельных значений слов и их объединения в синонимические ряды, именуемые синсетами или понятиями. На втором этапе производится формирование родо-видовых отношений между понятиями путём сопоставления родо-видовых пар слов. С целью расширения множества доступных родо-видовых пар слов выполняется преобразование векторных представлений гипонимов в векторные представления гиперонимов при помощи проекционной матрицы. Проведены предварительные эксперименты с использованием тезауруса русского языка в качестве золотого стандарта. Проанализированы преимущества и недостатки предложенного подхода.

Ключевые слова

автоматическое построение онтологии, лексический ресурс, синоним, векторное представление слова в пространстве низкой размерности, кластеризация графа, подбор проекционной матрицы

Издание

Труды Института системного программирования РАН, том 28, вып. 6, 2016, стр. 197-206.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2016-28(6)-14

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома