Новости
Применение тезауруса RuThes и векторных представлений Word2vec в задаче лексической типологии.
Аннотация
В статье описывается использование тезауруса RuThes и векторных представлений Word2vec для задачи определения лексической типологии языков. Актуальность работы обусловлена необходимостью проводить типологические исследования языков и слабо развитыми средствами автоматизации данного направления. Сделан обзор существующих методов определения лексической типологии, описаны достоинства и недостатки каждого метода, предложен подход автоматизированного выделения типологий. Также описываются различные виды отношений RuThes. Дано описание используемых корпусов текстов. В качестве примера исследуются семантические зоны “тянуть-толкать” и “чинить-портить”. Получены фреймы для данных семантических зон. Проанализированы извлеченные слова, реализующие семантические зоны, и произведено сравнение с ручным методом. Сравниваются три способа выделения лексической типологии: только с помощью тезауруса, с помощью тезауруса и фильтрации по Word2vec и с помощью тезауруса и добавления ближайших слов по Word2vec. Произведена оценка и сравнение с существующими методами. Для каждого способа посчитана полнота, точность и F-мера. Выявлено, что наилучшие результаты для семантической зоны “тянуть-толкать” дает комбинация использования тезауруса и фильтрации по Word2vec. Добавление же дополнительных ближайших слов по Word2vec ухудшает все метрики кроме F-меры для семантической зоны “толкать”. При этом использование только тезауруса уже дает хорошие результаты, которые могут помочь исследователям языков. Для семантической зоны “чинить-портить” самые лучшие результаты показывает подход с тезаурусом, фильтрацией и добавлением ближайших по Word2vec. Предложено объяснение полученных результатов. Программная реализация выполнена с помощью языка программирования Python3, библиотек Gensim для получения векторов Word2vec, Scikit-learn для сравнения векторов, Numpy для работы с массивами, Pymorphy2 для приведения в начальную форму, NLTK для фильтрации стоп-слов и xml.etree для работы с тезаурусом. Практическая значимость заключается в разработке автоматизированного метода помощи лингвистам и оценке его работы.
Ключевые слова
Издание
Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 227-240.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).
DOI: 10.15514/ISPRAS-2026-38(2)-15
Для цитирования
Полный текст статьи в формате pdf
Вернуться к содержанию тома