Применение тезауруса RuThes и векторных представлений Word2vec в задаче лексической типологии.

Новости

14 Апреля, 2026 На «Иванниковских чтениях» 2026 пройдут культурно-просветительская программа и медицинский трек

02 Апреля, 2026 Конкурс на замещение должности

30 Марта, 2026 ИСП РАН приглашает к участию в конференции «Иванниковские чтения» 2026

Применение тезауруса RuThes и векторных представлений Word2vec в задаче лексической типологии.

Полозов И.К. (МГУ, Москва, Россия)
Волкова И.А. (МГУ, Москва, Россия)

Аннотация

В статье описывается использование тезауруса RuThes и векторных представлений Word2vec для задачи определения лексической типологии языков. Актуальность работы обусловлена необходимостью проводить типологические исследования языков и слабо развитыми средствами автоматизации данного направления. Сделан обзор существующих методов определения лексической типологии, описаны достоинства и недостатки каждого метода, предложен подход автоматизированного выделения типологий. Также описываются различные виды отношений RuThes. Дано описание используемых корпусов текстов. В качестве примера исследуются семантические зоны “тянуть-толкать” и “чинить-портить”. Получены фреймы для данных семантических зон. Проанализированы извлеченные слова, реализующие семантические зоны, и произведено сравнение с ручным методом. Сравниваются три способа выделения лексической типологии: только с помощью тезауруса, с помощью тезауруса и фильтрации по Word2vec и с помощью тезауруса и добавления ближайших слов по Word2vec. Произведена оценка и сравнение с существующими методами. Для каждого способа посчитана полнота, точность и F-мера. Выявлено, что наилучшие результаты для семантической зоны “тянуть-толкать” дает комбинация использования тезауруса и фильтрации по Word2vec. Добавление же дополнительных ближайших слов по Word2vec ухудшает все метрики кроме F-меры для семантической зоны “толкать”. При этом использование только тезауруса уже дает хорошие результаты, которые могут помочь исследователям языков. Для семантической зоны “чинить-портить” самые лучшие результаты показывает подход с тезаурусом, фильтрацией и добавлением ближайших по Word2vec. Предложено объяснение полученных результатов. Программная реализация выполнена с помощью языка программирования Python3, библиотек Gensim для получения векторов Word2vec, Scikit-learn для сравнения векторов, Numpy для работы с массивами, Pymorphy2 для приведения в начальную форму, NLTK для фильтрации стоп-слов и xml.etree для работы с тезаурусом. Практическая значимость заключается в разработке автоматизированного метода помощи лингвистам и оценке его работы.

Ключевые слова

лексическая типология; тезаурус RuThes; модель Word2vec; классификация текстов; компьютерная лингвистика.

Издание

Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 227-240.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(2)-15

Для цитирования

Полозов И.К., Волкова И.А. Применение тезауруса RuThes и векторных представлений Word2vec в задаче лексической типологии.. Труды Института системного программирования РАН, том 38, вып. 2, 2026, стр. 227-240. DOI: 10.15514/ISPRAS-2026-38(2)-15.

Полный текст статьи в формате pdf

Вернуться к содержанию тома

На нашем сайте мы используем cookie файлы, содержащие информацию о предыдущих посещениях веб-сайта. Данные обрабатываются для улучшения качества работы нашего веб-сайта. Если вы не хотите использовать cookie файлы, измените настройки браузера.

Понятно