Исследование кластеризации эмбеддингов для поиска парафраз в текстах инструкций по медицинскому применению лекарственных средств


Исследование кластеризации эмбеддингов для поиска парафраз в текстах инструкций по медицинскому применению лекарственных средств

Кильмишкин Н.В. (РЭУ, Москва, Россия)
Кубраков Д.Д. (РЭУ, Москва, Россия)
Титов Ю.П. (РЭУ, Москва, Россия)
Пантелеев В.И. (РЭУ, Москва, Россия)
Куропаткина Т.А. (РЭУ, Москва, Россия)
Кочина Н.А. (РЭУ, Москва, Россия)
Иванова П.М. (РЭУ, Москва, Россия)

Аннотация

В данной работе рассматривается комплексный подход для выявления парафраз в текстах медицинских инструкций, объединяющий современные методы обработки естественного языка (NLP), снижения размерности и кластерного анализа эмебеддингов названий вершин семантического графа, который строится для решения задачи поиска взаимодействий лекарственных средств при полифармакотерапии. Наилучшие результаты продемонстрировала комбинация multilingual-модели distiluse_base_multilingual с алгоритмом UMAP и агломеративной кластеризацией. Особенностью методики стало применение стратегии уменьшения размерности с последующим добавлением информации о классе, что позволило сохранить семантические взаимосвязи и улучшить качество кластеризации. Проведенный сравнительный анализ различных языковых моделей (включая Clinical Modern BERT, paraphrase-multilingual и rubert-tiny) выявил преимущества модели distiluse_base_multilingual по показателям точности и вычислительной эффективности. Визуализация результатов подтвердила способность метода к четкому выделению смысловых кластеров, а использование JSON-формата для хранения результатов обеспечило их удобную интеграцию в практические приложения. Разработанный метод позволяет автоматизировать обработку медицинских текстов для унификации терминологии в инструкциях к лекарствам.

Ключевые слова

машинное обучение; обработка естественного языка NLP; кластеризация; инструкции к лекарственным средствам; снижение размерности признакового пространства; поиск парафраз.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 175-190.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-54

Для цитирования

Кильмишкин Н.В., Кубраков Д.Д., Титов Ю.П. Пантелеев В.И., Куропаткина Т.А., Кочина Н.А., Иванова П.М. Исследование кластеризации эмбеддингов для поиска парафраз в текстах инструкций по медицинскому применению лекарственных средств. Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 175-190. DOI: 10.15514/ISPRAS-2026-38(3)-54.

Полный текст статьи в формате pdf Вернуться к содержанию тома