Исследование кластеризации эмбеддингов для поиска парафраз в текстах инструкций по медицинскому применению лекарственных средств
Новости
Исследование кластеризации эмбеддингов для поиска парафраз в текстах инструкций по медицинскому применению лекарственных средств
Аннотация
В данной работе рассматривается комплексный подход для выявления парафраз в текстах медицинских инструкций, объединяющий современные методы обработки естественного языка (NLP), снижения размерности и кластерного анализа эмебеддингов названий вершин семантического графа, который строится для решения задачи поиска взаимодействий лекарственных средств при полифармакотерапии. Наилучшие результаты продемонстрировала комбинация multilingual-модели distiluse_base_multilingual с алгоритмом UMAP и агломеративной кластеризацией. Особенностью методики стало применение стратегии уменьшения размерности с последующим добавлением информации о классе, что позволило сохранить семантические взаимосвязи и улучшить качество кластеризации. Проведенный сравнительный анализ различных языковых моделей (включая Clinical Modern BERT, paraphrase-multilingual и rubert-tiny) выявил преимущества модели distiluse_base_multilingual по показателям точности и вычислительной эффективности. Визуализация результатов подтвердила способность метода к четкому выделению смысловых кластеров, а использование JSON-формата для хранения результатов обеспечило их удобную интеграцию в практические приложения. Разработанный метод позволяет автоматизировать обработку медицинских текстов для унификации терминологии в инструкциях к лекарствам.
Ключевые слова
Издание
Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 175-190.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).
DOI: 10.15514/ISPRAS-2026-38(3)-54
Для цитирования
Полный текст статьи в формате pdf
Вернуться к содержанию тома