Исследование влияния сетевых деградаций на модели распознавания речи


Исследование влияния сетевых деградаций на модели распознавания речи

Полевой А.В. (МГУ, Москва, Россия)
Лукашевич Н.В. (МГУ, Москва, Россия; НИВЦ МГУ, Москва, Россия)

Аннотация

Несмотря на успехи моделей автоматического распознавания речи на различных наборах данных и языках, применение моделей в повседневной жизни не позволяет использовать их в различных сценариях, например, звонки с нестабильным сетевым соединением или телефонные каналы с помехами. В данной работе был разработан и представлен специализированный тестовый набор русскоязычной речи, ключевой особенностью которого является репрезентативный набор данных с контролируемыми деградациями сигнала, вызванными нестабильным интернет-соединением. На предложенном наборе была проведена апробация и сравнительный анализ современных подходов к распознаванию речи. Для количественной оценки степени искажений использовался автоматизированный метод, основанный на анализе совокупности акустических характеристик сигнала и нейросетевых метрик. Полученные результаты позволяют выявить методы, наиболее устойчивые к акустическим деградациям.

Ключевые слова

автоматическое распознавание речи; автоматическое прогнозирование WER; аудио тестовый набор речевых записей; аудиозаписи с нестабильным интернет-соединением.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 101-118.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-49

Для цитирования

Полевой А.В., Лукашевич Н.В. Исследование влияния сетевых деградаций на модели распознавания речи. Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 101-118. DOI: 10.15514/ISPRAS-2026-38(3)-49.

Полный текст статьи в формате pdf Вернуться к содержанию тома