Устойчивая сходимость поверхности функции потерь через усреднение по распределению


Устойчивая сходимость поверхности функции потерь через усреднение по распределению

Киселев Н.С. (МФТИ, Московская. обл., Россия)
Мешков В.С. (МФТИ, Московская. обл., Россия)
Грабовой А.В. (МФТИ, Московская. обл., Россия)

Аннотация

Понимание того, как ландшафт функции потерь нейронной сети изменяется при увеличении размера обучающего набора, имеет ключевое значение для определения достаточного объема данных. Ранее этот вопрос в основном рассматривался локально – через разложение второго порядка в окрестности одной точки минимума и анализ сходимости на основе свойств матрицы Гессе. Подобные исследования позволяют оценить скорость сходимости, но дают лишь точечное представление о ней. В настоящей работе предлагается подход к оцениванию сходимости поверхности через усреднение по распределению. Рассматриваются гауссовские распределения, центрированные в локальных минимумах, применяется метод Монте-Карло для практической оценки сходимости. Теоретические результаты показывают, что сходимость в среднем по распределению имеет тот же асимптотический порядок, что и локальная, но дает более надежное представление о стабильности. Экспериментальные результаты на задачах классификации изображений подтверждают эти выводы и демонстрируют, как архитектурные решения – такие как нормализация, dropout и глубина сети – влияют на процесс сходимости. Таким образом, результаты данной работы обобщают методы локального анализа сходимости, обеспечивая более сильные гарантии и практические инструменты для оценки достаточности обучающего набора.

Ключевые слова

нейронные сети; поверхность функции потерь; сходимость; сэмплирование по гауссу; оценка по Монте–Карло; размер выборки.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 71-82.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-47

Для цитирования

Киселев Н.С., Мешков В.С., Грабовой А.В. Устойчивая сходимость поверхности функции потерь через усреднение по распределению. Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 71-82. DOI: 10.15514/ISPRAS-2026-38(3)-47.

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома