Новости
Устойчивая сходимость поверхности функции потерь через усреднение по распределению
Аннотация
Понимание того, как ландшафт функции потерь нейронной сети изменяется при увеличении размера обучающего набора, имеет ключевое значение для определения достаточного объема данных. Ранее этот вопрос в основном рассматривался локально – через разложение второго порядка в окрестности одной точки минимума и анализ сходимости на основе свойств матрицы Гессе. Подобные исследования позволяют оценить скорость сходимости, но дают лишь точечное представление о ней. В настоящей работе предлагается подход к оцениванию сходимости поверхности через усреднение по распределению. Рассматриваются гауссовские распределения, центрированные в локальных минимумах, применяется метод Монте-Карло для практической оценки сходимости. Теоретические результаты показывают, что сходимость в среднем по распределению имеет тот же асимптотический порядок, что и локальная, но дает более надежное представление о стабильности. Экспериментальные результаты на задачах классификации изображений подтверждают эти выводы и демонстрируют, как архитектурные решения – такие как нормализация, dropout и глубина сети – влияют на процесс сходимости. Таким образом, результаты данной работы обобщают методы локального анализа сходимости, обеспечивая более сильные гарантии и практические инструменты для оценки достаточности обучающего набора.
Ключевые слова
Издание
Труды Института системного программирования РАН, том 38, вып. 3, часть 4, 2026, стр. 71-82.
ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).
DOI: 10.15514/ISPRAS-2026-38(3)-47
Для цитирования
Полный текст статьи в формате pdf (на английском)
Вернуться к содержанию тома