Тимур Мухамедрахимовcard.quotedo‘tgan yil
Поэтому нам нужно масштабировать матрицы весов ровно так, чтобы стандартное отклонение активаций оставалось равным 1. Мы можем вычислить точное подходящее значение математически, как это демонстрируют Ксавье Глорот и Йошуа Бенжио (Xavier Glorot, Yoshua Bengio) в своей работе Understanding the Difficulty of Training Deep Feedforward Neural Networks (https://oreil.ly/9tiTC) («Понимание сложности обучения глубоких нейронных сетей прямого распространения»)

Масштабирование весов

  • Fikr bildirish uchun kirish yoki roʻyxatdan oʻtish