Scikit-learn, XGBoost и Keras,
центральный алгоритм глубокого обучения
измерить, насколько он далек от ожидаемого
большие архитектуры на основе Transformer: BERT, GPT-3 или XLNet
(архитектуры ResNet, Inception или Xception)
улучшенные функции активации;
• улучшенные схемы инициализации весов, начиная с предварительного послойного обучения (от которого быстро отказались);
• улучшенные схемы оптимизации, такие как RMSProp и Adam.
Вообразите два листа цветной бумаги: один красного цвета и другой — синего. Положите их друг на друга. Теперь сомните их в маленький комок. Этот мятый бумажный комок — ваши входные данные, а каждый лист бумаги — класс данных в задаче классификации. Суть работы нейронной сети (или любой другой модели машинного обучения) заключается в таком преобразовании комка бумаги, чтобы разгладить его и сделать два класса снова ясно различимыми. В глубоком обучении это реализуется как последовательность простых преобразований в трехмерном пространстве, как если бы вы производили манипуляции пальцами с бумажным комком по одному движению за раз.
тензоры, операции с тензорами, дифференцирование, градиентный спуск