AsosiyAudioBolalar
Aleksa13 A.
Aleksa13 A.iqtibos olmoqda1 oy oldin
Обучение с подкреплением проводится методом проб и ошибок. В задачах этого типа человек не маркирует данные, не собирает их и не участвует в разработке механизма их сбора. Цель RL — действие. Классический пример — агент для игры в Pong, который взаимодействует с эмулятором аркадного автомата Pong и учится, выполняя действия и наблюдая за их последствиями. Обученный агент должен уметь действовать таким образом, который позволит ему успешно играть в Pong.
Грокаем глубокое обучение с подкреплением
Грокаем глубокое обучение с подкреплением
·
Мигель Моралес
Грокаем глубокое обучение с подкреплением
Мигель Моралесva boshqalar
5.3K

Kirish yoki roʻyxatdan oʻtish sharh qoldirish uchun