Данила С.: цитата из книги Грокаем глубокое обучение с подкреплением. Неинтерактивные задачи обучения. Это...

.lazyload-placeholder { display: none; }

Данила С.цитирует2 месяца назад

Неинтерактивные задачи обучения. Это тип задач, в которых не нужно или нельзя взаимодействовать со средой. Обучение происходит на сгенерированных заранее данных. Цель этих задач — на основе предоставленных выборок найти политику или что-то другое. Например, обратное RL направлено на воссоздание функции вознаграждения на основе экспертных характеристик. При обучении на демонстрации агент пытается получить из этой воссозданной функции вознаграждения политику. Цель методов поведенческого клонирования (разновидность имитационного обучения) — переход от образцов экспертных характеристик к самим политикам с помощью контролируемого обучения.

Интерактивные задачи обучения. Это тип задач, где обучение и взаимодействие чередуются. У них есть интересная особенность: обучающийся управляет и процессом сбора данных. Оптимальное обучение на выборках и поиск выборок для оптимального обучения — это два разных процесса.

.lazyload-placeholder { display: none; }

Мигель Моралес

Грокаем глубокое обучение с подкреплением

2.5K
284
11

Нравится
Комментировать
Поделиться
Vkontakte
Пожаловаться

Войти или зарегистрироваться, чтобы комментировать