Данила С.цитирует2 месяца назад
Неинтерактивные задачи обучения. Это тип задач, в которых не нужно или нельзя взаимодействовать со средой. Обучение происходит на сгенерированных заранее данных. Цель этих задач — на основе предоставленных выборок найти политику или что-то другое. Например, обратное RL направлено на воссоздание функции вознаграждения на основе экспертных характеристик. При обучении на демонстрации агент пытается получить из этой воссозданной функции вознагра­ждения политику. Цель методов поведенческого клонирования (разновидность имитационного обучения) — переход от образцов экспертных характеристик к самим политикам с помощью контролируемого обучения.

Интерактивные задачи обучения. Это тип задач, где обучение и взаимодействие чередуются. У них есть интересная особенность: обучающийся управляет и процессом сбора данных. Оптимальное обучение на выборках и поиск выборок для оптимального обучения — это два разных процесса.
  • Войти или зарегистрироваться, чтобы комментировать