Неинтерактивные задачи обучения. Это тип задач, в которых не нужно или нельзя взаимодействовать со средой. Обучение происходит на сгенерированных заранее данных. Цель этих задач — на основе предоставленных выборок найти политику или что-то другое. Например, обратное RL направлено на воссоздание функции вознаграждения на основе экспертных характеристик. При обучении на демонстрации агент пытается получить из этой воссозданной функции вознаграждения политику. Цель методов поведенческого клонирования (разновидность имитационного обучения) — переход от образцов экспертных характеристик к самим политикам с помощью контролируемого обучения.
Интерактивные задачи обучения. Это тип задач, где обучение и взаимодействие чередуются. У них есть интересная особенность: обучающийся управляет и процессом сбора данных. Оптимальное обучение на выборках и поиск выборок для оптимального обучения — это два разных процесса.