Павел Н.card.quoted12 kun oldin
Что, если мы хотим учиться на более ранних ошибках? Или на чужих? Стратегические методы этого не позволяют. А вот нестратегическое, или офлайн-обучение (off-policy), позволяет как бы «учиться на чужих ошибках». Агент исследует политику, не связанную с полученным им опытом. Здесь применяются две политики: поведенческая (для генерации опыта и взаимодействия со средой) и целевая, которую мы формируем. SARSA — стратегический метод, а Q-обучение — нестратегический.
  • Fikr bildirish uchun kirish yoki roʻyxatdan oʻtish