Павел Н.card.quoted3 kun oldin
При вычислении выгоды после выбора действия ожидание отражает функцию ценности действий для пары «состояние — действие» Q(s, a). Если вы проигнорируете предпринятое действие и будете считать от состояния s, оно станет функцией значения состояния V(s).
  • Fikr bildirish uchun kirish yoki roʻyxatdan oʻtish