Использование последовательной обратной связи вынуждает агента учиться находить баланс между ближайшими и долгосрочными целями, использование оценочной — учиться балансировать между сбором и использованием информации, а выборочной — обобщать старый и новый опыт.