[RL] 3-1 Model-Free Prediction - (TD)
·
AI/RL
Temporal-Difference LearningTD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘이다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징이다.MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이 설명을 하고 있다. 에피소드가 전체적으로 끝나서야 그 보상을 나누어 단계별로 업데이트가 된다.하지만 TD에서는 각 단계별로 업데이트가 되는 과정을 위 오른쪽 그림과 같이 보여주고 있다.특히 각 단계별로 얻게 되는 값들이 2~3번 단계에서 MC와 TD에서 달라지는 것을 알수 있다. Monte Carlo 방법 (왼쪽 그림)MC는 전체 에피소드가 끝난 후 업데이트를 한다...
doocong22
'temporal-difference' 태그의 글 목록