[RL] 3-1 Model-Free Prediction - (TD lambda)
·
AI/RL
1. step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것 이다.2. step TD 에서의 업데이트 방식은 첫번째 보상과 + 두번째 보상 + 두번째 상태에서의 value function 으로 업데이트가 된다.TD(1-step)과 n-Step의 차이TD(1-step): 한 단계 후의 보상과 다음 상태의 가치 함수만을 기반으로 업데이트를 수행한다.업데이트 식: 즉, t+1시점에서의 보상과 다음 상태의 가치 V(St+1)를 이용해 현재 상태 StS_tSt​의 가치를 업데이트한다.n-Step TD: 한 단계가 아니라, n단계 후의 보상까지 고려한다.n-Step TD에서는 n번째 시점까지의 보상을..
[RL] 3-1 Model-Free Prediction - (TD)
·
AI/RL
Temporal-Difference LearningTD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘이다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징이다.MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이 설명을 하고 있다. 에피소드가 전체적으로 끝나서야 그 보상을 나누어 단계별로 업데이트가 된다.하지만 TD에서는 각 단계별로 업데이트가 되는 과정을 위 오른쪽 그림과 같이 보여주고 있다.특히 각 단계별로 얻게 되는 값들이 2~3번 단계에서 MC와 TD에서 달라지는 것을 알수 있다. Monte Carlo 방법 (왼쪽 그림)MC는 전체 에피소드가 끝난 후 업데이트를 한다...
doocong22
'td' 태그의 글 목록