[RL] 3-1 Model-Free Prediction - (TD lambda)
·
AI/RL
1. step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것 이다.2. step TD 에서의 업데이트 방식은 첫번째 보상과 + 두번째 보상 + 두번째 상태에서의 value function 으로 업데이트가 된다.TD(1-step)과 n-Step의 차이TD(1-step): 한 단계 후의 보상과 다음 상태의 가치 함수만을 기반으로 업데이트를 수행한다.업데이트 식: 즉, t+1시점에서의 보상과 다음 상태의 가치 V(St+1)를 이용해 현재 상태 StS_tSt의 가치를 업데이트한다.n-Step TD: 한 단계가 아니라, n단계 후의 보상까지 고려한다.n-Step TD에서는 n번째 시점까지의 보상을..