'MC' 태그의 글 목록

[RL] 3-1 Model-Free Prediction - (TD lambda)

2024.10.12·

AI/RL

1. step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것 이다.2. step TD 에서의 업데이트 방식은 첫번째 보상과 + 두번째 보상 + 두번째 상태에서의 value function 으로 업데이트가 된다.TD(1-step)과 n-Step의 차이TD(1-step): 한 단계 후의 보상과 다음 상태의 가치 함수만을 기반으로 업데이트를 수행한다.업데이트 식: 즉, t+1시점에서의 보상과 다음 상태의 가치 V(St+1)를 이용해 현재 상태 StS_tSt의 가치를 업데이트한다.n-Step TD: 한 단계가 아니라, n단계 후의 보상까지 고려한다.n-Step TD에서는 n번째 시점까지의 보상을..

[RL] 3-1 Model-Free Prediction - (TD)

2024.10.09·

AI/RL

Temporal-Difference LearningTD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘이다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징이다.MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이 설명을 하고 있다. 에피소드가 전체적으로 끝나서야 그 보상을 나누어 단계별로 업데이트가 된다.하지만 TD에서는 각 단계별로 업데이트가 되는 과정을 위 오른쪽 그림과 같이 보여주고 있다.특히 각 단계별로 얻게 되는 값들이 2~3번 단계에서 MC와 TD에서 달라지는 것을 알수 있다. Monte Carlo 방법 (왼쪽 그림)MC는 전체 에피소드가 끝난 후 업데이트를 한다...

[RL] 3-1 Model-Free Prediction - (MC)

2024.10.09·

AI/RL

Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 상태에서) 환경과 상호 작용을 하며 value function을 추정해 가는 방식을 말합니다. control 은 이렇게 찾은 value function을 최적화하여 최적의 poilcy를 찾는 것을 말합니다. 대표적인 Model-free 방식에 ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

MC

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역