[RL] 3-2 Model-Free Control
·
AI/RL
이전 포스팅 3-1에서는 Model-Free Prediction을 공부했다. 지금부터는 Control에 대해 배워볼 것 이다.우선 차이를 다시 되짚고 넘어가자.Prediction과 Control의 과정:Prediction (정책 평가, Policy Evaluation):주어진 정책 π를 따를 때 각 상태의 가치 함수 Vπ(s)를 추정하는 과정이다.이 단계에서는 정책이 고정되어 있고, 정책을 따를 때 상태가 얼마나 좋은지를 예측한다.Value Function Vπ(s): 현재 정책에 따라 상태에서 기대되는 미래 보상의 합을 의미한다.Control (정책 개선, Policy Improvement):Prediction 결과로 나온 상태 가치 함수 Vπ(s)를 바탕으로, 각 상태에서 더 나은 행동을 선택하여 정..
doocong22
'Q-Learning' 태그의 글 목록