[RL] 3-2 Model-Free Control
·
AI/RL
이전 포스팅 3-1에서는 Model-Free Prediction을 공부했다. 지금부터는 Control에 대해 배워볼 것 이다.우선 차이를 다시 되짚고 넘어가자.Prediction과 Control의 과정:Prediction (정책 평가, Policy Evaluation):주어진 정책 π를 따를 때 각 상태의 가치 함수 Vπ(s)를 추정하는 과정이다.이 단계에서는 정책이 고정되어 있고, 정책을 따를 때 상태가 얼마나 좋은지를 예측한다.Value Function Vπ(s): 현재 정책에 따라 상태에서 기대되는 미래 보상의 합을 의미한다.Control (정책 개선, Policy Improvement):Prediction 결과로 나온 상태 가치 함수 Vπ(s)를 바탕으로, 각 상태에서 더 나은 행동을 선택하여 정..
[RL] 1-1 Introduction to Reinforcement Learning
·
AI/RL
머신러닝에는 세종류가 있다.superviesde learning, unsupervised learning, reinforcement learning. 이 셋 중에서 이 글에서는 RL에 대해 배워볼 것이다. RL은 다른 머신러닝과 다르게 오직 reward로 판단한다. RL은 이전 행동과 이후 행동이 연관이 있다고 생각하기 때문이다.reward는 스칼라 피드백 시그널로 나타난다. step t에서 agent가 얼마나 잘 했는지는 나타낸다. agent의 역할은 누적 리워드를 최대화 하는 것이다. RL의 핵심, Agent와 Environment(환경)Environment는 Agent가 살아가고 상호작용하는 세상이다. 상호작용의 각 단계에서 agent는 Env의 (Possibly partial) observatio..
doocong22
'control' 태그의 글 목록