[RL] 4-1 Value Function Approximation
·
AI/RL
세 box 모두 w라는 parameter가 관장- V(s,w): s를 넣었을 때 value를 return- action in 상태의 Q(s,a,w): s,a를 넣었을 때 value를 return- action out 상태의 Q(s,an,w): s만 넣었을 때 s에서 할 수 있는 모든 a들에 대해서 여러개의 output를 return - differentiable(미분가능한) Function Approximator(모방하는 함수)는 뭘 쓸 수 있나? :linear combinations of features(특성 가중치 합), Neural network   1. Value Function Approximation By Stochastic Gradient Descent설명:목표는 w라는 파라미터 벡터를 최적..
[RL] 2-1 Markov Decision Processes
·
AI/RL
이 강의에서는 전제조건으로 agent가 환경에서 발생되는 모든 정보를 볼 수 있다고 가정한다. (fully observable) 설명을 하기 쉬운 환경이지만 실제로 우리가 살고 있는 환경은 그렇치 않다. 우리는 세상에 일어나는 모든일들을 다 알지는 못하기 때문이다. MP(Markov Property)agent가 environment에서 어떠한 action을 하기 위해서는 의사결정이 필요하다. 그리고 그 의사결정을 하기 위해 environment로부터 정보들을 받게 된다. 현재에서 바로 다음 상황을 예측하는데는 현재의 state만 필요할까, 이전 모든 state가 모두 필요할까? 모든 state의 정보가 다 필요하다고 생각할 수 있지만 사실은 현재의 state만 보면 된다는게 Markov Property이..
[RL] 1-1 Introduction to Reinforcement Learning
·
AI/RL
머신러닝에는 세종류가 있다.superviesde learning, unsupervised learning, reinforcement learning. 이 셋 중에서 이 글에서는 RL에 대해 배워볼 것이다. RL은 다른 머신러닝과 다르게 오직 reward로 판단한다. RL은 이전 행동과 이후 행동이 연관이 있다고 생각하기 때문이다.reward는 스칼라 피드백 시그널로 나타난다. step t에서 agent가 얼마나 잘 했는지는 나타낸다. agent의 역할은 누적 리워드를 최대화 하는 것이다. RL의 핵심, Agent와 Environment(환경)Environment는 Agent가 살아가고 상호작용하는 세상이다. 상호작용의 각 단계에서 agent는 Env의 (Possibly partial) observatio..
doocong22
'value_function' 태그의 글 목록