[RL] 4-1 Value Function Approximation
·
AI/RL
세 box 모두 w라는 parameter가 관장- V(s,w): s를 넣었을 때 value를 return- action in 상태의 Q(s,a,w): s,a를 넣었을 때 value를 return- action out 상태의 Q(s,an,w): s만 넣었을 때 s에서 할 수 있는 모든 a들에 대해서 여러개의 output를 return - differentiable(미분가능한) Function Approximator(모방하는 함수)는 뭘 쓸 수 있나? :linear combinations of features(특성 가중치 합), Neural network   1. Value Function Approximation By Stochastic Gradient Descent설명:목표는 w라는 파라미터 벡터를 최적..
doocong22
'DQN' 태그의 글 목록