[RL] 2-2 Planning by Dynamic Programming
·
AI/RL
Dynamic Programming복잡한 문제를 풀기 위한 방법으로 큰 문제를 작은 subproblem들로 쪼개서 문제를 푸는 방법을 뜻한다.하나는 Optimal substructure 로서 최적화를 할 수 있다는 것인데 하나의 문제를 2개 이상의 하위문제로 쪼개고 각각을 최적화하게 되면 원래의 문제도 최적화 할 수 있다는 것이다.또 하나는 Overlapping subproblems 인데 서브문제들이 여러번 반복적으로 나타나기 때문에 하나의 서브문제를 해결하고 이 결과를 저장했다가 다시 사용하는 것이 가능하다는 것이다. 이 두가지 특성이 MDP에서도 동일하게 적용이 되고 Bellman equation 과 value function 이 대표적인 특성을 가지고 있다.Bellman equation 이 각 st..
[RL] 1-1 Introduction to Reinforcement Learning
·
AI/RL
머신러닝에는 세종류가 있다.superviesde learning, unsupervised learning, reinforcement learning. 이 셋 중에서 이 글에서는 RL에 대해 배워볼 것이다. RL은 다른 머신러닝과 다르게 오직 reward로 판단한다. RL은 이전 행동과 이후 행동이 연관이 있다고 생각하기 때문이다.reward는 스칼라 피드백 시그널로 나타난다. step t에서 agent가 얼마나 잘 했는지는 나타낸다. agent의 역할은 누적 리워드를 최대화 하는 것이다. RL의 핵심, Agent와 Environment(환경)Environment는 Agent가 살아가고 상호작용하는 세상이다. 상호작용의 각 단계에서 agent는 Env의 (Possibly partial) observatio..
doocong22
'Policy' 태그의 글 목록