[RL] 3-1 Model-Free Prediction - (TD)
·
AI/RL
Temporal-Difference LearningTD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘이다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징이다.MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이 설명을 하고 있다. 에피소드가 전체적으로 끝나서야 그 보상을 나누어 단계별로 업데이트가 된다.하지만 TD에서는 각 단계별로 업데이트가 되는 과정을 위 오른쪽 그림과 같이 보여주고 있다.특히 각 단계별로 얻게 되는 값들이 2~3번 단계에서 MC와 TD에서 달라지는 것을 알수 있다. Monte Carlo 방법 (왼쪽 그림)MC는 전체 에피소드가 끝난 후 업데이트를 한다...
[RL] 3-1 Model-Free Prediction - (MC)
·
AI/RL
Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 상태에서) 환경과 상호 작용을 하며 value function을 추정해 가는 방식을 말합니다. control 은 이렇게 찾은 value function을 최적화하여 최적의 poilcy를 찾는 것을 말합니다. 대표적인 Model-free 방식에 ..
[RL] 2-2 Planning by Dynamic Programming
·
AI/RL
Dynamic Programming복잡한 문제를 풀기 위한 방법으로 큰 문제를 작은 subproblem들로 쪼개서 문제를 푸는 방법을 뜻한다.하나는 Optimal substructure 로서 최적화를 할 수 있다는 것인데 하나의 문제를 2개 이상의 하위문제로 쪼개고 각각을 최적화하게 되면 원래의 문제도 최적화 할 수 있다는 것이다.또 하나는 Overlapping subproblems 인데 서브문제들이 여러번 반복적으로 나타나기 때문에 하나의 서브문제를 해결하고 이 결과를 저장했다가 다시 사용하는 것이 가능하다는 것이다. 이 두가지 특성이 MDP에서도 동일하게 적용이 되고 Bellman equation 과 value function 이 대표적인 특성을 가지고 있다.Bellman equation 이 각 st..
[논문] An Efficient Fuzzy Stream Clustering MethodBased on Granular-Ball Structure
·
AI
제목 키워드 설명 Fuzzy Clustering: Fuzzy clustering은 데이터가 여러 군집에 동시에 속할 수 있도록 허용하는 방법이다. 이는 일반적인 클러스터링 기법과 달리, 데이터 포인트가 하나의 군집에만 속하는 것이 아니라, 여러 군집에 소속될 수 있는 가능성을 제공한다.Stream Clustering: Stream clustering은 데이터가 연속적으로 입력되는 스트리밍 데이터 환경에서 실시간으로 데이터를 클러스터링하는 기술이다. 이런 데이터는 저장이 어렵기 때문에 실시간으로 처리하고 클러스터를 형성해야 한다.Granular-Ball Structure: 이 용어는 데이터 포인트를 보다 효율적으로 처리하기 위한 구조를 나타낸다. "Granular"라는 개념은 데이터 집합을 보다 작은 단위..
[알파] 초기 다중 회귀
·
AI/ML
다층 다항 회귀와 연도/월 간의 상호작용연도(year)와 월(month)의 역할연도와 월을 함께 사용하는 이유는 서로 다른 정보가 있기 때문이다. 연도는 시간적 흐름에 따른 점수 변화를 학습하고, 월은 각 월마다 나타나는 점수의 주기적 패턴을 학습하는 데 주로 사용됨. 연도는 2022년, 2023년 등 시간에 따른 변화 경향을 반영하고, 월은 4월5월에 점수가 높아지고 11월12월에 낮아지는 등의 반복적인 패턴을 잡아냄.연도(year)와 월(month)이 상호작용하는 방식연도는 각 연도별로 다른 점수의 평균적 차이를 학습함. 예를 들어, 2022년에는 점수가 대체로 높았고, 2023년에는 낮았다는 전반적인 흐름을 학습함. 반면, 월은 매년 반복되는 주기적 변화를 학습함. 예를 들어, 4월에는 항상 점수가..
[RL] 2-1 Markov Decision Processes
·
AI/RL
이 강의에서는 전제조건으로 agent가 환경에서 발생되는 모든 정보를 볼 수 있다고 가정한다. (fully observable) 설명을 하기 쉬운 환경이지만 실제로 우리가 살고 있는 환경은 그렇치 않다. 우리는 세상에 일어나는 모든일들을 다 알지는 못하기 때문이다. MP(Markov Property)agent가 environment에서 어떠한 action을 하기 위해서는 의사결정이 필요하다. 그리고 그 의사결정을 하기 위해 environment로부터 정보들을 받게 된다. 현재에서 바로 다음 상황을 예측하는데는 현재의 state만 필요할까, 이전 모든 state가 모두 필요할까? 모든 state의 정보가 다 필요하다고 생각할 수 있지만 사실은 현재의 state만 보면 된다는게 Markov Property이..
[RL] 1-1 Introduction to Reinforcement Learning
·
AI/RL
머신러닝에는 세종류가 있다.superviesde learning, unsupervised learning, reinforcement learning. 이 셋 중에서 이 글에서는 RL에 대해 배워볼 것이다. RL은 다른 머신러닝과 다르게 오직 reward로 판단한다. RL은 이전 행동과 이후 행동이 연관이 있다고 생각하기 때문이다.reward는 스칼라 피드백 시그널로 나타난다. step t에서 agent가 얼마나 잘 했는지는 나타낸다. agent의 역할은 누적 리워드를 최대화 하는 것이다. RL의 핵심, Agent와 Environment(환경)Environment는 Agent가 살아가고 상호작용하는 세상이다. 상호작용의 각 단계에서 agent는 Env의 (Possibly partial) observatio..
[ML] Feature Engineering
·
AI/ML
Feature Engineering머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징(feature)를 만들어내는 과정이다.머신러닝 모델을 위한 데이터 테이브르이 컬럼(특징)을 생성하거나 선택하는 작업.모델의 성능을 높이기 위해 모델에 입력할 데이터를 만들기 위해 주어진 초기 데이터로 특징을 가공하고 생성하는 전체 광정. 특징 선택(Feature Selection)특징 랭킹 또는 특징 중요도라고도 불린다.분류 모델 중 Decision Tree 같은 경우는 트리의 상단에 있을 수록 중요도가 높으므로 이를 반영하여 특징 별로 중요도를 매길 수 있다. 회귀 모델의 경우 forward selection과 backward elimination 같은 알고리즘을 통해 특징을 선택한다. 특징 ..
[DL 07-1] 인공 신경망
·
AI/혼공파 머신러닝+딥러닝
챕터 7과 8은 패션 MNIST 데이터셋을 사용할 것 이다. 이 데이터셋은 10종류의 패션 아이템으로 구성되어 있다.패션 MNIST 데이터는 워낙 유명하기 때문에 많은 딥러닝 라이브러리에서 이 데이터를 가져올 수 있는 도구를 제공한다. 텐서플로(TensorFlow)를 이용해 이 데이터를 불러올 것이다. 텐서플로도 코랩에서 바로 사용할 수 있다.keras.datasets.fashion_mnist 모듈 아래 load_data() 함수는 훈련 데이터와 테스트 데이터를 나누어 반환한다. 이 데이터는 각각 입력과 타깃의 쌍으로 구성되어 있다.훈련 데이터는 60000개의 이미지로 이루어져 있고 각 이미지는 28 * 28 크기이다. 타깃도 60000개의 원소가 있는 1차원 배열이다. 테스트 세트의 크기도 확인해보면 ..
[ML 06-1] 군집 알고리즘
·
AI/혼공파 머신러닝+딥러닝
타깃을 모르는 비지도 학습타깃을 모르는 사진을 종류별로 분류하려면 어떻게 해야할까? 타깃이 없을 때 사용하는 머신러닝 알고리즘을 비지도 학습(unsupervised learning)이라고 한다. 사람이 가르쳐 주지 않아도 데이터에 있는 무언가를 학습하는 것이다. 처음엔 데이터의 픽셀값을 이용해서 사진을 분류할 수 있겠다는 생각을 할 수 있을 것이다.과일 사진 데이터 준비하기다음은 사과, 바나나, 파인애플을 담고 있는 흑백 사진 데이터이다.이 배열의 첫번째 차원은 샘플의 개수를 나타내고, 두 번재 차원은 이미지 높이, 세 번째 차원은 이미지 너비이다. 각 픽셀은 넘파이 배열의 원소 하나에 대응한다. 즉 배열의 크기가 100 x 100이다.이 넘파이 배열은 흑백 사진을 담고 있으므로 0~255까지의 정숫값을..
doocong22
'AI' 카테고리의 글 목록 (2 Page)