[Pytorch] 반지도 학습 구현해보기 - PyTorch 주요 함수 이해하기
·
AI
구현해볼 모델 반지도 학습 아키텍처반지도학습(Semi-Supervised Learning)의 핵심지도학습(Supervised Learning): 라벨이 있는 데이터(inputs_l)에 대해 Cross Entropy Loss를 사용하여 학습비지도 학습(Consistency Loss 적용): 라벨이 없는 데이터(inputs_u)에 대해 Teacher 모델의 출력을 정답처럼 학습EMA(Exponential Moving Average) 방식: Teacher 모델이 Student 모델보다 더 안정적인 가중치를 유지하면서 업데이트PyTorch를 활용한 CNN 기반 이미지 분류 모델 구현CNN(Convolutional Neural Network) 모델 정의CNN을 활용하여 32×32 크기의 RGB 이미지(3채널)를 ..
[인최기] Semi-supervised learning (준지도학습)
·
AI
MOTIVATION딥러닝의 가장 대표적인 방법론은 supervised learning (지도학습)이다. 하지만 supservised learning은 어쩌면 학습 데이터의 패턴을 외우는 학습법에 불과하다. 그러므로 한번도 보지 않은 데이터에 대해서는 맞추기 쉽지 않다. 일반화가 잘되기 위해서는 필연적으로 더 많은 labeled data가 요구된다. 성공적으로 딥러닝을 도입한 이미지 분야의 경우도 역시 대용량 labeled 이미지를 확보했기 때문에 좋은 성능을 얻을 수 있었다고 볼 수 있다. 하지만 labeled data를 확보하기 어려운 분야들도 존재한다. labeling에 전문성이 필요하거나 labeling에 걸리는 프로세스가 긴 분야의 경우 대용량의 labeled data를 얻기 힘들 수 있다. 또한..
[Transformer] Attention과 Self-Attention 차이
·
AI/DL
다음 그림이 트랜스포머 모델 구조인데, 어텐션은 총 세 군데서 사용된다.인코더의 Self-Attention : Query = Key = Value디코더의 Maked Self-Attention : Query = Key = Value디코더의 Encoder-Decoder Attention : Query : 디코더 벡터 / Key = Value : 인코더 벡터1, 2는 Q, K, V가 동일하기 때문에 Self-Attention이고 3은 Q는 디코더에서 K, V는 인코더에서 가져오니 그냥 Attention이다.-> query와 key, 그리고 value가 동일한 부분에 있을 때 셀프 어텐션이 되고, 디코더와 인코더에 나누어져 있으면 그냥 어텐션이 된다. 정확히는 다음과 같다. 출처 : https://wikidoc..
Residual Block 이해하기
·
AI
1. Residual Block이란?Residual Block(잔차 블록)은 딥러닝 모델에서 입력을 그대로 다음 레이어로 전달하는 Skip Connection을 포함한 블록이다.기본 아이디어는 "출력값을 바로 다음 레이어에 넣는 것뿐만 아니라, 원래 입력값도 더해주자!" 이다.즉, 일반적인 네트워크는 H(x)라는 함수를 학습하지만, Residual Block은 잔차(residual) F(x)를 학습하고, 이를 입력 x와 더해서 최종 출력 H(x)을 만든다. 점선으로 둘러싸인 residual block의 입장에서 보면, 들어오는 인풋 x가 있다고 할 때, 이 x를 그 블럭 내 레이어들을 통과시켜서 얻은 결과값 f(x)에다가 인풋 x를 그대로 더해준 것이 그 블럭의 최종 아웃풋이 된다.H(x) = F(x) ..
Batch, Step, Epoch 이해하기
·
AI
참고 링크 : 실험으로 알아보는 LLM 파인튜닝 최적화 가이드 Part 1. devocean.sk.com 1. Batch, Step, EpochBatch, Step 그리고 Epoch은 LLM 학습 과정에서 데이터 처리를 정의 하는 단위로, 학습 효율성과 성능에 직접적인 영향을 미칩니다.또한 학습 과정을 효과적으로 모니터링하려면 어떤 지표를 중심으로 관찰 할지 명확히 이해 하는 것도 중요합니다. 1.1 BatchBatch 크기는 한 번의 학습 단계(Training Step)에서 모델이 처리하는 데이터 샘플의 개수를 의미한다.그림 1에서 볼 수 있듯이, 학습을 위해 데이터셋에서 선택된 데이터 묶음이 바로 Batch이다.예를 들어, Batch 크기가 10이라면, 한 번의 Training Step에서 모델은 1..
[논문] A Survey of Resource-efficient LLM and Multimodal Foundation Models
·
AI
2.3 멀티모달 기초 모델(Multimodal Foundation Models)멀티모달리티(Multimodality)는 현재 기초 모델(FM, Foundation Model) 연구에서 중요한 연구 방향 중 하나이다. 대형 기초 모델은 다양한 모달 간 이해, 변환(translation), 생성(generation) 능력이 강력한 특징을 보인다.일반적으로 멀티모달 기초 모델 연구는 두 가지 방향으로 나뉜다.다양한 모달 데이터를 동일한 잠재 공간(latent space)으로 인코딩하는 방법주로 트랜스포머(Transformer) 기반 인코더를 사용한다.다양한 모달 데이터를 생성하는 방법주로 트랜스포머 디코더(Transformer Decoder)를 활용한다.특히, 텍스트를 기반으로 이미지를 생성(text-to-i..
[Object Detection] R-CNN, Fast R-CNN, Faster R-CNN
·
AI
Object DetectionObject Detection에는 여러가지 기법이 있다. Classification:이미지를 보고 무엇이 있는지를 예측함. 예를 들어 "고양이"라는 클래스만 반환함. 위치 정보는 제공하지 않음.Semantic Segmentation:이미지를 픽셀 단위로 분류하여 각 픽셀이 어떤 클래스에 속하는지를 나타냄. 객체의 개수는 구분하지 않고 모든 픽셀을 분할함.Object Detection:이미지에서 객체의 종류와 위치를 찾아냄. 바운딩 박스(박스로 감싸는 형태)를 통해 객체를 구분함.Instance Segmentation:객체의 종류와 위치를 찾는 것에 더해, 각 객체를 픽셀 단위로 세밀하게 분할함. 같은 클래스라도 서로 다른 객체로 인식함.여기서 우리는 Object Detecti..
분류 성능 지표 : Precision, Recall, F1-score
·
AI/ML
분류 모델이 얼마나 잘 학습되었는지에 대한 성능 지표는 Accuracy(정확도), Precision(정밀도), Recall(재현율) 등이 잇다. 각각의 성능 지표 전에 우선 confusion matrix 먼저 알아보자.Confusion MatrixConfusion matrix는 실제 클래스와 예측된 클래스의 매칭을 이용하여 분류 모델을 평가하는 도구이다. 이진 분류 문제에서 실제 클래스는 Positive/Negative로 나누어져 있고 분류 모델은 샘플들을 Positive/Negative로 분류한다.표 내부에 있는 단어를 쉽게 설명을하기 위해 예시로 환자다 아니다로 설명하겠습니다.Actual(Positive) : 실제 환자Actual(Negative) : 실제 환자가 아님Predict(Positive) ..
[논문] DoRA: Weight-Decomposed Low-Rank Adaptation
·
AI
ABSTRACT많이 사용되는 파라미터 효율적인 미세조정(Parameter-Efficient Fine-Tuning, PEFT) 방법 중, LoRA와 그 변형들이 추가적인 추론 비용을 피하면서 상당한 인기를 얻고 있다. 그러나 이러한 방법들과 완전 미세조정(Full Fine-Tuning, FT) 사이에는 여전히 종종 정확도 격차가 존재한다.이 연구에서는 먼저, FT와 LoRA 간의 본질적인 차이를 조사하기 위해 새로운 가중치 분해 분석(Weight Decomposition Analysis)을 소개한다. 이 분석 결과를 바탕으로 FT의 학습 능력을 유사하게 구현하기 위해, 우리는 Weight-Decomposed Low-Rank Adaptation (DoRA)을 제안한다. DoRA는 사전 학습된 가중치를 크기(..
[논문] Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation
·
AI
논문 링크 : https://arxiv.org/abs/2402.18150 Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented GenerationRetrieval-augmented generation (RAG) enhances large language models (LLMs) by incorporating additional information from retrieval. However, studies have shown that LLMs still face challenges in effectively using the retrieved information, even ignoring ..
doocong22
'AI' 카테고리의 글 목록