'AI' 카테고리의 글 목록 (2 Page)

[논문] Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation

2024.11.25·

AI

논문 링크 : https://arxiv.org/abs/2402.18150 Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented GenerationRetrieval-augmented generation (RAG) enhances large language models (LLMs) by incorporating additional information from retrieval. However, studies have shown that LLMs still face challenges in effectively using the retrieved information, even ignoring ..

[논문] Warming Up Cold-Start CTR Prediction by Learning Item-Specific Feature Interactions

2024.11.11·

AI

ABSTRACT추천 시스템에서는 새로운 아이템이 지속적으로 도입되며, 초기에는 상호작용 기록이 부족하지만 시간이 지남에 따라 점차 쌓이게 된다. 이러한 아이템의 클릭률(CTR)을 정확하게 예측하는 것은 수익과 사용자 경험을 향상하는 데 중요하다. 기존 방법들은 일반적인 CTR 모델 내에서 새로운 아이템의 ID 임베딩을 향상하는 데 중점을 두지만, 전역적인 특징 상호작용 접근 방식을 채택하는 경향이 있어 상호작용이 풍부한 아이템이 상호작용이 적은 새 아이템을 압도하는 경우가 많다. 이에 대응하여, 우리의 연구는 아이템별 특징 상호작용 패턴을 학습하여 콜드 스타트 CTR 예측을 강화하는 EmerG라는 새로운 접근 방식을 소개한다. EmerG는 하이퍼네트워크를 활용하여 아이템 특성에 기반한 아이템별 특징 그..

[논문] Explicit and Implicit Modeling via Dual-Path Transformer forBehavior Set-informed Sequential Recommendation

2024.10.29·

AI

ABSTRACT연속 추천(Sequential Recommendation, SR)과 다중 행동 연속 추천(Multi-Behavior Sequential Recommendation, MBSR)은 모두 현실 세계의 시나리오에서 비롯된 개념이다. 1. 연속 추천 (Sequential Recommendation, SR)SR은 단일 행동 유형에 초점을 맞춘 추천 방식이다. 예를 들어, 전통적인 SR 모델에서는 주로 사용자의 '구매 이력'이나 '조회 이력'을 순차적으로 분석하여 다음에 추천할 아이템을 예측한다. SR은 사용자가 시간순으로 어떤 아이템과 상호작용했는지를 바탕으로, 다음에 어떤 아이템을 선호할 가능성이 높은지 예측한다. 여기서 단일 행동 유형(예: 조회, 클릭, 구매 등)에 대해서만 고려하기 때문에, 다..

AlexNet, VGG, ResNet 비교 분석

2024.10.18·

AI

1. AlexNet (2012)특징:아키텍처: 8개의 레이어로 구성된 비교적 간단한 구조.5개의 컨볼루션 레이어와 3개의 완전 연결(FC) 레이어로 이루어져 있다.ReLU 활성화 함수 사용: 기존의 Sigmoid나 Tanh 대신 ReLU를 사용하여 Vanishing Gradient Problem을 해결하고, 학습 속도를 높였다.Max Pooling: 다운샘플링을 위해 Max Pooling 레이어를 사용하여 특징을 추출하면서 계산량을 줄였다.Dropout: 과적합을 방지하기 위해 FC 레이어에서 Dropout을 적용했다.데이터 증강: 훈련 데이터에 다양한 변형(회전, 자르기 등)을 적용하여 더 일반화된 모델을 만들었다.장점과 한계:딥러닝의 발전에 큰 기여를 했으며, ReLU와 Dropout, 데이터 증강 ..

[RL] 4-1 Value Function Approximation

2024.10.13·

AI/RL

세 box 모두 w라는 parameter가 관장- V(s,w): s를 넣었을 때 value를 return- action in 상태의 Q(s,a,w): s,a를 넣었을 때 value를 return- action out 상태의 Q(s,an,w): s만 넣었을 때 s에서 할 수 있는 모든 a들에 대해서 여러개의 output를 return - differentiable(미분가능한) Function Approximator(모방하는 함수)는 뭘 쓸 수 있나? :linear combinations of features(특성 가중치 합), Neural network 1. Value Function Approximation By Stochastic Gradient Descent설명:목표는 w라는 파라미터 벡터를 최적..

[RL] 3-2 Model-Free Control

2024.10.12·

AI/RL

이전 포스팅 3-1에서는 Model-Free Prediction을 공부했다. 지금부터는 Control에 대해 배워볼 것 이다.우선 차이를 다시 되짚고 넘어가자.Prediction과 Control의 과정:Prediction (정책 평가, Policy Evaluation):주어진 정책 π를 따를 때 각 상태의 가치 함수 Vπ(s)를 추정하는 과정이다.이 단계에서는 정책이 고정되어 있고, 정책을 따를 때 상태가 얼마나 좋은지를 예측한다.Value Function Vπ(s): 현재 정책에 따라 상태에서 기대되는 미래 보상의 합을 의미한다.Control (정책 개선, Policy Improvement):Prediction 결과로 나온 상태 가치 함수 Vπ(s)를 바탕으로, 각 상태에서 더 나은 행동을 선택하여 정..

[RL] 3-1 Model-Free Prediction - (TD lambda)

2024.10.12·

AI/RL

1. step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것 이다.2. step TD 에서의 업데이트 방식은 첫번째 보상과 + 두번째 보상 + 두번째 상태에서의 value function 으로 업데이트가 된다.TD(1-step)과 n-Step의 차이TD(1-step): 한 단계 후의 보상과 다음 상태의 가치 함수만을 기반으로 업데이트를 수행한다.업데이트 식: 즉, t+1시점에서의 보상과 다음 상태의 가치 V(St+1)를 이용해 현재 상태 StS_tSt의 가치를 업데이트한다.n-Step TD: 한 단계가 아니라, n단계 후의 보상까지 고려한다.n-Step TD에서는 n번째 시점까지의 보상을..

[RL] 3-1 Model-Free Prediction - (TD)

2024.10.09·

AI/RL

Temporal-Difference LearningTD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘이다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징이다.MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이 설명을 하고 있다. 에피소드가 전체적으로 끝나서야 그 보상을 나누어 단계별로 업데이트가 된다.하지만 TD에서는 각 단계별로 업데이트가 되는 과정을 위 오른쪽 그림과 같이 보여주고 있다.특히 각 단계별로 얻게 되는 값들이 2~3번 단계에서 MC와 TD에서 달라지는 것을 알수 있다. Monte Carlo 방법 (왼쪽 그림)MC는 전체 에피소드가 끝난 후 업데이트를 한다...

[RL] 3-1 Model-Free Prediction - (MC)

2024.10.09·

AI/RL

Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 상태에서) 환경과 상호 작용을 하며 value function을 추정해 가는 방식을 말합니다. control 은 이렇게 찾은 value function을 최적화하여 최적의 poilcy를 찾는 것을 말합니다. 대표적인 Model-free 방식에 ..

[RL] 2-2 Planning by Dynamic Programming

2024.10.09·

AI/RL

Dynamic Programming복잡한 문제를 풀기 위한 방법으로 큰 문제를 작은 subproblem들로 쪼개서 문제를 푸는 방법을 뜻한다.하나는 Optimal substructure 로서 최적화를 할 수 있다는 것인데 하나의 문제를 2개 이상의 하위문제로 쪼개고 각각을 최적화하게 되면 원래의 문제도 최적화 할 수 있다는 것이다.또 하나는 Overlapping subproblems 인데 서브문제들이 여러번 반복적으로 나타나기 때문에 하나의 서브문제를 해결하고 이 결과를 저장했다가 다시 사용하는 것이 가능하다는 것이다. 이 두가지 특성이 MDP에서도 동일하게 적용이 되고 Bellman equation 과 value function 이 대표적인 특성을 가지고 있다.Bellman equation 이 각 st..

티스토리툴바