L05.1 User-free Models Practice
·
AI/추천 시스템 설계
last.fm 데이터셋● last.fm: 온라인 음악 Database, 추천 서비스● HetRec 2011 에서 데이터셋 공개    ○ 92,800 artists, 1892 users    ○ https://grouplens.org/datasets/hetrec-2011/!wget https://files.grouplens.org/datasets/hetrec2011/hetrec2011-lastfm-2k.zip!unzip hetrec2011-lastfm-2k.zip 데이터 준비● artists 정보 불러오기artists = {}with open('artists.dat', 'r') as f: print(f.readline()) for line in f: id, name, _, _ = l..
L04.1 Implicit Feedback Practice
·
AI/추천 시스템 설계
Instance Reweighting ● 각 instance 별로 가중치 부여하기 ○ 어떤 (negative/positive) instance가 중요한가? ● 가중치는 휴리스틱에 근거하여 결정 Bayesian Personalized Ranking ● Idea: 사용자가 아이템을 싫어할지 여부를 맞추는 대신, 덜 좋아하는 정도를 맞춘다면 어떨까? ● Goal: 각 사용자 별로 개인화된 ranking function을 예측하기 ○ 아이템 i와 j를 함께 비교 ○ i: 사용자 u가 이미 본 아이템 ○ j: 사용자 u가 안 본 아이템 ○ i가 j에 비해 더 높은 점수를 가지도록 학습 ● Basic scheme: ○ 원래 데이터셋은 positive 만 있음 (u, i) ■ 즉, 사용자가 아이템을 봤다는 정보 ○ ..
L03.2 Rating Prediction Practice
·
AI/추천 시스템 설계
데이터 준비 ● ml-latest-small: 소규모 데이터셋 ○ 100,000 ratings, 9000 movies, 600 users ● wget: url로부터 파일을 다운로드 받는 쉘 명령어 ● unzip: zip 압축 파일을 해제하는 쉘 명령어 !wget https://files.grouplens.org/datasets/movielens/ml-latest-small.zip !unzip ml-latest-small.zip ● ratings.csv 에서 각 열을 각각 users, items, ratings에 numpy array 형태로 저장 import numpy as np users = [] items = [] ratings = [] with open("ml-latest-small/ratings.c..
L03.1 Rating Prediction Practice
·
AI/추천 시스템 설계
데이터 준비 ● wget: url로부터 파일을 다운로드 받는 쉘 명령어 ● unzip: zip 압축 파일을 해제하는 쉘 명령어 !wget https://files.grouplens.org/datasets/movielens/ml-25m.zip !unzip ml-25m.zip ● ratings.csv 에서 각 열을 각각 users, items, ratings에 numpy array 형태로 저장 import numpy as np with open("ml-25m/ratings.csv", "r") as f: print(f.readline()) # skip column names users = [] items = [] ratings = [] for line in f: uid, mid, rating, timestam..
L02.1 Finding Similar Items Practice
·
AI/추천 시스템 설계
MovieLens에서 사용자의 영화 별점을 예측하는 프로그램을 만들어보자. 우선 데이터셋을 다운받는다. !wget https://files.grouplens.org/datasets/movielens/ml-25m.zip !unzip ml-25m.zip 이 데이터는 sparse 데이터 셋이다. 전체 데이터셋 크기는 user수 x movie수 인데, 실제로 rating이 매겨진 곳은 훨씬 적기 때문이다. 이 상황에서 우리가 피어슨 유사도나 자카드 유사도를 빠르게 계산하는 방법에 대해서 알아볼 것 이다. 장르가 유사한 영화 찾기 ● 영화 제목(movies)과 장르(genresets) 불러오기 ○ csv (comma separated values) 파일: 값들을 쉼표로 구분한 텍스트 파일 movies에는 titl..
doocong22
'AI/추천 시스템 설계' 카테고리의 글 목록