분류 전체보기
-
딥 러닝을 사용한 CTR Prediction CTR 예측은 유저가 주어진 아이템을 클릭할 확률을 예측하는 문제이다. 주로 광고에 사용되며 광고주 및 서비스 제공자들의 이익 창출에 사용된다. 그러나 현실의 CTR 데이터를 기존의 선형 모델로 예측하는 데는 한계가 있다. Highly sparse하고 데이터의 차원이 너무 클 수 있으며, feature 간의 non-linear association이 존재한다. 그래서 이러한 데이터에 효과적인 딥러닝 기법들이 CTR 예측 문제에 적용된다. Wide & Deep 모델 선형적인 모델(Wide)과 비선형적인 모델(Deep)을 결합하여 기존 모델들의 장점을 모두 취하고자 하는 모델이다. Wide & Deep 등장 배경 추천 시스템에서 해결해야 할 두 가지 과제는 Mem..
CTR를 딥 러닝으로 예측하는 Wide & Deep 모델과 DeepFM딥 러닝을 사용한 CTR Prediction CTR 예측은 유저가 주어진 아이템을 클릭할 확률을 예측하는 문제이다. 주로 광고에 사용되며 광고주 및 서비스 제공자들의 이익 창출에 사용된다. 그러나 현실의 CTR 데이터를 기존의 선형 모델로 예측하는 데는 한계가 있다. Highly sparse하고 데이터의 차원이 너무 클 수 있으며, feature 간의 non-linear association이 존재한다. 그래서 이러한 데이터에 효과적인 딥러닝 기법들이 CTR 예측 문제에 적용된다. Wide & Deep 모델 선형적인 모델(Wide)과 비선형적인 모델(Deep)을 결합하여 기존 모델들의 장점을 모두 취하고자 하는 모델이다. Wide & Deep 등장 배경 추천 시스템에서 해결해야 할 두 가지 과제는 Mem..
2022.03.19 -
Gradient Boosting Machine (GBM) CTR 예측을 통해 개인화된 추천 시스템을 만들 수 있는 또 다른 대표적인 모델이다. Boosting [출처] Wikipedia, Sirakorn 앙상블(ensemble) 기법의 일종이며, 앙상블은 모델의 편향에 따른 예측 오차를 줄이기 위해 여러 모델을 결합하여 사용하는 기법이다. 의사결정 나무(Decision Tree)로 된 weak learner(정확도와 복잡도가 비교적 낮은 분류기)들을 연속적으로 학습하여 결합하는 방식이다. 연속적으로 학습한다는 것은 이전 단계의 weak learner가 취약했던 부분을 위주로 데이터를 샘플링하거나 가중치를 부여해 다음 단계의 learner를 학습한다는 의미이다. Boosting 기반 모델 AdaBoost(..
Gradient Boosting을 사용한 GBM(Gradient Boosting Machine)과 연관 모델Gradient Boosting Machine (GBM) CTR 예측을 통해 개인화된 추천 시스템을 만들 수 있는 또 다른 대표적인 모델이다. Boosting [출처] Wikipedia, Sirakorn 앙상블(ensemble) 기법의 일종이며, 앙상블은 모델의 편향에 따른 예측 오차를 줄이기 위해 여러 모델을 결합하여 사용하는 기법이다. 의사결정 나무(Decision Tree)로 된 weak learner(정확도와 복잡도가 비교적 낮은 분류기)들을 연속적으로 학습하여 결합하는 방식이다. 연속적으로 학습한다는 것은 이전 단계의 weak learner가 취약했던 부분을 위주로 데이터를 샘플링하거나 가중치를 부여해 다음 단계의 learner를 학습한다는 의미이다. Boosting 기반 모델 AdaBoost(..
2022.03.19 -
Context-aware Recommendation 행렬 분해 기법(MF)을 활용한 협업 필터링의 한계 개별 유저와 개별 아이템 간 상호작용을 2차원 행렬로 표현한다. 그러나 이는 유저의 데모그래픽이나 아이템의 카테고리 및 태그 등 여러 풍부한 특성(feature)들을 추천 시스템에 반영할 수 없다. 또한 유저-아이템의 상호작용 정보가 아직 부족할 경우, 즉 'cold start'에 대한 대처가 어렵다. Context 기반 추천 시스템 유저와 아이템 간 상호작용 정보 뿐만이 아니라 맥락(context)적 정보도 함께 반영하는 추천 시스템이다. $X$를 통해 $Y$의 값을 추론하는 일반적인 예측 문제에 두루 사용할 수 있는 General Predictor이다. $$ R: User \times Item \t..
Context 기반 추천 모델인 FM(Factorization Model)과 FFM(Field-aware Factorization Machine)Context-aware Recommendation 행렬 분해 기법(MF)을 활용한 협업 필터링의 한계 개별 유저와 개별 아이템 간 상호작용을 2차원 행렬로 표현한다. 그러나 이는 유저의 데모그래픽이나 아이템의 카테고리 및 태그 등 여러 풍부한 특성(feature)들을 추천 시스템에 반영할 수 없다. 또한 유저-아이템의 상호작용 정보가 아직 부족할 경우, 즉 'cold start'에 대한 대처가 어렵다. Context 기반 추천 시스템 유저와 아이템 간 상호작용 정보 뿐만이 아니라 맥락(context)적 정보도 함께 반영하는 추천 시스템이다. $X$를 통해 $Y$의 값을 추론하는 일반적인 예측 문제에 두루 사용할 수 있는 General Predictor이다. $$ R: User \times Item \t..
2022.03.19 -
RNN 계열의 모델 RNN 계열 모델의 자세한 설명은 이전에 작성한 글을 참고하면 된다. https://glanceyes.tistory.com/entry/Deep-Learning-RNNRecurrent-Neural-Network?category=1050635 순차 데이터와 RNN(Recurrent Neural Network) 계열의 모델 Sequential Model Sequential Data [출처] https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras 일상적으로 접하는 데이터는 대부분 sequential data이다. (예: 음성, 비디오 등) Naive Sequence Model $$ p(x_t gla..
RNN 계열의 GRU 모델을 활용한 GRU4RecRNN 계열의 모델 RNN 계열 모델의 자세한 설명은 이전에 작성한 글을 참고하면 된다. https://glanceyes.tistory.com/entry/Deep-Learning-RNNRecurrent-Neural-Network?category=1050635 순차 데이터와 RNN(Recurrent Neural Network) 계열의 모델 Sequential Model Sequential Data [출처] https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras 일상적으로 접하는 데이터는 대부분 sequential data이다. (예: 음성, 비디오 등) Naive Sequence Model $$ p(x_t gla..
2022.03.19 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. Autoencoder를 응용한 추천 시스템 Autoencoder 입력 데이터를 출력으로 복원(reconstruct)하는 비지도(unsupervised) 학습 모델이다. 중간 hidden layer를 input data의 feature representation으로 활용한다. 주어진 입력에 대해서 reconstructed input과의 차이를 줄이는 것을 목표로 한다. Denoisi..
Autoencoder를 응용한 추천 시스템2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. Autoencoder를 응용한 추천 시스템 Autoencoder 입력 데이터를 출력으로 복원(reconstruct)하는 비지도(unsupervised) 학습 모델이다. 중간 hidden layer를 input data의 feature representation으로 활용한다. 주어진 입력에 대해서 reconstructed input과의 차이를 줄이는 것을 목표로 한다. Denoisi..
2022.03.13 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. 딥 러닝을 사용한 추천 시스템 추천 시스템에서 딥러닝을 활용하는 이유 Nonlinear Transformation DNN은 data의 non-linearity를 효과적으로 나타낼 수 있다. 복잡한 유저-아이템 상호작용 패턴을 효과적으로 모델링하여 user의 선호도를 예측할 수 있다. Representation Learning DNN은 raw data로부터 feature repres..
딥 러닝을 사용한 추천 시스템과 대표적인 예시인 유튜브 영상 추천2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. 딥 러닝을 사용한 추천 시스템 추천 시스템에서 딥러닝을 활용하는 이유 Nonlinear Transformation DNN은 data의 non-linearity를 효과적으로 나타낼 수 있다. 복잡한 유저-아이템 상호작용 패턴을 효과적으로 모델링하여 user의 선호도를 예측할 수 있다. Representation Learning DNN은 raw data로부터 feature repres..
2022.03.13 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Approximate Nearest Neighbor(ANN) Nearest Neighbor 주어진 vecor space model에서 자신이 원하는 query vector와 가장 유사한 vector를 찾는 알고리즘이다. MF 모델을 가지고 추천 아이템을 서빙하는 경우를 생각해보자. 유저에게 아이템을 추천한다면 해당 유..
ANN(Approximate Nearest Neighbor)과 ANNOY2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Approximate Nearest Neighbor(ANN) Nearest Neighbor 주어진 vecor space model에서 자신이 원하는 query vector와 가장 유사한 vector를 찾는 알고리즘이다. MF 모델을 가지고 추천 아이템을 서빙하는 경우를 생각해보자. 유저에게 아이템을 추천한다면 해당 유..
2022.03.13 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Word2Vec Word2Vec에 관한 개념은 이 포스트에 적은 내용을 바탕으로 한다. https://glanceyes.tistory.com/entry/Word-Embedding과-Word2Vec Word Embedding을 위한 Word2Vec과 GloVe Word Embedding 자연어가 단어라는 정보의 기본 단..
Word2Vec을 응용한 Item2Vec2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Word2Vec Word2Vec에 관한 개념은 이 포스트에 적은 내용을 바탕으로 한다. https://glanceyes.tistory.com/entry/Word-Embedding과-Word2Vec Word Embedding을 위한 Word2Vec과 GloVe Word Embedding 자연어가 단어라는 정보의 기본 단..
2022.03.13