부스트캠프
-
들어가기 전에 MLflow가 등장하기 이전에는 사람들이 각자 자신의 코드를 jupyter notebook에서 작성하여 머신러닝 모델을 학습할 때 사용한 파라미터와 metric을 따로 기록했다. 학습하며 생긴 weight file을 저장하여 coworker에게 공유하기도 했으며, weight file 이름으로 모델 버전을 작성하거나 아예 모델 버전을 지정하지 않기도 했다. 그러나 개인 컴퓨터 등을 사용하다가 메모리 초과(Memory Exceed) 오류가 발생할 수도 있고, 실험을 추적하기 어렵거나 코드를 재현하기 어렵다는 단점이 있었다. 또한 모델을 패키징하고 배포하는 방법이 어려우며, 이를 관리하기 위한 중앙 저장소가 없다는 것도 큰 문제였다. 이러한 문제를 해결할 수 있는 관리 플랫폼 중 하나로서 ML..
ML 실험을 위한 관리 플랫폼인 MLflow들어가기 전에 MLflow가 등장하기 이전에는 사람들이 각자 자신의 코드를 jupyter notebook에서 작성하여 머신러닝 모델을 학습할 때 사용한 파라미터와 metric을 따로 기록했다. 학습하며 생긴 weight file을 저장하여 coworker에게 공유하기도 했으며, weight file 이름으로 모델 버전을 작성하거나 아예 모델 버전을 지정하지 않기도 했다. 그러나 개인 컴퓨터 등을 사용하다가 메모리 초과(Memory Exceed) 오류가 발생할 수도 있고, 실험을 추적하기 어렵거나 코드를 재현하기 어렵다는 단점이 있었다. 또한 모델을 패키징하고 배포하는 방법이 어려우며, 이를 관리하기 위한 중앙 저장소가 없다는 것도 큰 문제였다. 이러한 문제를 해결할 수 있는 관리 플랫폼 중 하나로서 ML..
2023.01.04 -
추천 시스템을 어떻게 평가할 수 있을까? 추천 시스템 평가 방법 사용자 스터디 사용자를 모집해서 시스템과 상호작용하게 한 후 피드백을 수집하는 것이다. 활발한 사용자 참여에 바탕을 두고 있기 때문에 오히려 실제 사용자와 동떨어진 active한 사용자만 반영하게 되어 bias로 작용할 수도 있다. 균일한 집단을 만들기 위해서는 주의 깊은 실험 설계가 요구되며, 많은 시간과 비용이 소모되어서 현실적으로 적용하기가 쉽지 않다. Online 평가 [출처] https://www.seobility.net/en/wiki/AB_Testing, Seobility 주로 A/B Testing이라고 불리는 형태로 이뤄지며, 시스템에 추천 알고리즘을 배포하여 사용자들의 실제 반응을 수집하여 비교한다. 사용자 스터디와 달리 샘플..
추천 시스템의 평가 방법과 실험에서의 데이터 분할 전략추천 시스템을 어떻게 평가할 수 있을까? 추천 시스템 평가 방법 사용자 스터디 사용자를 모집해서 시스템과 상호작용하게 한 후 피드백을 수집하는 것이다. 활발한 사용자 참여에 바탕을 두고 있기 때문에 오히려 실제 사용자와 동떨어진 active한 사용자만 반영하게 되어 bias로 작용할 수도 있다. 균일한 집단을 만들기 위해서는 주의 깊은 실험 설계가 요구되며, 많은 시간과 비용이 소모되어서 현실적으로 적용하기가 쉽지 않다. Online 평가 [출처] https://www.seobility.net/en/wiki/AB_Testing, Seobility 주로 A/B Testing이라고 불리는 형태로 이뤄지며, 시스템에 추천 알고리즘을 배포하여 사용자들의 실제 반응을 수집하여 비교한다. 사용자 스터디와 달리 샘플..
2022.04.26 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. Autoencoder를 응용한 추천 시스템 Autoencoder 입력 데이터를 출력으로 복원(reconstruct)하는 비지도(unsupervised) 학습 모델이다. 중간 hidden layer를 input data의 feature representation으로 활용한다. 주어진 입력에 대해서 reconstructed input과의 차이를 줄이는 것을 목표로 한다. Denoisi..
Autoencoder를 응용한 추천 시스템2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. Autoencoder를 응용한 추천 시스템 Autoencoder 입력 데이터를 출력으로 복원(reconstruct)하는 비지도(unsupervised) 학습 모델이다. 중간 hidden layer를 input data의 feature representation으로 활용한다. 주어진 입력에 대해서 reconstructed input과의 차이를 줄이는 것을 목표로 한다. Denoisi..
2022.03.13 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. 딥 러닝을 사용한 추천 시스템 추천 시스템에서 딥러닝을 활용하는 이유 Nonlinear Transformation DNN은 data의 non-linearity를 효과적으로 나타낼 수 있다. 복잡한 유저-아이템 상호작용 패턴을 효과적으로 모델링하여 user의 선호도를 예측할 수 있다. Representation Learning DNN은 raw data로부터 feature repres..
딥 러닝을 사용한 추천 시스템과 대표적인 예시인 유튜브 영상 추천2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. 딥 러닝을 사용한 추천 시스템 추천 시스템에서 딥러닝을 활용하는 이유 Nonlinear Transformation DNN은 data의 non-linearity를 효과적으로 나타낼 수 있다. 복잡한 유저-아이템 상호작용 패턴을 효과적으로 모델링하여 user의 선호도를 예측할 수 있다. Representation Learning DNN은 raw data로부터 feature repres..
2022.03.13 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Approximate Nearest Neighbor(ANN) Nearest Neighbor 주어진 vecor space model에서 자신이 원하는 query vector와 가장 유사한 vector를 찾는 알고리즘이다. MF 모델을 가지고 추천 아이템을 서빙하는 경우를 생각해보자. 유저에게 아이템을 추천한다면 해당 유..
ANN(Approximate Nearest Neighbor)과 ANNOY2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Approximate Nearest Neighbor(ANN) Nearest Neighbor 주어진 vecor space model에서 자신이 원하는 query vector와 가장 유사한 vector를 찾는 알고리즘이다. MF 모델을 가지고 추천 아이템을 서빙하는 경우를 생각해보자. 유저에게 아이템을 추천한다면 해당 유..
2022.03.13 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Word2Vec Word2Vec에 관한 개념은 이 포스트에 적은 내용을 바탕으로 한다. https://glanceyes.tistory.com/entry/Word-Embedding과-Word2Vec Word Embedding을 위한 Word2Vec과 GloVe Word Embedding 자연어가 단어라는 정보의 기본 단..
Word2Vec을 응용한 Item2Vec2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Word2Vec Word2Vec에 관한 개념은 이 포스트에 적은 내용을 바탕으로 한다. https://glanceyes.tistory.com/entry/Word-Embedding과-Word2Vec Word Embedding을 위한 Word2Vec과 GloVe Word Embedding 자연어가 단어라는 정보의 기본 단..
2022.03.13 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. Bayesian Personalized Ranking(BPR) Personalized Ranking 하나의 사용자에게 순서가 있는 아이템 리스트를 제공하는 문제이며, 즉, 아이템 추천 문제로 귀결된다. 유저가 Item $i$보다 $j$를 좋아한다면 이 정보를 사용해 MF의 파라미터를 학습한다. 유저 $u$에 대해 item $i$ > item $j$라면 이는 유저 $u$의 Perso..
Bayesian Personalized Ranking(BPR)2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. Bayesian Personalized Ranking(BPR) Personalized Ranking 하나의 사용자에게 순서가 있는 아이템 리스트를 제공하는 문제이며, 즉, 아이템 추천 문제로 귀결된다. 유저가 Item $i$보다 $j$를 좋아한다면 이 정보를 사용해 MF의 파라미터를 학습한다. 유저 $u$에 대해 item $i$ > item $j$라면 이는 유저 $u$의 Perso..
2022.03.13 -
Model-based Collaborative Filtering(MBCF) NBCF(Neighborhood-based CF)의 한계 Sparsity(희소성) 문제 데이터가 충분하지 않으면 추천 성능이 떨어져서 유사도 계산이 부정확한 문제가 있다. 데이터가 부족하거나 또는 아예 없는 유저, 아이템의 경우는 추천이 불가능하다. Scalability(확장성) 문제 유저와 아이템이 늘어날수록 유사도 계산이 늘어난다. 유저, 아이템이 많아야 정확한 예측을 하지만, 반대로 시간이 오래 걸린다. MBCF(Model-based CF)의 특징 항목 간 유사성을 단순 비교하는 것에서 벗어나 데이터에 내재한 패턴을 이용해 추천하는 CF 기법이다. 파라미터를 이용하는 Parametric Machine Learning을 사용한..
모델 기반 CF와 SVD를 응용한 MF(Matrix Factorization)Model-based Collaborative Filtering(MBCF) NBCF(Neighborhood-based CF)의 한계 Sparsity(희소성) 문제 데이터가 충분하지 않으면 추천 성능이 떨어져서 유사도 계산이 부정확한 문제가 있다. 데이터가 부족하거나 또는 아예 없는 유저, 아이템의 경우는 추천이 불가능하다. Scalability(확장성) 문제 유저와 아이템이 늘어날수록 유사도 계산이 늘어난다. 유저, 아이템이 많아야 정확한 예측을 하지만, 반대로 시간이 오래 걸린다. MBCF(Model-based CF)의 특징 항목 간 유사성을 단순 비교하는 것에서 벗어나 데이터에 내재한 패턴을 이용해 추천하는 CF 기법이다. 파라미터를 이용하는 Parametric Machine Learning을 사용한..
2022.03.13