분류 전체보기
-
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. 추천 시스템 기법 딥러닝 모델 기반의 추천 시스템을 사용하는 건 CV, NLP 보다는 중요성이 떨어진다. 현업에서는 무거운 딥러닝 모델의 트래픽, latency 등 현실적인 문제로 인해 클래식한 머신러닝 모델도 많이 사용한다. 연관 분석 연관 규칙 분석 (Association Rule Analysis, Associat..
연관 분석과 TF-IDF를 활용한 콘텐츠 기반 추천2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. 추천 시스템 기법 딥러닝 모델 기반의 추천 시스템을 사용하는 건 CV, NLP 보다는 중요성이 떨어진다. 현업에서는 무거운 딥러닝 모델의 트래픽, latency 등 현실적인 문제로 인해 클래식한 머신러닝 모델도 많이 사용한다. 연관 분석 연관 규칙 분석 (Association Rule Analysis, Associat..
2022.03.11 -
현재 활동 중인 빅데이터 연합동아리인 BITAmin에서 RNN에 관한 세션에서 발표를 진행했는데, 그때 Vanilla RNN 사용과 함께 PyTorch로 RNN을 사용한 모델을 구현하는 내용도 같이 강의하려고 실습 자료를 직접 만들었다. 네이버 부스트캠프 AI Tech에서 유명한 과제 중 하나인 '부덕이 🦆'에 매우 큰 영감을 받아서 이 발표 자료를 제작할 때도 코드 한 줄마다 빼곡히 주석을 넣었을 뿐만이 아니라 대화체로 연관 개념들을 마크다운으로 설명을 적어놓았다. 처음에는 필자인 나 자신도 자료를 제작하면서 고통스럽고 오글거리는 말투로 인해 반응이 좋지 않을까 많이 걱정했는데, 다행히 강의에서 동아리원들이 괜찮은 반응을 보여줘서 굉장히 뿌듯했던 것 같다. 사실 어떠한 발표 자료를 만들 때 개인적으로 ..
PyTorch RNN 모델 사용 예제 - AG NEWS 기사 주제 분류현재 활동 중인 빅데이터 연합동아리인 BITAmin에서 RNN에 관한 세션에서 발표를 진행했는데, 그때 Vanilla RNN 사용과 함께 PyTorch로 RNN을 사용한 모델을 구현하는 내용도 같이 강의하려고 실습 자료를 직접 만들었다. 네이버 부스트캠프 AI Tech에서 유명한 과제 중 하나인 '부덕이 🦆'에 매우 큰 영감을 받아서 이 발표 자료를 제작할 때도 코드 한 줄마다 빼곡히 주석을 넣었을 뿐만이 아니라 대화체로 연관 개념들을 마크다운으로 설명을 적어놓았다. 처음에는 필자인 나 자신도 자료를 제작하면서 고통스럽고 오글거리는 말투로 인해 반응이 좋지 않을까 많이 걱정했는데, 다행히 강의에서 동아리원들이 괜찮은 반응을 보여줘서 굉장히 뿌듯했던 것 같다. 사실 어떠한 발표 자료를 만들 때 개인적으로 ..
2022.03.11 -
2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. 추천 시스템이란? 서비스는 매우 많은 아이템으로 이루어져 있다. 이 매우 많은 아이템에서 사용자의 데이터를 기반으로 비즈니스 목적에 맞게 사용자가 선호할 만한 아이템을 추천하는 것이다. Search(검색)와 Recommendation(추천) 검색은 사용자가 의도를 가지고 아이템을 찾는 행위이다. 사용자의 의도가 담긴 쿼리(query)라는 키워드가 사용된다. 검색을 통해 아이템을 소..
추천 시스템에서 자주 사용하는 용어와 평가 지표2022년 3월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다. 추천 시스템이란? 서비스는 매우 많은 아이템으로 이루어져 있다. 이 매우 많은 아이템에서 사용자의 데이터를 기반으로 비즈니스 목적에 맞게 사용자가 선호할 만한 아이템을 추천하는 것이다. Search(검색)와 Recommendation(추천) 검색은 사용자가 의도를 가지고 아이템을 찾는 행위이다. 사용자의 의도가 담긴 쿼리(query)라는 키워드가 사용된다. 검색을 통해 아이템을 소..
2022.03.11 -
2022년 2월 14일(월)부터 18일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. 비정형 데이터셋에 사용할 수 있는 EDA & Visualization 일반적으로 비정형 데이터(이미지, 텍스트 등)에서는 다음과 같은 시각화를 해 볼 수 있다. Dataset meta data visualization 메타 데이터는 데이터 자체가 아니라 그 데이터에 대한 정보를 의미한다. 일반적으로는 target 값..
비정형 데이터 셋에서의 데이터 시각화2022년 2월 14일(월)부터 18일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. 비정형 데이터셋에 사용할 수 있는 EDA & Visualization 일반적으로 비정형 데이터(이미지, 텍스트 등)에서는 다음과 같은 시각화를 해 볼 수 있다. Dataset meta data visualization 메타 데이터는 데이터 자체가 아니라 그 데이터에 대한 정보를 의미한다. 일반적으로는 target 값..
2022.02.18 -
2022년 2월 14일(월)부터 18일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Interactive Visualization Interactive를 사용하는 이유 정적 시각화의 장점 원하는 메시지를 압축해서 담을 수 있다는 장점이 있다. 정적 시각화의 단점 각각의 데이터를 살펴보는 것 뿐만이 아니라 관계를 살펴보는 데 많은 plot이 필요하는데, 이는 공간적 낭비가 크다. 또한 각각의 사용자가..
Interactive(인터렉티브) 시각화2022년 2월 14일(월)부터 18일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다. Interactive Visualization Interactive를 사용하는 이유 정적 시각화의 장점 원하는 메시지를 압축해서 담을 수 있다는 장점이 있다. 정적 시각화의 단점 각각의 데이터를 살펴보는 것 뿐만이 아니라 관계를 살펴보는 데 많은 plot이 필요하는데, 이는 공간적 낭비가 크다. 또한 각각의 사용자가..
2022.02.18 -
Generative Model Generative Model이란? Discriminative Model과 Generative Model 일반적으로 머신러닝에서 모델을 크게 두 범주로 분류하자면 discriminative model과 generative model로 구분할 수 있다. Discriminative model은 데이터의 레이블링을 예측하는 것처럼 decision boundary를 잘 결정하는 것이 목표인 모델이며, 우리가 일반적으로 잘 아는 classficiation, segmentation, detection과 같은 task를 잘 수행하는 모델로 볼 수 있다. 그에 반해 생성 모델(generative model)은 기본적으로 어떠한 입력이 주어졌을 때 이를 모델에 통과하여 output을 내는데..
생성 모델(Generative Model)과 VAE 그리고 GANGenerative Model Generative Model이란? Discriminative Model과 Generative Model 일반적으로 머신러닝에서 모델을 크게 두 범주로 분류하자면 discriminative model과 generative model로 구분할 수 있다. Discriminative model은 데이터의 레이블링을 예측하는 것처럼 decision boundary를 잘 결정하는 것이 목표인 모델이며, 우리가 일반적으로 잘 아는 classficiation, segmentation, detection과 같은 task를 잘 수행하는 모델로 볼 수 있다. 그에 반해 생성 모델(generative model)은 기본적으로 어떠한 입력이 주어졌을 때 이를 모델에 통과하여 output을 내는데..
2022.02.17 -
Sequential Model Sequential Model이 어려운 이유 언어 문장을 예로 들면 완벽한 문장 구조에 대응되도록 문장을 만드는 경우는 흔치 않은데, 이러한 문제는 sequential model에 있어서 난관이다. 또한 기존 Seq2Seq 모델은 고정된 크기의 context vector에 source 문장 정보를 압축하는데, 이는 병목(bottleneck)을 발생시켜 성능 하락의 원인이 된다. 하나의 문맥 vector가 source 문장의 모든 정보를 가지고 있어야 하므로 성능이 저하된다는 문제가 있다. 그래서 매번 source 문장에서의 출력 전부를 입력으로 받는 것이 transformer의 아이디어이다. 최근 트렌드는 입력 시퀀스 전체에서 정보를 추출하는 모델로 발전하는 방향이다. Tr..
Self-Attention을 사용하는 Transformer(트랜스포머)Sequential Model Sequential Model이 어려운 이유 언어 문장을 예로 들면 완벽한 문장 구조에 대응되도록 문장을 만드는 경우는 흔치 않은데, 이러한 문제는 sequential model에 있어서 난관이다. 또한 기존 Seq2Seq 모델은 고정된 크기의 context vector에 source 문장 정보를 압축하는데, 이는 병목(bottleneck)을 발생시켜 성능 하락의 원인이 된다. 하나의 문맥 vector가 source 문장의 모든 정보를 가지고 있어야 하므로 성능이 저하된다는 문제가 있다. 그래서 매번 source 문장에서의 출력 전부를 입력으로 받는 것이 transformer의 아이디어이다. 최근 트렌드는 입력 시퀀스 전체에서 정보를 추출하는 모델로 발전하는 방향이다. Tr..
2022.02.17 -
Sequential Model Sequential Data [출처] https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras 일상적으로 접하는 데이터는 대부분 sequential data이다. (예: 음성, 비디오 등) Naive Sequence Model $$ p(x_t | x_{t-1}, x_{t-2}, \cdots) $$ 시간이 지남에 따라 고려해야 하는 데이터의 개수가 계속 증가한다. 길이가 주어지지 않아서 받아들여야 하는 데이터의 입력의 차원을 알 수 없다는 단점이 있다. Autoregressive Model [출처] https://www.researchgate.net/figure/Autoregressi..
순차 데이터와 RNN(Recurrent Neural Network) 계열의 모델Sequential Model Sequential Data [출처] https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras 일상적으로 접하는 데이터는 대부분 sequential data이다. (예: 음성, 비디오 등) Naive Sequence Model $$ p(x_t | x_{t-1}, x_{t-2}, \cdots) $$ 시간이 지남에 따라 고려해야 하는 데이터의 개수가 계속 증가한다. 길이가 주어지지 않아서 받아들여야 하는 데이터의 입력의 차원을 알 수 없다는 단점이 있다. Autoregressive Model [출처] https://www.researchgate.net/figure/Autoregressi..
2022.02.17