분류 전체보기
-
ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
BERT를 경량화하여 모델의 크기를 줄인 ALBERT의 특징ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
2022.08.20 -
GPT-2 GPT-2를 살펴보기 전에 먼저 이전에 올렸던 GPT-1과 self-supervised learning의 설명을 기반으로 하므로 아래의 글을 참고하는 것을 추천한다. GPT-1과 BERT 분석 비교 Self-Supervised Model인 GPT-1과 BERT 분석 및 비교 Self-Supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한.. glanceyes.tistory.com GPT-2의 특징 GPT-2는 모델 구조 면에서는 GPT-1과 큰 차이가 없지만, transfo..
Zero-shot Learning이 가능한 GPT-2와 Few-shot Learning의 가능성을 제시한 GPT-3GPT-2 GPT-2를 살펴보기 전에 먼저 이전에 올렸던 GPT-1과 self-supervised learning의 설명을 기반으로 하므로 아래의 글을 참고하는 것을 추천한다. GPT-1과 BERT 분석 비교 Self-Supervised Model인 GPT-1과 BERT 분석 및 비교 Self-Supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한.. glanceyes.tistory.com GPT-2의 특징 GPT-2는 모델 구조 면에서는 GPT-1과 큰 차이가 없지만, transfo..
2022.08.16 -
Self-supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한다. Self-supervised Learning Self-supervised Learning이란? 여기서 self-supervised learning이라는 용어가 나오는데, 이는 레이블이 주어지지 않은 데이터를 가지고 사용자가 정한 pretext task를 통해 pre-training을 진행하고, 기학습이 완료된 모델을 여러 다른 downstream task에 fine-tuning하여 사용하고자 transfer learn..
Self-supervised Model인 GPT-1과 BERT 분석 및 비교Self-supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한다. Self-supervised Learning Self-supervised Learning이란? 여기서 self-supervised learning이라는 용어가 나오는데, 이는 레이블이 주어지지 않은 데이터를 가지고 사용자가 정한 pretext task를 통해 pre-training을 진행하고, 기학습이 완료된 모델을 여러 다른 downstream task에 fine-tuning하여 사용하고자 transfer learn..
2022.08.01 -
Transformer를 이해하려면 Seq2Seq with Attention 모델이 나오게 된 배경과 그 방법을 이해하는 것이 필요하다. 특히 transformer의 self-attention에 관해 한줄로 요약하면, Seq2Seq with Attention에서 decoder의 hidden state와 encoder의 hidden state를 구하는 과정에서 LSTM을 빼 버리고 이를 병렬적으로 처리하는 대신에 hidden state의 attention을 구하는 데 필요한 hidden state를 역할에 따라서 서로 다른 벡터로 구성하여 학습을 수행하는 방법이다. 비문이어서 이해하기 어려울 수 있지만 Seq2Seq with Attention에 관한 이해가 선행되면 transformer의 self atten..
Transformer의 Self Attention에 관한 소개와 Seq2Seq with Attention 모델과의 비교Transformer를 이해하려면 Seq2Seq with Attention 모델이 나오게 된 배경과 그 방법을 이해하는 것이 필요하다. 특히 transformer의 self-attention에 관해 한줄로 요약하면, Seq2Seq with Attention에서 decoder의 hidden state와 encoder의 hidden state를 구하는 과정에서 LSTM을 빼 버리고 이를 병렬적으로 처리하는 대신에 hidden state의 attention을 구하는 데 필요한 hidden state를 역할에 따라서 서로 다른 벡터로 구성하여 학습을 수행하는 방법이다. 비문이어서 이해하기 어려울 수 있지만 Seq2Seq with Attention에 관한 이해가 선행되면 transformer의 self atten..
2022.07.23 -
Google Cloud Platform VM 인스턴스 생성하기 RECJOON 웹 서비스를 구축하는 과정에서 웹 서버와 함께 딥 러닝 모델을 주기마다 실행하는 클라우드 컴퓨팅 서버가 별도로 필요했는데, GCP(Google Cloud Platform) VM 인스턴스를 생성해서 무료로 받은 크레딧을 모두 소진할 때까지 운영하기로 결정했다. 그리고 생성한 인스턴스에서 python으로 작성된 데이터 수집 코드와 딥 러닝 모델을 정해진 batch 간격마다 자동으로 실행하고자 Airflow를 설치했다. 그런데 생각보다 Airflow를 GCP 인스턴스에 설치하는 과정이 쉽지 않아서 적지 않은 시행착오를 겪었다. 다음에도 클라우드 컴퓨팅 서버에 Airflow를 설치할 수도 있으므로 GCP 인스턴스를 생성하고 Airflo..
GCP(Google Cloud Platform) VM 인스턴스 생성하기Google Cloud Platform VM 인스턴스 생성하기 RECJOON 웹 서비스를 구축하는 과정에서 웹 서버와 함께 딥 러닝 모델을 주기마다 실행하는 클라우드 컴퓨팅 서버가 별도로 필요했는데, GCP(Google Cloud Platform) VM 인스턴스를 생성해서 무료로 받은 크레딧을 모두 소진할 때까지 운영하기로 결정했다. 그리고 생성한 인스턴스에서 python으로 작성된 데이터 수집 코드와 딥 러닝 모델을 정해진 batch 간격마다 자동으로 실행하고자 Airflow를 설치했다. 그런데 생각보다 Airflow를 GCP 인스턴스에 설치하는 과정이 쉽지 않아서 적지 않은 시행착오를 겪었다. 다음에도 클라우드 컴퓨팅 서버에 Airflow를 설치할 수도 있으므로 GCP 인스턴스를 생성하고 Airflo..
2022.07.19 -
Beam Search Greedy Decoding 먼저 이전에 공부했던 Attention 기반의 Seq2Seq 내용의 학습 과정을 확인해볼 필요가 있다. Seq2Seq with Attention Attention 기법을 사용한 Seq2Seq with Attention RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with A glanceyes.com 기존 Seq2Seq 모델에서는 문장 전체를 보는 것이 아니라 근시안적으로 다음에 올 확률이 가장 높은 단어를 예측한다. 이처럼 현재 time step..
Beam Search와 NLP 모델의 성능을 평가하는 지표인 BLEU ScoreBeam Search Greedy Decoding 먼저 이전에 공부했던 Attention 기반의 Seq2Seq 내용의 학습 과정을 확인해볼 필요가 있다. Seq2Seq with Attention Attention 기법을 사용한 Seq2Seq with Attention RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with A glanceyes.com 기존 Seq2Seq 모델에서는 문장 전체를 보는 것이 아니라 근시안적으로 다음에 올 확률이 가장 높은 단어를 예측한다. 이처럼 현재 time step..
2022.07.16 -
RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with Attention에 관해 알아보고자 한다. 간단히 말하면 Seq2Seq with Attention은 decoder의 hidden state로 해당 time step에서의 결과를 내보낼 때, encoder의 어떠한 hidden state에 주목할지를 반영하여 해당 time step에서의 output을 내는 모델이다. Seq2Seq Seq2Seq란? Seq2Seq 모델은 RNN의 구조 중에서 many to many의 형태에 해당된다고 볼 수 있으..
Attention 기법을 사용한 Seq2Seq with AttentionRNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with Attention에 관해 알아보고자 한다. 간단히 말하면 Seq2Seq with Attention은 decoder의 hidden state로 해당 time step에서의 결과를 내보낼 때, encoder의 어떠한 hidden state에 주목할지를 반영하여 해당 time step에서의 output을 내는 모델이다. Seq2Seq Seq2Seq란? Seq2Seq 모델은 RNN의 구조 중에서 many to many의 형태에 해당된다고 볼 수 있으..
2022.07.14 -
신경망을 사용한 Matrix Factorization Matrix Factorization 추천 시스템에서 사용자와 아이템의 상호작용 행렬의 잠재 요인을 학습하기 위해 낮은 차원을 지닌 행렬 곱으로 분해하는 Matrix Factorization 방법이 기본적인 협업 필터링 모델로 자주 쓰인다. Matrix Factorization은 두 행렬 곱으로 나타내서 학습 데이터에 관해 잠재 요인을 학습하고 다시 이를 곱하여 원상태로 복원할 때 원래 학습 입력 데이터와 얼마나 유사한지 그 차이를 줄이는 방향으로 학습한다. 그래서 상호작용이 없거나 적은 유저의 새로운 상호작용 데이터가 들어왔을 때 Matrix Factorization을 통과하여 복원되는 결과를 가지고 해당 사용자가 어떠한 아이템을 소비하거나 관심을 ..
신경망을 사용한 Matrix Factorization 모델과 NeuMF(Neural Collaborative Filtering)신경망을 사용한 Matrix Factorization Matrix Factorization 추천 시스템에서 사용자와 아이템의 상호작용 행렬의 잠재 요인을 학습하기 위해 낮은 차원을 지닌 행렬 곱으로 분해하는 Matrix Factorization 방법이 기본적인 협업 필터링 모델로 자주 쓰인다. Matrix Factorization은 두 행렬 곱으로 나타내서 학습 데이터에 관해 잠재 요인을 학습하고 다시 이를 곱하여 원상태로 복원할 때 원래 학습 입력 데이터와 얼마나 유사한지 그 차이를 줄이는 방향으로 학습한다. 그래서 상호작용이 없거나 적은 유저의 새로운 상호작용 데이터가 들어왔을 때 Matrix Factorization을 통과하여 복원되는 결과를 가지고 해당 사용자가 어떠한 아이템을 소비하거나 관심을 ..
2022.07.10