AI/NLP
-
들어가기 전에 인간이 자연어로 대화하는 상황을 생각해보자. 화자는 어떠한 사물, 추상, 관념 등 자연어 형태로 그 대상이 되는 객체를 인코딩(encoding)하고, 이를 '소리'라는 매개체의 메세지로 자연어를 전송하여 청자에게 그 내용을 전달한다. 이후 청자는 그 자연어를 귀로 인식하여 자연어를 뇌에서 떠올릴 수 있는 객체로 디코딩(decoding)한다. 즉, 화자는 청자가 이해할 수 있는 방법으로 정보를 인코딩하고, 청자는 화자가 보낸 데이터를 가지고 디코딩하여 본인의 지식을 통해 이를 해석한다. 이처럼 우리는 정보를 전달하거나 받아들일 때 자연어의 형태로 인코딩 또는 디코딩하지만, 컴퓨터는 자연어를 있는 그대로 인식할 뿐 그 의미를 곧장 해석하지는 못한다. 컴퓨터는 텍스트를 이해할 수 있는 능력이 없..
Word Embedding을 위한 Word2Vec와 GloVe들어가기 전에 인간이 자연어로 대화하는 상황을 생각해보자. 화자는 어떠한 사물, 추상, 관념 등 자연어 형태로 그 대상이 되는 객체를 인코딩(encoding)하고, 이를 '소리'라는 매개체의 메세지로 자연어를 전송하여 청자에게 그 내용을 전달한다. 이후 청자는 그 자연어를 귀로 인식하여 자연어를 뇌에서 떠올릴 수 있는 객체로 디코딩(decoding)한다. 즉, 화자는 청자가 이해할 수 있는 방법으로 정보를 인코딩하고, 청자는 화자가 보낸 데이터를 가지고 디코딩하여 본인의 지식을 통해 이를 해석한다. 이처럼 우리는 정보를 전달하거나 받아들일 때 자연어의 형태로 인코딩 또는 디코딩하지만, 컴퓨터는 자연어를 있는 그대로 인식할 뿐 그 의미를 곧장 해석하지는 못한다. 컴퓨터는 텍스트를 이해할 수 있는 능력이 없..
2023.01.16 -
ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
BERT를 경량화하여 모델의 크기를 줄인 ALBERT의 특징ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
2022.08.20 -
GPT-2 GPT-2를 살펴보기 전에 먼저 이전에 올렸던 GPT-1과 self-supervised learning의 설명을 기반으로 하므로 아래의 글을 참고하는 것을 추천한다. GPT-1과 BERT 분석 비교 Self-Supervised Model인 GPT-1과 BERT 분석 및 비교 Self-Supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한.. glanceyes.tistory.com GPT-2의 특징 GPT-2는 모델 구조 면에서는 GPT-1과 큰 차이가 없지만, transfo..
Zero-shot Learning이 가능한 GPT-2와 Few-shot Learning의 가능성을 제시한 GPT-3GPT-2 GPT-2를 살펴보기 전에 먼저 이전에 올렸던 GPT-1과 self-supervised learning의 설명을 기반으로 하므로 아래의 글을 참고하는 것을 추천한다. GPT-1과 BERT 분석 비교 Self-Supervised Model인 GPT-1과 BERT 분석 및 비교 Self-Supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한.. glanceyes.tistory.com GPT-2의 특징 GPT-2는 모델 구조 면에서는 GPT-1과 큰 차이가 없지만, transfo..
2022.08.16 -
Self-supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한다. Self-supervised Learning Self-supervised Learning이란? 여기서 self-supervised learning이라는 용어가 나오는데, 이는 레이블이 주어지지 않은 데이터를 가지고 사용자가 정한 pretext task를 통해 pre-training을 진행하고, 기학습이 완료된 모델을 여러 다른 downstream task에 fine-tuning하여 사용하고자 transfer learn..
Self-supervised Model인 GPT-1과 BERT 분석 및 비교Self-supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한다. Self-supervised Learning Self-supervised Learning이란? 여기서 self-supervised learning이라는 용어가 나오는데, 이는 레이블이 주어지지 않은 데이터를 가지고 사용자가 정한 pretext task를 통해 pre-training을 진행하고, 기학습이 완료된 모델을 여러 다른 downstream task에 fine-tuning하여 사용하고자 transfer learn..
2022.08.01 -
Beam Search Greedy Decoding 먼저 이전에 공부했던 Attention 기반의 Seq2Seq 내용의 학습 과정을 확인해볼 필요가 있다. Seq2Seq with Attention Attention 기법을 사용한 Seq2Seq with Attention RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with A glanceyes.com 기존 Seq2Seq 모델에서는 문장 전체를 보는 것이 아니라 근시안적으로 다음에 올 확률이 가장 높은 단어를 예측한다. 이처럼 현재 time step..
Beam Search와 NLP 모델의 성능을 평가하는 지표인 BLEU ScoreBeam Search Greedy Decoding 먼저 이전에 공부했던 Attention 기반의 Seq2Seq 내용의 학습 과정을 확인해볼 필요가 있다. Seq2Seq with Attention Attention 기법을 사용한 Seq2Seq with Attention RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with A glanceyes.com 기존 Seq2Seq 모델에서는 문장 전체를 보는 것이 아니라 근시안적으로 다음에 올 확률이 가장 높은 단어를 예측한다. 이처럼 현재 time step..
2022.07.16 -
LSTM(Long Short-Term Memory) 이전 포스팅에서 LSTM에 관해 자세히 정리했는데, 여기서 좀 더 나아가서 각 gate의 특징과 그 의미를 거시적인 관점에서 이해해볼 필요가 있어 보였다. https://glanceyes.tistory.com/entry/Deep-Learning-RNNRecurrent-Neural-Network 순차 데이터와 RNN(Recurrent Neural Network) 계열의 모델 2022년 2월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거 glanceyes.tistory.com LSTM이란? [출처] http..
LSTM과 GRU의 Gate별 특징과 구조 한번에 이해하기LSTM(Long Short-Term Memory) 이전 포스팅에서 LSTM에 관해 자세히 정리했는데, 여기서 좀 더 나아가서 각 gate의 특징과 그 의미를 거시적인 관점에서 이해해볼 필요가 있어 보였다. https://glanceyes.tistory.com/entry/Deep-Learning-RNNRecurrent-Neural-Network 순차 데이터와 RNN(Recurrent Neural Network) 계열의 모델 2022년 2월 7일(월)부터 11일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거 glanceyes.tistory.com LSTM이란? [출처] http..
2022.07.06 -
RNN(Recurrent Neural Network) RNN에 관해 이전에 여러 번 포스팅을 했지만, 이전에 다루지 못한 개념을 좀 더 보강하는 차원에서 다시 한 번 RNN에 관해 정리해 보았다. [RNN(Recurrent Neural Network)] https://glanceyes.tistory.com/entry/AI-Math-RNN-Recurrent-Neural-Network RNN (Recurrent Neural Network) 2022년 1월 17일(월)부터 21일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거 glanceyes.tistory.com [순차 데이터와 ..
RNN의 기본 개념과 자연어 처리에서의 RNN 학습 과정RNN(Recurrent Neural Network) RNN에 관해 이전에 여러 번 포스팅을 했지만, 이전에 다루지 못한 개념을 좀 더 보강하는 차원에서 다시 한 번 RNN에 관해 정리해 보았다. [RNN(Recurrent Neural Network)] https://glanceyes.tistory.com/entry/AI-Math-RNN-Recurrent-Neural-Network RNN (Recurrent Neural Network) 2022년 1월 17일(월)부터 21일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거 glanceyes.tistory.com [순차 데이터와 ..
2022.07.01 -
Bag-of-Words 텍스트 마이닝 분야에서 딥 러닝 기술이 적용되기 이전에 자주 활용되었던 간단한 기법이다. 단어장에 등록된 단어가 어떠한 문장에 얼마나 등장했는지를 벡터(vector)로 표현하며, 단어장을 구성하는 과정을 필요로 한다. 먼저 텍스트 데이터 셋에서 unique한 단어들만 모아서 단어장(사전)을 구축한다. $$ \text{This is the most powerful device.}\\ \text{That is the strongest equipment.} $$ $$ \text{단어장(Vocabulary)}: \text{{this, is, the, most, powerful, device, that, strongest, equipment}} $$ 중복된 단어를 제거하고 최종적으로 단어장..
Bag-of-Words와 나이브 베이즈 분류Bag-of-Words 텍스트 마이닝 분야에서 딥 러닝 기술이 적용되기 이전에 자주 활용되었던 간단한 기법이다. 단어장에 등록된 단어가 어떠한 문장에 얼마나 등장했는지를 벡터(vector)로 표현하며, 단어장을 구성하는 과정을 필요로 한다. 먼저 텍스트 데이터 셋에서 unique한 단어들만 모아서 단어장(사전)을 구축한다. $$ \text{This is the most powerful device.}\\ \text{That is the strongest equipment.} $$ $$ \text{단어장(Vocabulary)}: \text{{this, is, the, most, powerful, device, that, strongest, equipment}} $$ 중복된 단어를 제거하고 최종적으로 단어장..
2022.06.22