AI
-
Adversarial Search Adversarial Search란? Adversarial search는 '적대적인'이라는 'adversarial'의 의미에서 유추할 수 있는 것처럼 둘 이상의 대상(multi-agent)이 서로 다른 목표를 달성하기 위해 적대적인 관계에서 경쟁하는 것이다. 다른 대상의 행동이 자신의 성공에 영향을 끼치므로 자신의 목표를 달성하기 위해 최선의 행동을 선택할 때 다른 대상이 선택할 가능성이 있는 행동을 모두 고려해야 한다. 우리가 일상에서 자주 하는 게임(game)이 바로 대표적인 adversarial search이며, 자신이 이기기 위해 다른 플레이어의 행동을 고려하여 가장 좋은 수를 선택하려고 한다. 이러한 맥락에서 adversarial search를 game sear..
[인공지능 기초] Adversarial Search - Minimax Search와 Alpha-beta PruningAdversarial Search Adversarial Search란? Adversarial search는 '적대적인'이라는 'adversarial'의 의미에서 유추할 수 있는 것처럼 둘 이상의 대상(multi-agent)이 서로 다른 목표를 달성하기 위해 적대적인 관계에서 경쟁하는 것이다. 다른 대상의 행동이 자신의 성공에 영향을 끼치므로 자신의 목표를 달성하기 위해 최선의 행동을 선택할 때 다른 대상이 선택할 가능성이 있는 행동을 모두 고려해야 한다. 우리가 일상에서 자주 하는 게임(game)이 바로 대표적인 adversarial search이며, 자신이 이기기 위해 다른 플레이어의 행동을 고려하여 가장 좋은 수를 선택하려고 한다. 이러한 맥락에서 adversarial search를 game sear..
2022.10.09 -
들어가기 전에 'Attention is All You Need'라는 논문을 필두로 CV, NLP, RecSys 등 많은 분야와 여러 AI 대회에서 Transformer를 사용하는 경우는 이제 너무나 흔한 일이 되었다. 그만큼 Self-Attention을 기반으로 하는 Transformer가 딥 러닝 분야에 막대한 영향을 끼친 breakthrough라고 말해도 과언이 아니다. 그러나 과연 Transformer를 어떠한 경우에서든 상관없이 무작정 사용하는 것이 바람직한가에 관해서 의문이 들 수 있다. Transformer라고 항상 만능이 아니므로 모델을 사용할 목적과 환경을 고려해야 할 필요가 있으며, 특히 데이터의 상태와 양에 따라 Transformer의 효율이 좋을 수도 있고 나쁠 수도 있다. 이번 글에..
Transformer를 사용하는 것이 항상 좋을까?들어가기 전에 'Attention is All You Need'라는 논문을 필두로 CV, NLP, RecSys 등 많은 분야와 여러 AI 대회에서 Transformer를 사용하는 경우는 이제 너무나 흔한 일이 되었다. 그만큼 Self-Attention을 기반으로 하는 Transformer가 딥 러닝 분야에 막대한 영향을 끼친 breakthrough라고 말해도 과언이 아니다. 그러나 과연 Transformer를 어떠한 경우에서든 상관없이 무작정 사용하는 것이 바람직한가에 관해서 의문이 들 수 있다. Transformer라고 항상 만능이 아니므로 모델을 사용할 목적과 환경을 고려해야 할 필요가 있으며, 특히 데이터의 상태와 양에 따라 Transformer의 효율이 좋을 수도 있고 나쁠 수도 있다. 이번 글에..
2022.08.31 -
ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
BERT를 경량화하여 모델의 크기를 줄인 ALBERT의 특징ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
2022.08.20 -
GPT-2 GPT-2를 살펴보기 전에 먼저 이전에 올렸던 GPT-1과 self-supervised learning의 설명을 기반으로 하므로 아래의 글을 참고하는 것을 추천한다. GPT-1과 BERT 분석 비교 Self-Supervised Model인 GPT-1과 BERT 분석 및 비교 Self-Supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한.. glanceyes.tistory.com GPT-2의 특징 GPT-2는 모델 구조 면에서는 GPT-1과 큰 차이가 없지만, transfo..
Zero-shot Learning이 가능한 GPT-2와 Few-shot Learning의 가능성을 제시한 GPT-3GPT-2 GPT-2를 살펴보기 전에 먼저 이전에 올렸던 GPT-1과 self-supervised learning의 설명을 기반으로 하므로 아래의 글을 참고하는 것을 추천한다. GPT-1과 BERT 분석 비교 Self-Supervised Model인 GPT-1과 BERT 분석 및 비교 Self-Supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한.. glanceyes.tistory.com GPT-2의 특징 GPT-2는 모델 구조 면에서는 GPT-1과 큰 차이가 없지만, transfo..
2022.08.16 -
Self-supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한다. Self-supervised Learning Self-supervised Learning이란? 여기서 self-supervised learning이라는 용어가 나오는데, 이는 레이블이 주어지지 않은 데이터를 가지고 사용자가 정한 pretext task를 통해 pre-training을 진행하고, 기학습이 완료된 모델을 여러 다른 downstream task에 fine-tuning하여 사용하고자 transfer learn..
Self-supervised Model인 GPT-1과 BERT 분석 및 비교Self-supervised Pre-Training Model 이번 포스팅에서는 이전에 설명한 transformer의 self-attention block을 기반으로 하는 대표적인 self-supervised pre-training model인 GPT-1과 BERT에 관해 알아보고자 한다. Self-supervised Learning Self-supervised Learning이란? 여기서 self-supervised learning이라는 용어가 나오는데, 이는 레이블이 주어지지 않은 데이터를 가지고 사용자가 정한 pretext task를 통해 pre-training을 진행하고, 기학습이 완료된 모델을 여러 다른 downstream task에 fine-tuning하여 사용하고자 transfer learn..
2022.08.01 -
Transformer를 이해하려면 Seq2Seq with Attention 모델이 나오게 된 배경과 그 방법을 이해하는 것이 필요하다. 특히 transformer의 self-attention에 관해 한줄로 요약하면, Seq2Seq with Attention에서 decoder의 hidden state와 encoder의 hidden state를 구하는 과정에서 LSTM을 빼 버리고 이를 병렬적으로 처리하는 대신에 hidden state의 attention을 구하는 데 필요한 hidden state를 역할에 따라서 서로 다른 벡터로 구성하여 학습을 수행하는 방법이다. 비문이어서 이해하기 어려울 수 있지만 Seq2Seq with Attention에 관한 이해가 선행되면 transformer의 self atten..
Transformer의 Self Attention에 관한 소개와 Seq2Seq with Attention 모델과의 비교Transformer를 이해하려면 Seq2Seq with Attention 모델이 나오게 된 배경과 그 방법을 이해하는 것이 필요하다. 특히 transformer의 self-attention에 관해 한줄로 요약하면, Seq2Seq with Attention에서 decoder의 hidden state와 encoder의 hidden state를 구하는 과정에서 LSTM을 빼 버리고 이를 병렬적으로 처리하는 대신에 hidden state의 attention을 구하는 데 필요한 hidden state를 역할에 따라서 서로 다른 벡터로 구성하여 학습을 수행하는 방법이다. 비문이어서 이해하기 어려울 수 있지만 Seq2Seq with Attention에 관한 이해가 선행되면 transformer의 self atten..
2022.07.23 -
Beam Search Greedy Decoding 먼저 이전에 공부했던 Attention 기반의 Seq2Seq 내용의 학습 과정을 확인해볼 필요가 있다. Seq2Seq with Attention Attention 기법을 사용한 Seq2Seq with Attention RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with A glanceyes.com 기존 Seq2Seq 모델에서는 문장 전체를 보는 것이 아니라 근시안적으로 다음에 올 확률이 가장 높은 단어를 예측한다. 이처럼 현재 time step..
Beam Search와 NLP 모델의 성능을 평가하는 지표인 BLEU ScoreBeam Search Greedy Decoding 먼저 이전에 공부했던 Attention 기반의 Seq2Seq 내용의 학습 과정을 확인해볼 필요가 있다. Seq2Seq with Attention Attention 기법을 사용한 Seq2Seq with Attention RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with A glanceyes.com 기존 Seq2Seq 모델에서는 문장 전체를 보는 것이 아니라 근시안적으로 다음에 올 확률이 가장 높은 단어를 예측한다. 이처럼 현재 time step..
2022.07.16 -
RNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with Attention에 관해 알아보고자 한다. 간단히 말하면 Seq2Seq with Attention은 decoder의 hidden state로 해당 time step에서의 결과를 내보낼 때, encoder의 어떠한 hidden state에 주목할지를 반영하여 해당 time step에서의 output을 내는 모델이다. Seq2Seq Seq2Seq란? Seq2Seq 모델은 RNN의 구조 중에서 many to many의 형태에 해당된다고 볼 수 있으..
Attention 기법을 사용한 Seq2Seq with AttentionRNN 계열 모델인 LSTM을 여러개 이어서 encoder와 deocder로 만든 Seq2Seq에 관해 먼저 알아보고, 매 time step이 지날수록 이 Seq2Seq의 hidden state에 점차 많은 정보를 욱여넣게 되는 단점을 극복한 Seq2Seq with Attention에 관해 알아보고자 한다. 간단히 말하면 Seq2Seq with Attention은 decoder의 hidden state로 해당 time step에서의 결과를 내보낼 때, encoder의 어떠한 hidden state에 주목할지를 반영하여 해당 time step에서의 output을 내는 모델이다. Seq2Seq Seq2Seq란? Seq2Seq 모델은 RNN의 구조 중에서 many to many의 형태에 해당된다고 볼 수 있으..
2022.07.14