ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
BERT를 경량화하여 모델의 크기를 줄인 ALBERT의 특징
ALBERT GPT-3와 같은 pre-training model들은 거대한 파라미터의 수를 지니는 형태로 발전해 왔지만, 이는 더 좋은 성능의 GPU와 대용량의 메모리를 필요로 하고 방대한 데이터셋을 학습시키는 데 긴 시간을 소모하게 된다. ALBERT는 'A Lite BERT'라는 의미를 지니는 경량화된 BERT이며, 기존의 BERT가 지니고 있던 모델의 비대함이라는 한계를 극복하면서 동시에 성능의 큰 하락은 피하고자 한 모델이다. 즉, 모델의 크기가 비대해진다고 해서 반드시 성능이 향상된다는 사실에 반하는 결과를 제시한 모델이다. 더 나아가 새로운 변형된 형태의 문장 level에서의 self-supervised learning의 pre-training task인 sentence order predic..
2022.08.20