1. 논문 제목 : Universal Language Model Fine-tuning for Text Classification (ULMFiT)
2. 발표한 학회 : ACL 2018
3. 논문의 핵심 키워드 : inductive transfer learning, pretraining, fine-tuning, language model
4. 논문요약 : BERT, GPT부터 RoBERTa, T5등 최신 Language Model들이 모두 차용하는 pretraining-finetuning의 schema를 정리하여 기틀을 닦은 논문
5. 논문에서 소개하는 이전 SOTA / 기존 방법들의 한계:
1) 컴퓨터 비젼 분야에서는 ImageNet, MS-COCO등의 범용적인 데이터셋에 모델을 pretrain하고, 필요한 task에 fine-tune하는 inductive transfer learning이 널리 사용되고 있다.
2) 반면, 자연어 처리 분야에서는 SOTA모델들이 scratch로 처음부터 학습하고 있어, 큰 데이터셋을 학습하는데 너무 오래 걸리는 문제점이 존재한다.
3) 적용하려는 분야에 미리 학습시키는 transductive transfer learning과 달리, 다른 분야에도 적용할 수 있는 보다 일반적인 inductive transfer learning이 성공적이었던 사례는 pretrain된 word embedding을 사용하는 것 뿐이었다.
4) transductive transfer learning이 성공하지 못한 이유는, 컴퓨터 비젼과 비교하여 자연어 처리 모델들이 더 shallow하고 다른 fine-tuning 기법들이 필요하기 때문이다.
6. 논문에서 문제점을 해결하기 위해서 사용한 방법론:
1) transfer learning이 성공적으로 진행되기 위해서는, pretrain하면서 얻은 지식을 잊지 않기 위해 너무 aggressive하지 않게 finetuning을 진행하면서도, 필요한 task에 finetuning할 수 있도록 너무 cautious하면 안된다.
2) 이를 위해 ULMFiT에서 제시한 finetuning 기법은 discriminative fine-tuning, slanted triangular learning rate, gradual unfreezing이다.
3) 결과론적으로, pretrained된 Language Model이 target task의 idiosyncrasies(특이성)에 쉽게 adapt하는 것을 확인하였다.
4) 특히, pretraining을 진행하면, 100개의 labeled data로 finetuning을 진행해도 generalize할 수 있음을 확인하였다.
7. 사용한 데이터셋, 측정한 metric, 학습 진행을 위해서 사용한 hyperparameter, 기존모델대비 성능:
1) pretrain을 진행한 데이터셋 : Wikitext-103
2) 수행한 task : sentiment analysis, question classification, topic classification
3) finetuning을 진행하고, 성능을 측정한 데이셋 :
IMDb & Yelp review(sentiment analysis), TREC(question classification), DBpedia ontology & AG News(topic classification)
4) 학습을 위해서 사용한 hyperparameter :
Model -> embedding size 400, 3 layers, 1150 hidden activation per layer, classifier hidden layer size 50
batch size -> 70(pretraining), 64(fine-tuning)
dropout -> input embedding layer 0.4, embedding layer 0.05, RNN 0.5
optimizer -> Adam, beta1=0.9 and beta2=0.99
learning-rate -> 0.004(LM), 0.01(classifier)
5) 사용한 metric : error rate(the lower the better)
6) 기존 모델 대비 성능 향상 :
IMDb: reduction by 21.9%
TREC-6: Similar to SOTA
AG: reduction by 23.7%
DBpedia: reduction by 4.8%
Yelp-bi: reduction by 18.2%
Yelp-full: reduction by 2.0%
8. 추후에 발전할 여지가 있는 점:
1) Wikitext-103보다 더 범용적이고 다양한 구성을 가진 dataset을 pretrain data로 사용하면 더 일반적이고 좋은 성능을 기대할 수 있을 것 이다.
2) 논문에서 사용한 AWD-LSTM이라는 당시의 SOTA모델보다 뛰어난 성능의 Language model이 inductive transfer learning을 사용하여 더욱 좋을 성능을 기대할 수 있을 것이다.
3) 추후의 연구에서 pretraining, fine-tuning이 더욱 잘 이루어지도록 보완될 것이다.
4) multi-task learning을 통해 downstream task에 더욱 잘 적용될 수 있는 방향이 모색될 수 있다.
5) classification에 비해서 복잡한 Question Answering등의 task에는 더욱 정교한 pretrain, fine-tune 방법이 필요할 수 있다.
'Natural Language Processing' 카테고리의 다른 글
BERT : Pre-training of Deep bidirectional Transformers for Language Understanding (0) | 2021.07.11 |
---|---|
Language Models are Unsupervised Multitask Learners (0) | 2021.07.08 |
Deep contextualized word representations (0) | 2021.07.05 |
Improving Language Understanding by Generative Pre-Training (0) | 2021.07.03 |
Attention is All You Need (0) | 2021.07.02 |