1. 논문 제목 : Language Models are Unsupervised Multitask Learners (GPT2)
2. 발표한 학회 : -
3. 논문의 핵심 키워드 : gpt, zero-shot setting, masked self-attention, language modeling, unsupervised multitask learning, perplexity
4. 논문요약 :
1년전에 발표했었던 GPT 모델 대비 일부의 아키텍쳐 변화가 있지만, 실질적인 변화는 모델의 크기를 키운 모델을 소개하는 논문. 모델의 크기가 클수록 좋은 성능을 기대할 수 있다는 근거로 perplexity를 사용하여 설명하였다.
또, 기존에 사용되던 pretraining-finetuning 방법론은 오직 하나의 데이터셋, 하나의 task에서만 수행될 수 있는
narrow-expert라고 소개하면서, 보다 generalist인 모델을 설계하기 위한 방법론으로 unsupervised multitask learning을 소개한다.
5. 스터디 발표 영상 대체 :
https://www.youtube.com/watch?v=ctvgIcyR__M
- 00:00 ~ 29:30 까지 gpt2 발표영상 참조
'Natural Language Processing' 카테고리의 다른 글
MASS : Masked Sequence to Sequence Pre-training for Language Generation (0) | 2021.07.13 |
---|---|
BERT : Pre-training of Deep bidirectional Transformers for Language Understanding (0) | 2021.07.11 |
Deep contextualized word representations (0) | 2021.07.05 |
Improving Language Understanding by Generative Pre-Training (0) | 2021.07.03 |
Attention is All You Need (0) | 2021.07.02 |