본문 바로가기

Natural Language Processing

Language Models are Unsupervised Multitask Learners

1. 논문 제목 : Language Models are Unsupervised Multitask Learners (GPT2)
2. 발표한 학회 : -
3. 논문의 핵심 키워드 : gpt, zero-shot setting, masked self-attention, language modeling, unsupervised multitask learning, perplexity

4. 논문요약 :

1년전에 발표했었던 GPT 모델 대비 일부의 아키텍쳐 변화가 있지만, 실질적인 변화는 모델의 크기를 키운 모델을 소개하는 논문. 모델의 크기가 클수록 좋은 성능을 기대할 수 있다는 근거로 perplexity를 사용하여 설명하였다.

 

또, 기존에 사용되던 pretraining-finetuning 방법론은 오직 하나의 데이터셋, 하나의 task에서만 수행될 수 있는

narrow-expert라고 소개하면서, 보다 generalist인 모델을 설계하기 위한 방법론으로 unsupervised multitask learning을 소개한다.

 

5. 스터디 발표 영상 대체 :

https://www.youtube.com/watch?v=ctvgIcyR__M 

- 00:00 ~ 29:30 까지 gpt2 발표영상 참조