본문 바로가기

Natural Language Processing

MASS : Masked Sequence to Sequence Pre-training for Language Generation

1. 논문 제목 : MASS : Masked Sequence to Sequence Pre-training for Language Generation
2. 발표한 학회 : ICML 2019
3. 논문의 핵심 키워드 : Transformer, Encoder-Decoder, Pre-training, Language Generation, Sequence-to-Sequence

4. 논문요약 :

Transformer 모델의 Encoder 부분만을 취한 BERT 모델과, Transformer 모델의 Decoder 부분만을 취한 GPT 모델의 한계점을 시사하고, 본래 Transformer와 같은 Encoder-Decoder Architecture를 취한 모델.
BERT를 필두로 하여, Masked Language Modeling(MLM) 기반의 Pretraining을 통해서 Language Understanding을 잘하게 되었지만, 이는 Language Generation과는 다소 거리가 있는 방법이라 지적하고 있다.
Masked Sequence to Sequence(MASS)라는 문장의 일부분을 삭제한 뒤에, Encoder에서 지우지 않은 부분들을 이해하여 representation을 생성하고, Decoder에서는 Encoder의 output을 기반으로 이를 복원하는 방법을 제시하여 
Language Generation 분야들에서 SOTA를 달성한 논문.


5. 논문에서 소개하는 이전 SOTA / 기존 방법들의 한계:


1) NMT(기계번역), Text Summarization(요약), Conversational Response Generation(대화 응답)과 같은 Langauge Generation task들에는 BERT와 같은 Encoder 기반의 모델을 바로 적용하는 것은 올바르지 않다.
2) BERT는 Language Understanding을 위해서 Masked Language Modeling이라는 Pretraining 방법을 사용하는데,
상관관계가 있을수는 있지만, 이러한 방법으로 사전 학습한 모델을 Language Generation에 적용하기는 힘들다.
3) 별도의 Encoder를 두지 않고 Decoder를 통해서 Language Generation을 진행하는 GPT는 반면에,
Encoder가 학습하였을 수 있는 문맥을 이해한 풍부한 representation을 활용할 수 없다는 단점이 존재한다.
4) Encoder와 Decoder를 모두 가지고 효율적인 학습을 시도한 모델에는 XLM과 같은 모델이 있지만,
해당 모델은 Encoder와 Decoder이 서로 각자 pre-train되어서 encoder-decoder attention mechanism을 학습할 수 없었다.

6. 논문에서 문제점을 해결하기 위해서 사용한 방법론:

 

1) MAsked Sequence to Sequence(MASS)는 문장의 일부를 mask 처리하고, Encoder를 통해 mask되지 않은 부분들의 문맥을 이해한 뒤, Decoder는 Encoder가 생성해낸 source representation과 mask한 일부 토큰들을 기반으로 
나머지 mask된 토큰들을 복구하는 pretrain 방법론이다.
2) 이와 같은 방법을 통해서 Encoder와 Decoder가 서로 joint training을 할 것을 기대할 수 있다. 
3) Encoder이 unmask된 토큰들의 의미를 분석해내면, Decoder는 이를 기반으로 유용한 정보를 추출할 것을 기대하는 것이다. 이는 이전 생성해낸 토큰을 기반으로 다음 토큰을 생성해내었던 GPT와 다른 점이다.

 

Language Modeling Objective of MASS

 

4) 구체적으로 Loss function은 가려진 mask에 대해서 이를 복구하게 되는, 일종의 Masked Language Modeling(MLM)과 Casual Language Modeling(CLM)이 결합된 식이다.
5) unsupervised learning에 해당하므로, 별도의 labeled data가 필요하지 않다는 점에서 매우 의의가 크다.
6) 필연적으로 전체 문장에서 얼마나 mask를 처리하게 될 것인지가 중요한 문제가 되는데, 이를 hyperparameter k로 정의한다.

 

Choosing the hyperparameter k, the length of the mask within the sequence


7) 즉, k=1이면 토큰 하나 단위로 Masking을 진행하는 BERT, k=m(문장의 길이)이면 전체를 복구하는 GPT의 형태이다.
8) 실험을 통해서 k=문장의 길이의 50% 정도인 것이 가장 좋은 성능이 나오는 것을 관찰하였고,
이는 절반 정도는 문장의 이해를 위해서 사용하고, 절반 정도는 문장의 생성을 위해서 활용하는 것으로 이해할 수 있다.
9) Ablation Studies를 통해서, 길이 k로 정해서 mask를 하는것이 임의로 k개 masking하는 것보다 좋다는 것을 보였다.
10) 또, Ablation Studies에서, Decoder의 input으로 mask된 토큰들의 일부를 주어서 복구하는 것이 더욱 좋다는 것을 보였다.

 

7. 사용한 데이터셋, 측정한 metric, 학습 진행을 위해서 사용한 hyperparameter, 기존모델대비 성능:

1) 데이터셋 :

WMT News Crawl(Pretraining, 190M words for En, 62M words for Fr, 270M words for De), 
newstest2014,2016(NMT Finetuning), Gigaword corpus(Summarization Finetuning), 
Cornell movie dialog corpus(Conversational Response Generation Finetuning)
2) 수행한 task :

NMT, Summarization, Conversational Response Generation

3) 학습을 위해서 사용한 hyperparameter :

model -> Transformer of 6-layer encoder, 6-layer decoder, 1024 embedding/hidden size, 4096 feed-forward filter size
vocabulary -> BPE vocab with size 60000
batch size -> 4000 per GPU(pretraining), 2000 per GPU(fine-tuning)
optimizer -> Adam
learning-rate -> 10^(-4)(pretraining), 10^(-4)(fine-tuning)
dropout -> rate=0.1
activation function -> GELU
4) 사용한 metric :

BLEU(higher the better), ROUGE(higher the better), PPL(lower the better)
5) 기존 모델 대비 성능 향상:
newstest2014, 2016(unsupervised Neural Machine Translation) : 4.1% improvement compared to XLM (en-fr)
newstest2014, 2016(unsupervised Neural Machine Translation) : 1.6% improvement compared to XLM (fr-en)
newstest2014, 2016(unsupervised Neural Machine Translation) : 1.3% improvement compared to XLM (en-de)
newstest2014, 2016(unsupervised Neural Machine Translation) : 0.9% improvement compared to XLM (de-en)
newstest2014, 2016(unsupervised Neural Machine Translation) : 1.9% improvement compared to XLM (en-ro)
newstest2014, 2016(unsupervised Neural Machine Translation) : 1.3% improvement compared to XLM (ro-en)
Gigaword corpus, Cornell movie dialog corpus -> compared with Base-line models, not previous models

 


8. 추후에 발전할 여지가 있는 점 :

1) sentence paraphrasing, text style transfer, post editing과 같은 다른 language generation task에도 적용될 수 있다.
2) masked sequence-to-sequence를 진행하는 더 효율적인 방법이 나올 수 있다.
3) masked sequence-to-sequence이 좋은 성능을 내는 이론적인 이유에 대해서 더욱 탐구해 볼 수 있다.