본문 바로가기

전체 글

PEGASUS : Pre-training with Extracted Gap-sentences for Abstractive Summarization 1. 논문 제목 : PEGASUS : Pre-training with Extracted Gap-sentences for Abstractive Summarization 2. 발표한 학회 : PMLR 2020 3. 논문의 핵심 키워드 : Transformers, Abstractive Summarization, Gap-Sentences, ROUGE 4. 논문요약 : NLP 분야에서 Task들은 크게 두 부류로 나누어 살펴볼 수 있다. 언어에 대한 전반적인 이해를 기반으로 Task에서 요구하는 형식의 Output을 내는 Language Understanding Task와, 언어에 대한 전반적인 이해를 기반으로 다시 자연어, 즉 Text의 형식으로 Output을 내는 Language Generation Task이.. 더보기
BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 1. 논문 제목 : BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 2. 발표한 학회 : ACL 2020 3. 논문의 핵심 키워드 : Transformer, Encoder-Decoder, mapping corrupted document to original document, Pretraining, Text Infilling 4. 논문요약 : BERT, GPT, XLNet, UniLM, MASS 5개의 모델이 사용하였던 Pretrain 방법들과 새로 제시하는 5개의 Pretrain 방법들을 동일한 설정의 Transformer 모델에서 실험하여서 Tok.. 더보기
RoBERTa : A Robustly Optimized BERT Pretraining Approach 1. 논문 제목 : RoBERTa : A Robustly Optimized BERT Pretraining Approach 2. 발표한 학회 : ICLR 2020 3. 논문의 핵심 키워드 : BERT, Encoder, Pre-training, robust, underfit 4. 논문요약 : 해당 논문 발표전에 Glue에서 SOTA를 달성하고 있던 XLNet을 포함하여, BERT 이후에 많은 모델들은 새로운 pretraining 방법론을 모색하거나, 모델 구조에 변화를 주는 시도를 하고 있었다. RoBERTa는 BERT의 pretraining 방법에 약간의 변화만 준 채로, 새로운 큰 변화를 주는 대신에, 더욱 많은 데이터로 더욱 긴 시간동안 훈련을 하였을 때도 충분히 큰 성능 향상으로 이어질 수 있다는 점.. 더보기
MASS : Masked Sequence to Sequence Pre-training for Language Generation 1. 논문 제목 : MASS : Masked Sequence to Sequence Pre-training for Language Generation 2. 발표한 학회 : ICML 2019 3. 논문의 핵심 키워드 : Transformer, Encoder-Decoder, Pre-training, Language Generation, Sequence-to-Sequence 4. 논문요약 : Transformer 모델의 Encoder 부분만을 취한 BERT 모델과, Transformer 모델의 Decoder 부분만을 취한 GPT 모델의 한계점을 시사하고, 본래 Transformer와 같은 Encoder-Decoder Architecture를 취한 모델. BERT를 필두로 하여, Masked Language Mo.. 더보기
BERT : Pre-training of Deep bidirectional Transformers for Language Understanding 1. 논문 제목 : BERT : Pre-training of Deep bidirectional Transformers for Language Understanding (BERT) 2. 발표한 학회 : NAACL 2019 3. 논문의 핵심 키워드 : Transformer, Encoder, Auto-encoding, pretraining, fine-tuning, semi-supervised 4. 논문요약 : Transformer 모델의 Encoder 부분만을 취하여서, auto-encoding의 방법으로 pretraining을 진행한 모델. unsupervised learning의 방법으로 pretraining을 진행하고, supervised learning의 방법으로 fine-tuning을 진행하여서 필요.. 더보기
Language Models are Unsupervised Multitask Learners 1. 논문 제목 : Language Models are Unsupervised Multitask Learners (GPT2) 2. 발표한 학회 : - 3. 논문의 핵심 키워드 : gpt, zero-shot setting, masked self-attention, language modeling, unsupervised multitask learning, perplexity 4. 논문요약 : 1년전에 발표했었던 GPT 모델 대비 일부의 아키텍쳐 변화가 있지만, 실질적인 변화는 모델의 크기를 키운 모델을 소개하는 논문. 모델의 크기가 클수록 좋은 성능을 기대할 수 있다는 근거로 perplexity를 사용하여 설명하였다. 또, 기존에 사용되던 pretraining-finetuning 방법론은 오직 하나의 데이.. 더보기
Deep contextualized word representations 1. 논문 제목 : Deep contextualized word representations (ELMo) 2. 발표한 학회 : NAACL 2018 3. 논문의 핵심 키워드 : contextual, semi-supervised, BiLM, hidden representation, bi-directional 4. 논문요약 : Bi-directional Language Model이 큰 corpus에 대해 semi-supervised 방식으로 pretraining을 진행한 뒤에, input을 embedding에 전달하여 생성되는 hidden representation들을 layer마다 뽑아내서 concat하여 weight를 곱하면 ELMo representation vector들을 얻을 수 있다. 이는 기존에 .. 더보기
Improving Language Understanding by Generative Pre-Training 1. 논문 제목 : Improving Language Understanding by Generative Pre-Training (GPT1) 2. 발표한 학회 : - 3. 논문의 핵심 키워드 : Transformer, Decoder, Auto-regressive, pretraining, fine-tuning, semi-supervised, generative 4. 논문요약 : Transformer 모델의 Decoder 부분만을 취하여서, auto-regressive한 방법으로 pretraining을 진행한 모델. unsupervised learning의 방법으로 pretraining을 진행하고, supervised learning의 방법으로 fine-tuning을 진행하여서 필요한 task에 adapt 시.. 더보기