본문 바로가기

Natural Language Processing

Reformer / Longformer : The Efficient Transformer & The Long Document 1. 논문 제목 : Reformer / Longformer : The Efficient Transformer & The Long Document 2. 발표한 학회 : ICLR 2020 / - 3. 논문의 핵심 키워드 : Quadratic Complexity with sequence length, Limitation to length, Sparse Attention, Locality Sensitive Hashing, Sliding Window Attention, Global Attention 4. 논문요약 : Transformers 기반의 모델들은 RNN 기반의 모델들과 비교하여서 model_dim이 차수가 줄어든 반면, sequence length의 차수가 증가하였다. 이는 512, 1024와 같이 정해.. 더보기
Pay Attention to MLPs 1. 논문 제목 : Pay Attention to MLPs 2. 발표한 학회 : - 3. 논문의 핵심 키워드 : FeedForward Nature, Inductive Bias, Static Parameterization, Spatial Projection 4. 논문요약 : Transformers가 크게 성공한데 기여한 요인이 Multi-head Self-Attention인지, Feedforward Layer인지는 여전히 불명확하였다. 저자들은 Feedforward Layer이 미치는 영향이 클 수 있다는 점에 착안하여서, Channel Projection 외에도 Attention과 비슷한 효과를 줄 수 있는 Spatial Projection을 사용한 Spatial Gating Unit를 제안하였다. ML.. 더보기
BIGBIRD : Transformers for Longer Sequences 1. 논문 제목 : BIGBIRD : Transformers for Longer Sequences 2. 발표한 학회 : NEURIPS 2020 3. 논문의 핵심 키워드 : Quadratic Dependency, Full-Attention Mechanism, Graph Sparsification Problem, Sparse Attention, Universal Approximator, Turing Completeness 4. 논문요약 : Transformer, BERT, GPT 이후의 많은 후속 논문들이 새로운 Pretraining 방법을 통해서 더욱 성능이 좋은 모델을 만들기 위해 노력을 들였다. 반면, Transformer의 (sequence length)^2의 time complexity를 문제점으로.. 더보기
PEGASUS : Pre-training with Extracted Gap-sentences for Abstractive Summarization 1. 논문 제목 : PEGASUS : Pre-training with Extracted Gap-sentences for Abstractive Summarization 2. 발표한 학회 : PMLR 2020 3. 논문의 핵심 키워드 : Transformers, Abstractive Summarization, Gap-Sentences, ROUGE 4. 논문요약 : NLP 분야에서 Task들은 크게 두 부류로 나누어 살펴볼 수 있다. 언어에 대한 전반적인 이해를 기반으로 Task에서 요구하는 형식의 Output을 내는 Language Understanding Task와, 언어에 대한 전반적인 이해를 기반으로 다시 자연어, 즉 Text의 형식으로 Output을 내는 Language Generation Task이.. 더보기
BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 1. 논문 제목 : BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 2. 발표한 학회 : ACL 2020 3. 논문의 핵심 키워드 : Transformer, Encoder-Decoder, mapping corrupted document to original document, Pretraining, Text Infilling 4. 논문요약 : BERT, GPT, XLNet, UniLM, MASS 5개의 모델이 사용하였던 Pretrain 방법들과 새로 제시하는 5개의 Pretrain 방법들을 동일한 설정의 Transformer 모델에서 실험하여서 Tok.. 더보기
RoBERTa : A Robustly Optimized BERT Pretraining Approach 1. 논문 제목 : RoBERTa : A Robustly Optimized BERT Pretraining Approach 2. 발표한 학회 : ICLR 2020 3. 논문의 핵심 키워드 : BERT, Encoder, Pre-training, robust, underfit 4. 논문요약 : 해당 논문 발표전에 Glue에서 SOTA를 달성하고 있던 XLNet을 포함하여, BERT 이후에 많은 모델들은 새로운 pretraining 방법론을 모색하거나, 모델 구조에 변화를 주는 시도를 하고 있었다. RoBERTa는 BERT의 pretraining 방법에 약간의 변화만 준 채로, 새로운 큰 변화를 주는 대신에, 더욱 많은 데이터로 더욱 긴 시간동안 훈련을 하였을 때도 충분히 큰 성능 향상으로 이어질 수 있다는 점.. 더보기
MASS : Masked Sequence to Sequence Pre-training for Language Generation 1. 논문 제목 : MASS : Masked Sequence to Sequence Pre-training for Language Generation 2. 발표한 학회 : ICML 2019 3. 논문의 핵심 키워드 : Transformer, Encoder-Decoder, Pre-training, Language Generation, Sequence-to-Sequence 4. 논문요약 : Transformer 모델의 Encoder 부분만을 취한 BERT 모델과, Transformer 모델의 Decoder 부분만을 취한 GPT 모델의 한계점을 시사하고, 본래 Transformer와 같은 Encoder-Decoder Architecture를 취한 모델. BERT를 필두로 하여, Masked Language Mo.. 더보기
BERT : Pre-training of Deep bidirectional Transformers for Language Understanding 1. 논문 제목 : BERT : Pre-training of Deep bidirectional Transformers for Language Understanding (BERT) 2. 발표한 학회 : NAACL 2019 3. 논문의 핵심 키워드 : Transformer, Encoder, Auto-encoding, pretraining, fine-tuning, semi-supervised 4. 논문요약 : Transformer 모델의 Encoder 부분만을 취하여서, auto-encoding의 방법으로 pretraining을 진행한 모델. unsupervised learning의 방법으로 pretraining을 진행하고, supervised learning의 방법으로 fine-tuning을 진행하여서 필요.. 더보기