Natural Language Processing 썸네일형 리스트형 Language Models are Unsupervised Multitask Learners 1. 논문 제목 : Language Models are Unsupervised Multitask Learners (GPT2) 2. 발표한 학회 : - 3. 논문의 핵심 키워드 : gpt, zero-shot setting, masked self-attention, language modeling, unsupervised multitask learning, perplexity 4. 논문요약 : 1년전에 발표했었던 GPT 모델 대비 일부의 아키텍쳐 변화가 있지만, 실질적인 변화는 모델의 크기를 키운 모델을 소개하는 논문. 모델의 크기가 클수록 좋은 성능을 기대할 수 있다는 근거로 perplexity를 사용하여 설명하였다. 또, 기존에 사용되던 pretraining-finetuning 방법론은 오직 하나의 데이.. 더보기 Deep contextualized word representations 1. 논문 제목 : Deep contextualized word representations (ELMo) 2. 발표한 학회 : NAACL 2018 3. 논문의 핵심 키워드 : contextual, semi-supervised, BiLM, hidden representation, bi-directional 4. 논문요약 : Bi-directional Language Model이 큰 corpus에 대해 semi-supervised 방식으로 pretraining을 진행한 뒤에, input을 embedding에 전달하여 생성되는 hidden representation들을 layer마다 뽑아내서 concat하여 weight를 곱하면 ELMo representation vector들을 얻을 수 있다. 이는 기존에 .. 더보기 Improving Language Understanding by Generative Pre-Training 1. 논문 제목 : Improving Language Understanding by Generative Pre-Training (GPT1) 2. 발표한 학회 : - 3. 논문의 핵심 키워드 : Transformer, Decoder, Auto-regressive, pretraining, fine-tuning, semi-supervised, generative 4. 논문요약 : Transformer 모델의 Decoder 부분만을 취하여서, auto-regressive한 방법으로 pretraining을 진행한 모델. unsupervised learning의 방법으로 pretraining을 진행하고, supervised learning의 방법으로 fine-tuning을 진행하여서 필요한 task에 adapt 시.. 더보기 Attention is All You Need 1. 논문 제목 : Attention is All You Need(Transformer) 2. 발표한 학회 : NIPS 2017 3. 논문의 핵심 키워드 : attention mechanisms, multi-head attention, self-attention, Encoder-Decoder 4. 논문요약 : 기존 RNN 기반의 언어 모델들이 가지고 있는 parallelization, vanishing gradient등의 문제점들을 해결하기 위해서 attention mechanism만을 활용한 Encoder-Decoder 모델을 처음 선보인 논문. NLP분야 전반적으로 각 task들을 해결하기 위해 주로 RNN, CNN 기반의 모델들이 활용되는 패러다임을 attention 기반의 모델로 크게 바꾸는 신호.. 더보기 Universal Language Model Fine-tuning for Text Classification 1. 논문 제목 : Universal Language Model Fine-tuning for Text Classification (ULMFiT) 2. 발표한 학회 : ACL 2018 3. 논문의 핵심 키워드 : inductive transfer learning, pretraining, fine-tuning, language model 4. 논문요약 : BERT, GPT부터 RoBERTa, T5등 최신 Language Model들이 모두 차용하는 pretraining-finetuning의 schema를 정리하여 기틀을 닦은 논문 5. 논문에서 소개하는 이전 SOTA / 기존 방법들의 한계: 1) 컴퓨터 비젼 분야에서는 ImageNet, MS-COCO등의 범용적인 데이터셋에 모델을 pretrain하고, 필요.. 더보기 이전 1 2 다음