본문 바로가기

Natural Language Processing

Reformer / Longformer : The Efficient Transformer & The Long Document

1. 논문 제목 : Reformer / Longformer : The Efficient Transformer & The Long Document 
2. 발표한 학회 : ICLR 2020 / -
3. 논문의 핵심 키워드 : Quadratic Complexity with sequence length, Limitation to length, Sparse Attention, Locality Sensitive Hashing, Sliding Window Attention, Global Attention

4. 논문요약 :

Transformers 기반의 모델들은 RNN 기반의 모델들과 비교하여서 model_dim이 차수가 줄어든 반면, sequence length의 차수가 증가하였다. 이는 512, 1024와 같이 정해진 sequence length 내에서는 Attention을 기반으로 관계를 파악하여 Language Understanding 및 Language Generation에서 좋은 성능을 내는데 크게 기여하였지만, 주어진 sequence length를 늘릴 수 없다는 근본적인 문제로 이어진다.

해당 문제를 해결하기 위해서는 sequence length의 제곱 요소를 줄이는 것이 하나의 해결책이었고, Longformer와 Reformer는 해당 문제를 해결하기 위해서 서로 다른 방법을 제안한다.

Reformer는 Locality Senstive Hashing 방법을 통해서 비슷한 token들을 bucketing하고, 이를 chunk하여 attention을 수행하는 방법을 제안하였다. 해당 방법의 시간 복잡도는 O(NlogN)이다.

 

Longformer는 Sliding Window Attention과 Global Attention을 결합한 Attention Mechanism을 통해서 연산을 수행하는 방법을 제안하였다. 해당 방법의 시간 복잡도는 O(N)이다.

 

sequence length의 차수가 줄어들게 된 만큼, 보다 길이가 긴 sequence length를 사용할 수 있게 되었고, 이는 길이가 긴 문서들을 다루는 task에 있어서 성능 향상으로 이어지게 되었다.

 

5. 스터디 발표 영상 대체 :

https://youtu.be/gipCOCw3aqA