본문 바로가기

Natural Language Processing

BIGBIRD : Transformers for Longer Sequences

1. 논문 제목 : BIGBIRD : Transformers for Longer Sequences
2. 발표한 학회 : NEURIPS 2020
3. 논문의 핵심 키워드 : Quadratic Dependency, Full-Attention Mechanism, Graph Sparsification Problem, Sparse Attention, Universal Approximator, Turing Completeness

4. 논문요약 :

Transformer, BERT, GPT 이후의 많은 후속 논문들이 새로운 Pretraining 방법을 통해서 더욱 성능이 좋은 모델을 만들기 위해 노력을 들였다. 반면, Transformer의 (sequence length)^2의 time complexity를 문제점으로 삼아서 이를 해결하기 위한 노력을 들였던 다수의 모델들도 존재하였다.

 

Sparse Transformer를 통해서 O(n√n)의 복잡도, Reformer를 통해서 O(nlog⁡n)의 복잡도, Longformer를 통해서 O(n)의 복잡도까지 도달을 하였다. BIGBIRD는 Attention Matrix를 구성하는 문제를 Graph Sparsification Problem으로 보고 이를 해결하고자 하였다.

 

 

Sliding Window Attention, Global Attention, 그리고 Random Attention까지 모두 결합한 형태로 Attention을 구성하였고, 여러가지 수학 논문들을 기반으로 하여서 Bigbird의 Sparse Attention이 수학적으로 어떠한 종류의 함수를 뉴럴 네트워크로 근사할 수 있는 Universal Approximator이 될 수 있음을 증명하였다. 또, 어떠한 종류의 문제도 해결할 수 있는 Turing Complete의 특성도 가지고 있음을 증명하였다.

 

 

5. 스터디 발표 영상 :

https://www.youtube.com/watch?v=CWbrnkGC0c0