중국의 문샷AI가 Attention Residuals라는 새로운 딥러닝 구조를 제안했습니다. 추론 지연은 2% 미만으로 늘어났지만, 연산 효율은 25% 이상 향상됐다고 합니다.
딥러닝의 표준으로 사용하는 트랜스포머는 self-attention 기법을 사용합니다. 입력 토큰들끼리 서로 attention 계산을 해서 그중 중요한 정보만 압축하고 다음 레이어에 전달합니다. 그래서 기존 LSTM 같은 모델보다 성능이 훨씬 뛰어납니다.
트랜스포머에는 잔차 연결(residual connection)이 있습니다. self-attention으로 압축된 정보가 다음 레이어로 전달될 때, 이전 정보를 그대로 유지해서 추가로 전달하는 부분입니다. 레이어마다 완전히 새로 작성되기 보다는, 이전 레이어에서 점진적으로 개선되게 하기 위해서입니다.
그런데 잔차 연결은 이전 정보를 그대로 전달만 하기 때문에 문제가 있었습니다. 레이어가 깊어질수록 잔차 정보들이 누적되어 초기 잔차 정보가 사라진다는 점입니다. Attention Residuals는 잔차 연결에도 attention을 적용하여 잔차가 더 오래 유지되도록 하자는 아이디어입니다.

딥러닝의 아버지인 제프리 힌튼이 처음 딥러닝을 만들었을 때와 비슷합니다. 당시 신경망의 활성화 함수는 보통 시그모이드였습니다. 너무나 당연하게 사용했기 때문에 아무도 여기에 깊게 고민하지 않았습니다. 하지만 힌튼은 시그모이드에서 정보가 손실된다는 점을 발견하고 이전 정보가 계속 유지되는 ReLU로 변경했습니다. Attention Residuals 역시 마찬가지입니다. 그동안 아무도 주목하지 않았던 잔차 연결에 발상의 전환을 한 것입니다.
안드레이 카파시는 'We're not taking the Attention is All You Need part literally enough?'라는 트윗을 남겼습니다. 트랜스포머 모델이 개선될 여지가 아직 많이 남아있다는 뜻입니다. 어쩌면 전혀 새로운 딥러닝 모델이 나올 수도 있겠죠. 일리야 수츠케버가 말한 것처럼 이제 스케일링의 시대에서 다시 연구의 시대로 접어든 걸까요.
