레플리
글 수 211


중국의 문샷AI가 Attention Residuals라는 새로운 딥러닝 구조를 제안했습니다. 추론 지연은 2% 미만으로 늘어났지만, 연산 효율은 25% 이상 향상됐다고 합니다.

 

딥러닝의 표준으로 사용하는 트랜스포머는 self-attention 기법을 사용합니다. 입력 토큰들끼리 서로 attention 계산을 해서 그중 중요한 정보만 압축하고 다음 레이어에 전달합니다. 그래서 기존 LSTM 같은 모델보다 성능이 훨씬 뛰어납니다.

 

트랜스포머에는 잔차 연결(residual connection)이 있습니다. self-attention으로 압축된 정보가 다음 레이어로 전달될 때, 이전 정보를 그대로 유지해서 추가로 전달하는 부분입니다. 레이어마다 완전히 새로 작성되기 보다는, 이전 레이어에서 점진적으로 개선되게 하기 위해서입니다.

 

그런데 잔차 연결은 이전 정보를 그대로 전달만 하기 때문에 문제가 있었습니다. 레이어가 깊어질수록 잔차 정보들이 누적되어 초기 잔차 정보가 사라진다는 점입니다. Attention Residuals는 잔차 연결에도 attention을 적용하여 잔차가 더 오래 유지되도록 하자는 아이디어입니다.

 

attnres1_1.jpg

 

 

 

딥러닝의 아버지인 제프리 힌튼이 처음 딥러닝을 만들었을 때와 비슷합니다. 당시 신경망의 활성화 함수는 보통 시그모이드였습니다. 너무나 당연하게 사용했기 때문에 아무도 여기에 깊게 고민하지 않았습니다. 하지만 힌튼은 시그모이드에서 정보가 손실된다는 점을 발견하고 이전 정보가 계속 유지되는 ReLU로 변경했습니다. Attention Residuals 역시 마찬가지입니다. 그동안 아무도 주목하지 않았던 잔차 연결에 발상의 전환을 한 것입니다.

 

안드레이 카파시는 'We're not taking the Attention is All You Need part literally enough?'라는 트윗을 남겼습니다. 트랜스포머 모델이 개선될 여지가 아직 많이 남아있다는 뜻입니다. 어쩌면 전혀 새로운 딥러닝 모델이 나올 수도 있겠죠. 일리야 수츠케버가 말한 것처럼 이제 스케일링의 시대에서 다시 연구의 시대로 접어든 걸까요.

 

attnres2.png

 

List of Articles
제목 글쓴이 날짜 조회 수
문샷AI가 발표한 새로운 트랜스포머 구조 - Attention Residuals file 우종하 2026-03-17 188
체스 신동이던 데미스 허사비스는 어떻게 구글 딥마인드의 수장이 되었나 file 우종하 2025-12-20 455
일리야 수츠케버, 스케일링에서 다시 연구의 시대로 file 우종하 2025-12-13 332
구글의 AI 가상피팅 앱 - Doppl 우종하 2025-07-05 1457
구글 AI Studio에 바이브 코딩 기능 추가 file 우종하 2025-05-26 2070
앤쓰로픽 대표, 2년 안에 AI가 모든 분야에서 인간을 능가할 것 file 우종하 2025-01-23 1724
레딧에서 샘 알트만과의 AMA(Ask Me Anything) file 깊은바다 2024-11-01 1677
LMM(Large Multimodal Model)의 시작을 알리는 GPT-4o 깊은바다 2024-05-23 1788
GPT-4o와 구글 I/O 2024를 보고 느낀 점 깊은바다 2024-05-15 1900
OpenAI의 Sora로 만든 단편영화 file 깊은바다 2024-03-26 1952
만약 ChatGPT가 영상으로 세상을 이해하게 된다면? file 깊은바다 2024-02-16 1983
인도의 생성AI 영화 - Maharaja in Denims 깊은바다 2024-01-16 1904
누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez file 깊은바다 2024-01-04 1932
95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유 file [2] 깊은바다 2023-12-24 2793
Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치 file 깊은바다 2023-11-29 1803