- AI Dev - 인공지능 개발자 모임
- 정보공유
- 강화학습
이미 보신 분들도 많겠지만, 데미스 하사비스가 카이스트에서 발표한 영상입니다. 2016년 알파고와 이세돌의 대결 때 열린 강연이었습니다. 강화학습에 관심이 있으시면 필수적으로 시청해야할 자료라 생각합니다.
1부는 아타리 게임을 학습한 DQN(Deep Q-Networks)에 대해 설명합니다. 사실 딥마인드는 2013년 발표한 이 논문으로 유명해졌습니다. 과거에도 게임을 학습하는 모델이 많았습니다. 하지만 피처 엔지니어링을 통해 미리 정보들을 가공해야 했습니다. 캐릭터나 오브젝트들의 위치 등을 숫자로 변환하고 이를 입력으로 사용합니다. 그래야 전체 상태의 크기를 줄일 수 있었습니다.
DQN이 혁신적이었던 이유는 화면의 픽셀을 그대로 받아들여 학습을 했다는 점입니다. 이런 End-to-End 방식이 가능했던 것은 강화학습에 딥러닝을 적용했기 때문입니다. 다양한 게임들을 동일한 모델로 학습하였고, 인간의 수준을 훨씬 뛰어 넘는 실력을 보여주었습니다.
2부에서는 알파고에 대해 다루고 있습니다. 보통 체스의 경우 미니맥스(minimax) 알고리즘을 사용합니다. 나는 내 이익을 최대로 하는 수를 두고, 상대방은 자신의 이익을 최대로 하는(나에게는 최소인) 수를 둡니다. 이런 모든 경우의 수를 탐색하는 방법입니다.
바둑은 체스에 비해 상태공간이 훨씬 방대하기 때문에, 미니맥스로 모든 영역을 검색할 수 없습니다. 그래서 MCTS(Monte Carlo Tree Search)란 방법이 필수적입니다. 몬테카를로는 도박으로 유명한 모나코의 도시입니다. 이처럼 확률을 기반으로 일부분만 샘플링하여 최적의 수를 결정합니다.
알파고 역시 MCTS를 기반으로 합니다. 여기에 정책 네트워크와 가치 네트워크란 딥러닝 모델을 적용합니다. 현재 바둑판에서 모든 수를 고려하기엔 불가능합니다. 그래서 몇몇 중요한 분기만으로 확장하는데, 여기서 어떤 쪽으로 선택할지를 정책 네트워크가 판단합니다. 가치 네트워크는 지금 판세가 누구에게 유리한지 알려줍니다. 체스는 남은 기물을 계산하여 쉽게 평가를 할 수 있지만, 바둑은 직관에 의존하는 경우가 많습니다. 이렇게 바둑판의 이미지를 통해 분류를 하는 것은 딥러닝이 잘 하는 분야입니다.
마지막에서 딥마인드의 목표는 일반 인공지능(AGI)를 만드는 것이라 밝히고 있습니다. 이를 사용하면 기후변화, 에너지, 질병 등의 문제를 해결할 수 있다고 합니다. 자신들이 만든 인공지능으로 인류의 행복을 증진하는데 기여하고 싶다고 말합니다.