레플리
글 수 27


 

 

 

 

이미 보신 분들도 많겠지만, 데미스 하사비스가 카이스트에서 발표한 영상입니다. 2016년 알파고와 이세돌의 대결 때 열린 강연이었습니다. 강화학습에 관심이 있으시면 필수적으로 시청해야할 자료라 생각합니다.

 

 

 

1부는 아타리 게임을 학습한 DQN(Deep Q-Networks)에 대해 설명합니다. 사실 딥마인드는 2013년 발표한 이 논문으로 유명해졌습니다. 과거에도 게임을 학습하는 모델이 많았습니다. 하지만 피처 엔지니어링을 통해 미리 정보들을 가공해야 했습니다. 캐릭터나 오브젝트들의 위치 등을 숫자로 변환하고 이를 입력으로 사용합니다. 그래야 전체 상태의 크기를 줄일 수 있었습니다.

 

DQN이 혁신적이었던 이유는 화면의 픽셀을 그대로 받아들여 학습을 했다는 점입니다. 이런 End-to-End 방식이 가능했던 것은 강화학습에 딥러닝을 적용했기 때문입니다. 다양한 게임들을 동일한 모델로 학습하였고, 인간의 수준을 훨씬 뛰어 넘는 실력을 보여주었습니다.

 

 

 

2부에서는 알파고에 대해 다루고 있습니다. 보통 체스의 경우 미니맥스(minimax) 알고리즘을 사용합니다. 나는 내 이익을 최대로 하는 수를 두고, 상대방은 자신의 이익을 최대로 하는(나에게는 최소인) 수를 둡니다. 이런 모든 경우의 수를 탐색하는 방법입니다.

 

바둑은 체스에 비해 상태공간이 훨씬 방대하기 때문에, 미니맥스로 모든 영역을 검색할 수 없습니다. 그래서 MCTS(Monte Carlo Tree Search)란 방법이 필수적입니다. 몬테카를로는 도박으로 유명한 모나코의 도시입니다. 이처럼 확률을 기반으로 일부분만 샘플링하여 최적의 수를 결정합니다.

 

알파고 역시 MCTS를 기반으로 합니다. 여기에 정책 네트워크와 가치 네트워크란 딥러닝 모델을 적용합니다. 현재 바둑판에서 모든 수를 고려하기엔 불가능합니다. 그래서 몇몇 중요한 분기만으로 확장하는데, 여기서 어떤 쪽으로 선택할지를 정책 네트워크가 판단합니다. 가치 네트워크는 지금 판세가 누구에게 유리한지 알려줍니다. 체스는 남은 기물을 계산하여 쉽게 평가를 할 수 있지만, 바둑은 직관에 의존하는 경우가 많습니다. 이렇게 바둑판의 이미지를 통해 분류를 하는 것은 딥러닝이 잘 하는 분야입니다.

 

 

 

마지막에서 딥마인드의 목표는 일반 인공지능(AGI)를 만드는 것이라 밝히고 있습니다. 이를 사용하면 기후변화, 에너지, 질병 등의 문제를 해결할 수 있다고 합니다. 자신들이 만든 인공지능으로 인류의 행복을 증진하는데 기여하고 싶다고 말합니다.

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
강화학습 관련 노하우 정리 깊은바다 2019-07-29 2666
데미스 하사비스의 카이스트 강연 - 아타리 게임 DQN과 알파고의 원리 깊은바다 2019-07-24 1190
강화학습 블로그 - 숨니의 무작정 따라하기 깊은바다 2019-07-21 1057
OpenAI의 멀티 에이전트 강화학습 환경 - Neural MMO 깊은바다 2019-03-06 964
딥마인드의 알파스타가 프로게이머와의 대결에서 승리 [1] 깊은바다 2019-01-25 668
텐센트의 스타크래프트2 인공지능 - TStarBot file 깊은바다 2018-09-21 880
tensorflow-js로 만들어본 RL 예제: 2. Deep-sarsa 깊은바다 2018-07-27 2511
웹브라우저에서 자율주행차 강화학습 프로젝트 [2] 깊은바다 2018-06-21 1245
새로운 강화학습 방식인 니마시니 알고리즘 깊은바다 2018-06-03 1575
딥마인드의 모방을 통한 게임 학습 깊은바다 2018-06-01 916
강화학습의 개요 깊은바다 2018-05-28 674
스타2 강화학습 튜토리얼 [2] 깊은바다 2018-02-04 1522
DQN 강화학습으로 슈퍼마리오 인공지능 구현 깊은바다 2017-10-30 2716
스타크래프트2 강화학습 깊은바다 2017-10-14 1063
강화학습과 DQN 소개 깊은바다 2017-10-05 1356