레플리
글 수 27


agent viz scII

 

https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/?fbclid=IwAR36BF5l0pqK98ZpzwoHexT5yXCHrOjlZJ3nzslgf21tignBfInsYPpMGz8

 

 

 

어제 드디어 딥마인드 알파스타가 프로게이머와 대결을 했습니다. 지금까지 전술차원의 간단한 데모만 보여줬는데 이번에는 전체 게임을 딥러닝으로 학습하여 플레이하였습니다.

 

몇 달전 중국 텐센트에서 공개한 인공지능은 큰 전략만 학습을 하고 해처리 빌드, 일꾼 생산 등 세부적인 컨트롤은 프로그래머가 하드코딩을 했습니다. 반면에 알파스타는 모든 부분을 학습으로만 구현했다고 합니다.

 

 

 

아직 자세한 논문이 발표되지 않아서 어떤 알고리즘을 썼는지 정확히 알 수 없습니다. 아래 블로그를 보면 Transformer가 기본 유닛이고 이를 LSTM으로 시간에 따른 상태를 처리하였습니다. Off-policy actor-critic reinforcement learning algorithm with experience replay, self-imitation learning, policy distillation 등을 기반으로 했다고 나와있는데 나중에 좀 더 살펴봐야겠습니다.

 

또 하나 특이한 점은 Population-based reinforcement learning을 사용했다는 것입니다. 하나의 개체로만 학습을 하지 않고 멀티 에이전트로 수많은 개체를 따로 만들어 서로 대전하며 실력을 향상시킵니다. 그리고 최고의 성적을 거둔 에이전트들을 앙상블하여 하나의 모델로 만든 것 같습니다.

 

 

 

바둑에 비해 스타크래프트는 훨씬 복잡하고 어려운 문제입니다. 2016년 알파고 이후 3년만에 허들 하나를 또 넘어섰습니다. 딥마인드의 다음 목표는 무엇일까요. 이번에는 게임을 벗어나 로봇같이 실제 생활에서 활용될 수 있는 분야면 좋겠습니다.

엮인글 :

NeuroWhAI

2019.02.03 17:06:04
*.64.194.131

될 줄은 알았지만 이렇게 빨리되다니 놀랍네요;;

List of Articles
제목 글쓴이 날짜sort 조회 수
딥마인드의 게임을 학습하는 딥러닝 인공지능 깊은바다 2016-03-21 980
MDP 기반의 스케줄링 구현 file [1] 깊은바다 2016-03-24 2122
강화학습 기반의 자율적인 행동 학습 file 깊은바다 2016-03-24 2521
강화학습 기반의 지능적인 가상캐릭터 file 깊은바다 2016-03-24 620
딥러닝 강화학습으로 둠 게임 구현 깊은바다 2017-02-28 709
딥 강화학습 쉽게 이해하기 [2] 깊은바다 2017-02-28 1928
딥 강화학습으로 퐁 게임 학습 file 깊은바다 2017-03-13 1963
텐서플로우에서 DQN 강화학습으로 캐치게임 구현 file 깊은바다 2017-03-18 6860
강화학습 Q-Learning과 DQN에 대한 설명 깊은바다 2017-03-27 9924
신경망 Q-Learning으로 구현한 오목 게임 깊은바다 2017-03-29 15638
알파고를 탄생시킨 강화학습의 비밀 깊은바다 2017-06-25 859
알아두면 쓸데있는 신기한 강화학습 깊은바다 2017-08-24 1145
강화학습과 DQN 소개 깊은바다 2017-10-05 1365
스타크래프트2 강화학습 깊은바다 2017-10-14 1073
DQN 강화학습으로 슈퍼마리오 인공지능 구현 깊은바다 2017-10-30 2728