레플리
글 수 27


agent viz scII

 

https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/?fbclid=IwAR36BF5l0pqK98ZpzwoHexT5yXCHrOjlZJ3nzslgf21tignBfInsYPpMGz8

 

 

 

어제 드디어 딥마인드 알파스타가 프로게이머와 대결을 했습니다. 지금까지 전술차원의 간단한 데모만 보여줬는데 이번에는 전체 게임을 딥러닝으로 학습하여 플레이하였습니다.

 

몇 달전 중국 텐센트에서 공개한 인공지능은 큰 전략만 학습을 하고 해처리 빌드, 일꾼 생산 등 세부적인 컨트롤은 프로그래머가 하드코딩을 했습니다. 반면에 알파스타는 모든 부분을 학습으로만 구현했다고 합니다.

 

 

 

아직 자세한 논문이 발표되지 않아서 어떤 알고리즘을 썼는지 정확히 알 수 없습니다. 아래 블로그를 보면 Transformer가 기본 유닛이고 이를 LSTM으로 시간에 따른 상태를 처리하였습니다. Off-policy actor-critic reinforcement learning algorithm with experience replay, self-imitation learning, policy distillation 등을 기반으로 했다고 나와있는데 나중에 좀 더 살펴봐야겠습니다.

 

또 하나 특이한 점은 Population-based reinforcement learning을 사용했다는 것입니다. 하나의 개체로만 학습을 하지 않고 멀티 에이전트로 수많은 개체를 따로 만들어 서로 대전하며 실력을 향상시킵니다. 그리고 최고의 성적을 거둔 에이전트들을 앙상블하여 하나의 모델로 만든 것 같습니다.

 

 

 

바둑에 비해 스타크래프트는 훨씬 복잡하고 어려운 문제입니다. 2016년 알파고 이후 3년만에 허들 하나를 또 넘어섰습니다. 딥마인드의 다음 목표는 무엇일까요. 이번에는 게임을 벗어나 로봇같이 실제 생활에서 활용될 수 있는 분야면 좋겠습니다.

엮인글 :

NeuroWhAI

2019.02.03 17:06:04
*.64.194.131

될 줄은 알았지만 이렇게 빨리되다니 놀랍네요;;

List of Articles
제목 글쓴이 날짜 조회 수
강화학습 관련 노하우 정리 깊은바다 2019-07-29 2659
데미스 하사비스의 카이스트 강연 - 아타리 게임 DQN과 알파고의 원리 깊은바다 2019-07-24 1189
강화학습 블로그 - 숨니의 무작정 따라하기 깊은바다 2019-07-21 1051
OpenAI의 멀티 에이전트 강화학습 환경 - Neural MMO 깊은바다 2019-03-06 961
딥마인드의 알파스타가 프로게이머와의 대결에서 승리 [1] 깊은바다 2019-01-25 663
텐센트의 스타크래프트2 인공지능 - TStarBot file 깊은바다 2018-09-21 878
tensorflow-js로 만들어본 RL 예제: 2. Deep-sarsa 깊은바다 2018-07-27 2507
웹브라우저에서 자율주행차 강화학습 프로젝트 [2] 깊은바다 2018-06-21 1239
새로운 강화학습 방식인 니마시니 알고리즘 깊은바다 2018-06-03 1566
딥마인드의 모방을 통한 게임 학습 깊은바다 2018-06-01 914
강화학습의 개요 깊은바다 2018-05-28 673
스타2 강화학습 튜토리얼 [2] 깊은바다 2018-02-04 1519
DQN 강화학습으로 슈퍼마리오 인공지능 구현 깊은바다 2017-10-30 2714
스타크래프트2 강화학습 깊은바다 2017-10-14 1061
강화학습과 DQN 소개 깊은바다 2017-10-05 1355