강화학습 - 딥마인드의 알파스타가 프로게이머와의 대결에서 승리

글 수 27

딥마인드의 알파스타가 프로게이머와의 대결에서 승리

조회 수 677 추천 수 0 2019.01.25 18:05:10

깊은바다 *.68.247.186 http://aidev.co.kr/6841

agent viz scII

https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/?fbclid=IwAR36BF5l0pqK98ZpzwoHexT5yXCHrOjlZJ3nzslgf21tignBfInsYPpMGz8

어제 드디어 딥마인드 알파스타가 프로게이머와 대결을 했습니다. 지금까지 전술차원의 간단한 데모만 보여줬는데 이번에는 전체 게임을 딥러닝으로 학습하여 플레이하였습니다.

몇 달전 중국 텐센트에서 공개한 인공지능은 큰 전략만 학습을 하고 해처리 빌드, 일꾼 생산 등 세부적인 컨트롤은 프로그래머가 하드코딩을 했습니다. 반면에 알파스타는 모든 부분을 학습으로만 구현했다고 합니다.

아직 자세한 논문이 발표되지 않아서 어떤 알고리즘을 썼는지 정확히 알 수 없습니다. 아래 블로그를 보면 Transformer가 기본 유닛이고 이를 LSTM으로 시간에 따른 상태를 처리하였습니다. Off-policy actor-critic reinforcement learning algorithm with experience replay, self-imitation learning, policy distillation 등을 기반으로 했다고 나와있는데 나중에 좀 더 살펴봐야겠습니다.

또 하나 특이한 점은 Population-based reinforcement learning을 사용했다는 것입니다. 하나의 개체로만 학습을 하지 않고 멀티 에이전트로 수많은 개체를 따로 만들어 서로 대전하며 실력을 향상시킵니다. 그리고 최고의 성적을 거둔 에이전트들을 앙상블하여 하나의 모델로 만든 것 같습니다.

바둑에 비해 스타크래프트는 훨씬 복잡하고 어려운 문제입니다. 2016년 알파고 이후 3년만에 허들 하나를 또 넘어섰습니다. 딥마인드의 다음 목표는 무엇일까요. 이번에는 게임을 벗어나 로봇같이 실제 생활에서 활용될 수 있는 분야면 좋겠습니다.

이 게시물을

엮인글 :

2019.02.03 17:06:04
*.64.194.131

될 줄은 알았지만 이렇게 빨리되다니 놀랍네요;;

List of Articles

제목	글쓴이	날짜	조회 수
딥마인드의 게임을 학습하는 딥러닝 인공지능	깊은바다	2016-03-21	980
MDP 기반의 스케줄링 구현 [1]	깊은바다	2016-03-24	2122
강화학습 기반의 자율적인 행동 학습	깊은바다	2016-03-24	2521
강화학습 기반의 지능적인 가상캐릭터	깊은바다	2016-03-24	620
딥러닝 강화학습으로 둠 게임 구현	깊은바다	2017-02-28	709
딥 강화학습 쉽게 이해하기 [2]	깊은바다	2017-02-28	1928
딥 강화학습으로 퐁 게임 학습	깊은바다	2017-03-13	1963
텐서플로우에서 DQN 강화학습으로 캐치게임 구현	깊은바다	2017-03-18	6860
강화학습 Q-Learning과 DQN에 대한 설명	깊은바다	2017-03-27	9924
신경망 Q-Learning으로 구현한 오목 게임	깊은바다	2017-03-29	15638
알파고를 탄생시킨 강화학습의 비밀	깊은바다	2017-06-25	859
알아두면 쓸데있는 신기한 강화학습	깊은바다	2017-08-24	1145
강화학습과 DQN 소개	깊은바다	2017-10-05	1365
스타크래프트2 강화학습	깊은바다	2017-10-14	1073
DQN 강화학습으로 슈퍼마리오 인공지능 구현	깊은바다	2017-10-30	2728

쓰기

첫 페이지 1 2 끝 페이지

딥마인드의 알파스타가 프로게이머와의 대결에서 승리

NeuroWhAI