레플리
글 수 27

딥 강화학습으로 퐁 게임 학습

조회 수 1960 추천 수 0 2017.03.13 12:48:40


 

http://keunwoochoi.blogspot.kr/2016/06/andrej-karpathy.html

 

 

 

딥 강화학습의 대표적인 방법은 Deep Q-Network입니다.

바로 이 기술로 딥마인드가 아타리 게임을 학습시켰습니다.

 

 

 

K-002.png

 

DQN는 기존 Q-Learning에서 Q테이블을 딥러닝 CNN으로 변경한 것입니다. 아타리 게임의 픽셀정보를 입력으로 하여 신경망을 통해 현재 픽셀 상태 s에서 행동 a를 결정합니다. 그리고 보상값을 받아 주변 상태집합으로 이 보상값을 전파하도록 Q값을 학습시킵니다. 

 

이를 반복하면 전체 상태로 보상값이 퍼져나가 학습이 됩니다. 그러면 현재 상태일때 어떤 행동을 해야 미래의 상태에서 좋은 결과를 얻을 수 있는지 알 수 있게 됩니다.

 

 

 

그런데 DQN와 다른 강화학습 알고리즘으로 정책 그라디언트(Policy Gradients)가 있습니다.

알파고에서는 이 방식으로 스스로 대결하면서 학습을 수행하였습니다.

 

정책 그라디언트는 Q함수로 보상값을 조금씩 전체 상태집합에 전파하지 않습니다.

그보다는 승패가 결정될때까지 (입력, 목표값)이라는 데이터를 수집하고

수집한 데이터를 사용해 게임의 결과를 반영하여 신경망의 가중치를 변경합니다.

 

 

 

예를 들어 200 프레임에 게임이 끝나고 승부에서 졌다고 가정해봅시다.

 

(1프레임 픽셀집합, UP) -> 가중치 내림

(2프레임 픽셀집합, DOWN) -> 가중치 내림

...

(200프레임 픽셀집합, DOWN) -> 가중치 내림

 

이렇게 200프레임 동안 했던 행동들이 좋지 않아 졌다고 생각하기 때문에 가중치를 모두 내립니다.

 

 

 

저도 아직 코드를 실행해 보진 않았는데 시간날때 한번 돌려봐야겠네요.

 

 

 

< 인공지능 개발자 모임 >

- 페이스북 그룹에 가입하시면 인공지능에 대한 최신 정보를 쉽게 받으실 수 있습니다.

https://www.facebook.com/groups/AIDevKr/

 

List of Articles
제목 글쓴이 날짜sort 조회 수
스타2 강화학습 튜토리얼 [2] 깊은바다 2018-02-04 1522
강화학습의 개요 깊은바다 2018-05-28 674
딥마인드의 모방을 통한 게임 학습 깊은바다 2018-06-01 916
새로운 강화학습 방식인 니마시니 알고리즘 깊은바다 2018-06-03 1575
웹브라우저에서 자율주행차 강화학습 프로젝트 [2] 깊은바다 2018-06-21 1245
tensorflow-js로 만들어본 RL 예제: 2. Deep-sarsa 깊은바다 2018-07-27 2511
텐센트의 스타크래프트2 인공지능 - TStarBot file 깊은바다 2018-09-21 880
딥마인드의 알파스타가 프로게이머와의 대결에서 승리 [1] 깊은바다 2019-01-25 668
OpenAI의 멀티 에이전트 강화학습 환경 - Neural MMO 깊은바다 2019-03-06 964
강화학습 블로그 - 숨니의 무작정 따라하기 깊은바다 2019-07-21 1057
데미스 하사비스의 카이스트 강연 - 아타리 게임 DQN과 알파고의 원리 깊은바다 2019-07-24 1190
강화학습 관련 노하우 정리 깊은바다 2019-07-29 2666