레플리
글 수 284


텐센트가 AppAgent라는 획기적인 모델을 선보였습니다. 스마트폰 앱 사용 방법을 배우고, 사용자가 명령을 내리면 해당 작업을 자동으로 수행할 수 있습니다.

 

시리 같은 개인비서도 비슷한 기능이 있습니다. 7시에 깨워달라고 하면 알람 앱을 조작하여 해당 시간을 추가합니다. 하지만 시리는 이런 프로세스가 시스템적으로 미리 구현되어 있어야 합니다. 자연어를 이해하고 알람을 맞추는 기능을 API로 호출합니다.

 

반면에 AppAgent는 좀 더 유연하게 동작합니다. 사용자의 명령과 화면의 스크린샷을 보고 어떤 작업을 해야 하는지 결정합니다. 별도의 API 호출 없이 터치와 스와이프 같은 액션으로만 앱을 조작합니다. 그래서 다양한 앱에 범용적으로 적용할 수 있습니다.

 

 

 

예를 하나 들어보겠습니다. 유튜브에서 Wonderful Tonight 뮤직비디오를 찾아 칭찬 댓글을 남겨달라고 명령했습니다. 먼저 검색창에 제목을 입력하고 검색 버튼을 누릅니다. 그리고 검색 목록이 나오면 썸네일과 제목 텍스트를 보고 해당 영상을 선택합니다. 영상이 시작되면 아래 댓글창을 누릅니다. 여기까지 진행이 되었다고 가정하고 다음 과정을 설명하겠습니다.

 

현재 스크린샷을 관찰(Observation)하고 이게 Wonderful Tonignt 뮤직비디오의 댓글 목록이라는 걸 인지합니다. 생각(Thought)을 통해서 하단 댓글창을 눌러서 칭찬 댓글을 써야 한다는 것을 결정합니다. 행동(Action)으로 "This is such a timeless piece.." 문장을 댓글창에 입력하고 엔터 버튼을 누릅니다. 사용자의 명령을 수행하기 위해서는 여러 단계를 거쳐야 합니다. AppAgent는 이런 연속적인 과정을 관찰->생각->행동으로 나누어서 최종 작업을 완료합니다.

 

 

 

AppAgent는 크게 Exploraton Phase과 Deployment Phase로 나뉩니다. Exploration에서는 스스로 이것저것 해보며 그 결과를 문장으로 설명하는 Doc로 저장합니다. 또는 사람의 행동을 보고 배우는 방법도 사용합니다. 이때 터치 좌표를 x, y로 하면 모델 성능이 저하되는 문제가 있다고 합니다. 그래서 1, 2, 3 같은 Action Space로 구분하여 터치 영역을 단순화했습니다. Deployment에서는 이전에 저장했던 Doc를 참조하여 행동을 결정합니다. 그리고 한 단계가 끝나면 그 과정을 문장으로 요약하여 다음 행동을 선택하는데 참고자료로 사용합니다.

 

실험 결과 베이스라인인 GPT-4보다 AppAgent가 성능이 월등히 높았습니다. AutoGPT나 Generative Agents 같은 자율적인 모델이 생성AI의 다음 단계가 될 것입니다. 빌 게이츠도 블로그 글에서 Agents가 최종 미래라고 예측했으니까요. 올해는 이런 새로운 시도가 훨씬 많아질 것이라 생각합니다.

 

 

 

K-001_1.jpg

 

K-002_1.jpg

 

K-003_1.jpg

 

K-004_1.jpg

 

K-005_1.jpg

 

K-006_1.jpg

 

K-007_1.jpg

 

K-008_1.jpg

 

K-009_1.jpg

 

 

 

https://github.com/mnotgod96/AppAgent

 

List of Articles
제목 글쓴이 날짜sort 조회 수
글쓰는 법을 배우는 신경망 깊은바다 2016-03-25 1539
구글의 딥러닝 대화 알고리즘 깊은바다 2016-03-25 3356
딥러닝으로 챗봇 만들기 깊은바다 2017-05-03 3173
단어를 벡터로 변환하는 Word2Vec 깊은바다 2017-05-04 1039
추론이 가능한 딥러닝인 Relational Networks [2] 깊은바다 2017-06-11 2740
딥러닝 RNN으로 구현한 챗봇 깊은바다 2017-08-01 8136
End-To-End Memory Networks - 자연어 질문에 대답하는 모델 [2] 깊은바다 2017-08-21 962
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용 깊은바다 2017-08-25 2582
문장을 학습하는 딥러닝 RNN의 Seq2Seq 모델 설명 file 깊은바다 2017-09-15 7327
딥러닝 기반 자연어처리 기법의 최근 연구 동향 [2] 깊은바다 2017-12-17 1020
쉽게 씌어진 Word2Vec [2] 깊은바다 2017-12-25 1178
구글 딥러닝 자연어 처리 오픈소스 SyntaxNet file 깊은바다 2017-12-28 2785
딥러닝을 사용한 챗봇 개발방법 정리 file 깊은바다 2018-02-03 25471
한국어 자연어처리를 위한 딥러닝 깊은바다 2018-02-14 3652
딥러닝을 사용한 감성분석기 개발 깊은바다 2018-02-22 1658