챗봇 딥러닝 - 화면을 보고 스마트폰 앱 사용방법을 배우는 모델

글 수 283

화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent

조회 수 301 추천 수 0 2024.01.08 19:56:29

깊은바다 *.32.218.234 http://aidev.co.kr/14211

텐센트가 AppAgent라는 획기적인 모델을 선보였습니다. 스마트폰 앱 사용 방법을 배우고, 사용자가 명령을 내리면 해당 작업을 자동으로 수행할 수 있습니다.

시리 같은 개인비서도 비슷한 기능이 있습니다. 7시에 깨워달라고 하면 알람 앱을 조작하여 해당 시간을 추가합니다. 하지만 시리는 이런 프로세스가 시스템적으로 미리 구현되어 있어야 합니다. 자연어를 이해하고 알람을 맞추는 기능을 API로 호출합니다.

반면에 AppAgent는 좀 더 유연하게 동작합니다. 사용자의 명령과 화면의 스크린샷을 보고 어떤 작업을 해야 하는지 결정합니다. 별도의 API 호출 없이 터치와 스와이프 같은 액션으로만 앱을 조작합니다. 그래서 다양한 앱에 범용적으로 적용할 수 있습니다.

예를 하나 들어보겠습니다. 유튜브에서 Wonderful Tonight 뮤직비디오를 찾아 칭찬 댓글을 남겨달라고 명령했습니다. 먼저 검색창에 제목을 입력하고 검색 버튼을 누릅니다. 그리고 검색 목록이 나오면 썸네일과 제목 텍스트를 보고 해당 영상을 선택합니다. 영상이 시작되면 아래 댓글창을 누릅니다. 여기까지 진행이 되었다고 가정하고 다음 과정을 설명하겠습니다.

현재 스크린샷을 관찰(Observation)하고 이게 Wonderful Tonignt 뮤직비디오의 댓글 목록이라는 걸 인지합니다. 생각(Thought)을 통해서 하단 댓글창을 눌러서 칭찬 댓글을 써야 한다는 것을 결정합니다. 행동(Action)으로 "This is such a timeless piece.." 문장을 댓글창에 입력하고 엔터 버튼을 누릅니다. 사용자의 명령을 수행하기 위해서는 여러 단계를 거쳐야 합니다. AppAgent는 이런 연속적인 과정을 관찰->생각->행동으로 나누어서 최종 작업을 완료합니다.

AppAgent는 크게 Exploraton Phase과 Deployment Phase로 나뉩니다. Exploration에서는 스스로 이것저것 해보며 그 결과를 문장으로 설명하는 Doc로 저장합니다. 또는 사람의 행동을 보고 배우는 방법도 사용합니다. 이때 터치 좌표를 x, y로 하면 모델 성능이 저하되는 문제가 있다고 합니다. 그래서 1, 2, 3 같은 Action Space로 구분하여 터치 영역을 단순화했습니다. Deployment에서는 이전에 저장했던 Doc를 참조하여 행동을 결정합니다. 그리고 한 단계가 끝나면 그 과정을 문장으로 요약하여 다음 행동을 선택하는데 참고자료로 사용합니다.

실험 결과 베이스라인인 GPT-4보다 AppAgent가 성능이 월등히 높았습니다. AutoGPT나 Generative Agents 같은 자율적인 모델이 생성AI의 다음 단계가 될 것입니다. 빌 게이츠도 블로그 글에서 Agents가 최종 미래라고 예측했으니까요. 올해는 이런 새로운 시도가 훨씬 많아질 것이라 생각합니다.

https://github.com/mnotgod96/AppAgent

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
5배 싸진 클로바X의 경량화 모델 - HCX-DASH	깊은바다	2024-04-26	3
클로바X의 사용량 제한 - QPM과 TPM	깊은바다	2024-04-01	98
Pi를 만든 Inflection AI, MS로 대거 이직한 이유	깊은바다	2024-03-25	110
LLaMA나 Mistral이 계속 무료로 유지될 수 있을까	깊은바다	2024-03-05	240
GPT-3.5와 클로바X 가격 비교	깊은바다	2024-02-25	272
OpenAI, 성능은 높아지고 가격은 싸진 새로운 모델 공개	깊은바다	2024-01-26	324
AI 휴대용 기기 R1을 만든 Rabbit의 대표 Jesse Lyu	깊은바다	2024-01-12	250
화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent	깊은바다	2024-01-08	301
LLM의 새로운 기법 - Merge와 DPO	깊은바다	2024-01-02	1152
업스테이지 SOLAR 10.7B에서 사용한 DUS 모델 확장 방법	깊은바다	2023-12-27	461
죽은 아들의 AI 아바타를 만든 중국의 부모	깊은바다	2023-12-21	180
Private sLLM - 어떻게 만들고 어떻게 배포할까?	깊은바다	2023-12-18	375
GPT-4가 내 여자친구보다 나를 더 잘 알까?	깊은바다	2023-12-12	166
FSM과 생성 에이전트의 차이점	깊은바다	2023-11-22	187
RAG를 사용한 페르소나 챗봇 - ChatHaruhi	깊은바다	2023-10-17	708

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지