챗봇 딥러닝 - 화면을 보고 스마트폰 앱 사용방법을 배우는 모델

글 수 283

화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent

조회 수 301 추천 수 0 2024.01.08 19:56:29

깊은바다 *.32.218.234 http://aidev.co.kr/14211

텐센트가 AppAgent라는 획기적인 모델을 선보였습니다. 스마트폰 앱 사용 방법을 배우고, 사용자가 명령을 내리면 해당 작업을 자동으로 수행할 수 있습니다.

시리 같은 개인비서도 비슷한 기능이 있습니다. 7시에 깨워달라고 하면 알람 앱을 조작하여 해당 시간을 추가합니다. 하지만 시리는 이런 프로세스가 시스템적으로 미리 구현되어 있어야 합니다. 자연어를 이해하고 알람을 맞추는 기능을 API로 호출합니다.

반면에 AppAgent는 좀 더 유연하게 동작합니다. 사용자의 명령과 화면의 스크린샷을 보고 어떤 작업을 해야 하는지 결정합니다. 별도의 API 호출 없이 터치와 스와이프 같은 액션으로만 앱을 조작합니다. 그래서 다양한 앱에 범용적으로 적용할 수 있습니다.

예를 하나 들어보겠습니다. 유튜브에서 Wonderful Tonight 뮤직비디오를 찾아 칭찬 댓글을 남겨달라고 명령했습니다. 먼저 검색창에 제목을 입력하고 검색 버튼을 누릅니다. 그리고 검색 목록이 나오면 썸네일과 제목 텍스트를 보고 해당 영상을 선택합니다. 영상이 시작되면 아래 댓글창을 누릅니다. 여기까지 진행이 되었다고 가정하고 다음 과정을 설명하겠습니다.

현재 스크린샷을 관찰(Observation)하고 이게 Wonderful Tonignt 뮤직비디오의 댓글 목록이라는 걸 인지합니다. 생각(Thought)을 통해서 하단 댓글창을 눌러서 칭찬 댓글을 써야 한다는 것을 결정합니다. 행동(Action)으로 "This is such a timeless piece.." 문장을 댓글창에 입력하고 엔터 버튼을 누릅니다. 사용자의 명령을 수행하기 위해서는 여러 단계를 거쳐야 합니다. AppAgent는 이런 연속적인 과정을 관찰->생각->행동으로 나누어서 최종 작업을 완료합니다.

AppAgent는 크게 Exploraton Phase과 Deployment Phase로 나뉩니다. Exploration에서는 스스로 이것저것 해보며 그 결과를 문장으로 설명하는 Doc로 저장합니다. 또는 사람의 행동을 보고 배우는 방법도 사용합니다. 이때 터치 좌표를 x, y로 하면 모델 성능이 저하되는 문제가 있다고 합니다. 그래서 1, 2, 3 같은 Action Space로 구분하여 터치 영역을 단순화했습니다. Deployment에서는 이전에 저장했던 Doc를 참조하여 행동을 결정합니다. 그리고 한 단계가 끝나면 그 과정을 문장으로 요약하여 다음 행동을 선택하는데 참고자료로 사용합니다.

실험 결과 베이스라인인 GPT-4보다 AppAgent가 성능이 월등히 높았습니다. AutoGPT나 Generative Agents 같은 자율적인 모델이 생성AI의 다음 단계가 될 것입니다. 빌 게이츠도 블로그 글에서 Agents가 최종 미래라고 예측했으니까요. 올해는 이런 새로운 시도가 훨씬 많아질 것이라 생각합니다.

https://github.com/mnotgod96/AppAgent

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
GPT-3.5와 클로바X 가격 비교	깊은바다	2024-02-25	272
Gluon으로구현해보는 한영기계번역 모형	깊은바다	2018-04-13	275
ChatGPT 원티드 플러그인 사용 화면	깊은바다	2023-04-07	278
사진을 인식할 수 있는 ChatGPT 멀티모달 버전 공개	깊은바다	2023-09-26	279
오픈소스 LLM이 ChatGPT를 대체할 수 있을	깊은바다	2023-05-05	295
LLM의 미래는 자율행동과 멀티 에이전트	깊은바다	2023-08-30	300
화면을 보고 스마트폰 앱 사용방법을 배우는 모델 - AppAgent	깊은바다	2024-01-08	301
Generative AI — 시장 구조, 기회, moat에 대한 몇 가지 생각	깊은바다	2023-06-27	303
Koko 심리상담 서비스에서 GPT-3 대답 추천 기능을 도입	깊은바다	2023-01-11	304
네이버 케어콜의 장기기억 기능 - 맞춤 케어를 위한 기억하기 챗봇	깊은바다	2023-03-01	308
LLM의 시대에도 자연어처리를 배워야할까	깊은바다	2023-05-29	316
ChatGPT 톺아보기 - 인공지능의 역사부터 신경망, 초거대AI, ChatGPT까지	깊은바다	2023-02-01	318
GenAI 컨퍼런스 대담 요약 - 어떻게 AI가 비즈니스를 재편할 것인가	깊은바다	2023-03-08	319
GPT-3.5와 하이퍼클로바의 한국어 대결	깊은바다	2023-05-12	319
노암 촘스키의 ChatGPT 기고문	깊은바다	2023-03-09	322

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지