- AI Dev - 인공지능 개발자 모임
- 정보공유
- 챗봇 사용기
Claude 3.5 Sonnet 최신 버전이 공개됐습니다. 이전 버전보다 전반적으로 성능이 높아졌지만, 무엇보다 Computer use라는 기능이 새로 추가됐습니다. 컴퓨터 스샷을 찍어서 화면을 이해하고, 직접 마우스와 키보드를 조작해서 사용자가 원하는 작업을 수행합니다.
2024년 1월에 발표한 Rabbit R1을 기억하시나요. 음성으로 도어대시에서 주문을 하거나 우버를 부르는 영상으로 큰 주목을 받았습니다. 여기서 지원하는 LAM(Large Action Model)이 Computer use와 거의 유사합니다. LLM은 텍스트를 넣으면 텍스트가 출력됩니다. 반면에 LAM은 실제 액션을 수행한다는 차이가 있습니다.
이는 ChatGPT의 Function calling보다 훨씬 범용적입니다. 예를 들어, 쿠팡앱을 LLM이 조작하려면 쿠팡에서 Function calling을 위한 인터페이스를 따로 개발해야 합니다. '쿠팡에서 삼성 노트북 최저가 검색해'라고 물어보면, 실제 쿠팡 서버를 검색해서 결과를 반환하는 API가 필요합니다. 100개의 앱을 조작하려면, 100개의 앱 개발사가 각각 이런 인터페이스를 구현해야 합니다.
하지만 LAM을 쓴다면 모든 문제가 해결됩니다. 그냥 AI가 앱 화면을 보고 직접 앱의 UI를 조작하니까요. Claude의 Computer use는 이 기능을 Sonnet 3.5에 내장했습니다. 물론 아직은 베타 버전이라 제한적으로만 사용이 가능합니다.
Apple Intelligene에도 In-app actions라는 기능이 있습니다. 시리에서 다양한 아이폰 내장 앱들과 연동할 수 있습니다. 다만 LAM은 아니고 Function calling 방식으로 보입니다. LAM은 아직 성능도 떨어지고 비용도 더 많이 드니까요. 머지 않아 에이전트는 LAM으로 발전할 것이라 생각합니다. 외부 서비스를 조작하려면 사람과 동일한 방식을 쓰는게 가장 효과적이기 때문입니다. Computer use를 보니 그 날이 얼마 남지 않은 것 같습니다.
https://www.anthropic.com/news/3-5-models-and-computer-use
https://www.anthropic.com/news/developing-computer-use