"Most of what we learn as humans and most of what animals learn is in a self-supervised mode, not a reinforcement mode. It’s basically observing the world and interacting with it a little bit, mostly by observation in a test-independent way"
ICLR 2020에서 얀 르쿤의 발표가 있었습니다. 역시 이번에도 자기지도학습(self-superviced learning)에 대해서 강조했습니다. 특히 강화학습보다 자기지도학습이 더 중요하다고 말하기도 했습니다.
아기의 예를 들어보겠습니다. 먼저 눈으로 세상을 보면서 비슷한 패턴을 파악하며 그룹으로 묶습니다(비지도학습). 그리고 부모가 이것은 비행기, 저것은 자동차하고 알려주면 머리속의 패턴과 연결합니다(지도학습). 스스로 행동을 해보면서 배우기도 합니다(강화학습).
자기지도학습은 지도학습과 비지도학습의 결합이지만 비지도학습에 더 가깝습니다. 우선 지도학습처럼 정답 라벨이 필요합니다. 다만 누가 가르쳐주는 것이 아니라 혼자 만들어냅니다. 보통은 관찰을 통해서 특정 사건에 개념적으로 정의를 내립니다. 공을 손에서 놓으면 떨어진다, 새는 날개를 펄럭이며 날아간다 같은 상식을 구축하는데 필수적입니다.
문제는 기계가 스스로 라벨을 만들도록 하기 어렵다는 점입니다. 지금은 문장에서 빈칸의 단어를 맞추거나(BERT), 이미지를 변형하여 원본과 비슷한지 판단하는(contrastive learning) 간단한 방법만 사용하고 있습니다. 앞으로 라벨을 부여하는 기술이 자기지도학습의 핵심이 될 것 같습니다.