딥러닝 - OpenAI의 CLIP을 한글로 구현한 KoCLIP

글 수 208

OpenAI의 CLIP을 한글로 구현한 KoCLIP

조회 수 3656 추천 수 0 2021.11.02 16:38:13

깊은바다 *.106.133.224 https://aidev.co.kr/10865

OpenAI에서 발표한 CLIP을 한글로 구현한 KoCLIP을 소개해드립니다. 보통 이미지 분류는 사진을 각 클래스로 예측합니다. 예를 들어, 10개의 클래스라면 0은 강아지, 1은 고양이, 이런 식으로 구분합니다.

반면에 CLIP은 사진과 그 사진의 캡션문장을 학습 데이터로 사용합니다. 고양이 사진을 벡터로 변환하고, '이것은 고양이에요'라는 문장을 다른 벡터로 변환합니다. 그리고 두 벡터가 유사해지도록 학습을 수행합니다.

특이한 점은 클래스 개수가 미리 정해지지 않았다는 것입니다. 예측할 때 원하는 만큼 클래스의 문장을 만들면 됩니다. 사진을 보면 '이것은 고양이', '이것은 강아지', '이것은 햄스터'라고 문장을 직접 입력합니다. 그러면 입력 사진의 벡터와 각 클래스 문장의 벡터를 비교하여 가장 유사한 클래스를 선택합니다.

꼭 분류에만 CLIP을 사용하진 않습니다. 문장으로 사진을 검색할수도 있습니다. 미리 모든 사진을 벡터로 변환해 놓고, 검색 문장의 벡터와 가장 비슷한 사진 벡터를 찾으면 됩니다. '바다에 떠있는 배'라고 입력하면 그와 유사한 형태의 사진을 보여줍니다.

현재 OpenAI가 공개한 CLIP의 모델 파라미터는 BERT base와 비슷한 약 150M입니다. 만약 거대모델 크기로 CLIP을 만든다면 어느 정도의 성능이 나올까요. GPT-3처럼 이미지 분류도 곧 제로샷으로 하는 날이 올지도 모르겠네요.

< KoCLIP 데모 >

https://huggingface.co/spaces/flax-community/koclip

< CLIP 설명 >

http://aidev.co.kr/deeplearning/10254

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
CLIP을 사용하여 말로 그림을 그려주는 스마트폰 앱 - WOMBO Dream	깊은바다	2021-11-25	2049
내가 말하는 걸 보여줘, DALL-E	깊은바다	2021-11-11	1322
텍스트를 이미지로 생성해주는 사이트 - Text2Art (VQGAN-CLIP)	깊은바다	2021-11-10	7441
원티드는 어떻게 AI로 채용 결과를 예측하고 매칭할까	깊은바다	2021-11-09	1236
OpenAI의 CLIP을 한글로 구현한 KoCLIP	깊은바다	2021-11-02	3656
인공지능 과학자의 꿈, 범용 AI는 가능할까	깊은바다	2021-10-15	1138
딥러닝 범용 모델 - Foundation Models	깊은바다	2021-09-06	1599
소프트웨어 개발 경험이 먼저다 - 딥러닝 역시 S/W 기술의 하나일 뿐	깊은바다	2021-07-14	1178
제프리 힌튼, 얀 르쿤, 요슈아 벤지오가 말하는 딥러닝의 미래	깊은바다	2021-07-08	1180
OpenAI의 CLIP을 사용해서 자연어로 유튜브 영상 검색	깊은바다	2021-07-05	1484
스케치를 사진으로 바꾸어주는 프로그램 - NVIDIA CANVAS	깊은바다	2021-06-25	890
한 단어만으로 텍스트 스타일을 바꿔주는 딥러닝 모델 - TextStyleBrush	깊은바다	2021-06-24	923
GameGAN으로 직접 화면을 생성하는 GTA5 게임	깊은바다	2021-06-20	873
Transformer와 동급의 성능에 속도는 훨씬 빨라진 MLP-Mixer	깊은바다	2021-06-11	1845
GAN으로 얼굴사진을 생성하는 사이트 - Face Generator	깊은바다	2021-04-28	3179

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지