레플리
글 수 203

문장을 사진으로 변환하는 GPT-3 모델, DALL-E

조회 수 985 추천 수 0 2021.01.09 16:29:54


DALL·E가 '오픈AI가 적힌 작은 간판'이라는 주문에 따라 만든 이미지(사진=오픈AI 블로그)

 

http://www.aitimes.com/news/articleView.html?idxno=135460

 

 

 

문장을 이미지로 변환하는 딥러닝은 예전부터 계속 연구되어 왔던 분야입니다. 대표적으로 StackGAN(http://aidev.co.kr/chatbotdeeplearning/5894)을 들 수 있습니다. 작년 9월에 앨런 AI연구소에서 발표한 X-LXMERT(https://prior.allenai.org/projects/x-lxmert)가 가장 뛰어난 성능을 보였습니다. 하지만 아직 사진의 품질이 매우 떨어지는 편이었습니다.

 

얼마 전 OpenAI가 공개한 DALL-E는 오직 트랜스포머 구조만 사용한 모델입니다. GPT-3를 약간 수정했는데요. GPT-3는 문장을 넣으면 문장이 나오지만, DALL-E는 사진이 출력되도록 훈련했습니다. 보시는 바와 같이 놀랄 만한 수준의 이미지들을 생성하고 있습니다. 훈련한 데이터에 없을 것 같은 특이한 문장도 상당히 정확하게 사진으로 만들어 냅니다. 예를 들어, 'OpenAI가 적힌 간판'은 실제로는 없는 데이터입니다. 하지만 그 뜻을 이해하여 기존 간판의 이미지와 OpenAI라는 이미지를 조합하여 하나의 사진으로 합성합니다.

 

지금까지 딥러닝 모델들은 그 용도에 따라 각각 다른 구조를 가지고 있었습니다. 이미지 인식은 CNN, 이미지 생성은 GAN, 자연어처리는 LSTM이 대표적입니다. 트랜스포머는 처음 자연어처리에서 시작되었지만 지금은 이미지 인식에도 CNN을 능가할 정도입니다. 이젠 이미지 생성도 GAN을 대체하고 있습니다. 앞으로 정말 트랜스포머가 딥러닝을 통일하는 날이 오게 될까요.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
스케치를 사진으로 변환하는 딥러닝 - NVIDIA의 GauGAN 깊은바다 2019-03-20 968
95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유 file [2] 깊은바다 2023-12-24 976
문장을 사진으로 변환하는 GPT-3 모델, DALL-E 깊은바다 2021-01-09 985
어떻게 컴퓨터가 사진을 이해하게 되었는가 깊은바다 2017-03-31 995
딥러닝(Deep Learning)에 대한 소개 깊은바다 2016-03-21 1000
GAN으로 사진에서 특정 부분을 지워주는 서비스 - Cleanup.pictures file 깊은바다 2022-01-17 1026
메타AI의 멀티모달 자기지도학습 모델인 Data2vec 깊은바다 2022-01-26 1032
CNN 초보자가 만드는 초보자 가이드 깊은바다 2017-04-09 1041
인공신경망 학습 레시피 - 안드레이 카파시의 딥러닝 실전 노하우 깊은바다 2019-04-27 1052
내가 말하는 걸 보여줘, DALL-E 깊은바다 2021-11-11 1062
말로 영상을 생성하는 딥러닝 모델 - CogVideo file 깊은바다 2022-05-30 1071
OpenAI의 CLIP을 사용해서 자연어로 유튜브 영상 검색 깊은바다 2021-07-05 1096
최초로 인간 수준의 크기를 가진 중국의 딥러닝 모델 - BaGuaLu file 깊은바다 2022-06-23 1117
10분안에 배우는 머신러닝 - GAN 알고리즘 원리와 응용분야 깊은바다 2019-04-01 1131
Stable Diffusion으로 만든 뮤직비디오 영상 깊은바다 2022-09-25 1136