레플리
글 수 203

문장을 사진으로 변환하는 GPT-3 모델, DALL-E

조회 수 984 추천 수 0 2021.01.09 16:29:54


DALL·E가 '오픈AI가 적힌 작은 간판'이라는 주문에 따라 만든 이미지(사진=오픈AI 블로그)

 

http://www.aitimes.com/news/articleView.html?idxno=135460

 

 

 

문장을 이미지로 변환하는 딥러닝은 예전부터 계속 연구되어 왔던 분야입니다. 대표적으로 StackGAN(http://aidev.co.kr/chatbotdeeplearning/5894)을 들 수 있습니다. 작년 9월에 앨런 AI연구소에서 발표한 X-LXMERT(https://prior.allenai.org/projects/x-lxmert)가 가장 뛰어난 성능을 보였습니다. 하지만 아직 사진의 품질이 매우 떨어지는 편이었습니다.

 

얼마 전 OpenAI가 공개한 DALL-E는 오직 트랜스포머 구조만 사용한 모델입니다. GPT-3를 약간 수정했는데요. GPT-3는 문장을 넣으면 문장이 나오지만, DALL-E는 사진이 출력되도록 훈련했습니다. 보시는 바와 같이 놀랄 만한 수준의 이미지들을 생성하고 있습니다. 훈련한 데이터에 없을 것 같은 특이한 문장도 상당히 정확하게 사진으로 만들어 냅니다. 예를 들어, 'OpenAI가 적힌 간판'은 실제로는 없는 데이터입니다. 하지만 그 뜻을 이해하여 기존 간판의 이미지와 OpenAI라는 이미지를 조합하여 하나의 사진으로 합성합니다.

 

지금까지 딥러닝 모델들은 그 용도에 따라 각각 다른 구조를 가지고 있었습니다. 이미지 인식은 CNN, 이미지 생성은 GAN, 자연어처리는 LSTM이 대표적입니다. 트랜스포머는 처음 자연어처리에서 시작되었지만 지금은 이미지 인식에도 CNN을 능가할 정도입니다. 이젠 이미지 생성도 GAN을 대체하고 있습니다. 앞으로 정말 트랜스포머가 딥러닝을 통일하는 날이 오게 될까요.

 

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
GAN의 상용화를 알리는 시작 - 포토샵 뉴럴 필터 깊은바다 2020-10-22 884
GAN을 이용한 염색 및 헤어 스타일 합성 - 꽤 GAN찮은 헤어살롱 깊은바다 2020-10-29 2817
알렉스넷과 Seq2Seq의 창시자 일리야 수츠케버(Ilya Sutskever) 깊은바다 2020-11-17 831
GAN으로 만든 얼굴을 테스트할 수 있는 뉴욕타임스의 기사 file 깊은바다 2020-11-24 679
문장을 사진으로 변환하는 GPT-3 모델, DALL-E 깊은바다 2021-01-09 984
톰 크루즈의 딥페이크 영상 file 깊은바다 2021-02-28 669
사진 한 장으로 움직이는 얼굴을 만드는 사이트 - Deep Nostalgia 깊은바다 2021-03-01 4274
이젠 모델 구축도 학습도 필요없다, OpenAI의 이미지인식 모델 CLIP file 깊은바다 2021-03-07 4342
스냅챕의 디즈니 필터 깊은바다 2021-03-12 529
뉴런 하나로 특정 개념을 표현한다, CLIP 모델에서 개념 뉴런을 발견 file 깊은바다 2021-03-12 573
딥러닝의 창시자인 제프리 힌튼이 구글에 합류하게 된 스토리 깊은바다 2021-03-18 418
GPT-3로 광고문구를 만드는 서비스 - Copy.ai 깊은바다 2021-03-22 648
말로 설명하여 이미지를 변형하는 GAN - StyleCLIP file 깊은바다 2021-04-04 1817
GAN으로 얼굴사진을 생성하는 사이트 - Face Generator file 깊은바다 2021-04-28 2792
Transformer와 동급의 성능에 속도는 훨씬 빨라진 MLP-Mixer file 깊은바다 2021-06-11 1437