딥러닝 - 문장을 사진으로 변환하는 GPT-3 모델, DALL-E

글 수 204

문장을 사진으로 변환하는 GPT-3 모델, DALL-E

조회 수 986 추천 수 0 2021.01.09 16:29:54

깊은바다 *.52.246.214 http://aidev.co.kr/10073

DALL·E가 '오픈AI가 적힌 작은 간판'이라는 주문에 따라 만든 이미지(사진=오픈AI 블로그)

http://www.aitimes.com/news/articleView.html?idxno=135460

문장을 이미지로 변환하는 딥러닝은 예전부터 계속 연구되어 왔던 분야입니다. 대표적으로 StackGAN(http://aidev.co.kr/chatbotdeeplearning/5894)을 들 수 있습니다. 작년 9월에 앨런 AI연구소에서 발표한 X-LXMERT(https://prior.allenai.org/projects/x-lxmert)가 가장 뛰어난 성능을 보였습니다. 하지만 아직 사진의 품질이 매우 떨어지는 편이었습니다.

얼마 전 OpenAI가 공개한 DALL-E는 오직 트랜스포머 구조만 사용한 모델입니다. GPT-3를 약간 수정했는데요. GPT-3는 문장을 넣으면 문장이 나오지만, DALL-E는 사진이 출력되도록 훈련했습니다. 보시는 바와 같이 놀랄 만한 수준의 이미지들을 생성하고 있습니다. 훈련한 데이터에 없을 것 같은 특이한 문장도 상당히 정확하게 사진으로 만들어 냅니다. 예를 들어, 'OpenAI가 적힌 간판'은 실제로는 없는 데이터입니다. 하지만 그 뜻을 이해하여 기존 간판의 이미지와 OpenAI라는 이미지를 조합하여 하나의 사진으로 합성합니다.

지금까지 딥러닝 모델들은 그 용도에 따라 각각 다른 구조를 가지고 있었습니다. 이미지 인식은 CNN, 이미지 생성은 GAN, 자연어처리는 LSTM이 대표적입니다. 트랜스포머는 처음 자연어처리에서 시작되었지만 지금은 이미지 인식에도 CNN을 능가할 정도입니다. 이젠 이미지 생성도 GAN을 대체하고 있습니다. 앞으로 정말 트랜스포머가 딥러닝을 통일하는 날이 오게 될까요.

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
미드저니로 생성한 90년대 중국 사진들 - 콘텐츠 산업의 혁신	깊은바다	2023-03-30	773
딥러닝 이론에서 텐서플로 실습까지 [2]	깊은바다	2017-11-08	786
Stable Diffusion을 사용한 사진 변환 앱 Lensa AI, 앱스토어 1위 달성	깊은바다	2022-12-09	786
사진을 텍스트로 설명 - CaptionBot	깊은바다	2016-04-07	795
AutoML-Zero, 진화적 알고리즘을 사용하여 신경망 구조 설계 [2]	깊은바다	2020-03-13	820
당근마켓에서 딥러닝 활용하기 - 불량 게시물 검사	깊은바다	2017-12-23	821
자동회귀(autoregressive)로 이미지를 생성하는 iGPT	깊은바다	2020-06-18	821
전신 사진을 생성하는 GAN	깊은바다	2019-05-05	832
알렉스넷과 Seq2Seq의 창시자 일리야 수츠케버(Ilya Sutskever)	깊은바다	2020-11-17	832
어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? - 기계독해(MRC)	깊은바다	2020-01-14	836
앤드류 응의 YOLO 강의 영상	깊은바다	2020-09-23	838
3D 이미지를 만드는 GAN - StyleNeRF	깊은바다	2021-12-20	843
소프트웨어 2.0	깊은바다	2018-08-14	847
고해상도 GAN - A Style-Based Generator Architecture for GAN	깊은바다	2018-12-15	849
인공지능 과학자의 꿈, 범용 AI는 가능할까	깊은바다	2021-10-15	866

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지