글 수 502
http://www.ciokorea.com/news/168215
"이러한 인공지능 기반의 자동캡션 기능은 활용 분야가 다양하고 필요성도 계속해서 증가하고 있다. 예를 들어 웹이나 소셜 미디어, 전자 문서 등에 첨부된 이미지에는 대체 텍스트를 포함하는 것으로 접근성을 크게 높일 수 있다. 그래서 시각 장애인이 콘텐츠에 접근하고 이해하는 데 대체 텍스트는 필수적인 요소다. 사진이 제대로 표시되지 않는 상황에서 사진의 내용 짐작할 수 있도록 해주고, 정확한 검색 결과를 출력하기 위해서도 반드시 필요하다."
MS가 이미지 캡션 기술을 계속 발전시키고 있습니다. 예전에 비해 좀 더 세부적으로 설명이 가능하다고 합니다. Seeing AI라는 앱에서 직접 사용해보실 수 있습니다. 현재 안드로이드는 없고 아이폰 앱만 존재합니다.
보통 이런 Image2Text는 두 가지 모델을 결합하여 구현합니다. 이미지를 먼저 CNN으로 분석하고, 그 출력을 다시 Seq2Seq나 트랜스포머로 넣어 문장을 생성합니다. 페이페이 리의 TED 영상(https://www.youtube.com/watch?v=40riCqvRoMs)을 참고하시기 바랍니다.
< Seeing AI >
- https://apps.apple.com/us/app/seeing-ai/id999062298