메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
명세민 (경북대학교) 강다빈 (경북대학교) 송채영 (경북대학교) 홍정훈 (경북대학교) 박상효 (경북대학교)
저널정보
한국방송·미디어공학회 방송공학회논문지 방송공학회논문지 제29권 제6호
발행연도
2024.11
수록면
1,043 - 1,055 (13page)
DOI
10.5909/JBE.2024.29.6.1043

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
Text-to-image 생성 모델의 발달로 텍스트에 일치하는 이미지를 만드는 것이 가능하게 되었으나, 이러한 모델을 현실 세계에 바로 적용하기에는 여전히 고려해야 할 요소들이 존재한다. 특히 소설과 같이 긴 문장과 여러 단원으로 구성된 이야기에 대한 삽화를 생성하고자 할 경우 해당 매체가 가지는 특성을 반영하는 것이 중요하다. 따라서 본 논문은 Text-to-image 생성 모델을 활용하여 이야기에 대한 삽화를 생성하는 프레임워크를 제안한다. 프레임워크는 대규모 언어 모델을 사용하여 긴 문장을 요약하고, 자동화된 방식으로 사전에 구축된 장르별 데이터 셋에 기반한 Text-to-image 검색 및 스타일이 일관된 이미지 생성 방법을 통해 이야기에 대한 여러 장의 삽화를 생성한다. 최종적으로, 우리는 제안된 프레임워크와 기존 Text-to-image 생성 모델을 사용하는 경우를 정량적 및 정성적으로 분석하여, 제안된 프레임워크가 이야기에 대한 삽화 제작에 있어 유효함을 입증한다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
III. 제안방법
Ⅳ. 실험
Ⅴ. 한계점
Ⅵ. 결론
참고문헌 (References)

참고문헌 (22)

참고문헌 신청
R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, LA, USA, pp.10684-10695, 2022. doi: https://doi.org/10.1109/CVPR52688.2022.01042 google schola C. Saharia, W. Chan, S. Saxena, L. Li, J. Whang, E. Denton, S. K. S. Ghasemipour, B. Karagol Ayan, S. S. Mahdavi, R. Gontijo-Lopes, T. Salimans, J. Ho, D. J. Fleet, M. Norouzi, “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding,” Advances in Neural Information Processing Systems, pp.36479-36494, 2022. doi: https://doi.org/10.48550/arXiv.2205.11487 google schola A. Nichol, P. Dhariwal, A. Ramesh, P. Shyam, P. Mishkin, B. McGrew, I. Sutskever, and M. Chen, “Glide: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models,” arXiv preprint arXiv:2112.10741, 2021. doi: https://doi.org/10.48550/arXiv.2112.10741 google schola D. Podell, Z. English, K. Lacey, A. Blattmann, T. Dockhorn, J. Müller, J. Penna, and R. Rombach, “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis,” International Conference on Learning Representations, Vienna, Austria, 2024. doi: https://doi.org/10.48550/arXiv.2307.01952 google schola V. Liu, H. Qiao, and L. Chilton, “Opal: Multimodal Image Generation for News Illustration,” Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology (Bend, OR, USA), Association for Computing Machinery, New York, NY, USA, Article 73, pp.1-17, 2022. doi: https://doi.org/10.1145/3526113.3545621 google schola

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-151-25-02-091185848