메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

조영수 (경기대학교, 경기대학교 대학원)

지도교수
김인철
발행연도
2020
저작권
경기대학교 논문은 저작권에 의해 보호받습니다.

이용수0

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
본 논문에서는 영상 기반 대화(Visual Dialog)의 다양한 문제를 해결하기 위한 새로운 모듈 신경망(Neural Module Network, NMN) 모델을 제안한다. 영상 기반 대화는 하나의 영상과 그 영상에 관한 설명문(caption)을 기반으로 연속적으로 주어지는 질문에 가장 올바른 답변을 생성하는 연구이다. 영상 기반 대화는 시각 및 언어적 측면에서, 자연어 질문에서 언급된 개체(entity)들이 영상의 어떤 물체와 연관 지어 이해해야 하는가에 관한 시각적 접지(visual grounding) 문제와 새로운 질문에 포함된 명사구(noun phrase)나 대명사(pronoun)가 과거 대화 이력에서 등장한 어떤 개체(entity)를 가리키며, 영상에서 어떤 물체를 의미하는지 알아내야 하는 시각적 상호 참조 해소(visual co-reference resolution) 문제를 갖는다. 또한, 구조적 측면에서는 다양한 질문 유형들을 단일 신경망(single monolithic network) 모델을 통해 처리하는 단일 구조(monolithic structure) 문제를 갖는다. 본 논문에서는 이러한 문제들을 해결하기 위해 질문 맞춤형 모듈 신경망 모델을 채택하고, 시각적 상호 참조 해소 문제를 위한 새로운 방식의 참조 풀(Reference Pool)과 참조(Refer) 모듈, 비교 질문들에 효과적으로 답하기 위한 비교(Compare) 모듈, 그리고 삼중 주의 집중 메커니즘(triple attention mechanism)을 적용한 탐지(Find) 모듈을 제안한다. 또한, 모델의 성능 향상을 위해 비인칭 대명사(impersonality pronoun) ‘it’을 별도로 처리하는 방법을 제안한다. 대규모 벤치마크 데이터 집합인 VisDial v0.9를 이용한 다양한 실험들을 통해, 본 논문에서 제안한 모델의 높은 성능을 확인할 수 있었다.

목차

제 1 장 서 론 1
제 1 절 연구 배경 1
제 2 절 연구 목표 3
제 2 장 이론적 배경 5
제 1 절 영상 기반 질문-응답 5
제 2 절 영상 기반 대화 7
제 3 절 모듈 신경망 9
제 3 장 모듈 신경망 모델 11
제 1 절 모델 개요 11
제 2 절 참조 모듈 16
제 3 절 비인칭 대명사 18
제 4 절 비교 모듈 20
제 5 절 탐지 모듈 21
제 4 장 구현 및 실험 22
제 1 절 데이터 집합과 모델 학습 22
제 2 절 모듈 신경망 모델 성능 분석 24
제 1 항 모듈별 성능 평가 24
제 2 항 최신 모델들과의 성능 비교 29
제 5 장 결론 및 향후 연구 31
참고문헌 32
Abstract 36

최근 본 자료

전체보기

댓글(0)

0