메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
강이삭 (서울대학교) 조남익 (서울대학교)
저널정보
한국방송·미디어공학회 한국방송미디어공학회 학술발표대회 논문집 한국방송·미디어공학회 2024 추계학술대회
발행연도
2024.11
수록면
158 - 161 (4page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
본 논문에서는 최근 장면 텍스트 인식 연구 분야에서 널리 사용되는 PARSeq 의 decoder 구조가 순서가 변동 가능한 operation 들로 이루어져 있다는 사실에 착안하여, position feature 를 query 로 했을 때 language feature 와 vision feature 에 대한 cross-attention, 그리고 feed-forward 의 순서 변동이 decoder 의 성능 변화에 미치는 영향을 탐색하였다. 실험 결과 operation 의 순서를 변동한 다른 decoder 구조들에 비해 기존의 PARSeq decoder 의 구조가 가장 우수함을 확인하였으며, 특히 language feature 에 대한 cross-attention 이 vision feature 에 대한 cross-attention 보다 선행되는 것이 중요함을 실험적으로 확인하였다.

목차

요약
1. 서론
2. 사전 연구
3. 실험 방법
4. 실험 결과 및 해석
5. 결론
참고 문헌

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

최근 본 자료

전체보기

댓글(0)

0