메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

안다솜 (계명대학교, 계명대학교 대학원)

지도교수
남재열, 고병철
발행연도
2023
저작권
계명대학교 논문은 저작권에 의해 보호받습니다.

이용수7

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
본 논문에서는 시공간 교차 주의 메커니즘과 다중 표현 학습 기반의 새로운 행동 인식 알고리즘을 제안한다. 최근 컴퓨터 비전분야에서 각광 받고 있는 비전 트랜스포머 모델은 자기 주의 (Self-attention) 메커니즘을 바탕으로 기존 CNN (Convolution Neural Network)기반 영상 인식 모델 의 성능을 크게 상회하는 결과를 보여주고 있다. 하지만 자기 주의 메커니즘은 오로지 공간 차원의 특징만을 고려해 설계되었기 때문에 행동 인식과 같은 시간 차원의 특징이 중요한 작업에는 부적합하다. 따라서, 본 논문에 서는 행동 인식을 위해 기존 트랜스포머 모델 특징들의 시공간적 관계를 함께 학습할 수 있도록 트랜스포머와 시공간 교차 주의 메커니즘을 결합한 STAR (Spatio-TemporAl cRoss-attention) 트랜스포머를 새롭게 제안 한다. 제안하는 방법은 입력 영상과 골격 정보 (Skeleton)를 유연하게 결합하기 위해 다중 클래스 토큰을 사용하는 다중 표현 학습을 제안한다. 결합된 서로 다른 도메인 정보는 시공간적 특징 관계를 학습할 수 있도록 인코더와 디코더로 구성되어있는 STAR 트랜스포머에 입력된다. STAR 트랜스포머의 인코더는 전체 시공간 주의(FAttn) 모듈과 제안된 지그재그 시공 간 주의(ZAttn) 모듈로 구성되어 있으며 세밀한(Fine-grained) 행동 관계를 학습한다. 디코더는 FAttn 모듈과 제안된 이진 시공간 주의(BAttn) 모듈로 구성되어 간격이 넓은(Coarse-grained) 행동 관계를 학습한다. 결과적으로 STAR 트랜스포머는 FAttn, ZAttn 및 BAttn 를 사용해 효율적으 로 시공간 특징 및 다중 기능 표현을 학습할 수 있다. 제안하는 방법은 행동인식 벤치마크 데이터셋인 Penn-Action, NTU-RGB+D 60 및 120을 사용한 실험에서 다른 최신 방법들보다 우수한 성능을 보임을 입증했다.

목차

1. Introduction 1
2. Related Work 4
2.1. Video and image-based action recognition 4
2.2. Skeleton-based action recognition 4
2.3. Video and skeleton-based action recognition 4
2.4. Transformer-based action recognition 5
3. Preliminary 6
4. Approach 8
4.1. Cross-Modal Learning 8
4.2. Spatio-temporal cross attention 13
4.3. STAR-transformer encoder and decoder 14
5. Experimental Results 17
5.1. Experiment Setup 17
5.2. Comparison with State-of-the-art Methods 18
5.3. Ablation Study 21
6. Conclusion 29
References 30
Abstract 38
Abstract - Korean 40

최근 본 자료

전체보기

댓글(0)

0