메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

강규철 (한양대학교, 한양대학교 대학원)

지도교수
권태수
발행연도
2020
저작권
한양대학교 논문은 저작권에 의해 보호받습니다.

이용수11

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
물리 환경에서의 보행동작 제어는 지속적으로 연구되어왔던 도전적인 주제이며, 그제어방법에도 다양한 방법론이 있다. 최근엔 심층 강화학습을 통하여 보행동작을 제어하는 연구가 활발하다. 그러나 단순히 심층 강화학습을 통해 학습된 보행 동작은 기괴한 모습을 보이는 경우가 많으며, 기존의 방법론인 모션 데이터를 사용하는 방법에 심층 강화학습을 결합한 연구는 자연스러운 동작을 학습할 수 있으나 하나의 레퍼 런스 모션에서 크게 벗어나지 못한다는 단점이 있다. 그래서 이 연구에선 다양한 보행 제어 방법 중, 유한 상태 기계를 사용한 보행 제어기에 심층 강화 학습을 결합하여 비교적 자연스러우며 넓은 범위의 견고한 보행 동작을 생성하고 제어할 수 있는 보행동작 제어기를 제안한다.
본 연구에서 제안하는 보행동작 제어기는 레퍼런스 모션이 없이도 기존 심층 강화 학습만을 사용하여 학습된 보행동작보다 상대적으로 자연스러운 모션을 학습할 수 있으며, 종종 걸음에서 긴 보폭의 걸음까지 넓은 범위의 견고한 보행 동작을 생성하고 실시간으로 보행 동작을 변경 가능하다는 장점이 있다. 또한 유한 상태 기계를 사용한 보행 동작 제어의 단점인 상태 기계의 수동 최적화를 심층 강화 학습을 통해 수행 함으로써 비용이 줄어든다는 장점도 가진다.
이 연구에서는 이 제어기를 학습하기 위해 보행 동작의 상태에 따라 강화 학습 정책 에서의 행동의 범위를 달리하는 방식을 제안하고, 기존 보행 동작 컨트롤에서 사용하는 균형 제어 전략의 일부를 심층 강화 학습으로 대신할 수 있음을 제시한다.
이러한 방법이 효과가 있음을 증명하기 위하여 물리 환경에서 제시한 학습 방법을 통해 3D 인간형 로봇 캐릭터를 학습하여 넓은 범위의 보행 동작을 생성하고, 실시간 으로 제어할 수 있음을 결과에서 보인다. 추가적으로 제시한 방법을 사용하지 않은 학습 결과와의 비교 또한 제시한다.

목차

제1장 서 론 1
1.1 연구의 필요성 1
제2장 관련 연구 3
2.1 물리 기반 캐릭터 제어 3
2.2 심층 강화 학습 3
제3장 본 문 5
3.1 유한 상태 기반 보행 제어기 5
3.1.1 SIMBICON 5
3.1.2 SIMBICON을 이용한 강화 학습 환경 8
3.2 강화 학습 11
3.2.1 마르코프 결정과정 11
3.2.2 심층 강화 학습 알고리즘 12
3.2.3 PPO(proximal policy optimization) 12
3.3 학습 방식 14
3.3.1 정책 표현 15
3.3.2 매개변수 설정 16
3.3.3 행동 값 제한 18
3.3.4 Early Termination 18
3.3.5 매개변수 범위 설정 19
제4장 결 과 21
4.1 보행 동작 생성 21
4.2 기존 방식을 사용한 학습과의 결과 비교 22
제 5장 결 론 26
참고문헌 27
ABSTRACT 29
감사의 글 30
연구윤리서약서 (국문) 31
연구윤리서약서 (영문) 32

최근 본 자료

전체보기

댓글(0)

0