메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

지창훈 (한국기술교육대학교, 한국기술교육대학교 일반대학원)

지도교수
한연희
발행연도
2023
저작권
한국기술교육대학교 논문은 저작권에 의해 보호받습니다.

이용수10

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
최근 다양한 분야에서 강화학습을 활용하여 정밀 제어에 성공하는 사례가 많아지고 있다. 하지만 강화학습은 학습 초반에 무작위 행동을 통해 학습이 진행되는 특징을 가지고 있다. 이런 강화학습의 특징은 제어 대상에게 과부하를 주고, 필요 없는 에너지 소비를 유발하는 등 실제 환경에서의 적용을 어렵게 한다. 이를 해결하기 위해 강화학습에서는 학습에 필요한 샘플 (Sample)의 수를 최소화시키는 방법이 연구되고 있는데, 이런 연구들의 일환으로 모델 기반 강화학습이 연구되고 있다. 모델 기반 강화학습은 환경 모델과 계획을 통해 행동을 추출하는 강화학습의 한 종류로 학습에 필요한 샘플의 수를 최소화시킬 수 있는 장점이 있다. 모델 기반 강화학습에서 높은 성능을 가지고 있는 알고리즘 중 하나로 모델 예측 제어를 위한 시간차 학습(Temporal Difference Learning for Model Predictive Control, TD-MPC)이 있다. TD-MPC 는 학습 과정에서 모델 기반 정책과 모델 프리 정책을 학습한다. 하지만 모델 프리 정책으로부터 추출된 행동은 환경에 적용되지 않고, 모델 기반 정책으로부터 추출된 행동만 환경에 적용 한다. 이런 행동 적용 방법은 더 좋은 행동 선택의 기회를 스스로 없애는 것과 같다.
본 논문에서는 TD-MPC를 토대로 모델 기반 정책과 모델 프리 정책 중 더 좋은 정책의 행동을 환경에 적용하는 이중 정책 TD-MPC를 제안한다. 또한 호기심 기반(Curiosity-driven)으로 탐험을 장려하여 이중 정책 활용 시 발생할 수 있는 탐험-활용의 불균형을 해결하였다. 새롭게 제안하는 강화학습 알고리즘은 기존 TD-MPC에 비해 추가적인 심층 신경망과 계산복잡도 없이 구성되었다. 비교실험은 정밀 제어 시뮬레이션의 벤치마크에 해당하는 DeepMind Control Suite에서 진행하며, 다수의 환경에서 제안하는 알고리즘이 기존의 TD-MPC보다 높은 샘플 효율성과 높은 성능을 가지고 있음을 확인한다.

목차

제1장 서론 1
제1절. 연구목적과 연구방법론 1
제2절. 논문 구성 3
제2장 관련 연구 4
제1절. 모델 기반 강화학습 4
1. 강화학습 4
2. 모델 기반 강화학습 5
제2절. 호기심 기반 강화학습 6
제3절. 모델 예측 제어를 위한 시간차 학습 7
1. 전역적인 해결책을 위한 모델 예측 제어 8
2. 모델 업데이트 10
3. 잠재 상태의 일관성 11
4. TD-MPC의 정책 11
제3장 제안하는 강화학습 알고리즘 13
제1절. 이중 정책을 통한 행동 선택 13
제2절. 호기심 기반 탐험 장려 19
제3절. 모델 업데이트 21
제4절. 의사 코드 및 개요도 22
제4장 실험 24
제1절. DeepMind Control Suite 24
제2절. 비교실험 결과 24
1. Reacher 25
2. Fish 26
3. Hopper 27
4. Cart-k-pole 28
5. Finger 30
6. Humanoid 31
7. Quadruped 34
8. Swimmer 35
제5장 결론 37
제1절. 정리 37
참고문헌 38
ABSTRACT 41

최근 본 자료

전체보기

댓글(0)

0