메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

현수종 (인하대학교, 인하대학교 대학원)

지도교수
유창경
발행연도
2022
저작권
인하대학교 논문은 저작권에 의해 보호받습니다.

이용수96

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
최근 무인기에 관한 연구가 활발히 이루어짐에 따라 강화학습을 무인기 경로계획에 적용하는 연구가 증가하고 있다. 이를 위해 다양한 강화학습 알고리즘을 적용하여 경로점이나 전역 경로를 산출하는 연구가 많이 진행되었다. 대부분의 경로계획에 적용된 강화학습 알고리즘은 이산화된 행동을 사용하는 알고리즘을 이용하거나 하나의 학습된 모델로 단일 지형에 대한 경로계획을 수행한다. 따라서 다양한 범위의 지형에 대해서 강건성이 부족하거나 새로 학습을 해야 하는 경우가 존재한다. 또한, 장애물의 위치가 변할 경우 대처하기가 어려운 문제가 발생한다.
본 논문에서는 무인기 경로계획을 위해 무인기의 상태를 이용하여 심층 강화학습 기법을 적용한 2차원 경로 계획을 수행하는 방법을 제안한다. 제안한 방식을 통해 무인기의 출발 지점과 도착 지점을 잇는 시선 벡터를 정의하여 이를 기준으로 선정한 행동을 이용해 경로점을 생성하도록 학습을 진행한다. 제안된 행동 방식은 구현이 간단하고 직관적인 형태로 구성되어 있으며 장애물과 현재 무인기의 위치가 가까운 경우를 상태로 정의하여 임의의 장애물 위치와 크기에 대해 경로점 생성이 가능하다. 장애물과 도착 지점의 위치가 임의로 지정된 상태로 학습이 진행되며 장애물의 최대 개수는 고정이며 원의 형상을 항상 유지하도록 설정하였다. 심층 강화학습 기법 중 연속적인 행동 공간을 다룰 수 있는 SAC 알고리즘을 사용하여 최적의 학습 파라미터 및 보상 설정을 연구하였다. 학습된 모델을 통해 여러 환경에 대한 결과를 분석하였다.

목차

제 1 장. 연구 개요 1
1.1 연구배경 1
1.2 관련 연구 사례 4
1.2.1 기존 무인기 경로계획 기법 4
1.2.2 강화학습 기반 무인기 경로계획 5
1.3 연구내용 및 의의 7
1.4 논문 구성 9
제 2 장. 심층 강화학습 기법 10
2.1 강화학습 10
2.1.1 강화학습 개요 10
2.1.2 마르코프 결정 과정 (MDP, Markov Decision Process) 12
2.1.3 벨만 방정식 15
2.1.4 Q-learning 16
2.2 심층 강화학습 17
2.2.1 심층 강화학습 개요 17
2.2.2 DQN(Deep Q-Network) 18
2.2.3 DDPG(Deep Deterministic Policy Gradient) 20
2.3 SAC(Soft Actor-Critic) 23
2.3.1 SAC 개요 23
2.3.2 엔트로피 목적 함수 23
2.3.3 소프트 벨만 방정식 24
2.3.4 소프트 정책 반복 27
2.3.5 SAC 기법 28
제 3 장. 학습 기반 경로 계획 문제 정식화 30
3.1 환경(Environment) 30
3.2 관측 상태(Observation State) 32
3.3 행동(Action) 34
3.4 보상(Reward) 35
3.5 학습 환경 구성 38
제 4 장. 시뮬레이션 결과 40
4.1 학습 시뮬레이션 환경 40
4.2 학습 결과 41
4.3 정적 장애물 환경 시뮬레이션 결과 43
4.4 동적 장애물 환경 시뮬레이션 결과 46
제 5 장. 결론 48
참고문헌 50

최근 본 자료

전체보기

댓글(0)

0