지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
이용수96
제 1 장. 연구 개요 11.1 연구배경 11.2 관련 연구 사례 41.2.1 기존 무인기 경로계획 기법 41.2.2 강화학습 기반 무인기 경로계획 51.3 연구내용 및 의의 71.4 논문 구성 9제 2 장. 심층 강화학습 기법 102.1 강화학습 102.1.1 강화학습 개요 102.1.2 마르코프 결정 과정 (MDP, Markov Decision Process) 122.1.3 벨만 방정식 152.1.4 Q-learning 162.2 심층 강화학습 172.2.1 심층 강화학습 개요 172.2.2 DQN(Deep Q-Network) 182.2.3 DDPG(Deep Deterministic Policy Gradient) 202.3 SAC(Soft Actor-Critic) 232.3.1 SAC 개요 232.3.2 엔트로피 목적 함수 232.3.3 소프트 벨만 방정식 242.3.4 소프트 정책 반복 272.3.5 SAC 기법 28제 3 장. 학습 기반 경로 계획 문제 정식화 303.1 환경(Environment) 303.2 관측 상태(Observation State) 323.3 행동(Action) 343.4 보상(Reward) 353.5 학습 환경 구성 38제 4 장. 시뮬레이션 결과 404.1 학습 시뮬레이션 환경 404.2 학습 결과 414.3 정적 장애물 환경 시뮬레이션 결과 434.4 동적 장애물 환경 시뮬레이션 결과 46제 5 장. 결론 48참고문헌 50
0