지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
이용수10
제1장 서론 1제1절. 연구목적과 연구방법론 1제2절. 논문 구성 3제2장 관련 연구 4제1절. 모델 기반 강화학습 41. 강화학습 42. 모델 기반 강화학습 5제2절. 호기심 기반 강화학습 6제3절. 모델 예측 제어를 위한 시간차 학습 71. 전역적인 해결책을 위한 모델 예측 제어 82. 모델 업데이트 103. 잠재 상태의 일관성 114. TD-MPC의 정책 11제3장 제안하는 강화학습 알고리즘 13제1절. 이중 정책을 통한 행동 선택 13제2절. 호기심 기반 탐험 장려 19제3절. 모델 업데이트 21제4절. 의사 코드 및 개요도 22제4장 실험 24제1절. DeepMind Control Suite 24제2절. 비교실험 결과 241. Reacher 252. Fish 263. Hopper 274. Cart-k-pole 285. Finger 306. Humanoid 317. Quadruped 348. Swimmer 35제5장 결론 37제1절. 정리 37참고문헌 38ABSTRACT 41
0