메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

정상훈 (고려대학교, 고려대학교 대학원)

지도교수
송용남
발행연도
2019
저작권
고려대학교 논문은 저작권에 의해 보호받습니다.

이용수11

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
본 연구는 로봇이 장애물을 치우고 목표물을 잡아야 하는 상황에서 스스로 장애물을 재배치하고 목표물을 잡는 방법에 대한 연구이다. 기존의 연구들은 장애물 재배치 시 놓을 위치를 결정하지 않고 임의의 공간에 재배치했다. 하지만 이는 목표물을 잡기 위해 치워야 하는 횟수를 늘어나게 할 수 있다고 판단했다. 본 논문은 재배치 위치까지 고려한 DQN based Obstacle Rearrangement (DORE) 알고리즘을 통해 최소의 횟수로 장애물을 재배치 방법을 연구했다.
Deep Q Network를 이용해 장애물 재배치 문제가 강화학습으로 답을 얻을 수 있는 문제인지 확인하고자 했다. 또한 특정한 1개의 상황에 대한 학습모델을 만드는 것이 아니다. 다양한 배치의 장애물이나, 장애물의 개수가 달라져도 적용 가능한 학습모델을 만드는 것이 목표이다.
Markov Decision Process로 재배치 문제를 정의하여 학습을 진행했다. 각 요소별 특성과 장애물 재배치 문제의 특성을 고려해서 MDP를 정의했고 이를 DQN으로 학습했다. 학습 도중 알고리즘 성능평가를 통해 학습 모델의 완성도를 파악했다. 95% 이상의 성공률을 확인했을 때 학습모델이 완성됐다고 결정하고 학습을 중단한다. 하지만 실제 로봇에게 주어지는 환경이 항상 성공하는 95%라고 할 수 없기 때문에 실패하는 경우가 주어졌을 때 알고리즘은 환경을 추가로 학습하여 정답을 출력한다. 이때 transfer learning[16]을 이용하여 추가 학습시간을 줄이는 알고리즘을 개발했다.

목차

초록 ⅰ
Abstract ⅱ
그림 목차 ⅲ
1장 서론 1
1.1 연구 배경 및 필요성 1
1.2 연구 목표 3
1.3 관련 연구 5
1.4 논문 구성 7
2장 배경 지식 8
2.1 Reinforcement Learning 8
2.2 Vector Field Histogram 11
3장 DORE 알고리즘 13
3.1 MDP 정의 13
3.2 학습 과정 24
3.3 알고리즘 성능평가시험 26
3.4 Transfer Learning 27
3.5 DORE 알고리즘 29
4장 테스트 환경 구축 30
4.1 하드웨어 구성 30
4.2 라이브러리 30
4.3 Complex Environment 30
4.4 DORE Algorithm Environmnet 32
4.5 실제 실험환경 Hyperparameter 34
5장 실험 결과 36
5.1 장애물 5개 목표물 1개 환경 37
5.2 장애물 5개 목표물 1개 환경 38
5.3 DORE Algorithm Environment test 42
5.4 V-Rep Simulation 46
6장 결론 및 향후 연구 48
6.1 결론 48
6.2 한계점 50
6.3 추후 연구 50
참고문헌 51

최근 본 자료

전체보기

댓글(0)

0