확률적 시뮬레이션을 이용한 모델 기반 강화학습

주하람; 김준오; 이상완

doi:10.5391/JKIIS.2018.28.5.481

추천

검색

질문

자료유형: 학술저널

저자정보: 주하람 (카이스트) 김준오 (카이스트) 이상완 (카이스트)

저널정보: 한국지능시스템학회 한국지능시스템학회 논문지 한국지능시스템학회 논문지 제28권 제5호

발행연도: 2018.10

수록면: 481 - 486 (6page)

DOI: 10.5391/JKIIS.2018.28.5.481

이용수

📌

연구주제

📖

연구배경

🔬

연구방법

🏆

연구결과

초록· 키워드

오류제보하기

본 논문은 상태천이에 불확실성이 있는 동적 환경에서도 안정적인 학습이 가능한 model-based 강화학습 전략을 제안한다. 기존의 강화학습 알고리즘은 보상의 기대치 최대화에 초점을 둔 model-free 방식으로 환경의 불확실성을 경험적으로 습득하므로 적응 속도가 느리다. 이에 비해 환경 모델을 학습하는 model- based 방식은 아직 경험하지 못한 상황에 대한 시뮬레이션 결과를 보상의 기대치 학습에 적용함으로써 환경변화에 빠른 적응이 가능하다. 본 연구에서는 환경의 상태천이에 대한 확률 모델을 온라인 학습하고, 학습된 모델을 이용하여 확률적으로 시나리오를 시뮬레이션하며, 이를 바탕으로 보상의 기대치를 최대화하는 전략을 찾아내는 model-based 강화학습 방식을 구현하였다. OpenAI의 FrozenLake 시뮬레이터를 이용하여 불확실성을 내포한 동적 환경을 구현하였으며, 제안한 모델과 기존 방법의 성능을 다양한 측면에서 비교하였다. 제안된 모델은 상태천이의 불확실성과 환경변화의 불안정성이 모두 존재하는 극한 상황 속에서도 변화에 강인한 전략 탐색의 기틀을 제공한다.

#상태천이 불확실성 #모델기반 강화학습 #FrozenLake #State Transition Uncertainty #Model-based Reinforcement Learning

참고문헌 (11)

참고문헌 신청

R. S. Sutton, “Learning to predict by the methods of temporal differences.” Machine Learning, 3, pp. 9-44, 1988. A. Samuel, “Some studies in machine learning using the game of checkers.” IBM Journal of Research and Development, 3(3), pp. 210-229, 1959. J. H. Holland, “Escaping brittleness: The possibilities of general purpose learning algorithms applied to parallel rule-based systems.” Machine learning: An artificial intelligence approach, 2, R. S. Michalski, J. G. Carbonell, and T. M. Mitchell, Eds. Los Altos, CA: Morgan Kaufmann, pp. 593-623, 1986. J. W. Moore, J. E. Desmond, N. E. Berthier, D. E. Blazis, R. S. Sutton, and A. G. Barto, “Simulation of the classically conditioned nictitating membrane response by a neuron-like adaptive element: response topography, neuronal firing, and interstimulus intervals.” Behavioral Brain Research, 21(2), pp. 143-154, 1986. J. Y. Park, S. H. Ji, K. H. Sung, S. M. Heo, and K. W. Park, “Investigations on data-driven stochastic optimal control and approximate-inference-based reinforcement learning methods.” Journal of The Korean Institute of Intelligent Systems, 25(4), pp. 319-326, 2015.

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

주하람

소속기관 한국과학기술원

주요연구분야 공학 > 전기전자공학 > 정보통신공학 공학 > 컴퓨터학

논문수 2 이용수 369

김주노

소속기관 한국과학기술원

주요연구분야 공학 > 전기전자공학 > 정보통신공학 공학 > 기계공학 > 기계공학 일반

논문수 4 이용수 513

이상완

소속기관 한국과학기술원

주요연구분야 공학 > 전기전자공학 > 정보통신공학 공학 > 컴퓨터학

논문수 16 이용수 2,408

이 논문과 함께 이용한 논문

분포함수 추정 정확도 평가 기법의 비교 연구

강영진 , 노유정 대한기계학회 춘추학술대회 2019 .11

강화학습 기반 자율주차 연구를 위한 시뮬레이터 개발

엄하영 , 김정환 , 지승윤 외 1명 디지털콘텐츠학회논문지 2020 .02

멀티 에이전트 환경에서 다양한 전략에 강인한 멀티스킬 강화학습 에이전트 설계 가능성 연구

이민지 , 장예원 , 조수연 외 1명 한국정보과학회 학술발표논문집 2019 .12

베이지안 방법을 활용한 강우조건별 산사태 발생확률 분석: 강원도 춘천시를 중심으로

이원영 , 성효현 대한지리학회 학술대회논문집 2019 .06

국내 원전의 주제어실 내 화재로 인한 원격정지제어반에서의 안전정지 실패확률에 대한 민감도 분석

이한설 한국에너지학회 학술발표회 2019 .05

최근 본 자료

전체보기

UCI(KEPA) : I410-ECN-0101-2018-003-003541511

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

초록· 키워드

AI 요약

연구주제

연구배경

연구방법

연구결과

주요내용

목차

참고문헌 (11)

함께 읽어보면 좋을 논문

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

댓글(0)