지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
이용수4
I. 서론 1A. 연구의 배경 및 목적 1B. 연구 구성 2II. 선행연구 3A. 재고관리 3B. 강화학습 기반 재고관리 4III. 연구방법론 8A. 강화학습(Reinforcement Learning) 8B. 마르코프 결정과정(Markov Decision Process, MDP) 10C. Q-Learning 12D. 이차계획법(Quadratic Programming) 14IV. 실험설계 15A. 문제정의 및 환경설정 15B. 제안 모형: Q-Learning DCLD OPT 20C. 비교 모형 (1) Q-Learning with centralized OPT 23D. 비교 모형 (2) Q-Learning without budget constraints 25V. 실험결과 및 분석 26A. 데이터 26B. 하이퍼 파라미터 실험 31C. 수치실험 결과분석 36VI. 결론 및 논의 50참고문헌 52ABSTRACT 57
0