메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김지헌 (이화여자대학교, 이화여자대학교 대학원)

지도교수
민대기
발행연도
2022
저작권
이화여자대학교 논문은 저작권에 의해 보호받습니다.

이용수4

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
재고관리문제에 강화학습을 응용한 연구들이 진행되고 있으나 다품종 재고관리에 예산 제약을 고려한 연구는 박나희, LAU & 민대기 (2021)가 유일하다. 이들은 강화학습 모형의 학습 중 이차계획법을 통해 예산 제약에 대한 최적화를 수행하고 Q-table 갱신에 활용하는 OptLayer 기법을 도입하였다. 그러나 모형의 학습 중 최적화가 수행되는 해당 모형은 에이전트 수와 상품의 수가 증가할수록 계산 복잡도와 계산시간이 증가할 것으로 예상된다. Q-Learning은 전체 상태와 행동 공간에 대해 가치를 계산하기 때문이다. 그뿐 아니라 각 예산에 대해 개별적으로 모형을 학습시켜야 하므로 전체 실험 시간이 증대된다.
본 논문에서는 선행연구의 개념을 확장하여 분할 학습 후 예산 제약에 대한 통합 조정을 수행하는 DLCD (decentralized learning & centralized decision making) 방식의 강화학습 모형을 제안한다. 제안 모형에서 소매업체는 각자 Q-Learning으로 재고정책을 학습한다. 중앙의 의사결정자인 공급업체는 이차계획법을 사용해 예산 제약식에 대한 최적화를 수행하여 공급량을 조정한다. 제약식에 대한 계산이 순차적으로 이뤄지므로 선행연구 모형 대비 계산시간 절감이 예상된다.
재고유지비용과 재고부족비용 단가 변화에 따른 3가지 경우에 대해 4가지 예산 규모를 적용하여 총 12개의 실험을 진행하였다. 실험 결과 제안 모형은 비교 모형보다 주문량이 감소하여 주문비용, 재고유지비용, 위반비용이 감소하였으나 재고부족비용이 증가하였다. 그러나 재고부족비용이 크게 증가한 탓에 총비용이 증가한 것으로 나타났다. 한편 상품 유통 중에 발생하는 총비용과 예산을 초과하여 발생하는 위반비용은 서로 상반관계이므로 단순 비교할 수 없다. 따라서 총비용과 주문금액을 각각의 축으로 가지는 좌표평면 상에 실험결과를 위치시키고 원점으로부터의 거리를 계산하여 비용거리로 정의한다. 전체 12개의 실험에서 제안 모형은 총비용이 위반비용보다 컸으나 비용거리가 가장 작았다. 또한 비용거리는 예산 규모가 작을수록 작게 나타났다. 연구가설대로 제안 모형은 선행연구 모형 대비 학습 시간이 절약되었으며 학습 후 여러 예산에 대해 실시간으로 실험이 가능했다.
본 논문은 강화학습을 이용한 다품종 재고관리문제에 예산 제약을 고려했다는 점에서 이전 연구들과 차별점이 있다. 또한 모든 예산에 대해 학습을 요구했던 선행연구 모형과 비교해 전체 실험시간 절감에 효과적이면서도 더 강력한 성능을 보였다는데 연구 의의를 가진다.

목차

I. 서론 1
A. 연구의 배경 및 목적 1
B. 연구 구성 2
II. 선행연구 3
A. 재고관리 3
B. 강화학습 기반 재고관리 4
III. 연구방법론 8
A. 강화학습(Reinforcement Learning) 8
B. 마르코프 결정과정(Markov Decision Process, MDP) 10
C. Q-Learning 12
D. 이차계획법(Quadratic Programming) 14
IV. 실험설계 15
A. 문제정의 및 환경설정 15
B. 제안 모형: Q-Learning DCLD OPT 20
C. 비교 모형 (1) Q-Learning with centralized OPT 23
D. 비교 모형 (2) Q-Learning without budget constraints 25
V. 실험결과 및 분석 26
A. 데이터 26
B. 하이퍼 파라미터 실험 31
C. 수치실험 결과분석 36
VI. 결론 및 논의 50
참고문헌 52
ABSTRACT 57

최근 본 자료

전체보기

댓글(0)

0