최근 모바일 디바이스의 보급이 보편화되고 이동 통신망이 수용해야 할 사용자의 data가 급격히 증가함에 따라 이동 통신망의 용량 증대와 delay 성능 개선에 관한 요구가 증가하고 있으며, 시스템 성능 개선을 위한 기지국의 최적 스케줄링 policy의 중요성이 주목받고 있다. 이를 위해 기존의 많은 연구에서 개선하고자 하는 성능과 요구 조건들을 최적화 문제로 정의하고 다양한 방법을 통해 문제를 해결하는 방법에 관한 연구를 진행하였다.
본 논문에서는 셀 전체 사용자의 delay를 최소화하면서 사용자별 delay 요구 조건을 만족시키는 문제를 고려한다. 문제를 정의하기 위해 채널 상태와 버퍼 크기 등 delay 성능에 영향을 미치는 환경 요소를 이산화시켜 Markov process 형태로 정의하고 셀 전체 사용자의 평균 delay를 목적 함수, 사용자별 delay의 대한 제한 기준을 요구 조건으로 정의한 Constrained Markov Decision Process (CMDP)형태의 최적화 문제로 수식화한다. 이렇게 수식화된 CMDP 문제는 Lagrangian 기법을 통해 Unconstrained Markov Decision Process (UMDP)로 완화 되고 Google DeepMind에서 제안한 Deep Q-Network (DQN) 알고리즘을 이용하여 근사화된 최적 policy를 도출하며, stochastic sub-gradient 기법을 이용하여 최적 Lagrangian multiplier를 도출한다. 또한, DQN 알고리즘을 이용하기 위해 본 논문에서는 새로운 state 영역과 action 영역을 제안하며, 이는 사용자 수의 변화와 사용자 분포의 변화에도 형태의 변화 없이 일반적으로 적용할 수 있다.
이렇게 제안된 DQN 스케줄링 알고리즘의 성능을 측정하기 위해 먼저 DQN 스케줄러를 8개의 training data를 통해 학습시킨 후, 학습이 완료된 DQN 스케줄러를 두 가지 test 환경에서 성능을 측정한다. 첫 번째는 training data를 그대로 이용한 test이며, 두 번째는 training data와 다른 사용자 수와 사용자 분포로 구성된 test data를 이용한 test이다. 실험 결과 두 test 환경에서 모두 셀 내 전체 사용자 delay를 최소화하면서, 사용자별 delay 요구 조건을 만족시켜 주는 결과를 보인다.
이를 통해 DQN 스케줄링 알고리즘을 이용하여 학습된 스케줄링 policy는 새로운 test 환경에서도 적용할 수 있는 일반화된 스케줄링 policy임을 확인할 수 있었으며, 추후 더 많은 사용자 수와 새로운 무선 통신 기법, 그리고 delay 외의 다양한 요구 조건을 추가로 확장하여 시스템 성능 개선을 위한 시스템의 스케줄링 policy를 도출하는데 적용할 수 있을 것으로 판단된다.
As the spread of mobile devices has become more prevalent recently and the user''s data needed to be accommodated by mobile networks has increased rapidly, the need for enhanced capacity and improved delay performance of mobile networks is increasing, and the need for optimal scheduling policy of base stations is increasing. To improve the system performance, many existing studies have defined the performance and requirements to be improved as optimization problem and have conducted research on how to solve optimization problems through different methods.
In this paper, we consider the problem of minimizing the delay of the entire cell user while satisfying the user specific delay constraint. To define the problem, define the environmental factors influencing the delay performance in form of Markov process and formulate the optimization problem in the form of the Constrained Markov Decision Process (CMDP) problem. Then, CMDP problem is relaxed by Lagrangian techniques and derive an approximate optimal policy using Deep Q-Network (DQN) proposed by DeepMind at Google. And derive optimal Lagrangian multiplier using the stochastic sub-gradient method. In addition, this paper propose new state space and action space to utilize DQN algorithm, which can generally be applied with no change in the number of users and changes in the user distribution.
To measure the performance of proposed DQN scheduling algorithm, the DQN scheduler is first learnt from the eight training-data set and then the DQN scheduler is measured from the two type of test. The first test is an experiment using the training data and the second is an experiment using test data composed of different number of users and user distribution from training data. The results of the experiment show that the overall user delay in the cell is minimized, while satisfying the delay constraint of each user in all test environments. As a result of experiment, the scheduling policy learned from the DQN scheduling algorithm is generalized scheduling policy that can be applied in new test environments. And DQN scheduling algorithm is considered possible to apply to derive the scheduling policy for the system to improve its performance in the extended environment with more users, new wireless technologies and added constraint other than delay.