본 연구의 목적은 노선버스 재차인원 예측모형을 개발하는 것이다. 노선버스 재차인원 예측모형의 요구조건은 ①과거데이터 이용하고 ②Multiple interval prediction이 가능해야 하며 ③예측력이 우수해야 하고 ④이식성이 있어야 한다는 것이다. 본 연구에서는 문헌고찰 결과 빅데이터 환경에서 가장 예측력이 우수한 것으로 평가되는 k-NN(k-Nearest Neighbourhood) 알고리즘을 이용하였다. 노선버스 재차인원 예측모형 개발을 위해 우선 노선버스의 재차인원 패턴데이터를 생성하고 정류소별 승차, 하차, 재차인원 자료를 입력변수로 하는 k-NN 기본모형(Basic Model; BM) 제시하였다. k-NN 기본모형의 유사도 측정은 유클리디안 거리(Euclidean Distance; ED)를 사용하였으며, 이웃의 수(k)는 3개를 기본으로 사용하였다. 재차인원 패턴데이터는 경기도 광역버스(Red Bus) 8개 노선을 대상으로 2015년 5월 1일부터 2016년 4월 30일까지 1년간의 승차, 하차, 재차인원 자료를 이용해 구축하였으며, 패턴데이터 시간간격(Time Interval)은 버스의 배차간격을 고려해 10분으로 설정하였다. 패턴데이터는 노선별, 요일별, 시간대별로 구축하여 노선별 특성뿐만 아니라 요일별, 시간대별 특성이 반영되도록 하였다. 재차인원 패턴데이터 분석결과 시간대별, 요일별로 재차인원 패턴이 고정적으로 나타나 k-NN 모형 적용이 적합한 것으로 분석되었다. k-NN 기본모형의 예측력을 향상시키기 위해 ①운행시간대 고려여부 ②기상정보 사용여부 ③버스위치의 변화 ④입력범위와 예측범위의 변화 등 4개 분야의 적용성 평가를 수행하였다. 적용성 평가결과, 기점정류소 출발시간을 기준으로 시간대를 ±1시간으로 제약했을때 예측결과가 우수하였다. 기상정보 사용여부에 따른 예측결과는 뚜렷한 차이를 보이지는 않았으나 기상정보를 이용할때 다소 우수한 결과를 보였다. 버스위치에 따른 예측 결과 버스위치와 예측 정확도는 관계성이 낮았다. 입력범위와 예측범위의 변화에 따른 평가 결과 최근 10개 정류소 데이터만을 이용하여 향후 10개 정류소를 예측할 때 가장 좋은 결과를 도출하였다. 적용성 평가결과를 기반으로 k-NN 기본모형을 개선한 k-NN 개선모형(Advanced Model; AM)과 퓨전모형(Fusion Model; FM)을 제시하였다. 개선모형(AM)은 기본모형(BM)에서 과거 데이터 탐색시 시간대와 기상상태를 추가로 고려하는 모형이며, 퓨전모형(FM)은 예측데이터와 패턴데이터와의 데이터퓨전 단계를 추가하여 총 7단계로 구성된 모형이다. 최종 제안된 2개 예측모형의 예측력과 이식성 평가를 위해 재차인원 패턴이 서로 다른 3개의 노선(9003번, 1007번, 500-1번)을 대상으로 평가 진행하였다. 평가결과 본 연구에서 제안한 개선모형과 퓨전모형의 예측력은 노선에 따라 다른 결과를 보였다. 최종 평가결과 개선모형 RMSE가 3.6, 퓨전모형 RMSE가 2.9로 퓨전모형이 보다 좋은 결과를 보였으며, 오차의 분산도 낮게 나타나 퓨전모형이 보다 안정적이고 예측력이 우수한 것으로 평가되었다. 연구결과를 종합적으로 고려할 때 가장 우수한 모형은 퓨전모형이었으며, 가장 최근 10개 정류소의 승차, 하차, 재차인원 자료를 이용하여 미래 10개 정류소의 재차인원을 예측하는 것이 가장 우수한 결과를 도출하였다. k-NN 알고리즘을 이용한 재차인원 예측모형은 과거 패턴에 따라 예측력에 차이를 보였다. 재차인원 패턴이 고정적인 노선은 개선모형(AM)이 우수했으며, 패턴이 불규칙한 노선은 퓨전모형(FM)이 우수한 결과를 보였다.
The purpose of this study is to develop a prediction model for the route bus passenger occupancies. The requirement of the route bus passenger occupancies prediction model is that ① historical data should be used, ② multiple interval prediction should be possible, ③ prediction power should be good, and ④ portability should be. In this study, It used k-Nearest Neighborhood(k-NN) algorithm which is estimated to be the best predictor in the big data environment. In order to develop a prediction model for the route bus passenger occupancies, we first generate the pattern data for the route bus passenger occupancies and presented the k-NN Basic Model (BM) that use riding, getting off, passenger occupancies for input data. Euclidean Distance (ED) was used to measure the similarity of the k-NN Basic Model and the number of neighbors (k) was default 3. Passenger occupancies pattern data was constructed for each route and day of the week by using the historical data from May 1, 2015 to April 30, 2016 for 8 red bus in Gyeonggi province. The pattern data time interval was set to 10 minutes in consideration of the bus interval. To reflect characteristics of each route we constructed pattern data by each route, day of the week and time of day. The passenger occupancies pattern data for each route shows that is appropriate data apply to the k-NN model, Because the pattern is fixed according to the time and the day. In order to improve the predictive power of k-NN basic model, we evaluated the applicability of four areas such as ① consideration of operating time, ② whether weather information is used, ③ change of bus location, ④ change of input range and forecast range. As a result of the applicability evaluation, the predicted results were excellent when the operating time was limited to ± 1 hour based on the departure time of the starting bus stop. Although there was no significant difference in the prediction results according to the use of weather information, the results were somewhat better when using weather information. As a result of change of bus location, the relationship between bus location and prediction accuracy is low. As a result of evaluation based on the change of the input range and the predicted range, the best results were obtained when predicting 10 bus stop in the future using only the data of latest 10 bus stop. Based on the results of the applicability evaluation, the k-NN Advanced Model (AM) and the k-NN Fusion Model (FM), which improved the k-NN Basic Model, were presented. The k-NN Advanced Model (AM) is a model that additionally considers the operating time and weather conditions when searching for historical data in the Basic Model (BM). The k-NN Fusion Model (FM) is consisted a total 7 steps adding a data fusion step between the predicted data and the pattern data. For the prediction performance and portability evaluation of the two proposed prediction models, three routes (9003, 1007, 500-1) with different passenger occupancies patterns were evaluated. As a result of the evaluation, the predictive power of the k-NN Advanced Model and the k-NN Fusion Model showed different results depending on the route. As a result, the k-NN Fusion Model showed good results and the error variance was low. The k-NN Fusion Model was more stable and predictive than the k-NN Advanced Model. The most excellent model was the k-NN Fusion model and the best results were obtained by predicting in the future 10 bus stop occupancies using the latest 10 bus stops data. The passenger occupancies prediction model of the using the k-NN algorithm showed a difference in the predictive power according to the historical data pattern of the route. The k-NN Advanced Model (AM) is more suitable in case of having a fixed patterns and the k-NN Fusion models (FM) is more suitable in the case of having a uneven patterns.
제1장 서 론 1제1절 연구의 배경 및 목적 3제2절 연구의 내용 및 방법 6제2장 선행연구 고찰 7제1절 교통상황 예측관련 연구 71. 정적기법 82. 회귀 모형 93. 시계열 모형 104. 패턴인식 기반 모형 155. 교통류 관계변수를 이용한 모형 206. 통행시간 예측모형 및 관련연구 요약 23제2절 버스 수요추정 관련 연구 24제3절 시사점 29제3장 현황검토 30제1절 경기도 광역버스 운행현황 30제2절 빈자리정보 제공현황 331. 추진배경 및 경과 332. 빈자리정보 수집현황 343. 빈자리정보 제공효과 36제3절 빈자리정보 신뢰도 분석 381. 분석방법 382. 분석결과 39제4장 재차인원 자료분석 및 패턴데이터 생성 41제1절 재차인원 자료분석 411. 광역버스 재차인원 현황 412. 재차인원 데이터 특성분석 443. 재차인원 예측방법론 고찰 47제2절 재차인원 패턴데이터 생성 501. 패턴데이터 생성방법 502. 패턴데이터 생성결과 513. 패턴데이터 군집분석 59제3절 패턴데이터 분석결과 61제5장 재차인원 예측모형의 개발 63제1절 이론적 배경 63제2절 k-NN 재차인원 예측모형의 구성 671. 기호 정의 682. 입력변수의 정의 693. 입력 및 예측의 시공간 정의 714. k-NN을 이용한 재차인원 예측 기본모형 구성 755. k값 결정방법 80제3절 k-NN 재차인원 예측모형의 적용성 평가 811. 효과척도 822. 평가대상 노선 및 자료 833. 시간 제약조건에 따른 적용성 평가 854. 기상정보 적용성 평가 915. 버스위치에 따른 적용성 평가 996. 입력범위와 예측범위에 따른 적용성 평가 104제4절 재차인원 예측모형 정립 109제6장 재차인원 예측모형 평가 113제1절 평가 개요 113제2절 퓨전모형의 가중치 설정 116제3절 평가 결과 1191. 9003번 노선 평가결과 1192. 1007번 노선 평가결과 1253. 500-1번 노선 평가결과 131제4절 평가결과 정리 1371. 정류소 위치별 예측오차 1372. 시간대별 예측오차 1393. 예측모형별 예측결과 정리 140제7장 결론 및 향후 연구과제 141제1절 연구결과 141제2절 연구의 한계점 및 향후 연구과제 145참 고 문 헌 147부록 : 재차인원 예측모형 실행과정 160Abstract 165