빅 데이터가 우리 생활에 많은 이익을 주고 있지만 우리가 데이터로부터 인사이트를 찾기 위해서는 데이터 수집, 모델 개발, 서비스의 지속적 개선 및 여러 분야의 협업과 부단한 노력 등을 필요로 한다. K사가 2000년 초부터 지자체로 부터 상수도 운영관리 업무를 위탁받아 운영하면서 그동안 획기적으로 많은 업무들을 개선해 왔지만 수질관리와 함께 수돗물 공급에 따른 요금 체납관리는 지자체나 K사에서는 항상 중요한 이슈였다. K사가 개발하여 사용해 오던 지방상수도통합정보시스템(Water-INFOS)는 민원관리시스템, 수질관리시스템, 시설관리시스템 외 수용가관리, 검침관리, 요금고지 및 요금수납 등을 지원하는 요금관리시스템을 포함하고 있다. 본 연구에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 Water-INFOS에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 밖으로는 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀 기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다. 최소 데이터 개수는 의사결정트리가 생성될 때 노드에 포함된 데이터 개수의 최소값을 정하는 변수로 너무 적은 데이터 개수를 가지고 자식 노드를 생성할 경우 규칙의 정확성이 떨어진다. 그래서 최소값을 정해서 더 이상 자식노드를 생성하지 않도록 설정하고, 최대 순도는의사결정트리가 생성될 때 노드에 포함된 종속변수 값 중 가장 많은 빈도가 최대 순도보다 클 경우 신규 생성한 자식노드의 결과가 부모노드의 결과와 큰 차이가 없으므로 더 이상 자식노드를 생성하지 않도록 하는 설정하였다. 본 연구 성과는 특정 지자체를 대상으로 운영하였고 실제 납부 현황과 비교한 결과 체납 예측율이 70%를 넘지 못했다. 앞으로 모델 개선을 통해 예측 정확도를 더 높이기 위해서는 빅 데이터 분석에 사용할 기초 데이터 다양화, 분석모델을 적용할 지자체 확대, 분석대상 데이터의 종류 다양화 및 기존 분석 결과와 결합을 통한 분석 범위 확장 등이 필요한 것으로 나타났다.
Big data has a lot to do with our lives, but finding insights from data requires data collection, model development, continuous improvement of services, and multidisciplinary collaboration and constant effort. K company has been entrusted with water supply operation management from the local government since early 2000, and has improved a lot of tasks. Water-INFOS, which K company has developed and used, includes a fee management system that supports customer management, meter reading, billing and fee collection, as well as civil complaint management system, water quality management system, and facility management system. In this study, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Outside, candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm. The minimum number of data is a variable that defines the minimum value of the number of data included in the node when the decision tree is created. If the child node is created with too few data numbers, the accuracy of the rule is reduced. Therefore, the minimum value is set so that the child node is not created anymore, and the maximum purity is the result of the newly created child node when the frequency of the dependent variable included in the node is greater than the maximum purity when the decision tree is created. Since there is no big difference from the result of the parent node, the child node is no longer created. The results of this study were conducted for specific local governments, and compared with actual payments, the expected rate of arrears was not more than 70%. In order to improve the accuracy of forecasting through future model improvement, it is necessary to diversify the basic data for big data analysis, expand the local government to apply the analysis model, diversify the types of data to be analyzed, and expand the scope of analysis by combining with existing analysis results.
목 차국문초록 ⅰ목 차 ⅲ그림목차 ⅴ도표목차 ⅶⅠ. 서 론 11.1 연구배경 및 목적 11.2 연구내용 및 범위 21.3 논문의 구성 2Ⅱ. 관련 연구 32.1 빅 데이터 개념 32.2 빅 데이터 접근 32.3 빅 데이터 분석 기법 42.4 빅 데이터 분석 동향 5Ⅲ. 데이터 구축 73.1 분석 데이터 정의 73.1.1 독립변수 선정 기준 93.1.2 파생변수 정의 143.2 데이터 수집 환경 구성 153.3 데이터 수집 173.4 데이터 전처리 183.4.1 데이터 정제 183.4.2 영향도 조사 183.4.3 표본 추출 203.4.4 데이터 저장 21Ⅳ. 모델 구축 224.1 알고리즘 비교 224.1.1 의사결정트리(Decision Tree) 224.1.2 로지스틱 회귀(Logistic Regresssion) 234.2 알고리즘 평가 244.3 모델 구현 264.3.1 분석 알고리즘 모델링 274.3.2 모델 개발 274.4 분석결과 시각화 294.5 분석결과 검증 31Ⅴ. 결 론 32참고문헌 33영문초록 37감사의 글(Acknowledgement) 39