빅 데이터 기반 체납 수용가 예측 모델 개발 :A Study on the Prediction Model for Unpaid Customers Using Big Data

정재안

추천

검색

자료유형: 학위논문

저자정보: 정재안 (배재대학교, 배재대학교 일반대학원)

지도교수: 정회경

발행연도: 2020

저작권: 배재대학교 논문은 저작권에 의해 보호받습니다.

이용수5

이 논문의 연구 히스토리 (2)

2020

빅 데이터 기반의 체납 수용가 예측 모델

정재안 , 이규환 , 정희경 한국정보통신학회논문지 2020.07 학술저널

빅 데이터 기반 체납 수용가 예측 모델 개발

정재안 컴퓨터공학과 2020.01 학위논문

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록· 키워드

오류제보하기

빅 데이터가 우리 생활에 많은 이익을 주고 있지만 우리가 데이터로부터 인사이트를 찾기 위해서는 데이터 수집, 모델 개발, 서비스의 지속적 개선 및 여러 분야의 협업과 부단한 노력 등을 필요로 한다.
K사가 2000년 초부터 지자체로 부터 상수도 운영관리 업무를 위탁받아 운영하면서 그동안 획기적으로 많은 업무들을 개선해 왔지만 수질관리와 함께 수돗물 공급에 따른 요금 체납관리는 지자체나 K사에서는 항상 중요한 이슈였다. K사가 개발하여 사용해 오던 지방상수도통합정보시스템(Water-INFOS)는 민원관리시스템, 수질관리시스템, 시설관리시스템 외 수용가관리, 검침관리, 요금고지 및 요금수납 등을 지원하는 요금관리시스템을 포함하고 있다.
본 연구에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 Water-INFOS에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다.
밖으로는 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀 기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다.
머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.
최소 데이터 개수는 의사결정트리가 생성될 때 노드에 포함된 데이터 개수의 최소값을 정하는 변수로 너무 적은 데이터 개수를 가지고 자식 노드를 생성할 경우 규칙의 정확성이 떨어진다. 그래서 최소값을 정해서 더 이상 자식노드를 생성하지 않도록 설정하고, 최대 순도는의사결정트리가 생성될 때 노드에 포함된 종속변수 값 중 가장 많은 빈도가 최대 순도보다 클 경우 신규 생성한 자식노드의 결과가 부모노드의 결과와 큰 차이가 없으므로 더 이상 자식노드를 생성하지 않도록 하는 설정하였다.
본 연구 성과는 특정 지자체를 대상으로 운영하였고 실제 납부 현황과 비교한 결과 체납 예측율이 70%를 넘지 못했다. 앞으로 모델 개선을 통해 예측 정확도를 더 높이기 위해서는 빅 데이터 분석에 사용할 기초 데이터 다양화, 분석모델을 적용할 지자체 확대, 분석대상 데이터의 종류 다양화 및 기존 분석 결과와 결합을 통한 분석 범위 확장 등이 필요한 것으로 나타났다.

Big data has a lot to do with our lives, but finding insights from data requires data collection, model development, continuous improvement of services, and multidisciplinary collaboration and constant effort.
K company has been entrusted with water supply operation management from the local government since early 2000, and has improved a lot of tasks. Water-INFOS, which K company has developed and used, includes a fee management system that supports customer management, meter reading, billing and fee collection, as well as civil complaint management system, water quality management system, and facility management system.
In this study, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments.
Outside, candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression.
In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm.
The minimum number of data is a variable that defines the minimum value of the number of data included in the node when the decision tree is created. If the child node is created with too few data numbers, the accuracy of the rule is reduced. Therefore, the minimum value is set so that the child node is not created anymore, and the maximum purity is the result of the newly created child node when the frequency of the dependent variable included in the node is greater than the maximum purity when the decision tree is created. Since there is no big difference from the result of the parent node, the child node is no longer created.
The results of this study were conducted for specific local governments, and compared with actual payments, the expected rate of arrears was not more than 70%. In order to improve the accuracy of forecasting through future model improvement, it is necessary to diversify the basic data for big data analysis, expand the local government to apply the analysis model, diversify the types of data to be analyzed, and expand the scope of analysis by combining with existing analysis results.

#빅데이터 분석 #요금 체납 #의사결정트리 #지방상수도

목 차
국문초록 ⅰ
목 차 ⅲ
그림목차 ⅴ
도표목차 ⅶ
Ⅰ. 서 론 1
1.1 연구배경 및 목적 1
1.2 연구내용 및 범위 2
1.3 논문의 구성 2
Ⅱ. 관련 연구 3
2.1 빅 데이터 개념 3
2.2 빅 데이터 접근 3
2.3 빅 데이터 분석 기법 4
2.4 빅 데이터 분석 동향 5
Ⅲ. 데이터 구축 7
3.1 분석 데이터 정의 7
3.1.1 독립변수 선정 기준 9
3.1.2 파생변수 정의 14
3.2 데이터 수집 환경 구성 15
3.3 데이터 수집 17
3.4 데이터 전처리 18
3.4.1 데이터 정제 18
3.4.2 영향도 조사 18
3.4.3 표본 추출 20
3.4.4 데이터 저장 21
Ⅳ. 모델 구축 22
4.1 알고리즘 비교 22
4.1.1 의사결정트리(Decision Tree) 22
4.1.2 로지스틱 회귀(Logistic Regresssion) 23
4.2 알고리즘 평가 24
4.3 모델 구현 26
4.3.1 분석 알고리즘 모델링 27
4.3.2 모델 개발 27
4.4 분석결과 시각화 29
4.5 분석결과 검증 31
Ⅴ. 결 론 32
참고문헌 33
영문초록 37
감사의 글(Acknowledgement) 39

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

이 논문의 연구 히스토리 (2)

초록· 키워드

목차

최근 본 자료

댓글(0)