메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

정재안 (배재대학교, 배재대학교 일반대학원)

지도교수
정회경
발행연도
2020
저작권
배재대학교 논문은 저작권에 의해 보호받습니다.

이용수5

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
빅 데이터가 우리 생활에 많은 이익을 주고 있지만 우리가 데이터로부터 인사이트를 찾기 위해서는 데이터 수집, 모델 개발, 서비스의 지속적 개선 및 여러 분야의 협업과 부단한 노력 등을 필요로 한다.
K사가 2000년 초부터 지자체로 부터 상수도 운영관리 업무를 위탁받아 운영하면서 그동안 획기적으로 많은 업무들을 개선해 왔지만 수질관리와 함께 수돗물 공급에 따른 요금 체납관리는 지자체나 K사에서는 항상 중요한 이슈였다. K사가 개발하여 사용해 오던 지방상수도통합정보시스템(Water-INFOS)는 민원관리시스템, 수질관리시스템, 시설관리시스템 외 수용가관리, 검침관리, 요금고지 및 요금수납 등을 지원하는 요금관리시스템을 포함하고 있다.
본 연구에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 Water-INFOS에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다.
밖으로는 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀 기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다.
머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.
최소 데이터 개수는 의사결정트리가 생성될 때 노드에 포함된 데이터 개수의 최소값을 정하는 변수로 너무 적은 데이터 개수를 가지고 자식 노드를 생성할 경우 규칙의 정확성이 떨어진다. 그래서 최소값을 정해서 더 이상 자식노드를 생성하지 않도록 설정하고, 최대 순도는의사결정트리가 생성될 때 노드에 포함된 종속변수 값 중 가장 많은 빈도가 최대 순도보다 클 경우 신규 생성한 자식노드의 결과가 부모노드의 결과와 큰 차이가 없으므로 더 이상 자식노드를 생성하지 않도록 하는 설정하였다.
본 연구 성과는 특정 지자체를 대상으로 운영하였고 실제 납부 현황과 비교한 결과 체납 예측율이 70%를 넘지 못했다. 앞으로 모델 개선을 통해 예측 정확도를 더 높이기 위해서는 빅 데이터 분석에 사용할 기초 데이터 다양화, 분석모델을 적용할 지자체 확대, 분석대상 데이터의 종류 다양화 및 기존 분석 결과와 결합을 통한 분석 범위 확장 등이 필요한 것으로 나타났다.

목차

목 차
국문초록 ⅰ
목 차 ⅲ
그림목차 ⅴ
도표목차 ⅶ
Ⅰ. 서 론 1
1.1 연구배경 및 목적 1
1.2 연구내용 및 범위 2
1.3 논문의 구성 2
Ⅱ. 관련 연구 3
2.1 빅 데이터 개념 3
2.2 빅 데이터 접근 3
2.3 빅 데이터 분석 기법 4
2.4 빅 데이터 분석 동향 5
Ⅲ. 데이터 구축 7
3.1 분석 데이터 정의 7
3.1.1 독립변수 선정 기준 9
3.1.2 파생변수 정의 14
3.2 데이터 수집 환경 구성 15
3.3 데이터 수집 17
3.4 데이터 전처리 18
3.4.1 데이터 정제 18
3.4.2 영향도 조사 18
3.4.3 표본 추출 20
3.4.4 데이터 저장 21
Ⅳ. 모델 구축 22
4.1 알고리즘 비교 22
4.1.1 의사결정트리(Decision Tree) 22
4.1.2 로지스틱 회귀(Logistic Regresssion) 23
4.2 알고리즘 평가 24
4.3 모델 구현 26
4.3.1 분석 알고리즘 모델링 27
4.3.2 모델 개발 27
4.4 분석결과 시각화 29
4.5 분석결과 검증 31
Ⅴ. 결 론 32
참고문헌 33
영문초록 37
감사의 글(Acknowledgement) 39

최근 본 자료

전체보기

댓글(0)

0