메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이지현 (한밭대학교, 한밭大學校)

지도교수
김기태
발행연도
2018
저작권
한밭대학교 논문은 저작권에 의해 보호받습니다.

이용수2

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
공학, 과학, 인문, 사회 분야 등 많은 부분에 있어서 문제의 복잡도가 증가하고 있고 제품과 서비스가 다양해지면서 의사결정은 사람의 직관이나 경험 또는 간단한 계산에 의해서 이루어지기 어려워지고 있다. 경영 과학적 접근법이나 사회과학적 접근법 등 복잡한 의사결정을 해결하기 위한 다양한 해법이 존재한다. 이 중에서 최근 들어 많이 이용되고 있는 방법 중에 하나가 데이터 기반의 접근법이다.
데이터 기반의 의사결정 방법은 데이터로부터 패턴, 규칙, 관계를 찾아내서 이것을 분석하여 유용한 정보를 만들어내서 문제의 현상을 설명하거나 예측하는 과학적 기법을 말한다. 데이터 기반 기법 중에 확률분포 가정을 하는 통계분석과 달리 데이터 자체에서 패턴을 찾아내는 데이터마이닝 방법이 분류나 예측 문제에 많이 응용되고 있다.
본 연구에서는 데이터마이닝 방법 중에 비모수적 방법이고 시각화에 강점을 갖고 있으며 성능이 우수하다고 알려진 의사결정나무를 이용한 분류방법론을 다룬다. 의사결정나무 분류는 변수 즉, 속성을 노드로 하여 나무를 형성해 가면서 데이터의 패턴과 규칙을 찾는 방법으로 속성인 노드에서 가지를 뻗어 나가는 분할(Splitting) 방법과 속성들의 순서를 정하는 것으로 알고리즘이 구성된다. 또한 과적합을 방지하기 위해 의사결정나무의 크기를 줄이는 가지치기(Pruning)를 수행한다.
분할방법에 따라 의사결정나무의 알고리즘이 CART, CHAID, C5.0으로 나뉘고 가지치기를 하기 위한 다양한 옵션이 존재한다. 의사결정나무 분류 방법은 분할방법과 가지치기의 방식에 따라 성능에 차이가 존재한다. 또한 데이터의 종류에 따라 성능이 달라진다. 우리는 본 논문에서 어떠한 분할방법과 가지치기 옵션이 데이터의 형태에 적합한지를 비교 분석하여 데이터 형태에 따른 최적의 분할방법과 가지치기 옵션을 제시한다.
데이터 및 변수를 크기별로 분류하여 어떠한 분할 알고리즘 및 가지치기가 최적조건인지 분석한다. 또한 불균형 데이터에 대해서도 조사하여 불균형 정도를 네 단계로 구분하여 불균형 정도별로 분할 알고리즘과 가지치기에 대한 분석을 실시하여 최적의 조건을 찾는다.
본 연구는 의사결정나무 분류 방법론에서 현재까지 연구되어진 분할방법과 가지치기에 대한 이론을 정리하였다. 논문의 실험 결과를 통해 어떠한 형태의 데이터가 주어질 때 유형에 따라 어떤 분할방법과 가지치기를 사용하는 것이 가장 적절한지 제공할 수 있어 다양한 문제와 분야에 응용될 수 있는 중요한 자료로 사용될 수 있다.

목차

제 1 장 서 론 1
1.1 연구의 목적 1
1.2 연구의 방법 2
제 2 장 데이터마이닝과 의사결정나무 4
2.1 데이터마이닝 4
2.1.1 데이터마이닝의 개요 4
2.1.2 데이터마이닝의 절차 5
2.1.3 데이터마이닝 기법의 종류 6
2.1.4 데이터마이닝 기법의 최근 연구동향 10
2.2 의사결정나무 12
2.2.1 의사결정나무의 개요 12
2.2.2 의사결정나무의 절차 13
2.2.3 의사결정나무의 주요 알고리즘 14
2.2.4 의사결정나무의 최근 연구동향 19
제 3 장 의사결정나무 분할 및 가지치기 21
3.1 분할 21
3.1.1 분할의 개요 21
3.1.2 분할의 선택 21
3.1.3 분할의 최근 연구동향 23
3.2 가지치기 24
3.2.1 가지치기의 개요 24
3.2.2 가지치기의 주요 알고리즘 26
3.2.3 가지치기의 최근 연구동향 29
제 4 장 데이터 유형별 분할 및 가지치기 최적조건 31
4.1 데이터 및 변수의 크기를 고려한 경우 32
4.1.1 데이터 및 변수의 크기 분류 32
4.1.2 의사결정나무 알고리즘 간의 분할능력 비교분석 34
4.1.3 C5.0 알고리즘의 가지치기 옵션 비교분석 38
4.2 불균형 데이터의 불균형 정도를 고려한 경우 48
4.2.1 불균형 데이터 48
4.2.2 불균형 데이터의 분류 51
4.2.3 의사결정나무 알고리즘 간의 분할능력 비교분석 52
4.2.4 C5.0 알고리즘의 가지치기 옵션 비교분석 55
4.3 데이터 유형별 가지치기 최적조건 64
4.3.1 일반 데이터(UCI 데이터) 65
4.3.2 불균형 데이터(KEEL 데이터) 67
제 5 장 결 론 68
참고문헌 71
ABSTRACT 79

최근 본 자료

전체보기

댓글(0)

0