메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

홍경찬 (상지대학교, 상지대학교 일반대학원)

지도교수
한영환
발행연도
2022
저작권
상지대학교 논문은 저작권에 의해 보호받습니다.

이용수40

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
인공지능이나 4차 산업의 발달로 기술이 발전하면서 당뇨병을 포함한 다양한 질병의 조기진단 및 예측이 가능하게 되었다. 그러나 인공지능을 통한 진단 및 조기예측은 빅데이터나 AI학습 모델이 가진 문제점을 해결해야만 높은 성능을 보인다. 특히 의료정형데이터의 경우, 대표적으로 결측치, 이상치, 클래스 불균형과 같은 문제가 발생하며, 이는 편향되거나 성능을 저하시키는 결과를 초래한다.
본 논문에서는 의료 정형데이터가 갖는 결측치, 이상치, 클래스의 불균형 문제를 해결하였으며, 특히 이상치 문제는 기존의 IQR알고리즘이 가지고 있는 단점을 보완한 사분범위가 조정된 IQR알고리즘을 제안한다.
제안한 알고리즘의 이상치 탐지 기준은 기존의 IQR알고리즘을 통해 탐지된 이상치의 최빈값(mode)을 기준으로 하였다. 기존의 이상치 제거 기준선과 이상치의 최빈값을 비교하여 최빈값이 더 클 경우, 이상치 내에서 IQR알고리즘을 한 번 더 적용하여 최소한의 이상치를 제거하였다. 그 외에도 중간값 대체, SMOTE기법들을 활용하여 정형데이터가 갖고 있는 이상치, 클래스 불균형 문제를 해결하였다.
제안한 전처리 기법의 성능평가를 위해 UCI Repository의 Pima Indians Diabetes Database를 사용하였으며, K-Fold교차검증기법, ROC Curve, 혼돈 행렬을 활용하여 성능평가를 진행하였다. 학습 모델은 머신러닝에서 많이 사용하고 있는 6가지 분류 모델 및 스태킹 기법을 적용한 새로운 분류 모델을 사용하였다. 본 논문의 전처리 과정을 적용한 당뇨병 데이터는 Stacking_LGBMClassifier에서 94%의 정확도와 재현율 99%, 92%의 F1-Score를 보였으며, 이는 기존의 IQR알고리즘을 포함한 전처리기법을 적용하였을 때 보다 각각 3%, 10%, 5%의 우수한 성능을 나타내었다.
추후 여러 가지 특징을 포함하고 있는 데이터를 기반으로 이상치를 제거할 경우, 본 논문에서 제안하는 전처리 기법이 더욱 효과적인 결과를 가져다 줄 것으로 기대된다.

목차

목 차 ⅰ
그림 목차 ⅲ
표 목차 iv
국문요약 v
제1장 서론 1
제2장 관련연구 3
2.1 데이터 전처리 기법 4
2.1.1 IQR 알고리즘 4
2.1.2 SMOTE 6
2.2 머신러닝 분류 모델 9
2.2.1 랜덤 포레스트 9
2.2.2 아다부스트 10
2.2.3 LightGBM 13
제3장 당뇨예측을 위한 데이터 전처리 방법 15
3.1 결측치 대체 17
3.2 이상치 제거 17
3.2.1 IQR알고리즘의 이상치 제거 17
3.2.2 IQR알고리즘의 사분범위 조정 21
3.3 클래스 불균형 26
제4장 실험 결과 및 고찰 27
4.1 데이터베이스 27
4.2 성능평가 28
4.2.1 K-Fold 교차검증기법 28
4.2.2 혼돈 행렬 30
4.2.3 ROC Curve 34
4.3 실험결과 35
제5장 결론 37
참고문헌 38
영문요약 41
그림 목차
그림 2.1 의료 정형데이터 문제점의 예 3
그림 2.2 IQR알고리즘의 이상치 탐지 원리 6
그림 2.3 SMOTE 기법의 데이터 오버샘플링 과정 8
그림 2.4 랜덤 포레스트의 학습과정 10
그림 2.5 균형중심방식과 리프중심방식 14
그림 3.1 조정된 IQR알고리즘이 포함된 당뇨예측 시스템 흐름도 15
그림 3.2 IQR알고리즘이 적용된 당뇨병 데이터의 분포도 18
그림 3.3 정상인 데이터의 분포도 20
그림 3.4 사분범위가 조정된 IQR알고리즘을 적용한 분포도 25
그림 4.1 K-Fold 교차검증기법의 진행과정 29
그림 4.2 제안한 전처리 기법을 적용한 ROC Curve 34
표 목차
표 3.1 특징에 대한 결측치 대체 중간 값 17
표 3.2 훈련 데이터와 평가 데이터의 크기 26
표 3.3 SMOTE기법이 적용된 데이터의 크기 변화 26
표 4.1 피마 인디언 당뇨 데이터베이스 27
표 4.2 피마 인디언 당뇨 데이터베이스의 결측치 수 28
표 4.3 혼돈 행렬 30
표 4.4 제안된 전처리 방법 및 기존 연구의 분류 평가지표 36

최근 본 자료

전체보기

댓글(0)

0