단순 베이즈 분류(Naive Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다.
Naive Bayes Classification is based on the assumption that input variables are conditionally independent given output variable. The Naive Bayes assumption is unrealistic but simplifies a problem of high dimensional joint robability estimation into a series of univariate probability probability estimations. Thus Naive Bayes classifier is often adopted in the analysis of a massive data set such as in spam e-mail filtering and recommendation systems. In this paper, we propose a variable selection method for based on chi^2 statistic on input and output variables. While the proposed method retains the simplicity of Naive Bayes classifier in terms of data processing and computation,it can select relevant variables. It is expected that our method can be useful in classification problems for ultra high dimensional or big data such as the classification of diseases based on SNPs(single nucleotide polymorphisms).
목차
제1장 서론 1제2장 입력변수의 선택 4제1절 기호및 기본개념 4제2절 변수선택법 6제3장 데이터 분석 8제1절 모의실험 8제2절 실제데이터 10제4장 결론 15참고 문헌 17Abstract 19감사의 글 20