본 연구는 한국프로야구의 정규리그 자료를 이용하여 포스트시즌(PS) 진출여부를 예측할 수 있는 여러 가지 통계모형의 분석결과를 비교하는데 목적이 있다. 한국야구위원회와 국내외 야구 관련단체에서 발행하는 경기기록 자료 (1991-2009년)를 이용하여 PS진출여부를 예측할 수 있는 3가지의 통계모형(판별분석, 이항 로지스틱분석, 인공신경망분석)을 적용하였다. 각 통계모형의 독립(예측)변인들은 각 기술영역(투수력, 타력/득점력, 수비력, 기동력)에 속한 기록변인들을 독립적으로 이용하거나 기술영역 구분 없이 한꺼번에 투입하여 분석하였다. 그리고 각 기술영역의 상대적 전력평가 표준지수를 산출하여 예측변인으로 사용하였으며 모든 분석에서 변인들의 투입은 단계적(stepwise) 방식을 선택하였다. 다양한 분석에서 도출된 본 연구의 결과를 종합하면, 첫째, 각 기술영역에 속한 경기기록 변인들을 대상으로 실시한 평균비교에서 PS에 진출한 집단이 대부분의 변인들에서 높은 평균값을 보였으며 특히 세이브, 타점율, 방어율, 출루율, WHIP, 피안타율은 산출된 t값이 6.0이상으로서 매우 큰 차이를 보였다. 둘째, 판별과 로지스틱분석에서 투수력은 3개의 변인(세이브, 방어율, 피희생타)이 선택되어 각각 80.3%, 80.2%의 예측적중률을 보였으며, 타력/득점력에서는 2개의 변인(득점, 실점)만이 예측변인으로 선택되었으며 각각의 예측적중률은 88.2%, 88.8%였다. 인공신경망 분석의 적중률은 투수력에서 81.9%, 타력/득점력에서 88.8%로 조금 높았다. 그리고 기술 영역 구분 없이 전체 28개의 변인을 투입한 경우에도 모형에서 선택된 변인은 4개에 불과했으며 예측적중률은 다소 증가되었지만 큰 변화가 없었다(각각 89.5%, 89.5%, 91.9%). 그리고 각 기술영역별 평가지수를 예측변인으로 투입한 분석에서도 3가지의 통계모형에 의한 예측적중률은 거의 유사하였다(각각 88.8%, 90.8%, 91.6%). 전반적으로 판별분석, 로지스틱분석, 인공신경망분석의 결과비교에서 판별분석과 로지스틱분석이 일부 분석에서 각각의 기법이 선택한 예측변인은 다른 경우가 있었지만 대부분의 분석에서는 동일한 변인을 예측변인으로 채택하였고 예측 적중률 또한 거의 동일하였다. 그리고 동일한 변인을 예측변인으로 선택하여 분석한 인공신경망분석의 예측적중률은 판별과 로지스틱분석보다는 다소 높았으나 큰 차이는 없었다.
The purpose of this study is to compare the outcomes of three statistical methods being used frequently in predicting the post-season entry of professional Korean baseball. The data were collected from official materials issued by KBO and related organizations, and consisted of the records of each individual skills of professional baseball played in Korea from 1991 to 2009. Based on the data obtained in regular season three statistical methods (discriminant function(DFA), logistic(LOS), and neural network analyses(NNA) were applied to predict the outcome of post-season entry, and the results of 3 statistical models and the outputs of SPSS Windows 16.0 ware compared in terms of selected predictors, hit rates, and statistical goodness of fit indices. The following results were obtained from the analyses performed in this study. First, the mean value of each skill performance for those teams who made post-season entry was considerably higher than those who did not. This was particularly so in those individual skills related to pitching and hitting skills. Second, the performance of DFA and LOS was pretty much the same in pitching (80.3% and 80.2%, respectively), in hitting/scoring (88.2%, 88.8%), and overall ability (89.5%, 89.5%) in term of the percent of hit rate. However, the percent of hit rate for NNA was a bit hitter than those of two other methods in each of the skill areas, but the differences were minimal. However, this study suggested that the selection of independent variables in the prediction of the outcome of sport performance should not be solely relied upon the statistical criteria, and thus theory-based hierarchical approach should be considered in order to obtain an external validity of the variables selected for the predictors in regression related techniques.