본 연구는 포렌식 어카운팅의 주요 연구 주제인 부정탐지에 있어, 예측력 높은 예측모형을 개발하기 위해 재무비율, 재무지표, 기타 비재무정보 및 내부회계관리제도 관련 변수를 포괄적으로 활용하였다. 특히, 내부회계관리제도 운영실태보고서의 텍스트를 감성분석(sentiment analysis)한 감성지수를 부정탐지 예측모형의 입력변수로 활용하였으며, 개발된 모형의 유용성을 확보하기 위해 해석가능한 기계학습(IML: Interpretable Machine Learning) 기법인 SHAP 분석을 국내의 회계학 연구에 최초로 제안하였다. 연구의 결과, 감성지수를 포함한 포괄적인 입력변수를 사용하여 부정탐지 예측모형을 개발한 경우, 로지스틱 모형을 기반으로 한 기계학습으로 개발한 예측모형이 다른 모형으로 학습한 경우보다 통계적으로 유의하게 예측성과가 높았다. 뿐만 아니라, 370개에 불과한 소표본임에도 불과하고 Cecchini et al.(2010), Humpherys et al.(2011), Huang(2013) 등과 같은 선행연구가 보고한 예측성과와 일부 유사한 수준의 예측성과를 가지는 것으로 나타났다. 이러한 연구결과는 Perols(2011)가 상황에 맞춰 기계학습 모형을 고려해야 한다고 주장한 것과 일관된 결과이기도 하다. 감성지수의 포함여부에 따른 예측성과를 비교한 결과도 앞의 결과가 유지되는 것으로 나타났다. 이는 내부회계관리제도 운영실태보고서의 텍스트 감성분석 결과가 (비)재무정보 및 기타 정보에 차별적인 예측기여도를 가짐을 나타낸다. 마지막으로, 기계학습으로 개발된 예측모형의 유용성을 확보하기 위해 SHAP을 이용하여 특정 사례에 대해 입력변수의 예측모형에 대한 기여도를 분석한 결과, 감성지수가 다른 내부회계관리제도 관련 입력변수에 비해 가장 높은 기여도를 가지는 것을 발견하였다. 이와 같은 결과를 확장하면, 부정탐지 모형 개발에 있어 효율성을 제고할 수 있다. 본 연구는 회계부정을 감리지적에 한정하여 회계부정에 대한 전체 표본을 대표하지 못하였으며, 임의적인 대응표본 방법을 사용하여 표본의 수를 충분히 확보하지 못하였고, 탐색적 절차에 의한 모형의 개발로 입력변수에 대한 이론적 근거와 범위를 확정짓지 못했다는 한계가 있다. 그리고, 보다 최신의 기계학습 기법을 적용할 필요도 있다. 따라서, 부정탐지 등의 실무적 유용성을 위해서는 이러한 한계를 극복하기 위한 추가적 연구가 필요할 것으로 판단된다.
This study comprehensively utilized variables related to the financial ratio and Internal Control over Financial Reporting(“ICFR”) to develop a prediction model with high predictive power in fraud detection, which is the main research topic of forensic accounting. In particular, the sentiment index, which is derived from a sentiment analysis of the text of the reports on the operations of the ICFR, was used as an input variable for the fraud detection prediction model, and SHAP analysis as the Interpretable Machine Learning(“IML’) technique was first proposed to secure the usefulness of the developed model. As a result of the study, in case of the fraud detection prediction model was developed using comprehensive input variables including the sentiment index, the prediction model trained with the logistic model was statistically significantly higher than the case with other models such as tree, random forest, and XGBoost model. In addition, it was found that the developed prediction model with only 370 small samples had predictive performance similar to those reported by previous studies. These findings are consistent with Perols(2011)’s assertion that machine learning models should be considered in context. Additionally, the results of comparing the predictive performance according to the inclusion of the sentiment index also showed that the previous result was maintained. This indicates that the sentiment analysis of the text of the reports on the operations of the ICFR has a differential predictive contribution to (non) financial information and other information. Finally, by analyzing the contribution of the input variable to the prediction model using SHAP to secure the usefulness, the sentiment index appears the highest contribution compared to other input variables related to ICFR. By expanding these results, efficiency can be improved in the development of fraud detection models. However, this study did not fully represent the sample of accounting fraud by limiting the accounting fraud to the regulatory enhanced actions, and did not secure a sufficient number of samples by using the arbitrary matching sample method. In addition, there is a limitation in that the theoretical basis and scope for the input variables could not be determined due to the development of the model through exploratory procedures. And, it is also necessary to apply the latest machine learning techniques. Therefore, further research is needed to overcome these limitations for practical utility such as fraud detection.
목차
제1장 서론 1제2장 이론적 배경과 선행 연구 7제1절 포렌식 어카운팅의 의의와 선행연구 7제2절 내부회계관리제도의 의의와 선행연구 22제3장 기계학습의 도입 29제1절 기계학습의 의의 29제2절 기계학습 기법의 유형과 목표 31제3절 리샘플링 기법의 활용 36제4절 예측성과의 평가 38제5절 텍스트마이닝: 감성 분석 41제6절 해석가능한 기계학습의 도입 48제4장 데이터의 정의와 실증분석 결과 52제1절 목표변수 및 표본의 정의 52제2절 입력변수의 정의 54제3절 실증분석결과 72제4절 기계학습 모형의 해석 82제5장 연구의 결론 및 시사점 91참고문헌 96ABSTRACT 107부록A. 재무비율 및 재무지표의 계산 방식(상장협) 110부록B. 내부회계관리제도 운영실태보고서 119부록C. 전체 입력변수의 SHAP 분석 결과 135