지난 10년간 국내 전체 산업의 재해천인율은 다양한 노력과 산업환경의 변화에 따라 점차 감소하는 추세에 있다. 반면, 이러한 정책적 노력과 연구가 활발하게 진행됨에도 불구하고 국내 건설업에서는 오히려 재해천인율이 꾸준히 증가하는 있는 것으로 나타났다. 특히, 전체산업의 대형사고 및 사망사고 중 50% 이상이 건설업에서 발생한 것으로 나타나 국내 건설재해의 선제적 예방이 더욱 중요한 부분으로 자리 잡고 있다. 이에 따라, 정부 차원에선 건설재해 감소를 위해 사전적 건설재해 예방을 핵심 키워드로 대규모 프로젝트를 실행해왔으며, 안전사고를 사전에 예방하기 위한 다양한 연구가 진행되어왔다. 하지만, 기존의 연구는 주로 건설재해의 원인만을 분석하거나 사후분석적 연구결과를 도출하였기에 건설재해를 사전에 예방하기에는 한계가 있다. 또한, 건설재해를 사전에 예방하기 위한 기계학습 기반의 건설재해 예측 모델 연구의 경우, 주로 정형데이터만을 활용하였기에 건설현장에 존재하는 다양한 특성을 충분히 고려하지 못한 예측 결과가 도출되었다. 따라서, 본 연구에서는 정형데이터와 텍스트 형식의 비정형데이터로 구성된 건설현장 빅데이터를 활용하여 건설현장의 특성을 충분히 고려할 수 있는 인공지능 기술 기반의 건설재해 사전 예측 모델을 개발하였다.
본 연구에서는 모델의 학습데이터로 건설공사 안전관리 종합정보망(CSI)의 최근 3년간 건설재해 빅데이터 약 7,000건을 수집하였다. 효과적인 학습 및 예측을 진행하기 위해 Permutation Feature Importance 기법을 적용하여 영향력 있는 14개의 변수를 선정하고, ADASYN 기법을 적용하여 데이터 불균형 문제를 해결하였다. 전처리된 데이터 중 정형데이터의 학습은 Logistic Regression, Artificial Neural Network, Support Vector Machine, Naive Bayes, Decision Forest 총 5가지의 학습 모델을 통해 수행되었으며, 비정형데이터의 학습은 BERT 언어모델을 사용하였다. 최종적으로 정형 및 비정형데이터를 동시에 활용한 건설재해 예측 모델의 성능을 Overall accuracy와 Macro F1-score 두 가지 정량적 지표를 통해 평가한 결과, Decision Forest(+BERT) 모델이 가장 좋은 성능을 보였으며, 정형데이터만을 활용한 경우보다 약 20% 향상된 95.74%의 예측정확도가 도출되었다. 본 연구 결과, 비정형데이터를 동시에 활용함으로써 예측 모델의 효과적인 성능 향상을 확인하였으며, 보다 다양한 현장 특성을 고려한 건설재해 예측을 통해 건설재해 저감에 기여할 것으로 기대된다.
Over the past 10 years, the accident rate of all industries in Korea has been on a downward trend due to various efforts and changes in the industrial environment. On the other hand, despite these efforts, the accident rate is steadily increasing in the domestic construction industry. In particular, as more than 50% of major accidents and fatalities in the entire industry occurred in the construction industry, it is important to preemptively prevent domestic construction accidents. Accordingly, the government has been implementing large-scale projects with the key keyword of prevention in order to reduce construction accidents, and various studies have been conducted. However, existing research mainly analyzes only the causes of construction accidents or draws post-analytic research results, so there is a limit to preventing construction accidents in advance. In addition, in the case of the existing machine learning-based construction accident prediction model study, since only structured data were mainly used, various characteristics existing in the construction site were not sufficiently considered. Therefore, in this study, we developed a construction accident prediction model based on artificial intelligence technology that can fully consider the characteristics of the construction site by using big data on the construction site. In this study, about 7,000 big data on construction accidents that occurred in the last 3 years in CSI were collected as the learning data of the model. For effective learning and prediction, 14 variables were selected by applying Permutation Feature Importance, and data imbalance problem was solved by applying ADASYN. Among the preprocessed data, structured data learning was performed through a total of five learning models: Logistic Regression, Artificial Neural Network, Support Vector Machine, Naive Bayes, and Decision Forest, and the BERT language model was used to learn unstructured data. Finally, as a result of evaluating the performance of the construction accident prediction model using both structured and unstructured data through two quantitative indicators, overall accuracy and macro F1-score, the Decision Forest (+BERT) model showed the best performance, The prediction accuracy of 95.74% was derived, which was about 20% improved compared to the case using only data. As a result of this study, it was confirmed that the effective performance of the predictive model was improved by using unstructured data at the same time, and it is expected to contribute to the reduction of construction accidents by predicting construction accidents in consideration of more diverse site characteristics.
제1장 서 론 11.1 연구배경 및 필요성 11.2 연구동향 41.3 연구목표 및 방법 6제2장 이론적 배경 92.1 빅데이터와 인공지능 92.1.1 빅데이터 92.1.2 인공지능 102.2 데이터 수집 및 전처리 기법 122.2.1 데이터 수집 기법 122.2.2 데이터 전처리 기법 122.3 변수 중요도 평가 기법 152.4 데이터 불균형 해소 기법 162.5 정형데이터의 기계학습 모델 182.5.1 Logistic Regression 182.5.2 Artificial Neural Network 192.5.3 Support Vector Machine 202.5.4 Naive Bayes 212.5.5 Decision Forest 222.5.6 다중 클래스 학습을 위한 One-vs-All 접근 방식 232.6 비정형데이터의 BERT 모델 252.7 예측 모델의 평가를 위한 정량적 지표 27제3장 건설재해 예측 모델 개발 313.1 데이터 수집 및 전처리 333.2.1 데이터 수집 333.2.2 데이터 전처리 343.2 건설재해 예측 모델의 개발 및 평가 403.2.1 정형데이터만을 고려한 기계학습 기반 예측 모델 403.2.2 비정형데이터만을 고려한 BERT 기반 예측 모델 413.2.3 정형·비정형데이터를 모두 고려한 인공지능 기반 예측 모델 433.3 건설재해 예측 모델의 성능 분석 44제4장 결론 46참고문헌 48