본 연구에서는 집중호우, 지진 등의 원인에 의해 매년 방대한 피해를 끼치는 산사태 발생 지역에 대한 지공간 상관관계 통합(GCI, Geospatial correlations integration) 기법을 통해 산사태를 일으키는 영향인자 간의 상관관계와 가중치를 분석하고, 산사태 취약성도(landslide susceptibility map)를 작성 및 검증하고자 하였다. 지공간 상관관계 통합 분석은 지리 정보 시스템(GIS, Geographic Information System) 환경에서 확률, 통계 및 머신러닝과 같은 다양한 모델을 적용하여 지질현상이나 자연재해 등에 대한 예측을 수행하는 것을 의미한다. 분석에 활용된 산사태 영향인자는 각각의 주제도에서 추출하여 공간 데이터베이스를 구축하여 총 18개를 고려하였으며, 이를 산사태 위치 데이터와 결합하여 분석하였다. 연구지역은 경상북도 상주시 화서면 일대로, 1998년 8월 10일부터 12일까지 집중호우로 인해 다수의 산사태가 발생하여 큰 피해를 입었다. 이에 빈도비, 로지스틱 회귀, 인공신경망 모델을 적용하여 산사태 취약성 분석을 수행하였고, 산사태 영향인자의 상대적 가중치를 파악하고자 하였다. 앞서 적용한 모델을 통해 도출된 산사태 취약지수는 단지 추정값이기 때문에 ROC(Relative Operating Characteristics) 그래프를 이용하여 예측 정확도를 검증하였다. 이를 보다 정량적으로 파악하기 위해 ROC 곡선 하단의 면적을 나타내는 AUC(Area Under the Curve) 값을 계산한 결과, 빈도비 모델은 70%, 로지스틱 회귀 모델은 86%, 인공신경망 모델은 88%의 예측 정확도를 보였다. 또한 지도 학습 알고리즘 모델에서는 훈련 데이터를 랜덤하게 샘플링하여 여러 번 계산된 산사태 영향인자 별 상대적 가중치 값을 알아보았다. 그 결과, 로지스틱 회귀 모델에서 영향인자 별 상대적 가중치 값은 유효토심이 가장 높았고, 인공신경망 모델에서는 지질암상이 가장 높았다. 하지만 인공신경망 모델의 가중치는 편차가 상대적으로 큰 값을 가지므로 불확실성이 높다고 판단하였다. 이에 따라 훈련 데이터의 산사태 미발생부를 어떻게 샘플링 하는지에 따라 가중치가 크게 달라질 수 있으므로, 이러한 훈련 데이터의 샘플링이 결과에 중요한 영향을 미칠 것으로 판단하였다.
In this study, the correlation and weights between the conditioning factors that cause landslides are analyzed through the geospatial correlations integration technique for the areas where the landslides cause massive damage every year due to heavy rainfall and earthquakes, etc and the landslide susceptibility map is created and verified. Geospatial correlations integration analysis is defined as performing predictions on geological phenomena or natural disasters by applying various models such as probability, statistics, and machine learning in the GIS environment. A total of 18 landslide conditioning factors used in the analysis were considered by constructing a spatial database by extracting from each thematic map, and they were combined with the landslide location data in this analysis. The study area is Hwaseo-myeon, Sangju-si, Gyeongsangbuk-do, which had suffered heavy damage from a number of landslides due to heavy rains from August 10 to 12, 1998. Accordingly, landslide susceptibility analysis was performed by applying the frequency ratio, logistic regression, and artificial neural network models, and the relative weights among the landslide conditioning factor, were investigated. Since the landslide susceptibility index derived through the previously applied model is only an estimated value, the prediction accuracy was verified using the ROC graph. As a result of calculating the AUC value representing the area under the ROC curve to understand this more quantitatively, the FR model showed prediction accuracy of 70%, the LR model 86%, and the ANN model 88%. Also, in the supervised learning algorithm model, the relative weight values for each landslide conditioning factor calculated several times by randomly sampling the training data were investigated. As a result, the soil depth factor had the highest relative weight value for each conditioning factor in the LR model, and the geology factor was the highest in the ANN model. However, the weight of the ANN model had a relatively large bias, so it was believed that the uncertainty of the weights is high. We found that the weights can vary greatly depending on how the number of non-landslide points of the training data are sampled and considered the sampling of the training data has an important effect on the results.
I. 서론 11. 연구 배경 및 목적 12. 연구 동향 33. 연구 방법 4II. 이론적 배경 71. 산사태 취약성 분석 72. 빈도비 83. 로지스틱 회귀분석 104. 인공신경망 분석 135. 정확도 평가 191) 오차 행렬 192) ROC와 AUC 그래프 20III. 연구지역 공간 데이터베이스 구축 221. 연구지역 222. 공간 데이터베이스 구축 241) 산사태 현황도 242) 산사태 영향인자 253) 상관 분석 34IV. 산사태 취약성 분석 371. 훈련 데이터 설계 372. 빈도비를 이용한 산사태 취약성 분석 383. 로지스틱 회귀분석을 이용한 산사태 취약성 분석 494. 인공신경망을 이용한 산사태 취약성 분석 515. 분석 결과 및 정확도 평가 53V. 토의 및 결론 57Ⅵ. 참고문헌 59ABSTRACT 66