최근 스마트농업의 출현으로 데이터에 기반하여 농업의 문제를 해결하고자 하는 연구가 증가하고 있다. 특히 농작물 병해는 한 해 수확량에 큰 영향을 미치기 때문에 발생요인을 구명하고 초기단계에 예찰·관리하는 것이 필요하다. 따라서 본 연구에서는 공공데이터를 기반으로 주요 병해중 하나인 벼 깨씨무늬병의 발생 예측 모형을 구축하였고, 모형의 성능을 비교하였다. 공공데이터는 기상청에서 제공하는 전국 308지점의 기상관측소에서 관측한 기상데이터, 농촌진흥청에서 제공하는 필지별 전국 토양화학성데이터, 그리고 2007지점의 전국 병해충 관측데이터를 사용하였다. 데이터 불균형 문제를 해결하기 위하여 SMOTE방식으로 데이터를 가공하였다. 빅데이터 분석을 위하여 가우시안 나이브 베이즈(Gaussian naive bayes), 그라디언트 부스팅(Gradient boosting), 랜덤 포레스트(Random forest), 로지스틱 회귀분석(Logistic regression), 서포트 벡터 머신(Support vector machine), 의사결정트리(Decision tree), 인공 신경망(Artificial neural network), K-최근접 이웃 알고리즘(K-nearest neighbor) 등 7가지의 머신러닝 기법을 사용하여 예측 모형을 구축하였다. 예측 모형의 성능은 정확도, 정밀도, 재현율, 그리고 F1 score로 평가하였고, 랜덤 포레스트 기법이 가장 예측 성능이 높았다. 토양데이터, 기상데이터 그리고 토양과 기상데이터 모두를 독립변인으로 설정하여 예측 모형을 비교해 보았을 때, 토양과 기상데이터 모두를 사용한 모형이 가장 예측성능이 높았다.
Research to solve agricultural problems based on data is increasing recently with the advent of smart farming. Crop diseases have a great influence on the annual yield. Therefore, understanding the causes of the crop diseases is, in particular, important to control them at an early stage. In this study, models for predicting the occurrence of rice brown spot disease, one of the major diseases, were constructed based on public big data. Then the performance of the models was tested. Seven machine learning algorithms including Gaussian naive bayes, gradient boosting, random forest, logistic regression, support vector machine, decision tree, artificial neural network, and K-nearest neighbor algorithm were used to build the predictive models. The public data used for this study were meteorological data observed at 308 weather stations across the country by KMA (Korean meteorological administration), soil chemistry data in SIS (soil information system) by RDA (rural development administration) and pest observation data provided by RDA at 2007 sites. Results of the evaluation for performance of the predictive models based on accuracy, precision, recall, and F1 score showed that the models using random forest algorithm had the highest predicting ability. Among three independent variables (soil data, meteorological data, soil and meteorological data) for the seven algorithms, all the models constructed by soil and meteorological data had the highest predictive performance.
Ⅰ. 서 언 1Ⅱ. 연구사 61. 농업에서의 빅데이터 활용 62. 식물병 관리에서의 빅데이터 활용 113. 벼 깨씨무늬병 발생 토양 및 기상요인 15Ⅲ. 재료 및 방법 171. 활용 데이터 171.1. 출처 171.2. 통계 요약 202. 데이터 전처리 242.1. 이상치 및 결측값 처리 242.2. 데이터 통합 262.3. 오버 샘플링 283. 분석 방법 293.1. 변인 설정 293.2. 머신러닝 기법 304. 성능 평가 314.1. 데이터 신뢰성 검증 314.2. 예측 모형 검증 32Ⅳ. 결과 및 고찰 331. 환경변수가 병 발생에 미치는 영향 332. 병 발생지와 비발생지 비교 363. 데이터 신뢰성 384. 예측 모형 43Ⅴ. 결론 48인용문헌 49Summary 59