스마트 혁명으로 촉발된 초연결 사회가 도래하면서 유통 정보량은 이전과는 비교할 수 없을 정도로 증가되었다. 소셜네트워크 서비스를 통한 왕성한 의사소통은 집단적 기대심리를 형성하고 전통적 시장에 영향을 끼치는 주요 변수가 되고 있다. 그러나 부동산 시장을 예측하는 전통적 사회과학적 연구방법론은 주택보급률, 경제성장률, 금리 등 정형화된 변수만 활용했을 뿐 부동산 심리 요인은 거의 다루지 않은 한계점이 지적되었고 개선의 목소리가 높았다. 최근 들어 컴퓨터 하드웨어와 소프트웨어의 질적 향상이 이뤄지며 과거 불가능했던 비정형 데이터 분석이 가능해졌고, 빅데이터를 활용한 감성분석이 대안 중 하나로 부상하고 있다. 감성분석은 비정형 텍스트에서 사람의 의견, 태도나 성향 등과 같은 정보를 추출하는 기법으로 부동산 시장에 참여하는 사람의 심리를 파악하는데 유용하다. 본 연구의 목적은 첫째, 부동산 관련 신문기사와 방송뉴스를 활용하여 부동산 시장의 움직임을 설명 또는 예측할 수 있는 감성지수를 기계학습 방법론을 활용하여 개발하는 것이다. 둘째, 새롭게 개발된 감성지수가 아파트 매매가격의 예측에 유용성이 있는지를 파악하는 것이다. 마지막으로, 신문과 방송뉴스 기사를 활용한 감성지수의 아파트 매매가격지수의 예측력 향상 정도를 비교·분석하는 것이다. 분석자료는 비정형 텍스트 데이터인 신문과 방송의 부동산 관련 뉴스기사와 아파트 매매가격지수이다. 부동산 관련 뉴스기사 텍스트 데이터는 일간지 3개와 경제지 3개 및 지상파 3사의 인터넷 사이트에서 웹 크롤링(Web Crawling)을 통하여 수집하였다. 아파트 매매가격지수는 많은 선행연구에서 활용된 KB 국민은행에서 제공하는 월별 전국 아파트 매매가격지수를 사용하였다. 새로운 감성지수 개발을 위해 토픽모델(Topic Model), 텍스트랭크(TextRank), TF-IDF, 나이브 베이즈(Naive Bayes) 등 텍스트 분석 및 기계학습 방법을 적용하였다. 감성지수의 유용성 검증에는 시계열 분석모형인 ARIMA 및 ARIMAX 모형을 적용하였다. 비정형 데이터인 신문과 방송뉴스에서 긍정과 부정 문장들의 극성을 분류하는데 주관적 개입을 차단하고 객관적이고 체계적인 방법론을 도입하기 위하여 기계학습을 이용하였다. 개발된 감성지수의 유용성을 검증하기 위하여 아파트 매매가격지수를 종속변수로 하는 ARIMA 모형을 구축하였다. 또한 감성지수를 외생변수로 투입한 ARIMAX 모형을 적용하고 모형의 예측 오차인 RMSE와 MAE 값을 비교하여 유용성을 평가하였다. 본 연구의 차별성은 첫째, 빅데이터와 기계학습 방법을 활용하여 감성지수를 도출하고 연구자의 주관적인 개입이 배제된 체계적이고 자동화된 방법론을 제시하였다는 점이다. 이것은 기존 설문조사 중심의 방법론을 탈피하고 빅데이터와 기계학습이 결합된 개선된 방법론이 정착될 수 있는 기반을 제공한다. 둘째, 토픽모델링과 텍스트랭크 기법을 동시에 적절히 활용함으로써 원하는 강도나 크기만큼 필터링하여 단어사전을 사전에 구축할 수 있다는 점이다. 셋째, 신문과 방송뉴스 기사에서 신문 감성지수와 방송 감성지수를 도출하여 언론매체의 부동산시장에 대한 영향력의 비교·분석을 한 점이다. 분석 결과, 신문 감성지수(NPSI) 또는 방송 감성지수(TVSI)를 포함한 전국 아파트 매매가격지수(NAPI) 모형의 예측력이 유의미하게 향상되었다. 전국 신문 감성지수를 포함한 전국 NPSI ARIMAX 모형이 NAPI ARIMA 모형과 비교하여 RMSE는 7.90%, MAE는 6.21% 예측 오차가 향상되었다. 또한 방송 감성지수를 포함한 TVSI ARIMAX 모형은 NAPI ARIMA 모형 대비 RMSE는 5.05%, MAE는 5.42% 예측 오차가 향상된 것으로 나타났다. 전국 아파트 매매가격지수 예측력 향상 정도에서 신문 감성지수의 기여가 방송 감성지수에 비해 높게 나타났다. 본 연구는 부동산 시장에 대한 소비자 심리를 파악하기 위해 기존의 설문조사 중심의 데이터를 수집방법을 벗어나 빅데이터와 기계학습을 접목하여 언론매체를 통해 부동산 시장에 대한 소비자 심리를 파악할 수 있는 새로운 방법론을 제시한 점에서 학문적 의의가 있다. 또한 빅데이터를 활용한 감성지수가 전통적인 변수만을 사용했을 때에 비해 아파트 매매가격의 예측력을 향상시킬 수 있음을 확인한 점도 의의가 있다. 최근까지 부동산 시장을 연구하는 전통적 분석 방법은 구매자의 심리가 배제된 상태에서 거시 또는 미시적인 정형 데이터 분석만으로 이뤄졌으나, 본 논문은 감성지수를 활용하여 이 한계를 극복한 학문적 성과도 있다. 비정형 빅데이터를 체계적이고 효율적으로 활용하면 시·공간적 제약에서 벗어나 매일 쏟아져 나오는 정보에서 부동산 시장의 가격 흐름을 보다 효과적으로 예측할 수 있다.
With the advent of the hyper-connected society, the information flow has increased dramatically and social network services has become a major variable in shaping collective expectations and affecting the traditional markets. However, the traditional research methodology uses standardized variables such as housing supply rate, economic growth rate, and interest rate, but does not take into consideration the factors like sentiment. In recent years, computer hardware and software have improved in quality, and unstructured data analysis which was impossible in the past has become possible. Sentiment analysis using Big Data is emerging as a viable alternative. Sentiment analysis is a technique that extracts information such as opinions and attitudes from unstructured text, and is useful for grasping the sentiments of the participants in the real estate market. The purpose of this study is, first, to develop a sentiment index that can predict the movement of the real estate market by using newspaper articles and broadcast news related to real estate, using machine learning; second, to determine whether the new sentiment index is useful in improving the predictive power of the apartment sale price index ARIMA model; and third, to compare the degree of improvement in the predictive power of the sentiment index using the prediction error. The data analyzed here are unstructured text data such as newspaper and broadcast real estate news articles and apartment sales price index. Real estate-related news article text data was collected through web crawling three daily newspapers, three economic newspaper and three TV broadcast websites, and the apartment sale price index was obtained monthly by KB Kookmin Bank, which was used in many previous studies. The analytic method uses the machine learning techniques such as topic analysis, Text Rank, TF-IDF, and Naive Bayes to develop a new sentiment index, and the time series analytic model ARIMA is used to verify the usefulness of the sentiment index. Machine learning is used to limit subjectivity and introduce objectivity and automated methodology to classify the polarity of the positive and negative sentences in the unstructured data. To verify the usefulness of the sentiment index developed, an ARIMA model with an apartment sale price index as a dependent variable was constructed, and an additional ARIMAX model with the sentiment index as an exogenous variable was introduced to further predict the prediction error RMSE of the ARIMA and ARIMAX models and MAE values are compared to evaluate the usefulness. This study differs from previous studies for the following reasons: First, it proposed an automated methodology that excluded subjective intervention of researchers by adopting a methodology for deriving a sentiment index using Big Data and machine learning. This provides a basis for breaking away from the existing survey methodology, and establishing an improved survey methodology that combines Big Data and machine learning. Second, by using both topic modeling and Text Rank techniques, it is possible to build a dictionary of desired strength or size. Third, the newspaper sentiment index and the broadcast sentiment index were derived from newspaper and broadcast news articles, and it was possible to compare the media''s influence on the real estate market. As a result of the study, the national NPSI ARIMAX model including the newspaper sentiment index showed an improved prediction error of 7.90% for the RMSE and 6.21% for the MAE compared to the national NAPI ARIMA model. In addition, the national TVSI ARIMAX model, including the broadcast sentiment index, showed an improved prediction error of 5.05% for the RMSE and 5.42% for the MAE compared to the national NAPI ARIMA model. This confirmed that if the sentiment index was included, the predictability of the apartment sale price index could be improved. In addition, the contribution of newspaper sentiment index was higher than the broadcast sentiment index in terms of improving the predictability of the apartment price index. In order to understand the state of consumer sentiment for the real estate market, this study devised from the methodology of collecting data by using the existing telephone survey method to gauge the state of consumer sentiment for the real estate market through media through the combination of Big Data and machine learning. There is an academic significance to suggest a new methodology. In addition, it is also meaningful to confirm through empirical analysis that the sentiment index using Big Data can improve the predictive power of apartment sales price index compared to using only traditional variables. Until now, the traditional analysis method of researching the real estate market has consisted only of macroeconomic or microeconomic structured data analysis with the buyer''s sentiment excluded, but this paper also has some academic achievements that overcome some of these limitations by using the sentiment index. The implication of this study is that the systematic and efficient use of unstructured data is a basis for quicker and more accurate prediction of the price flow of assets and financial markets from vast information without time and spatial constraints.
Ⅰ. 서 론 11. 연구의 배경 및 목적 12. 연구 범위 및 방법 31) 연구 범위 32) 연구 방법 43. 연구의 내용 및 구성 5Ⅱ. 이론 및 선행연구 고찰 71. 빅데이터(Big Data)의 개념과 의의 71) 빅데이터의 개념 및 특성 72) 빅데이터의 의의 및 활용 82. 기계학습(Machine Learning)과 딥 러닝(Deep Learning) 151) 기계학습의 개념 152) 기계학습의 유형 153) 기계학습 알고리즘 164) 딥 러닝의 개념과 활용 173. 선행연구 고찰 및 차별성 191) 빅데이터를 이용한 연구 192) 심리지수를 이용한 부동산 시장 연구 233) 연구의 차별성 264. 언론매체 특성 281) 신문과 방송 매체별 특성 282) 신문과 방송 논조의 차이 33Ⅲ. 연구모형 및 분석방법 341. 연구모형 342. 감성지수 개발모형 351) 용어의 정의 352) 분석 절차 353) 분석 자료 선정 364) 분석 방법 373. 감성지수 유용성 검증 모형 481) 용어의 정의 482) 분석 절차 483) 분석 자료 선정 494) 분석 방법 49Ⅳ. 분석 결과 541. 감성지수 개발 541) 전처리 및 토픽분석 552) 텍스트랭크 및 감성사전 603) TF-IDF와 나이브 베이즈 634) 감성지수 계산과 성능 비교 655) 소결 712. 감성지수의 유용성 분석 결과 721) 기초 통계량 및 단위근 검정 722) 교차상관 및 그랜저 인과관계 분석 783) 전국 아파트 매매가격지수 ARIMA 모형 814) 감성지수 포함 ARIMAX 모형 845) 소결 893. 신문과 방송 감성지수의 예측력 비교 91Ⅴ. 결 론 931. 요약 및 시사점 931) 연구 결과 요약 932) 연구의 의의 및 시사점 942. 연구의 한계 및 향후 과제 97참 고 문 헌 98Abstract 107부 록 109