최근 딥러닝(Deep Learning) 기술이 크게 발전함에 따라 국가 R&D 분야의 대량의 텍스트 문서(Text Document)를 다양한 관점으로 분석하기 위한 수요가 급격히 증가하고 있다. 특히 국가 R&D 사업 전주기의 주요 참여 주체인 정부 관계부처, 과제관리기관 그리고 연구자들은 국가 R&D 투자 효율성과 연구 생산성 제고를 위한 수단으로 데이터 기반의 연구개발 활동을 추진하고자 한다. 그러나 텍스트 데이터로 구성된 과제(Project), 특허(Patent) 그리고 논문(Paper)을 분석하기 위해서는 텍스트 데이터를 구조화하는 자연어 처리(Natural Language Processing)가 필수적이다. 최근 딥러닝 기술을 기반으로 크게 개선된 자연어 처리 기술은 다양한 분야의 데이터에 적용되어 괄목할 성과를 거두면서 크게 주목받고 있다. 특히 대량의 말뭉치 데이터를 미리 학습한 사전학습 모델(Pre-trained Language Model)에 관한 활용 및 개선에 관한 연구가 활발히 이루어지고 있으며, 대표적인 사전학습 모델인 BERT(Bidirectional Encoder Representations from Transformers) 모델의 활용에 대한 관심 역시 매우 높아지고 있다. 하지만 BERT 언어모델의 사전학습 대상인 위키피디아 문서는 일반적으로 범용 말뭉치로 여겨지고 있으며, 이는 국가 R&D와 같이 고도로 전문화된 분야의 말뭉치와는 다른 분포를 보인다. 이에 따라 국가 R&D 문서에서 높은 빈도로 사용되는 전문어는 BERT 언어모델에 포함되지 않아 충분히 학습되지 못하는 경우가 발생할 수 있으며, 이는 BERT 모델을 통한 전문 분야 문서 이해의 한계로 지적되고 있다. 이에 따라 본 연구에서는 최근 활발하게 연구되고 있는 추가 사전학습(Further Pre-training) 기반의 전이 학습(Transfer Learning)기법을 활용하여, 순수한 BERT 모델에 국가 R&D 분야의 지식을 전이한 R&D KoBERT 모델을 구축하는 방안을 제안한다. 또한, 본 연구에서 제안한 모델의 성능을 평가하기 위해 국가 R&D 수행과제 건수가 상위인 보건의료, 농림수산식품, 기계, 생명과학 그리고 정보통신 분야를 대상으로 분류 분석을 수행한 결과, 전체 5개의 국가 R&D 분야 중 4개 분야에서 제안 모델이 순수한 KoBERT-Base 모델보다 더 우수한 성능을 나타내는 것을 확인하였다.
Recently, with the rapid development of deep learning technology, the demand for analyzing a large amount of text documents in the national R&D field from various perspectives is rapidly increasing. In particular, government ministries, research management institutes, and researchers, who are major actors participating in the entire national R&D project cycle, intend to promote R&D activities using data as a means to improve national R&D investment efficiency and research productivity. However, in order to analyze projects, papers, and patents documents composed of text data, natural language processing should be preceded so that, the unstructured text can be converted to structured data. Recently, natural language processing technology, which has greatly been improved based on deep learning technology, has been applied to data in various fields and has been receiving great attention as it has achieved remarkable results. In particular, research on the use and improvement of pre-trained language model that has been trained on a large amount of corpus data in advance is actively conducted, and the use of BERT (Bidirectional Encoder Representations from Transformers), which is a representative pre-trained language model, shows a great demand. However, Wikipedia documents, which are used in pre-training BERT language model, are generally regarded as a general-purpose corpus, which shows a different distribution trend from the corpus of highly specialized fields such as national R&D. As a result, there may exist cases where technical terms used frequently in national R&D documents are not included in the BERT language model and thus have not been learned sufficiently, which is pointed out as a limitation of understanding documents in specialized fields through BERT. Accordingly, this study suggests R&D KoBERT language model that transfers the national R&D field knowledge to the basic BERT by using the transfer learning method based on further Pre-training, which is being actively studied recently. In addition, in order to evaluate the performance of the proposed model, classification analysis targeting the health care, food, agriculture, forestry and fisheries, machinery and information and communication fields with the highest number of national R&D tasks, has been conducted, and show that 4 out of 5 fields the proposed model has higher performance than the pure KoBERT model.
I. 서론 11.1 연구 배경 11.2 연구 동기 41.3 연구 목적 8II. 관련 연구 102.1 딥러닝 기반 자연어 처리 기술 102.2 전이학습 및 추가 사전학습 152.3 국가 R&D 정보 분석 212.4 국가 R&D 정보 분류 26III. 제안 방법론 313.1 R&D 전문 언어모델 구축 방법론 개요 313.2 R&D 전문어 식별 및 확장 토크나이저 구축 323.3 R&D 분야 전문 추가 사전학습 33IV. 실험 384.1 실험 개요 384.2 전문어 식별 및 전문어 토크나이저 구축 결과 414.3 R&D 분야 전문 추가 사전학습 결과 434.4 성능 평가 실험 개요 및 결과 454.5 추가 사전학습의 효과 측정 실험 개요 및 결과 53Ⅴ. 결론 57참고 문헌 60Abstract 75