딥러닝을 활용한 국가 R&D 전문 사전학습 언어모델 구축 :Construction of Pre-trained R&D Language Model Using Deep Learning

유은지

추천

검색

자료유형: 학위논문

저자정보: 유은지 (국민대학교, 국민대학교 비즈니스IT전문대학원)

지도교수: 김남규

발행연도: 2022

저작권: 국민대학교 논문은 저작권에 의해 보호받습니다.

이용수38

이 논문의 연구 히스토리 (3)

2022

딥러닝을 활용한 국가 R&D 전문 사전학습 언어모델 구축

유은지 비즈니스IT 2022.01 학위논문

2021

딥러닝 기반의 지식 전이를 통한 국가 R&D 전문 언어모델 구축

유은지 , 김남규 한국지능정보시스템학회 학술대회논문집 2021.12 학술대회자료

추가 사전학습 기반 지식 전이를 통한 국가 R&D 전문 언어모델 구축

유은지 , 서수민 , 김남규 지식경영연구 2021.09 학술저널

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록· 키워드

오류제보하기

최근 딥러닝(Deep Learning) 기술이 크게 발전함에 따라 국가 R&D 분야의 대량의 텍스트 문서(Text Document)를 다양한 관점으로 분석하기 위한 수요가 급격히 증가하고 있다. 특히 국가 R&D 사업 전주기의 주요 참여 주체인 정부 관계부처, 과제관리기관 그리고 연구자들은 국가 R&D 투자 효율성과 연구 생산성 제고를 위한 수단으로 데이터 기반의 연구개발 활동을 추진하고자 한다. 그러나 텍스트 데이터로 구성된 과제(Project), 특허(Patent) 그리고 논문(Paper)을 분석하기 위해서는 텍스트 데이터를 구조화하는 자연어 처리(Natural Language Processing)가 필수적이다.
최근 딥러닝 기술을 기반으로 크게 개선된 자연어 처리 기술은 다양한 분야의 데이터에 적용되어 괄목할 성과를 거두면서 크게 주목받고 있다. 특히 대량의 말뭉치 데이터를 미리 학습한 사전학습 모델(Pre-trained Language Model)에 관한 활용 및 개선에 관한 연구가 활발히 이루어지고 있으며, 대표적인 사전학습 모델인 BERT(Bidirectional Encoder Representations from Transformers) 모델의 활용에 대한 관심 역시 매우 높아지고 있다.
하지만 BERT 언어모델의 사전학습 대상인 위키피디아 문서는 일반적으로 범용 말뭉치로 여겨지고 있으며, 이는 국가 R&D와 같이 고도로 전문화된 분야의 말뭉치와는 다른 분포를 보인다. 이에 따라 국가 R&D 문서에서 높은 빈도로 사용되는 전문어는 BERT 언어모델에 포함되지 않아 충분히 학습되지 못하는 경우가 발생할 수 있으며, 이는 BERT 모델을 통한 전문 분야 문서 이해의 한계로 지적되고 있다. 이에 따라 본 연구에서는 최근 활발하게 연구되고 있는 추가 사전학습(Further Pre-training) 기반의 전이 학습(Transfer Learning)기법을 활용하여, 순수한 BERT 모델에 국가 R&D 분야의 지식을 전이한 R&D KoBERT 모델을 구축하는 방안을 제안한다. 또한, 본 연구에서 제안한 모델의 성능을 평가하기 위해 국가 R&D 수행과제 건수가 상위인 보건의료, 농림수산식품, 기계, 생명과학 그리고 정보통신 분야를 대상으로 분류 분석을 수행한 결과, 전체 5개의 국가 R&D 분야 중 4개 분야에서 제안 모델이 순수한 KoBERT-Base 모델보다 더 우수한 성능을 나타내는 것을 확인하였다.

Recently, with the rapid development of deep learning technology, the demand for analyzing a large amount of text documents in the national R&D field from various perspectives is rapidly increasing. In particular, government ministries, research management institutes, and researchers, who are major actors participating in the entire national R&D project cycle, intend to promote R&D activities using data as a means to improve national R&D investment efficiency and research productivity.
However, in order to analyze projects, papers, and patents documents composed of text data, natural language processing should be preceded so that, the unstructured text can be converted to structured data. Recently, natural language processing technology, which has greatly been improved based on deep learning technology, has been applied to data in various fields and has been receiving great attention as it has achieved remarkable results. In particular, research on the use and improvement of pre-trained language model that has been trained on a large amount of corpus data in advance is actively conducted, and the use of BERT (Bidirectional Encoder Representations from Transformers), which is a representative pre-trained language model, shows a great demand.
However, Wikipedia documents, which are used in pre-training BERT language model, are generally regarded as a general-purpose corpus, which shows a different distribution trend from the corpus of highly specialized fields such as national R&D. As a result, there may exist cases where technical terms used frequently in national R&D documents are not included in the BERT language model and thus have not been learned sufficiently, which is pointed out as a limitation of understanding documents in specialized fields through BERT.
Accordingly, this study suggests R&D KoBERT language model that transfers the national R&D field knowledge to the basic BERT by using the transfer learning method based on further Pre-training, which is being actively studied recently.
In addition, in order to evaluate the performance of the proposed model, classification analysis targeting the health care, food, agriculture, forestry and fisheries, machinery and information and communication fields with the highest number of national R&D tasks, has been conducted, and show that 4 out of 5 fields the proposed model has higher performance than the pure KoBERT model.

#국가 R&D #전이학습 #사전학습 모델 #BERT #추가 사전학습 #National R&D #Transfer Learning #Pre-training Model #BERT #Further Pre-training

I. 서론 1
1.1 연구 배경 1
1.2 연구 동기 4
1.3 연구 목적 8
II. 관련 연구 10
2.1 딥러닝 기반 자연어 처리 기술 10
2.2 전이학습 및 추가 사전학습 15
2.3 국가 R&D 정보 분석 21
2.4 국가 R&D 정보 분류 26
III. 제안 방법론 31
3.1 R&D 전문 언어모델 구축 방법론 개요 31
3.2 R&D 전문어 식별 및 확장 토크나이저 구축 32
3.3 R&D 분야 전문 추가 사전학습 33
IV. 실험 38
4.1 실험 개요 38
4.2 전문어 식별 및 전문어 토크나이저 구축 결과 41
4.3 R&D 분야 전문 추가 사전학습 결과 43
4.4 성능 평가 실험 개요 및 결과 45
4.5 추가 사전학습의 효과 측정 실험 개요 및 결과 53
Ⅴ. 결론 57
참고 문헌 60
Abstract 75

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

이 논문의 연구 히스토리 (3)

초록· 키워드

목차

최근 본 자료

댓글(0)