메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

유은지 (국민대학교, 국민대학교 비즈니스IT전문대학원)

지도교수
김남규
발행연도
2022
저작권
국민대학교 논문은 저작권에 의해 보호받습니다.

이용수38

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
최근 딥러닝(Deep Learning) 기술이 크게 발전함에 따라 국가 R&D 분야의 대량의 텍스트 문서(Text Document)를 다양한 관점으로 분석하기 위한 수요가 급격히 증가하고 있다. 특히 국가 R&D 사업 전주기의 주요 참여 주체인 정부 관계부처, 과제관리기관 그리고 연구자들은 국가 R&D 투자 효율성과 연구 생산성 제고를 위한 수단으로 데이터 기반의 연구개발 활동을 추진하고자 한다. 그러나 텍스트 데이터로 구성된 과제(Project), 특허(Patent) 그리고 논문(Paper)을 분석하기 위해서는 텍스트 데이터를 구조화하는 자연어 처리(Natural Language Processing)가 필수적이다.
최근 딥러닝 기술을 기반으로 크게 개선된 자연어 처리 기술은 다양한 분야의 데이터에 적용되어 괄목할 성과를 거두면서 크게 주목받고 있다. 특히 대량의 말뭉치 데이터를 미리 학습한 사전학습 모델(Pre-trained Language Model)에 관한 활용 및 개선에 관한 연구가 활발히 이루어지고 있으며, 대표적인 사전학습 모델인 BERT(Bidirectional Encoder Representations from Transformers) 모델의 활용에 대한 관심 역시 매우 높아지고 있다.
하지만 BERT 언어모델의 사전학습 대상인 위키피디아 문서는 일반적으로 범용 말뭉치로 여겨지고 있으며, 이는 국가 R&D와 같이 고도로 전문화된 분야의 말뭉치와는 다른 분포를 보인다. 이에 따라 국가 R&D 문서에서 높은 빈도로 사용되는 전문어는 BERT 언어모델에 포함되지 않아 충분히 학습되지 못하는 경우가 발생할 수 있으며, 이는 BERT 모델을 통한 전문 분야 문서 이해의 한계로 지적되고 있다. 이에 따라 본 연구에서는 최근 활발하게 연구되고 있는 추가 사전학습(Further Pre-training) 기반의 전이 학습(Transfer Learning)기법을 활용하여, 순수한 BERT 모델에 국가 R&D 분야의 지식을 전이한 R&D KoBERT 모델을 구축하는 방안을 제안한다. 또한, 본 연구에서 제안한 모델의 성능을 평가하기 위해 국가 R&D 수행과제 건수가 상위인 보건의료, 농림수산식품, 기계, 생명과학 그리고 정보통신 분야를 대상으로 분류 분석을 수행한 결과, 전체 5개의 국가 R&D 분야 중 4개 분야에서 제안 모델이 순수한 KoBERT-Base 모델보다 더 우수한 성능을 나타내는 것을 확인하였다.

목차

I. 서론 1
1.1 연구 배경 1
1.2 연구 동기 4
1.3 연구 목적 8
II. 관련 연구 10
2.1 딥러닝 기반 자연어 처리 기술 10
2.2 전이학습 및 추가 사전학습 15
2.3 국가 R&D 정보 분석 21
2.4 국가 R&D 정보 분류 26
III. 제안 방법론 31
3.1 R&D 전문 언어모델 구축 방법론 개요 31
3.2 R&D 전문어 식별 및 확장 토크나이저 구축 32
3.3 R&D 분야 전문 추가 사전학습 33
IV. 실험 38
4.1 실험 개요 38
4.2 전문어 식별 및 전문어 토크나이저 구축 결과 41
4.3 R&D 분야 전문 추가 사전학습 결과 43
4.4 성능 평가 실험 개요 및 결과 45
4.5 추가 사전학습의 효과 측정 실험 개요 및 결과 53
Ⅴ. 결론 57
참고 문헌 60
Abstract 75

최근 본 자료

전체보기

댓글(0)

0