메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

채희진 (서울대학교, 서울대학교 대학원)

지도교수
유기윤
발행연도
2023
저작권
서울대학교 논문은 저작권에 의해 보호받습니다.

이용수1

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
문서로부터 질문에 대한 답을 간결하고 명확하게 도출하는 질의응답(question answering, 이하 QA) 분야의 발전에도 불구하고 연간 20% 내외 증가하는 지리공간정보(geographic information)와 관련된 질의를 답하는 시스템은 부족한 상태다. 이를 해결하기 위해 등장한 연구 분야가 지리공간 질의응답(geographic QA)이고 이 중 지리공간분석 질의응답(geographic analysis question answering, 이하 Geo-analytical QA)은 지리공간질의(geographic question)를 지리공간분석절차로 변환하고 이를 수행하기 적합한 데이터와 도구를 탐색하는 연구 분야다. 현실적인 Geo-analytical QA를 수행하기 위해서는 다양한 문장 형태를 가진 질의를 지리공간분석절차로 변환할 수 있어야 하지만 기존 연구에서 제안한 방법은 제한된 문장형태에 대해 규칙 기반 방식을 통해 문장을 분석절차로 변환하기 때문에 현실적인 Geo-analytical QA를 수행하기 어렵다는 한계를 지닌다. 따라서 본 연구에서는 현실적인 Geo-analytical QA를 수행하기 위해 다양한 문장 형태를 가지는 지리공간질의를 지리공간분석절차로 변환하는 방안을 제시하고자 한다. 또한, 지리공간분석을 실제로 수행하기 위해서는 지리공간연산함수를 파악하는 것이 중요하기 때문에 도출한 지리공간분석절차가 지리공간연산함수를 분석 의도에 맞게 순서대로 포함하도록 설정했다. 지리공간질의를 분석절차로 변환하기 위해서 본 연구에서는 문장 분류(text classification)기법을 적용했고, 문장 분류 기법을 이용하기 위해서는 문서를 목적에 맞게 모아 놓은 말뭉치(corpus) 선정, 말뭉치를 라벨링 해 데이터셋 생성, 데이터셋을 분류모델(classification model)의 입력값으로 만들기 위해 말뭉치에 등장하는 질의를 임베딩(embedding)하는 과정, 그리고 각 임베딩과 라벨로 이루어진 데이터셋을 이용해 분류모델을 학습하는 과정이 필요하다. 질의를 답하기 위해 다양한 지리 공간 분석절차를 이용해야 하는 것으로 알려진 GeoAnQu 말뭉치를 대상 말뭉치로 선정하고 분석해서 고유한 분석절차를 도출한 후 해당 분석절차에 고유 번호를 부여했다. 해당 고유번호를 기준으로 GeoAnQu 말뭉치에 등장하는 질의에 대해 라벨링을 수행해 데이터셋을 확보한 후 다양한 문장형태 생성 및 데이터셋 증강을 위해 어휘변용(paraphrase)을 실시했다. 그 후 해당 데이터셋을 Glove(global vectors), BERT(bidirectional encoder representations from transformers), RoBERTa(robustly optimized BERT pre-training approach), SBERT(sentence-BERT)를 이용해 문장 임베딩을 수행하고 각각 임베딩을 linear SVM(support vector machine), 랜덤포레스트(random forest)을 이용해 학습시켰다. 최종적으로 SBERT 문장 임베딩을 linear SVM에 학습시킨 모델이 가장 높은 성능을 보이는 것을 확인할 수 있었고, 해당 모델을 통해 다양한 문장형태를 가지는 지리공간 질의를 지리공간분석절차로 변환할 수 있었다. 또한 해당 결과의 한계점을 분석해 향후 연구 방향을 제시했다.

목차

1. 서론 1
1.1 연구 배경 및 목적 1
1.2 관련 연구 5
1.2.1 GeoKBQA 5
1.2.2 Geo-analytical QA 9
1.2.3 지리공간질의 말뭉치(Geographic question corpus) 12
1.2.4 지리공간연산함수(geospatial operation) 분류체계 16
1.2.5 시사점 및 소결론 18
1.3 연구 범위 및 방법 20
2. 연구 방법 23
2.1 데이터 세트 구축 23
2.1.1 지리공간질의 말뭉치 선정 및 지리공간분석절차도출 23
2.1.2 말뭉치 라벨링 25
2.1.3 어휘 변용 25
2.2 문장 임베딩(sentence embedding) 언어모델 26
2.2.1 Glove 27
2.2.2 BERT 29
2.2.3 RoBERTa 33
2.2.4 SBERT 34
2.3 분류모델학습 36
2.3.1 SVM 36
2.3.2 랜덤포레스트 39
2.4 평가방법 41
2.4.1 기존연구의 알고리즘과 비교 41
2.4.2 평가지표 41
3. 실험 적용 및 결과분석 43
3.1 실험환경 43
3.2 데이터 세트 구축 결과 44
3.2.1 지리공간분석절차 도출 44
3.2.2 말뭉치 라벨링 및 어휘 변용 46
3.3 모델구성 및 학습 48
3.3.1 문장 임베딩 49
3.3.2 분류모델학습 51
3.4 실험결과 분석 52
3.4.1 기존연구 알고리즘 적용 결과 52
3.4.2 모델성능 비교 53
4. 결론 63
참고 문헌 66
Abstract 71

최근 본 자료

전체보기

댓글(0)

0