메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김도경 (강원대학교, 강원대학교 대학원)

지도교수
이창기
발행연도
2023
저작권
강원대학교 논문은 저작권에 의해 보호받습니다.

이용수5

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (4)

초록· 키워드

오류제보하기
기계 번역(Machine Translation)은 단일 언어 텍스트를 자동으로 타 언어로 변환하는 자연어 처리 분야 중 하나로, 문장 단위 기계 번역과 문서 단위 기계 번역으로 나뉜다. 최근 신경망을 이용한 기계 번역 연구들이 속도와 번역 성능 향상을 목표로 다양하게 진행되고 있으며, 그 중에서 트랜스포머 모델은 가장 기본적인 모델로 우수한 번역 성능을 보인다. 그러나, 번역 속도가 느리다는 단점이 있어 이를 개선하기 위한 연구 역시 활발히 진행 중이다. 신경망 기계 번역 모델은 입력 받은 문장을 타 언어로 번역해 주는 End-to-End 방식이 주로 연구되고 있는데, 병렬 코퍼스의 양이 적을 경우 해당 코퍼스에서 언어적 특징들을 충분히 뽑아내지 못하여 번역 성능이 떨어질 수 있다. 특히, 문서 단위 기계 번역의 경우 공개된 문서 단위 기계 번역 코퍼스가 적음으로 인해 충분한 코퍼스를 확보하는 데 큰 어려움이 존재한다. 따라서 본 논문에서는 문서 단위 기계 번역 성능을 위한 트랜스포머 디코딩 속도 개선과 데이터 증강 기법을 제안한다.
첫 번째로 기계 번역의 속도 향상을 위해 속도 개선 연구들인 CAN(Compressed Attention Network)과 DS(Dense Synthesizer)를 결합한 새로운 모델을 제시한다. CAN은 트랜스포머 디코더의 Self-Attention, Cross-Attention, FFN(Feed Forward Network)을 하나의 Attention으로 통합한 모델로, 병렬성이 증가하고 속도가 향상되는 특징이 있다. 또한 DS는 Self-Attention 대체 가능한 Query와 Key의 매칭을 삭제하는 Synthetic Attention을 제안해 기존의 Dot-Product Attention을 2-Layer FFN로 바꿔 Dot-Product Attention을 수행하지 않음으로 계산되는 양을 줄여 속도 향상을 보인다. 본 논문에서는 이러한 두 기법의 특성을 결합한 CAN+DS 모델을 설계 및 구현하였다. 실험 결과, 제안 모델이 Baseline과 비교할 때 번역 성능은 약간 감소하였지만, 번역 속도는 2.2배 증가시킴을 확인하였다. 따라서, 제안한 모델은 성능 저하를 최소화하며 번역 속도를 크게 개선했다. 두 번째로 문서 단위 병렬 코퍼스의 부족 문제를 해결하기 위한 다섯 가지 원문 코퍼스 기반 데이터 증강 기법을 제안한다. 기존에 문장 단위 병렬 코퍼스는 많이 존재하지만 문서 단위 병렬 코퍼스는 없어 문장들을 묶어 문서를 만들고자 했다. Sentence Segmentation 기반 데이터 증강, 군집 알고리즘 기반 데이터 증강, 군집 알고리즘+ NSP(Next Sentence Prediction) 기반 데이터 증강, 군집 알고리즘+First-sentence NSP 기반 데이터 증강과 문서 단위 Back Translation 기반 데이터 증강으로 나뉜다. 실험 결과, 군집 알고리즘 기반 데이터 증강 기법을 적용한 번역 성능이 적용 전에 비해 S-BLEU 3.15, D-BLEU 2.92까지 향상됐다. 그리고, 문서 단위 Back Translation 기법을 결합할 경우 S-BLEU 3.84, D-BLEU 3.65까지 향상됨을 보였다. 본 논문에서 제안한 데이터 증강 기법은 기존 데이터 증강 기법과 달리 원문 코퍼스를 그대로 활용함으로 문법이나 의미가 훼손되지 않는 장점이 있고, 저자원 언어에도 적용이 가능하며 적은 시간과 비용으로 문서 단위 기계 번역 성능을 향상시키는 것이 가능하다는 것을 확인할 수 있었다. 실험 결과를 통해, 문서의 유사성은 군집 알고리즘+NSP 기반 데이터 증강 기법이 제일 뛰어났지만 군집 알고리즘 기반 데이터 증강 기법이 제일 높은 성능을 보여 Bias가 어느정도 있는 실제 문서와 유사한 더미 문서가 문서 단위 기계 번역 성능 향상에 제일 효과적임을 입증하였다. 결과적으로, 본 논문에서 제안한 CAN+DS 모델과 원문 코퍼스 기반 데이터 증강 기법을 통해 기계 번역의 전체적인 성능을 개선할 수 있었으며, 이는 문서 단위 기계 번역이 필요한 다양한 분야에 접목이 가능한 효율적인 연구 결과로 보여진다.

목차

I. 서 론 1
II. 관련 연구 5
2.1 신경망 기계 번역 모델 번역 속도 향상 연구 5
2.2 문서 단위 기계 번역을 위한 데이터 증강 연구 6
2.2.1 문서 단위 기계 번역 6
2.2.2 데이터 증강 8
III. 트랜스포머 디코딩 속도 개선 모델 11
3.1 트랜스포머 11
3.2 Compressed Attention Network(CAN) 12
3.3 Dense Synthesizer 14
3.4 CAN과 Dense Synthesizer 결합 모델(CAN+DS) 16
IV. 문서 단위 기계 번역 성능 향상을 위한 데이터 증강 17
4.1 G-Transformer 17
4.2 원문 코퍼스 기반 데이터 증강 19
4.2.1 Sentence Segmentation 20
4.2.2 군집 알고리즘 21
4.2.3 군집 알고리즘+NSP 21
4.2.4 군집 알고리즘+First-sentence NSP 24
4.2.5 문서 단위 Back Translation 28
V. 실험 및 결과 29
5.1 CAN+DS 29
5.2 원문 코퍼스 기반 데이터 증강 34
VI. 결론 42
참고문헌 44
Abstract 48

최근 본 자료

전체보기

댓글(0)

0