A Small-Scale Korean-Specific BERT Language Model

이상아; 장한솔; 백연미; 박수지; 신효필

doi:10.5626/JOK.2020.47.7.682

추천

검색

질문

자료유형: 학술저널

저자정보: 이상아 (서울대학교) 장한솔 (서울대학교) 백연미 (서울대학교) 박수지 (서울대학교) 신효필 (서울대학교)

저널정보: Korean Institute of Information Scientists and Engineers Journal of KIISE Journal of KIISE Vol.47 No.7

발행연도: 2020.7

수록면: 682 - 692 (11page)

DOI: 10.5626/JOK.2020.47.7.682

이용수

📌

연구주제

📖

연구배경

🔬

연구방법

🏆

연구결과

초록· 키워드

오류제보하기

최근 자연어처리에서 문장 단위의 임베딩을 위한 모델들은 거대한 말뭉치와 파라미터를 이용하기 때문에 큰 하드웨어와 데이터를 요구하고 학습하는 데 시간이 오래 걸린다는 단점을 갖는다. 따라서 규모가 크지 않더라도 학습 데이터를 경제적으로 활용하면서 필적할만한 성능을 가지는 모델의 필요성이 제기된다. 본 연구는 음절 단위의 한국어 사전, 자소 단위의 한국어 사전을 구축하고 자소 단위의 학습과 양방향 WordPiece 토크나이저를 새롭게 소개하였다. 그 결과 기존 모델의 1/10 사이즈의 학습 데이터를 이용하고 적절한 크기의 사전을 사용해 더 적은 파라미터로 계산량은 줄고 성능은 비슷한 KR-BERT 모델을 구현할 수 있었다. 이로써 한국어와 같이 고유의 문자 체계를 가지고 형태론적으로 복잡하며 자원이 적은 언어에 대해 모델을 구축할 때는 해당 언어에 특화된 언어학적 현상을 반영해야 한다는 것을 확인하였다.

#언어 모델링 #임베딩 모델 #한국어 모델 #사전 #토크나이저 #BERT #language modeling #embedding model #Korean language modeling #vocabulary #tokenizer

참고문헌 (24)

참고문헌 신청

J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, "Bert: Pre-training of deep bidirectional tranformers for language understanding," arXiv preprint arXiv: 1810.04805, 2018. L. Martin, B. Muller, P. J. O. Suárez, Y. Dupont, L. Romary, É. V. de la Clergerie, D. Seddah, and B. Sagot, "Camembert: a tasty french language model," arXiv preprint arXiv: 1911.03894, 2019. Y. Kuratov and M. Arkhipov, "Adaptation of deep bidirectional multilingual transformers for russian language," arXiv preprint arXiv:1905.07213, 2019. W. de Vries, A. van Cranenburgh, A. Bisazza, T. Caselli, G. van Noord, and M. Nissim, "BERTje: A Dutch BERT Model," arXiv preprint arXiv:1912. 09582, 2019. W. Antoun, F. Baly, and H. Hajj, "AraBERT: Transformer-based model for Arabic language understanding," arXiv preprint arXiv:2003.00104, 2020.

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이상아

소속기관 서울대학교

주요연구분야 공학 > 컴퓨터학 TOP 10% 인문학 > 어문학 > 언어학 일반

논문수 8 이용수 2,708

장한솔

소속기관 세종대학교

주요연구분야 공학 > 건축공학 > 토목공학 공학 > 컴퓨터학

논문수 20 이용수 2,269

백연미

소속기관 ActionPower

주요연구분야 공학 > 컴퓨터학

논문수 2 이용수 1,054

박수지

소속기관 서울대학교

주요연구분야 인문학 > 어문학 > 언어학 일반 공학 > 컴퓨터학

논문수 4 이용수 2,737

신효필

소속기관 서울대학교

주요연구분야 공학 > 컴퓨터학 TOP 5% 인문학 > 어문학 > 언어학 일반 TOP 10%

논문수 23 이용수 7,247

이 논문과 함께 이용한 논문

시각 및 언어장애인을 위한 음성합성 기술의 현황

이종석 , 박기태 , 이준우 전자공학회지 2014 .03

멀티 터치방식을 응용한 장애인용 맵 서비스 HCI 인터페이스 구현

조현구 , 송다정 , 양평우 외 1명 대한공간정보학회 학술대회 2012 .10

BERT의 문맥 정보에 미치는 특이 차원의 영향

심유라 , 김영훈 정보과학회 컴퓨팅의 실제 논문지 2023 .01

BERT의 언어 지식의 편향성으로 인한 텍스트 정보 추출 오류

김세린 , 권혁철 한국정보과학회 학술발표논문집 2022 .06

Korean Semantic Role Labeling with BERT

배장성 , 이창기 , 임수종 외 1명 Journal of KIISE 2020 .11

최근 본 자료

전체보기

UCI(KEPA) : I410-ECN-0101-2020-569-000892577

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

초록· 키워드

AI 요약

연구주제

연구배경

연구방법

연구결과

주요내용

목차

참고문헌 (24)

함께 읽어보면 좋을 논문

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

댓글(0)