메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김선범 (한양대학교, 한양대학교 대학원)

지도교수
박희진
발행연도
2018
저작권
한양대학교 논문은 저작권에 의해 보호받습니다.

이용수7

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
문자 인코딩은 문자나 기호들을 컴퓨터에서 표현하기 위해 사용되는 방법이다. 문자 인코딩은 여러 종류가 존재하며, 인코딩마다 문자의 표현에 사용되는 바이트 값이 다르므로 특정 인코딩으로 작성된 문서는 다른 인코딩으로 열람할 수 없다. 이와 같은 문제를 해결하기 위해 “Netscape Communications Corp.”에서 문서의 인코딩 판별 알고리즘을 제안하였으며, 이를 기반으로 개발된 여러 인코딩 판별 소프트웨어들이 존재한다. 그 중 널리 쓰이는 “uchardet”의 경우 문서의 인코딩 판별 정확도는 91.39% 이며, 언어 판별 정확도는 32.09%로 낮은 정확도를 보였다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 3.55%, 언어 판별 정확도는 0.06%에 불과하다. 따라서 본 논문에서는 딥러닝 알고리즘인 LSTM(Long Short-Term Memory)과 Fully connected neural network를 이용한 문서의 인코딩 및 언어 판별 방법을 제안하며, 인코딩 판별 소프트웨어 “uchardet”보다 뛰어난 결과를 보였다. 제안하는 방법을 이용하는 경우 문서의 인코딩 판별 정확도는 99.89%이며, 언어 판별 정확도는 99.92%이다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 99.26%이며, 언어 판별 정확도는 99.77%로 “uchardet”보다 매우 뛰어난 결과를 보였다.

목차

국문 요지 6
제 1장 서 론 7
제 2장 데이터 수집 10
제 3장 문서의 인코딩 및 언어 판별 12
제 1절 문서의 전처리 13
제 2절 딥러닝 모델 15
제 3절 실험 결과 17
제 4장 치환에 의해 암호화된 문서의 인코딩 및 언어 판별 21
제 1절 치환에 의한 문서의 암호화 22
제 2절 치환에 의해 암호화된 문서의 전처리 23
제 3절 실험 결과 25
제 5장 결 론 29
참고 문헌 30
영문 요지 31

최근 본 자료

전체보기

댓글(0)

0