메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

옥창석 (부산대학교, 부산대학교 대학원)

지도교수
조환규
발행연도
2014
저작권
부산대학교 논문은 저작권에 의해 보호받습니다.

이용수0

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
The precise determination of the similarity of two documents is critical for data analysis. However, the problem complexity is increased by considering precision alone. Typically, the semantic analysis of the document similarity has very high complexity. So a syntactic method for measuring the similarity is widely used. The two main syntactic methods are sequence alignment and fingerprinting. Sequence alignment has powerful characteristics such as very high precision because it is based on character-by-character comparisons. However, it has a very high space and time complexity O(nm) when the document sizes are n and m. Fingerprinting uses the similarity of vectors extracted from documents. This method has a lower space complexity O(n). However, it also has a drawback, a lower precision, because it does not consider the structural features of documents. In this paper, the proposed method for detecting similar documents can detect partially similar sections precisely, even with a low spatio-temporal complexity. In addition, the proposed distance measure for documents, which is based on the detecting method, used in constructing a phylogenetic tree by calculating the distance of documents. The experimental result of the measure shows an average F1=2 of 0.99 for entire queries and a minimum F1=2 of 0.51 for deformation queries.

목차

I 연구 동기 1
II 문제 정의 및 배경 지식 3
2.1 유사 문서 탐색 기법 3
2.3 다양한 색인 생성 기법 4
2.2.1 버로우즈 휠러 변환 4
2.2.2 FM-index 5
2.3 계층적 군집화 및 계통도 구축 7
III 관련 연구 9
3.1 유사 문서 탐색에 관한 기존 연구 9
3.2 군집화 및 계통도 분석에 관한 기존 연구 12
IV 유전체-리드 매핑 기법을 이용한 유사 문서 탐색 13
4.1 한글 문서의 스킨 추출 15
4.2 디스크 기반의 버로우즈-휠러 색인 생성 15
4.3 FM-index 색인 생성 17
4.4 부분 유사 구간 탐색 17
V 유사 문서의 계층적 군집화 20
5.1 문서의 유사도 계산을 위한 거리 측정 기법 20
5.1.1 메트릭 공간 20
5.1.2 다양한 거리 측정 기법21
5.2 문서 거리를 이용한 계층적 군집화 23
5.2.1 최소 신장 트리를 이용한 군집화와 계통도 분석 23
5.2.2 델타-컷을 이용한 군집화 24
VI 실험 및 결과 26
6.1 실험 환경 및 데이터 26
6.2 성능 평가 방법 27
6.3 부분 유사 구간 탐색 기법의 성능 평가 29
6.3.1 성능 최적화를 위한 최적 변수 실험 - 통합 29
6.3.2 성능 최적화를 위한 최적 변수 실험 - 편집 단계별 30
6.3.3 기존 탐색 기법과의 비교 평가 32
6.4 문서 간 거리 측정 기법의 성능 평가 34
VII 결론 및 추후 연구 36

최근 본 자료

전체보기

댓글(0)

0