메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

조성찬 (고려대학교, 高麗大學校 컴퓨터情報通信大學院)

지도교수
白斗權
발행연도
2016
저작권
고려대학교 논문은 저작권에 의해 보호받습니다.

이용수2

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
웹 검색엔진은 최신의 정보를 빠르게 수집하고 유지하는 것이 중요하기 때문에, 분산 웹 크롤링 시스템을 이용하여 기하급수적으로 생성되는 웹 페이지를 빠르게 수집하고, 수집된 웹 페이지가 변경이 되었을 경우 해당 페이지에 대한 재 수집을 수행한다. 하지만 기존의 분산 웹 크롤러들은 빠르게 웹 페이지를 수집하는 것에 초점을 맞추어 개발 되었기 때문에 기 수집된 웹 페이지에 대한 중복 수집이 발생한다. 또한, 수집된 웹 페이지의 최신성을 유지하기 위해 재 수집을 수행하는데 이 때, 수집 주기를 정적으로 유지하거나 웹 페이지의 콘텐츠 사이즈를 기반으로 한 동적 수집 주기를 이용한다. 하지만, 이는 실제 웹 페이지 변경 여부가 정확히 반영되지 않아 불 필요한 재 수집이 발생하는 문제가 있다. 이러한 문제를 해결하고자 본 연구에서는 웹 페이지 분산 수집 단위를 도메인의 파티션 단위로 분산 수집하는 방식으로 중복 수집을 해결한다. 또한, 불필요하게 재 수집되는 웹 페이지를 줄이고자 콘텐츠 추출 기법을 통해 웹 페이지의 변경여부를 확인하고, 재 수집 주기를 산정하는 기법을 제안한다. 제안한 기법의 성능을 평가하기 위해, 제안 기법을 활용하여 분산 웹 크롤링 시스템을 구현하고, 실제 서비스 중인 커뮤니티 사이트의 웹 페이지를 수집하여 실험을 진행하였다. 파티션 단위 분산 수집 시스템을 이용한 분산 수집을 수행하는 실험을 통해 기존의 기법에 비해 중복 수집률 감소를 확인하였다. 또한, 수집된 웹 페이지에 대한 재 수집을 수행하는 실험을 통해 제안 기법이 기존의 기법에 비해 재 수집 시 발생하는 불필요한 자원낭비 문제를 개선할 수 있음을 증명하였다.

목차

1. 서론
1.1 연구 배경
2. 관련 연구
2.1 Parallel Crawlers
2.2 RMI와 NIO기반 분산형 웹 크롤러
2.3 웹 크롤러의 수집 주기 최적화
3. 중복 수집 개선 방안을 적용한 분산 수집 시스템
3.1 URL파티션 단위 분산 수집 시스템
3.2 웹 페이지 수집 주기 동적 관리
3.2.1 웹 콘텐츠 추출 기법
4. 실험 및 평가
4.1 파티션 단위 분산 수집 시스템
4.2 동적 재 수집 주기에 따른 웹 페이지 재 수집
5. 결론 및 향후 연구

최근 본 자료

전체보기

댓글(0)

0