메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

최형락, Choi, Hyoung Rak (충북대학교, 충북대학교 대학원)

지도교수
유재수
발행연도
2019
저작권
충북대학교 논문은 저작권에 의해 보호받습니다.

이용수10

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
제조업의 완전한 자동생산체계의 구축과 생산과정이 최적화된 스마트팩토리에는 정보통신기술(ICT)를 이용한 공정의 모든 데이터를 수집, 분석하여 제어하고 있다. 기존보다 방대한 양의 데이터를 처리하기 위해 기업들은 하둡을 이용한다. 수집된 데이터 중에는 사물인터넷(IoT)의 센서에서 수집되는 데이터처럼 수십 바이트에서 수백 킬로바이트로 매우 작은 파일들도 많이 있고 이미지, 스냅샷, 동영상 등의 대용량 파일도 존재하는 등 다양한 크기의 파일의 데이터가 혼합되어 나타난다. 하둡은 컴퓨터 클러스터에서 대용량 빅데이터를 분산저장 및 분산처리를 위해 작성된 자바 기반의 오픈 소스 프레임 워크이다. 대용량 데이터를 처리하는데 적합한 구조로 소형 파일이 많은 경우 메타 데이터의 양이 늘어나 소형 파일 처리에 대한 문제점이 발생하고 단일 네임 노드가 갖는 문제점과 데이터 노드 확장의 한계성도 발생한다. 스마트팩토리에서 수집된 데이터 중에는 로그나 IoT 센서 데이터처럼 소형 파일이 많이 있는데 이러한 다수의 소형 파일에 대한 분석이 요구되고 있다. 본 논문에서는 소형 파일을 효율적으로 접근하기 위해 캐시 메타 데이터를 적용한 분산 캐시 관리 기법을 제안한다. 제안하는 기법은 다수의 소형 파일을 병합하여 블록에 저장하여 네임 노드에서 관리해야 할 메타 데이터 수를 감소시킨다. 클라이언트와 데이터 노드의 캐시를 사용하여 요청된 파일들의 정보를 유지하고 통신주기에 따라 클라이언트 캐시의 캐시 메타 데이터를 동기화하여 불필요한 접근을 감소시킨다. 클라이언트의 캐시에는 사용자가 요청한 소형 파일과 메타 데이터가 유지되고 각 데이터 노드의 캐시에는 여러 사용자가 자주 요청했던 소형 파일을 유지한다. 다양한 크기의 데이터가 혼합되어 나타나는 환경에서 HDFS을 효율적으로 관리하기 위한 적응형 캐시 관리 기법도 제안한다. 제안하는 기법은 다양한 크기의 파일을 처리할 때 요청한 파일의 크기에 따라 블록의 크기를 3단계로 설정하여 처리함으로써 데이터 노드의 로컬 디스크의 공간 이용 효율성을 높이고 평균 데이터 크기를 분석하여 데이터 노드 확장시 적합한 블록 크기를 적용할 수 있게 관리한다.
성능 평가를 통해 제안하는 분산 캐시 관리 기법이 기존 기법에 비해 소형 파일 접근 비용을 크게 향상 됨을 보이고 적응형 캐시 관리 기법은 데이터 노드에 로컬 디스크 효율 향상과 읽기와 쓰기 속도의 속도에 효과를 보인다.

목차

Ⅰ. 서 론 1
Ⅱ. 관련연구 6
1. 배경지식 6
(1) 하둡(Hadoop) 6
(2) HDFS의 문제점 11
2. 소형 파일 관리 기법 16
(1) 소형 파일의 병합 16
(2) 소형 파일 처리 기법 17
① Small PPT files 17
② EHDFS 19
③ HDFS 엔진 설계 21
3. 분산 캐시를 사용한 소형 파일 관리 기법 23
(1) Improved HDFS 23
(2) HDCache 25
4. 기존 기법의 문제점 27
(1) 소형 파일의 접근을 위한 기존 캐시 관리 기법의 문제점 27
(2) 데이터 노드 블록 크기의 문제점 29
Ⅲ. 제안하는 분산 캐시 관리 기법 33
1. 분산 캐시 관리 시스템 구조 33
2. 소형 파일과 메타 데이터 관리 36
3 제안하는 분산 캐시 관리 기법 40
4. 클라이언트 캐시의 캐시 메타 데이터 동기화 45
5. 캐시 데이터 교체 48
IV. 제안하는 적응형 캐시 관리 기법 52
1. 데이터 블록의 구조와 데이터 노드 확장 52
2. 파일 크기에 따른 캐시 데이터 관리 55
3. 제안하는 적응형 캐시 관리 기법 56
4. 이종 데이터 파일 처리 61
V. 성능평가 63
1. 성능 평가 환경 63
2. 분산 캐시 성능 평가 결과 84
(1) 소형 파일의 접근 시간 평가 84
(2) 데이터 노드의 블록 접근 빈도수 평가 87
(3) 캐시 적중률 평가 90
(4) 캐시 교체 전략에 따른 소형 파일 접근 비용 93
3. 적응형 캐시 성능 평가 결과 96
(1) 파일 크기별 접근 시간 평가 96
(2) 데이터 노드 효율성 평가 99
VI. 결론 및 향후 연구 100
참고문헌 101
감사의 글 112

최근 본 자료

전체보기

댓글(0)

0