메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김보성 (한국교통대학교, 한국교통대학교 일반대학원)

지도교수
송석일
발행연도
2016
저작권
한국교통대학교 논문은 저작권에 의해 보호받습니다.

이용수3

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
빅데이터 기술의 중요한 분야 중 하나는 DNA 데이터 분석이다. 빠른 DNA 데이터 분석은 새로운 질병에 대한 빠른 진단 서비스와 새로운 치료제 개발을 가능성을 향상 시킬 수 있다. 많은 양의 DNA 데이터를 분석하기 위해서 Hadoop의 맵리듀스가 일반적으로 사용되었다. 최근에는 맵리듀스 보다 성능이 빠른 인-메모리 빅데이터 분석 플랫폼인 Spark가 큰 관심을 받고 있다. 또한 Spark 기반으로 한 ADAM이 제안되었다.
ADAM은 빠른 DNA 데이터 처리을 위한 인-메모리 분산 처리 프레임워크이다. 이는 대표적으로 Parquet, Avro, Spark로 구성 되어져있으며, 지놈(Genom) 데이터에 대한 데이터 형식 (Format) 집합, API 집합을 제공한다. 또한 ADAM은 DNA 데이터 분석에 필요한 일반적인 지역 정렬(Local Alignment) 알고리즘인 Smith-Waterman 알고리즘을 제공한다. 하지만 ADAM의 Smith-Waterman 알고리즘을 병렬로 수행하지 않아 데이터의 양에 따라 시간이 오래 걸린다.
본 논문에서는 병렬 Smith-Waterman 알고리즘을 제안한다. 제안한 기법은 두 단계를 실행한다. 첫 번째 단계에서는 데이터 시퀀스를 파티션의 수만큼 분할하고 두 번째 단계에서는 분할로 인해 생긴 데이터 시퀀스의 잘못된 부분들을 병렬로 재연산한다. 이 두 단계는 각각의 노드에서 병렬로 처리되어진다. 마지막으로 실험을 통해 병렬 Smith-Waterman 알고리즘의 수행 시간과 기존의 Smith-Waterman 알고리즘의 수행시간을 비교하였다. 실험 결과에서는 노드의 코어 개수에 맞게 파티션 수를 설정하였을 때 기존의 Smith-Waterman 알고리즘 연산을 한 것보다 두 배정도 속도가 향상되었다.

목차

Ⅰ. 서 론 1
Ⅱ. 관련 연구 3
1. Smith-Waterman 3
2. ADAM 6
3. Spark-SW 12
Ⅲ. 제안하는 병렬 Smith-Waterman 기법 14
Ⅳ. 성능평가 23
Ⅴ. 결 론 25
참고문헌 26
Abstract 27

최근 본 자료

전체보기

댓글(0)

0