오늘날, 웹의 발전에 따라 수많은 콘텐츠가 생성되면서 웹의 데이터를 GIS와 연결시켜서 사용자에게 건물, 도로, 시설물 등에 관한 위치, 거리, 시간 등과 같은 시공간 정보를 제공하기 위한 시맨틱웹 서비스의 수요가 증가하고 있다. GIS 분야에서도 이러한 다양하고 의미있는 시공간 정보를 제공하고 서비스하기 위해, 시맨틱웹에서 사용할 수 있도록 RDF 형태로 제공하고 있다.
이러한 RDF 데이터는 빅데이터 환경으로 변화함에 따라, GML, RDF 등의 형태로 생성되는 정보들을 저장한 시공간 RDF 빅데이터로 생성되고 있으며, 이를 효율적으로 분산 처리하기 위한 연구에도 관심이 커지고 있다. 시공간 RDF 빅데이터는 비시공간 데이터와 시공간 데이터가 같이 저장되어 있으므로, 시공간 정보를 효율적으로 관리하기 위해 이를 위한 시공간 데이터 타입, 연산자, 인덱스 등이 지원되어야 한다. 그리고 분산 시맨틱웹 환경의 특성을 살려 시공간 RDF 빅데이터를 효율적으로 검색하기 위한 연구들도 필요하다.
그러나 기존 공간정보 분야에서 공간 데이터에 대한 서비스를 제공하는 시맨틱웹 기반 시스템들은 시공간 RDF 빅데이터를 저장하거나 시공간 데이터의 특성에 따른 연산 처리를 지원하는 기술의 연구 개발이 미흡하다. 또한 빅데이터를 처리하기 위한 분산 데이터베이스인 HBase, MongoDB, Cassandra 들은 시공간 연산 및 인덱스의 부재로 시공간 정보의 특성을 반영한 데이터 검색이 어렵다. 그리고 시공간 RDF 빅데이터의 생성으로 인해 SPARQL 질의에 트리플 패턴 조건들이 다양해져, 이를 위한 조인의 증가가 MapReduce Job의 증가로 이어져, 결국 질의 처리의 성능 저하라는 문제점이 발생한다. 본 논문에서는 분산 시맨틱 웹 환경에서 이러한 기존의 문제점들을 해결하고 시공간 RDF 빅데이터의 효율적인 질의 처리를 위한 시공간 RDF 빅데이터 처리 아키텍처를 제시한다. 시공간 RDF 빅데이터 처리 아키텍처는 시공간 데이터 연산 기술, 시공간 데이터 인덱싱 기술, 시공간 질의 실행 계획 기술로 나눠진다.
첫 번째, 분산 시맨틱 웹 환경에서 기존에는 지원하지 않던 시공간 RDF 빅데이터의 통합 처리가 가능하고 효율적인 시공간 연산 기능을 지원하도록 시공간 데이터 연산 기술인 TS-Operation(Time&Space Operation)을 제안한다. TS-Operation은 OGC의 공간 표준을 따르는 공간 데이터 타입 및 연산자를 지원하고, ISO의 시간 표준을 따르는 시간 데이터 타입 및 시간 연산자를 지원하며, 이를 통합한 시공간 데이터 타입 및 시공간 연산자를 지원한다. 그리고 관련 연구와 시공간 지원 종류, 연산 처리 시간을 비교하여 연구의 우수성을 검증하였다.
두 번째, 시공간 RDF 빅데이터를 보다 빠르게 검색할 수 있는 시공간 데이터 인덱싱 기술인 TS-Index(Time&Space Index)를 제안한다. TS-Index는 시공간 데이터에 대한 효율적인 검색을 가능하게 하기 위해 시공간 RDF 빅데이터에 대한 시공간 인덱스를 구축하고, 시공간적으로 클러스터링하여 저장함으로써 검색 성능을 향상시켰다. 그리고 관련 연구와 검색 질의 처리 시간을 비교하여 연구의 우수성을 입증하였다.
마지막으로 SPARQL 질의 시, 조인 수행을 빠르게 수행할 수 있는 시공간 질의 실행 계획 기술인 TS-ExecPlan(Time&Space Execution Plan)을 제안한다. TS-ExecPlan은 카탈로그 정보 테이블, 조인 우선순위 규칙, 다중 조인 알고리즘을 이용하여 질의에 대한 조인 실행계획을 작성하고 효율적인 질의 처리를 수행한다. 그리고 관련 연구와 검색 질의 처리 시간을 비교하여 연구의 우수성을 입증하였다.
Today, in the fast developing web, the semantic web service gets more popular to provide spatio-temporal information such as location, distance and times by linking between web data and GIS. Furthermore, as an era of Big Data is coming the number of spatio-temporal RDF big data that is generated by XML, GML, RDF is increased. Regarding to that the interest of research for distributed processing of these data is growing high. In order to store and manage spatio-temporal RDF big data, the following information should be efficiently stored: general data, data types, operations, and index. Researches for efficient search of spatio-temporal RDF big data is also needed in distributed semantic web environments. However, in the existing spatial information area, semantic web-based systems are inadequate to deal with storing and processing of spatio-temporal RDF big data. Moreover, HBase, MongoDB and Cassandra which are distributed database systems to process big data are difficult to search for spatio-temporal. This issue caused by absence of spatio-temporal operators and indexation. The number of MapReduce Jobs are increases by increase of join processing queries. The process of various triple pattern conditions in SPARQL for search query also makes it complicated. Finally these issues cause the degradation of query processing performance. This thesis proposes the spatio-temporal RDF big data processing architecture to solve these problems and process spatio-temporal RDF big data efficiently in distributed semantic web environment. The spatio-temporal RDF big data processing architecture is comprised of the spatio-temporal operation method, the spatio-temporal indexing method, and the spatio-temporal query execution plan methods. First, the spatio-temporal operation method, called TS-Operation, supports spatial data types and operators that comply with the OGC standard. Temporal data types and operators that comply with the ISO standard and spatio-temporal data types and operators that unify spatial and temporal data. This thesis compare spatio-temporal types, operations, and search performance with other existing spatio-temporal operation researches and prove the superiority. Second, the spatio-temporal indexing method, called TS-Index, constructs a spatio-temporal index and cluster to search spatio-temporal RDF big data efficiently. This thesis compare search performance with other existing spatio-temporal index researches and proves the excellence. Finally, the spatio-temporal query execution plan method, called TS-ExecPlan, makes join execution plans of SPARQL query with the catalog information table, join priority rule, and multi-join algorithm that performs efficient query processing. This thesis compare search performance with other existing SPARQL query processing researches and prove its advantage.
제1장 서론 1제2장 배경 기술 7제1절 빅데이터(Big Data) 7제2절 시맨틱웹(Semantic Web) 15제3절 시공간 데이터 23제3장 시공간 RDF 빅데이터 처리 아키텍처 33제1절 배경 도메인 33제2절 시공간 RDF 빅데이터 처리 아키텍처 35제3절 시공간 데이터 연산 기술 36제4절 시공간 데이터 인덱싱 기술 38제5절 시공간 질의 실행 계획 기술 38제4장 시공간 데이터 연산 기술 40제1절 개요 40제2절 관련 연구 42제3절 TS-Operation 설계 50제4절 TS-Operation 성능 평가 64제5장 시공간 데이터 인덱싱 기술 72제1절 개요 72제2절 관련 연구 75제3절 TS-Index 설계 79제4절 TS-Index 알고리즘 101제5절 TS-Index 성능 평가 110제6장 시공간 질의 실행 계획 기술 116제1절 개요 116제2절 관련 연구 117제3절 TS-ExecPlan 설계 122제4절 TS-ExecPlan 알고리즘 132제5절 TS-ExecPlan 성능 평가 140제7장 결론 146참 고 문 헌 149부 록 158국문초록 166