데이터 스트림이 대용량으로 발생되는 경우, 데이터 스트림의 특징과 패턴을 잘 반영하는 샘플을 추출하여 사용하는 것이 효과적이다. 본 논문에서는 스트림 환경에서의 샘플링 방법 중 랜덤 샘플링 특성을 갖는 KSample의 균일신뢰도 향상에 초점을 맞춘다. 이를 위해 먼저 KSample의 균일신뢰도를 분석하여 KSample의 균일신뢰도가 초기에 많이 감소하는 초기 균일신뢰도 저하, KSample의 균일신뢰도가 지속적으로 감소하는 지속 균일신뢰도 저하 문제를 도출한다. 그리고 초기 균일신뢰도 저하를 발생시키는 성질을 샘플 범위 제한과 과거 샘플 불변으로, 지속 균일신뢰도 저하를 발생시키는 성질을 샘플 추출 범위 증가로 정의한다. 샘플 범위 제한, 과거 샘플 불변, 샘플 추출 범위 증가에 대한 각각의 해결책을 샘플 범위 확장, 과거 샘플 변경, 균일신뢰도 기반 윈도우 사용으로 제시하고, 이를 반영하여 균일신뢰도를 향상시킨 UC KSample을 제안한다. 그리고 UC KSample을 층화샘플링에 적용한 Stratified UC KSample을 제안한다. 실험 결과, UC KSample의 균일신뢰도가 기본 KSample에 비해 약 2.2배 증가하였고, 항상 설정한 하한 값보다 높게 유지되는 것을 확인하였다. 정확도의 경우도, 수치형 데이터와 텍스트 데이터 모두 모집단과 높은 유사도를 갖는 것을 확인하였다. 본 연구는 스트림 환경에서 중요한 척도인 균일신뢰도를 KSample에 결합시킨 최초의 시도로서, 샘플링 비율을 유지하며 동적으로 샘플링하는 KSample의 장점은 유지하면서도 균일신뢰도를 증가시킨 우수한 연구라 사료된다.
For large amounts of stream data, it is effective to extract and use samples that reflect well the characteristics and patterns of the data stream. In this thesis, we focus on improving the uniformity confidence of KSample, which has the characteristics of random sampling in the stream environment. For this, we first analyze the uniformity confidence of KSample and then derive two uniformity confidence degration problems: (1) initial degradation, which the uniformity confidence rapidly decreases at the initial stage, and (2) continuous degradation, which it is also gradually degraded at the later stages. We note that the initial degradation is caused by the sample range limitation and the past sample invariance, and the continuous degradation is by the sampling range increase. For each problem, we present a corresponding solution, that is, we provide the sample range extension for sample range limitation, the past sample change for past sample invariance, and the use of UC-window for sampling range increase. By reflecting these solutions, we then propose a novel sampling method, named UC KSample, which largely improves the uniformity confidence. Also, we propose Stratified UC KSample, an algorithm that applies UC KSample to stratified sampling. Experimental results show that UC KSample improves the uniformity confidence by average 2.2 times over KSample, and it always keeps the uniformity confidence higher than the user-specified threshold. We also note that the sampling accuracy of UC KSample is higher than that of KSample both in numeric and text data. The uniformity confidence is an important sampling metric in data streams, and this is the first attempt to applying the uniformity confidence to KSample. Thus, we believe that the proposed UC KSample is an excellent approach that adopts an advantage of KSample, dynamic sampling over a fixed sampling ratio, while improving the uniformity confidence.
목 차1 서 론 12 관련 연구 52.1 균일신뢰도 52.2 KSample 63 KSample의 균일신뢰도 분석 104 UC KSample 124.1 문제 원인 분석 124.2 UC KSample의 요구사항 정의 154.3 UC KSample의 동작 절차와 알고리즘 194.4 Stratified UC KSample 225 실험 평가 265.1 실험 환경 및 데이터 265.2 균일신뢰도 평가 265.3 샘플링 정확도 평가 295.4 층화샘플링 실험 316 결 론 337 참고 문헌 34