검색엔진의 성능을 높이기 위해 계속적으로 세부 모듈의 수행결과를 분석하고 오류를 수정하는 과정을 거치게 되는데, 이는 매우 시간과 노력이 많이 들어가는 작업이다. 그러나, 이러한 과정을 거쳐 대상 문헌으로부터 색인어를 추출하는 방법을 개선하는 것은 검색엔진 성능을 높이기 위한 매우 중요한 연구주제이다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진 내부의 다양한 단계별 처리 과정을 개발자 또는 연구자가 개별적/종합적으로 살펴보고 성능을 개선하기란 너무나 어려운 작업이다. 따라서, 본 연구에서는 연구자로 하여금 개별적인 색인어가 검색엔진에 미치는 영향을 각 단계별로 손쉽게 분석할 수 있도록, 베이지안 추론망과 어절의 분별력에 기반한 새로운 오류 분석 방법론을 제안한다. 각 단계별 처리 과정에서 생성된 색인어가 미치는 영향을 계량화하고, 이 계량화 정보를 가시화하여 연구자/개발자가 검색엔진의 성능을 향상 시킬 수 있는 도구를 제공한다.
For improving performance of search engines, iteration of analyzing the results of internal modules of search engines and then modifying their errors is required in general. However, this job is highly labor-intensive and time-consuming for developers and researchers. Nevertheless, enhancing the methods of extracting good index terms from documents through this process is one of the most fundamental and important research topics. In general, the performance of search engines is enhanced by removing index terms that are negative to the performance or stressing on relatively important index terms. However, it is quite difficult for the researchers to investigate in detail and modify the problems occurred from multiple modules in a search engine. Therefore, we propose a failure analysis method based on both Bayesian inference network and discrimination power of a index term, in order for the researcher to easily analyze the effect of each index term on the search engine. To do this, we quantify the importance of each term and visualize them on the Bayesian inference network.