거짓말 탐지기로 잘 알려진 폴리그래프(Polygraph)는 심박수(Heart rate), 혈압(Blood pressure), 호흡(Breathing), 피부전도도(Electro Dermal Activity, EDA) 등의 생체신호를 측정할 수 있는 접촉식 센서를 신체에 부착하고 인지부조화 이론을 기반으로 자율신경계 반응을 분석하여 거짓말을 탐지한다. 그러나 이와 같은 접촉식 측정 방식은 피검사자에게 불편함을 주고 자동화된 자율신경계 반응 분석 기술의 한계로 인하여 탐지 시 검사관의 주관이 반영된다는 한계점이 존재한다. 따라서 이를 보완하고자 음성, 열화상, 영상 등 비접촉식 신호를 이용하고, 기계학습(Machine Learning, ML)을 통해 거짓말을 탐지하는 연구가 많이 진행되고 있다. 본 연구에서는 데이터 획득이 편리하고, 비대면 상황에서도 데이터를 취득할 수 있는 음성을 이용하여 거짓말 탐지 알고리즘을 개발하였다. 인지부조화 이론에 따라 인간이 거짓된 음성을 발화하여 자율신경계에 변화가 발생하면, 발성기관들이 영향을 받아 평소와는 다른 발화 특징이 나타나게 되고, 이 때 나타나는 누출 단서들(Leak cues)로부터 거짓말 탐지가 가능하다. 음성 신호를 이용하여 기계학습 기반 거짓말 탐지를 수행했던 선행 논문들은 대부분 경험과 관련된 단순 발화 또는 인터뷰를 통해 획득한 데이터를 활용하였는데, 이는 거짓말 탐지 기술의 기반이 되는 인지부조화를 발생시키기 위한 조건화 과정과 구조화 과정이 고려되지 않은 방법이다. 또한 음성 특징점과 거짓말 사이 관계에 대한 분석이 충분하지 않았고, 거짓말 발화 시 개인별 차이를 고려하지 않았다는 한계점이 존재하였다. 본 연구에서는 먼저 서울 경찰청으로부터 자문을 받아, 구조화 과정과 조건화 과정을 고려한 신뢰성 있는 프로토콜을 개발하고 이를 활용하여 데이터를 획득하였다. 자유 발화의 경우 특정 단어에 편향이 될 수 있고, 진실과 거짓 구간의 구별이 모호해지며 불안함이나 긴장감 등 다른 요인에 의한 영향이 많아진다. 따라서 모든 질문의 답변을 부정의 심리가 포함된‘아니오’로 통일하여 72명으로부터 진실 1440개, 거짓 1440개 데이터를 취득하여 사용하였다. 감정과 관련된 연구에서 음성 특징점을 추출할 때, 일반적으로 다양한 영역에서 특징점을 추출하여 사용하기 때문에‘아니오’구간에서 시간영역, 주파수영역, 음성품질영역의 음성 특징점을 추출하고, 통계학적 계산을 통하여 총 48가지의 특징점을 구성하였다. 전체 72명의 데이터를 사용하여 거짓말 탐지를 수행하였을 때, 진실과 거짓, 이진 분류를 수행함에 있어 기계학습 분류기의 경우 46.8%, VGG19모델을 전이학습 한 경우 54.09%의 성능을 얻었다. 거짓말을 할 때 음성의 경우 생리학적 변화와 더불어 음성학적, 행동심리학적인 측면에서 개인차가 나타나기 때문에 데이터로부터 일반적인 패턴을 찾기 어렵고, 개인별로 다른 패턴을 보이게 된다. 따라서 개인별 분석이 가능한 알고리즘을 만들고자 먼저 개인의 데이터를 사용하여 진실과 거짓 발화에서 거의 차이가 나지 않는 음성 특징점을 계산을 통해 제거하였다. 그 후 상관 클러스터링 알고리즘(Correlation Clustering Algorithm)을 사용하여 클러스터를 형성하여 거짓말 시 음성 특징점의 변화 패턴을 분석하였다. 최종적으로 차분진화 알고리즘(Differential Evolution Algorithm)을 활용하여 유의미한 특징점에 큰 값을 주는 방향으로 최적화된 가중치와 각 클러스터 그룹으로부터 나온 예측 결과를 가중합(Weighted sum) 함으로써 최종 예측 결과를 도출하였다. 개발한 알고리즘으로 개인별 거짓 여부를 탐지하였을 때, 의사결정나무(Decision Tree, DT)분류기에서 71.6%, 서포트 벡터 머신(Support Vector Machine, SVM)분류기에서 72.1%로 기존 연구보다 6% 가량 향상된 정확도를 획득할 수 있었다. 개인별 차이가 실제로 존재하는 지 확인하기 위하여 p-value와 학습된 가중치 값을 비교 분석한 결과, 진실과 거짓 발화에서 유의미하게 차이가 나는 음성 특징점이 피험자별로 다르게 나타났다. 또한 제안한 알고리즘이 진실과 거짓 발화 시 발생하는 차이가 상대적으로 유의미한 특징점에 큰 가중치를 부여하고 있음을 확인하였다. 결론적으로 전체 데이터로부터 음성 특징점을 추출하고 분류 모델을 통해 분류 성능만을 제시하였던 기존 연구들과는 달리, 본 연구에서는 개인별 데이터로부터 음성 특징점을 그룹화하고 그룹별로 가중치를 부여함으로써 성능향상과 더불어 개인별 음성 특징점과 거짓말 간의 관계를 분석할 수 있었다. 따라서 같은 공간에서 같은 대답을 했음에도 나타나는 개인별 거짓말 패턴의 차이를 고려한 알고리즘을 통하여 수사관들에게 더 유용한 정보를 줄 수 있을 것으로 기대된다.
Polygraph, which is widely used as a deception detector, detects deception through changes in bio-signals by attaching contact sensors such as blood pressure, breathing and electro dermal activity based on cognitive dissonance theory. However, this has limitations in that the subject feels uncomfortable and the subjectivity of the inspector is reflected in the deception. Therefore, in order to solve this problem, many studies are being conducted to use non-contact signals such as speech, thermal videos, and videos to detect deception through machine learning. Among them, this study uses speech to detect deception, which is convenient for data collection and analysis even in non-face-to-face situations. Based on the cognitive dissonance theory, when the autonomic nervous system changes, the vocal organs are affected and a different utterance appears. so deception detection is possible from the leak cues that appear at this time. Most of previous studies that performed speech deception detection using machine learning are not considered the conditioning and structuring processes that could cause cognitive dissonance because they used data obtained through simple utterance or interviews related to experience. In addition, there were limitations in that the analysis of the relationship between speech feature and deception was not sufficient, and they did not consider individual differences when uttering deception. In this study, we obtained data using a reliable protocol that considered the conditioning and structuring processes, which was advised by the Seoul Metropolitan Police Agency. In case of the long answer, there may be a bias towards specific words, the distinction between truth and false section is ambiguous, and the influence of other factors such as anxiety or tension increases. Therefore, 1440 truth and 1440 deception data were obtained from 72 subjects by unifying the answers to all questions as‘아니오’, which includes negative psychology. When extracting speech features in emotion-related studies, they generally used by extracting feature from various areas, so from the‘아니오’section, we extract speech feature in the time domain, frequency domain, voice quality domain and construct 48 feature set through statistical calculations. When we performed deception detection using data from a total of 72 subjects, we obtained an accuracy of 46.8% in the machine learning classifier and 54.09% accuracy in the VGG-19 transfer learning. In the case of deception in speech, it is difficult to find a general pattern from the data because there are individual differences in phonetic and behavioral psychology as well as physiological changes. so different patterns appear for individual. Therefore, In order to programming an algorithm capable of individual analysis, we first using personal data, speech feature that show little difference between truth and deception were removed through calculation. After that, we formed cluster using a correlation clustering algorithm to analyze the change pattern of speech feature when deception. Finally, we can obtain final prediction by weighted sum the weights that optimized in the direction of giving a large value to a significant feature through differential evolution algorithm with the prediction results of each cluster group. When detecting deception by individuals with proposed algorithm, we obtained an improved accuracy of 71.6% in the Decision Tree(DT) classifier and 72.1% in the Support Vector Machine(SVM) classifier, which is about 6% higher than the previous research. As a result of comparing and analyzing the p-value and the learned weight value for individual, the speech feature that significantly change between truth and deception utterances were different for each subject, and the proposed algorithm gives a large weight to the relatively significant features. In conclusion, unlike previous studies in which speech features were extracted from all data and only classification performance was presented through a classification model. in this study, speech features were grouped from individual data and weighted for each group, thereby improving performance and analyzing the relationship between speech features and deception. Therefore, it is expected that more detailed information can be given to investigators through an algorithm that consider differences in individual deception patterns that appear even when the same answer in the same space.
1. 연구 배경 11.1. 연구 배경 및 필요성 11.2. 기존 연구의 한계점 및 연구 목표 62. 데이터 획득 92.1. 실험실 환경 92.2. 실험 프로토콜 및 데이터 93. 연구 방법 133.1. 데이터 전처리 133.2. 음성 특징점 추출 153.2.1 시간 영역 특징점 173.2.1.1. 피치(Pitch) 173.2.1.2. 포먼트(Formant) 183.2.1.3. 세기(Intensity) 183.2.1.4. 영교차율(Zero Crossing Rate, ZCR) 193.2.1.5. 단구간 에너지(Short Time Energy, STE) 193.2.2 주파수 영역 특징점 203.2.2.1. 스펙트럼 중심, 대역폭, 롤오프 203.2.2.2. MFCC(Mel Frequency Cepstral Coefficient) 203.2.3 음성 품질 영역 특징점 233.2.3.1. 주파수 변화율, 진폭 변동률, 배음대소음비 233.3. 전체 데이터를 사용한 거짓말 분류 243.3.1. 랜덤 포레스트(Random Forest) 243.3.2. VGG19 모델 253.3.2.1. 전이학습(Transfer learning) 263.4. 개인 데이터를 사용한 거짓말 분류 283.4.1. 차이(Difference)값을 이용한 특징점 제거 283.4.2. 상관 클러스터링을 활용한 특징점 구성 303.4.3. 기계학습(Machine learning)을 활용한 거짓말 분류 333.4.3.1 서포트 벡터 머신(Support Vector Machine) 333.4.3.2 의사결정나무(Decision Tree) 343.4.4. 차분진화를 활용한 가중치 최적화 364. 연구 결과 384.1. GSR 센서를 활용한 데이터 신뢰성 검증 384.2. 전체 데이터를 사용한 거짓말 분류 결과 404.1.1. 랜덤 포레스트를 활용한 분류 결과 404.1.2. VGG19 모델과 전이학습을 활용한 분류 결과 404.3. 개인 데이터를 사용한 거짓말 분류 결과 424.4. 개인별 음성 특징점 분석 결과 445. 결론 및 고찰 46참고문헌 50부 록 54ABSTRACT 55연구윤리 서약서 59