최근 음성인식 기술의 실용화와 더불어 음원위치 추정에 관한 연구도 활발히 진행되고 있다. 음성인식 기술은 사람이 말을 하여 기계와 소통하는 것으로 1950년대 등장하여 지속적인 연구가 진행되었지만, 낮은 인식률로 2000년대 중반까지 대중화되지 못했다. 이후 인식률이 높아짐에 따라 음성인식이 자동차의 네비게이션이나 스마트폰 등 여러 서비스에 적용되기 시작했다. 이런 음성인식 기술과 더불어 꼭 필요한 기술이 음원위치 추정기술이다. 음원위치 추정기술은 로봇과 사람이 대화할 때[1], 회의장에서 발성한 화자의 위치를 찾을 때, 스마트 자동차, 저격수의 위치를 찾을 때[2], 스마트 cctv 등 여러 가지 상황에 적용할 수 있다. 본 논문에서는 2차원상에서 소리가 발생했을 때 마이크 센서를 이용해서 음원의 좌표나 각도를 추정하는 방법에 대해서 논의한다. 일반적으로 음원의 위치를 찾는 방법은 TOA(Time Of Arrival), TDOA(Time Difference of Arrival), [3],[4] 빔포밍[5] 방법, 힐버트 변환을 이용한 방법[6], 머리전달함수를 이용한 방법[7]등이 있는데 이중 소량의 마이크 센서를 이용하는 TDOA 방법을 이용하였다. TDOA 방법은 각각의 센서들에 들어오는 신호의 시간차를 구하는 방법인데, TDOA 방법 중 GCC-PHAT (Generalized Cross Correlation Phase Transform) 알고리즘을 이용하여 지연시간을 계산하였다. 다음 이 지연시간을 이용하여 음원까지의 각도를 구하게 되는데, 이때 사인 역함수를 이용한다. 만일 마이크가 총 n개 존재한다면 개의 페어가 생기므로 각 페어에서 사인 역함수를 이용하여 n개의 각도를 구하고 이 n개의 각도를 이용하여 n개의 직선 방정식을 세우는데, 이 중 가장 음원의 위치를 잘 표현할 수 있는 n개의 직선 중 2개를 선택하여 교점을 구하면 2차원 상에서 음원의 좌표를 찾을 수 있다. 본 논문에서는 음원의 위치를 가장 잘 나타내는 마이크 페어 2개를 선택하기 위해, 마이크가 3개일 때 공간영역을 분할[8],[9]해서 페어를 선택하는 방법과 마이크가 4개일 때 공간영역을 분할해서 마이크 페어를 선택하는 방법에 대해 설명하고 음원의 위치를 찾는 방법에 대해 설명한다. 또한 본 논문에서는 단일음원에 대해 설명하였으나 실제 환경에서는 다중음원이 존재하므로 다중음원이 존재할 때 음원의 좌표와 각도를 추정하는 법에 대하여 설명하였다. 실험결과 단일음원일 때 3개의 마이크 센서를 이용하여 좌표를 추정하였을 때는 해상도가 낮아 좌표추정에 실패하였으나 본 논문에서 제안한 마이크가 4개일 때 음원의 좌표 추정시 성공률이 67%로 개선되었다.
On the Sound Source Localization Using GCC-PHAT and Space Division Method
Hwan-Yong, Kim Dept. of Electronic Engineering Daejin University
SSL(Sound Source Loacalization) has been applied to several applications such as man-machine interface, video conference system, smart car and so on. But in the process of sound source localization, angle estimation error is occurred mainly due to the non-linear characteristics of the sine inverse function. So an approach was proposed to decrease the effect of this non-linear characteristics, which divide the microphone''s covering space into narrow region. In this paper, we proposed a optimal space dividing way according to the pattern of microphone array. In addition, sound source''s 2-dimensional position is estimated in order to evaluate the performance of this dividing method. In the experiment, GCC-PHAT method that is known to be robust with noisy environments are adopted and triangular and rectangular microphone array patterns are tested with 100 speech data. The experimental results show that the performance of rectangular pattern is dramatically improved with correct estimation rate of 67%. It''s better than triangular pattern with no correct estimation. Technique for estimating the Sound Source Localization has become a critical technology that should be studied for a friendly man-machine interface. The sound source localization technique can be applied to many fields, such as a humanoid robot, video conference, smart cars, intelligent CCTV. Then, the smart car is installing the smart navigation to use a directional microphone and voice recognition technology. Generally, sound source localization using microphones finds the angle between a sound source and microphone. In this paper, we propose a method for estimating the sound source location in the two-dimensional coordinate. Generally, position estimation algorithm uses TDOA, AOA, TOA methods. Mostly, sound source localization uses TDOA algorithm using few microphone and delay time. The method calculating delay time is the GCC-PHAT method and a cross correlation method. A cross correlation method slows speed of calculation. GCC-PHAT method calculating frequency domain is a faster than cross correlation. Delay time calculating to use GCC-PHAT or cross correlation is used to find the angle. At this very moment, We uses a reversed sin fuction. The error is occurred by using quantized delay time. So, In this paper, We proposes space division to find sound source to efficiently. And then, We confirmed the performance, through experiments. The experimental results showed a 67% performance.
목 차1. 서론 12. 위치 추정 알고리즘 42.1 TOA (Time of arrival) 42.2 AOA (Angle of Arrival) 62.3 TDOA (Time dffirence of arrival) 82.4 Beamforming 113. 음원 각도 추정 163.1 지연시간 측정 163.1.1 상호상관함수 163.1.2 GCC-PHAT (Generalized cross correlation) 183.2 마이크가 2개일 때 음원의 각도 추정 193.3 마이크가 3개 이상일 때 음원의 각도 추정 223.3.1 모든 마이크 페어의 정보를 이용한 각도 추정 방법 233.3.2 공간영역을 분할한 음원의 각도 추정 방법 254. 음원의 좌표 추정 304.1 좌표 추정 방법 304.2 공간 영역 분할을 이용한 직선 선택 방법 314.2.1 마이크가 3개일 때 좌표 추정을 위한 공간영역 분할 324.2.2 마이크가 4개일 때 좌표 추정을 위한 공간영역 분할 345. 다중 음원 위치 추정 385.1 다중 음원 위치 추정 시뮬레이션 386.실험 및 결과 417.문제점 고찰 478.결론 49참고 문헌 50Abstract 51