본 연구는 농아인들이 사회에서 겪는 의사소통, 정보격차 문제를 해결하고자 의미 전달 프레임워크 모델에 대해 제안하였다. 한 연구에 따르면 농아인들이 여가시간에서 가장 큰 비중을 갖는 것은 ‘TV 및 비디오 시청’이 라고 답하였다. 농아인들은 대부분 TV의 지상파를 보고서 정보를 얻는다. 그런데 이런 방송들은 수화 방송, 화면 설명이 전체 방송의 5%보다 작은 비율로 편성되었고 시간대도 늦어 정보 얻기에 최적화된 환경이 아니다. 실제로 농아인 단체들은 방송 비율을 20% ~ 50%까지 늘리는 것을 요구하고 있다.
모든 방송에 수화 방송 서비스를 제공하는 것에는 인프라와 인력이 많이 필요하기에 그렇게 하기 전 과도기적 방식으로 제안한 것이 수화 번역 프레임워크의 설계이다. 그렇게 했을 경우 캐릭터를 활용한 ‘자동 번역 시스템에 그 데이터를 넣어 학습시켜 자동으로 방송을 할 수 있다. 또한, 수화통역가 가 아니더라도 프레임워크를 보고 학습하여 수화를 통해 뉴스를 전달할 수 있기 때문에 이를 통해 수화 방송의 비율을 높일 수 있다.
뉴스는 다양한 방면을 다루지만 이번 연구에서는 ''일기예보''를 주제로 하여 연구를 하였다. ‘일기예보’,’날씨뉴스’의 script 데이터를 모아 자주 쓰이는 단어 100개를 추출하여 그들의 수화소를 분류하여 ‘일기예보’를 위한 수화 번역 프레임워크를 생성하였습니다. 추출한 단어들을 의미 전달 프레임워크로 표현하고 영상 인식을 하여 유효성을 증명하고자 하였다.
손모양, 손위치, 손움직임은 손동작에 기반을 둔 구성요소이기에 배경분리와 CNN 학습을 통해 인식하였다. 얼굴표정은 사람얼굴을 인식하는데 사용되는 Opencv Harr Cascade의 frontal_face.py라는 xml파일과 표정 분석을 위해 표정 데이터셋을 기반으로 학습한후에 Tensorflow Image Classifier 분류기를 사용하여 인식하였다.
얼굴 같은 경우 frontal_face.py 파일은 얼굴을 인식하기 위한 프로그램이 기에 정면 얼굴의 인식도는 매우 높았고 표정 인식 같은 경우 인식하고자 하는 감정(Normal, Happy, Sad, Surprise, Angry)의 데이터 셋을 각 감정당 100개씩 모아 학습시켰더니 표정 정확도가 90%를 상회했다. 다만, real-time으로 인식을 하다보니 중간중간 미세한 표정 변화에도 감정이 변화하여 일정 텀을 두고 감정을 인식하는 형태로 하여 감정의 연속성을 유지하는 것이 필요하다.
손동작은 배경분리를 통해 손의 모양을 인식하고 이후 CNN학습을 통해 수어 동작을 인식한다. 배경분리를 통해 grayscale과 Image Blurring을 하여 윤곽선을 그려 손모양을 인식하고 CNN학습 시 트레이닝 셋 1000장, 테스트셋 100장으로 하여 50회 반복 학습을 하였다. 그렇게 하여 수어 동작을 인식하였을 때 96.6%의 높은 유효 정확도로 손동작을 인식한 걸 확인할 수 있었다.
본 연구에서는 의미 전달 프레임워크의 효용성과 영상 인식 및 수화 방송의 실용성에 관해 객관적인 평가를 받기 위해 수어 교육 기관과 수어 통역 시설의 수어통역사들과 맥락질의를 하였다. 의미 전달 프레임워크의 필요성과 연구 발전성에 대해서는 인정을 받았지만, 실제 적용시 도움이 될지에 대해서는 프로그램 혹은 시스템을 개발하여 관련 연구를 진행하면서 알아봐야 한다. 영상 인식 및 수어 방송 같은 경우 의사소통이나 정보를 제공할 수 있다는 점에서 실용성을 인정받았지만, 이것이 실제로 대안방송 이 될 수 있는지 여부에 대해서는 의구심이 있기에, 프로토타입으로 캐릭터 수화방송을 만들어 이것이 실제 농인들에게 정보를 제공할 수 있는지에 관해 연구를 진행해야 한다.
향후 연구로는 농아인들이 정보에서 소외되지 않도록, 거의 모든 형태의 방송, 뉴스를 의미 전달 프레임워크를 통해 표현하고 한국어 수어 번역기 혹은 캐릭터 수화 방송을 제공하는 것이다. 그렇기 때문에 이 논문을 참고로 하여 뉴스의 다른 도메인 ‘경제’, ‘세계’, ‘환경’등 다양한 방면의 정보를 수화방송으로 만들 때 참고를 한다면 훨씬 효과적인 방송 제작이 가능할 것이다. 그리고 그렇게 모인 데이터베이스를 활용한다면, 농인들이 정보에 쉽게 접근할 수 있게 되어, 정보 소외 현상을 해결하고 그들의 시청권을 보장할 수 있을 것이다.
This study proposed a semantic delivery framework model to solve the communication and information disparity problems of deaf people in society. According to one study, deaf people have the largest share of their free time in television and video viewing. Most deaf people get information by watching the terrestrial television. However, these broadcasts are composed of sign language broadcasts and screen descriptions at a rate less than 5% of the total broadcasts, and are not optimized for obtaining information due to late time slots. Indeed, deaf groups are demanding an increase in broadcast rates from 20% to 50%.
The provision of sign language broadcasting services for all broadcasts requires a lot of infrastructure and manpower, so the design of the sign language translation framework was proposed in a transitional manner before doing so. If you do that, you can broadcast it automatically by inserting the data into an automatic translation system that uses characters. In addition, even if you are not a sign language interpreter, you can see and learn the framework to deliver news through sign language, thereby increasing the proportion of sign language broadcasts.
The news deals with various aspects, but in this study, the study focused on ‘weather forecasts’. We gathered the script data of ‘weather forecast’ and ‘weather news’ and extracted 100 frequently used words to classify their sign language to create a sign language translation framework for ‘weather forecast’. We tried to prove the validity by expressing extracted words with semantic delivery framework and image recognition.
Since hand shape, hand position, and hand movement are components based on hand movement, they are recognized through background separation and CNN learning. Facial expressions were recognized using the Tensorflow Image Classifier classifier after learning based on the xml file of Opencv Harr Cascade, frontal_face.py, which is used to recognize human face, and the expression data set for expression analysis.
In the case of faces, the frontal_face.py file is a program for face recognition, so the recognition of the front face was very high.In the case of facial expressions, the frontal_face.py file contained 100 data sets of emotions (Normal, Happy, Sad, Surprise, Angry) to be detected. After learning by gathering dogs, facial expression accuracy was more than 90%. However, as it is recognized in real-time, it is necessary to maintain the continuity of emotions in the form of recognizing emotions with a certain term because the emotions change even in the minute expression changes in the middle.
The hand gesture recognizes the shape of the hand through the background separation and then the sign language gesture through CNN learning. Through the background separation, the outline was drawn by grayscale and image blurring to recognize the shape of the hand, and the CNN learning was repeated 50 times with 1000 training sets and 100 test sets. Thus, when the hand gesture was recognized, it was confirmed that the hand gesture was recognized with high effective accuracy of 96.6%.
In this study, we conducted a contextual inquiry with sign language interpreters at sign language education institutions and sign language interprete institutions to obtain an objective evaluation of the effectiveness of the semantic framework and the practicality of image recognition and sign language broadcasting. Although the necessity of the semantic communication framework and the research development have been acknowledged, it is necessary to find out whether the program will be useful in the actual application while developing related programs or systems. In the case of image recognition and sign language broadcasting, it has been recognized for its practicality in that it can provide communication or information, but there is doubt about whether it can actually be an alternative broadcasting. Research should be conducted on whether information can be provided to the public.
Future research aims to express almost all forms of broadcasting and news through a semantic delivery framework and provide Korean sign language translator or character sign language so that deaf people are not alienated from information. For this reason, if you refer to this paper as a sign language broadcasting information of various domains such as economy, world, environment, etc., you will be able to produce more effective broadcasting. And if the database is used, deaf people will have easy access to information, which will solve the information alienation and guarantee their viewing rights.
목차
제1장 서론 1제1절 연구배경 1제2장 관련 연구 4제1절 수화소 분석 4제2절 공헌 6제3장 연구 방법 8제1절 수화소 역할 8제2절 의미 전달 프레임워크 101. 새로운 프레임워크 필요성 102. 데이터 수집 및 단어 추출 143. 수화소 분류 및 프레임워크 생성 18제3절 수어영상인식 261. 기본 개념도 설계 262. 얼굴 표정 인식 283. 손동작 인식 31제4장 구현 및 결과 38제1절 영상 인식 38제2절 영상 인식 결과 및 자문 51제5장 결론 56제1절 결론 및 향후 연구 56참고문헌 58국문초록 60