생몰정보
소속
직위
직업
활동분야
주기
서지
국회도서관 서비스 이용에 대한 안내를 해드립니다.
검색결과 (전체 1건)
원문 있는 자료 (1) 열기
원문 아이콘이 없는 경우 국회도서관 방문 시 책자로 이용 가능
목차보기더보기
Title Page
Contents
I. Introduction 7
I.1. Motivation and Overview 7
I.2. Thesis Organization 10
II. Related Work 11
II.1. Convolutional neural network 11
II.2. Visual Speech Recognition 12
III. Extraction of face and lip's images 15
III.1. Viola-Jones detection algorithm 15
III.2. Face and lip's images extraction 16
III.3. Lip's tracker 17
IV. Experimental Methode 19
IV.1 database 19
IV.2. Categorization of images 22
IV.3. Grouping the pronunciations 24
IV.4. VSR method 25
V. Experimental Results 29
VI. Conclusion 34
References 36
Appendix: Publication in Journals and Conferences 39
국문초록 40
ABSTRACT 42
Table 4.1. Selected fifty-three word in emergency medical service... 20
Table 4.2. The grouping method to classify the vowel images 24
Table 5.1. The classification results of each subject 30
Fig. 1.1. Structure of a Korean word 9
Fig. 2.1. A structure of convolutional neural network, also known as... 12
Fig. 3.1. Method of Viola-Jones detection algorithm 15
Fig. 3.2. The method to extract images of face and lip on images 16
Fig. 4.1. The method of recoding the Korean language 20
Fig. 4.2. Method to find the consonant, vowel, and final consonant... 23
Fig. 4.3. The results of grouping method and the lip's images at... 25
Fig. 4.4. The flowchart for VSR 26
Fig. 4.5. The method of word classification 28
Fig. 5.1. Classification results of pronunciation 30
Fig. 5.2. Classification results of 53 words 32
Fig. 5.3. Classification results of 53 words using VGG-s 33
초록보기 더보기
많은 사람들이 음성인식에 주목하고 있고, 연구자들은 음성인식에 대한 다양한 방법들을 제안하고 있다. 하지만 제안된 대부분의 음성인식 방법들은 치명적인 결함을 가지고 있다. 결함은 노이즈가 있는 상황에서 음성인식을 했을 때 정확도가 낮아진다는 것이다. 이러한 단점을 해결하기 위해 영상 언어 인식 (visual speech recognition) 방법을 제안했다. 영상 언어 인식은 독순술처럼 사람의 입술 영상이미지를 사용하여 음성신호 없이 언어를 인식하는 방법이다. 본 논문에서는 Convolutional neural network (CNN)을 이용하여 영상 언어 인식 시스템을 구현하였다. 이 영상 언어 인식 시스템의 성능을 확인하기 위한 데이터베이스로는 위급상황에서 사용될 수 있는 단어 53개를 응급의료용어집에서 선택하였다. 그리고 세 명의 피험자들이 53개의 단어들을 말하는 동영상을 촬영하였다. CNN에 사용할 학습 및 테스트 입력이미지를 위해 영상 이미지에서 음성신호를 이용해 초성, 중성, 종성의 이미지를 추출한 뒤 Viola-Jones 검출 알고리즘을 사용하여 입술 영역만 따로 잘라냈다. 잘라낸 입술영역 이미지들은 CNN의 학습이미지를 사용할 경우 라벨링을 하였고, 테스트 이미지로 사용할 경우 단어별로 정렬하였다. 초성과 중성, 종성을 분류하기 위해 3층으로 CNN 구조를 구성하였고, 실험에 사용된 CNN의 구조로는 LeNet-5와 VGGNet을 사용하였다. CNN에서 나온 결과들을 이용해 라벨링 된 단어들과의 거리를 이용하여 가장 가까운 단어를 선택하도록 구현하였다. 이때 거리함수로는 유클리디안 거리를 사용하였다. 이 영상 언어 인식 시스템을 이용하여 53개의 단어를 말하는 318개의 영상이미지를 분류한 결과 VGGNet의 경우 약 72.327%를 얻을 수 있었다. 반면 LeNet-5를 이용하였을 때, 22.327%의 분류율을 얻을 수 있었다. 또한 7명의 피험자를 추가하여 총 10명의 영상 이미지를 분류한 결과 약 33%의 분류율을 얻을 수 있었다.
원문구축 및 2018년 이후 자료는 524호에서 직접 열람하십시요.
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
* 표시는 필수사항 입니다.
* 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.
저장 되었습니다.
로그인을 하시려면 아이디와 비밀번호를 입력해주세요. 모바일 간편 열람증으로 입실한 경우 회원가입을 해야합니다.
공용 PC이므로 한번 더 로그인 해 주시기 바랍니다.
아이디 또는 비밀번호를 확인해주세요