목차

표제지

국문 초록

목차

제1장 서론 11

1.1. 연구 배경 11

1.2. 관련 연구동향 15

1.3. 연구 목적 20

1.4. 논문의 구성 22

제2장 마스크 기반 음성 향상 개요 23

2.1. 음성 특징 추출 23

2.1.1. 프리-엠퍼시스 (Pre-emphasis) 23

2.1.2. 프레임화 (Framing) 25

2.1.3. 윈도우 함수 적용 (Windowing) 25

2.1.4. 고속 푸리에 변환 (Fast Fourier Transform, FFT) 27

2.1.5. 스펙트럼 (Spectrum) 27

2.2. 잡음 데이터 생성 29

2.3. 마스크 기반 음성 향상 시스템 30

제3장 제안한 음성 향상 시스템 32

3.1. 개선된 컴포넌트 손실을 적용한 크기 스펙트럼 기반 음성 향상 32

3.1.1. 개선된 컴포넌트 손실(Improved component loss) 32

3.1.2. 크기 스펙트럼 기반 음성 향상 모델 34

3.2. 복소 어텐션 게이트(Complex-attention gate)기반 복소값 스펙트럼을 이용한 음성 향상 38

3.2.1. 복소값 스펙트럼 기반 음성 향상 모델 38

3.2.2. 복소 언텐션 게이트 (Complex attention gate) 41

3.2.3. 손실 45

3.3. 복소값 스펙트럼 기반 음성 향상을 위한 다양한 손실 조합 46

제4장 종단 간 화자 분할 개요 48

4.1. 음성 특징 추출 48

4.2. 잡음 데이터 생성 50

4.3. 기존 종단 간 화자 분할 시스템 52

제5장 제안한 화자 분할 시스템 55

5.1. 종단 간 화자 분할 모델 55

5.2. 화자 특징 학습 손실(Speaker embedding training loss)을 적용한 종단 간 화자 분할 모델 59

5.3. 단일 레이블 분류 기반 종단 간 화자 분할 시스템 62

5.3.1. 단일 레이블 분류 기반 화자 분말 시스템 훈련 62

5.3.2. 잔차 연결 구조 (Residual connection Structure) 66

제6장 실험 방법 및 결과 69

6.1. 제안한 음성 향상 시스템 성능 평가 69

6.1.1. 데이터 베이스 69

6.1.2. 실험 설정 및 베이스 라인 시스템 70

6.1.3. 성능 평가 지수 74

6.1.4. 개선된 컴포넌트 손실을 이용한 크기 스펙트럼 기반 음성 향상 실험 결과 75

6.1.5. 복소 어텐션 게이트 기반 음성 향상 시스템 실험 결과 77

6.1.6. 복소 어텐션 게이트 기반 음성 향상의 다양한 손실 조합 실험 결과 81

6.2. 제안한 화자 분할 시스템 성능 평가 84

6.2.1. 데이터 베이스 84

6.2.2. 실험 설정 및 베이스 라인 시스템 85

6.2.3. 성능 평가 지수 86

6.2.4. 화자 특징 학습 손실 이용 화자 분할 시스템 실험 결과 86

6.2.5. 단일 레이블 분류 기반 화자 분할 시스템 실험 결과 89

제7장 결론 91

참고문헌 94

ABSTRACT 101

표 6.1. VoiceFilter 모델 파라미터 설정 72

표 6.2. Spectrogram Inpainting 모델 파라미터 설정 72

표 6.3. 제안하는 DCUNET-CA 모델의 파라미터 설정 73

표 6.4. 개선된 컴포넌트 손실을 적용한 VoiceFilter 모델 성능 평가 76

표 6.5. 개선된 컴포넌트 손실과 다른 손실을 조합한 손실로 훈련된 음성 향상 시스템 성능 평가 76

표 6.6. 복소 어텐션 게이트 기반 음성 향상 시스템(DCUENT-CA)의 SDR 평가 79

표 6.7. 복소 어텐션 게이트 기반 음성 향상 시스템(DCUENT-CA)의 PESQ 평가 79

표 6.8. 복소 어텐션 게이트 기반 음성 향상 시스템(DCUENT-CA)의 STOI 평가 79

표 6.9. 잔향이 있는 잡음 데이터에 대한 DCUNET-CA의 성능 평가 80

표 6.10. DCUNET-CA 모델의 다양한 손실 조합 성능 평가 82

표 6.11. 화자 특징 학습 손실을 이용한 화자 분할 시스템 DER 성능 평가 88

표 6.12. SA-EEND 모델의 임계값에 따른 DER 성능 평가 90

표 6.13. 단일 레이블 분류 기반 화자 분할 시스템의 DER 성능 평가 90

그림 1.1. 잡음 오염 음성의 음성 향상 수행 결과 14

그림 1.2. 화자 A, B, C가 포함된 잡음 오염 음성의 화자 분할 수행 결과 14

그림 1.3. 클러스터링 기반 화자 분할 수행 과정 19

그림 2.1. 스펙트럼(Spectrum) 변환 과정 24

그림 2.2. 샘플 음성과 프리-엠퍼시스(Pre-emphasis) 적용 음성 24

그림 2.3. 샘플 음성의 프레임화 (Framing) 수행 과정 26

그림 2.4. 샘플 음성의 윈도우 함수 적용 (Windowing) 수행 과정 26

그림 2.5. 푸리에 변환 과정 28

그림 2.6. 샘플 음성의 크기 스펙트럼 (Magnitude spectrogram) 28

그림 2.7. 마스크 기반 음성 향상 시스템의 훈련 과정 31

그림 2.8. 크기 스펙트럼을 이용한 마스크 기반 음성 향상 추론 과정 31

그림 2.9. 복소값 스펙트럼을 이용한 마스크 기반 음성 향상 추론 과정 31

그림 3.1. VoiceFilter와 Spectrogram inpainting 모델 구조 및 음성 향상 수행 과정 37

그림 3.2. DCUENT 모델 구조 40

그림 3.3. 복소 어텐션 게이트(Complex attention gate) 구조 44

그림 3.4. 전역 평균 풀링(Global Average Pooling) 수행 과정 44

그림 3.5. 복소 어텐션 게이트 기반 DCUNET-CA 모델 구조 44

그림 4.1. 로그 멜 필터뱅크 에너지 특징 추출 과정 49

그림 4.2. (a) Mel과 Hz관계 그래프와 (b) 20개 필터를 사용한 멜 필터뱅크 49

그림 4.3. 샘플 음성의 로그 멜 필터뱅크 에너지(Log mel filterbank energies) 49

그림 4.4. 화자 분할을 위한 잡음 데이터 생성 알고리즘 51

그림 4.5. 다중 레이블 분류 기반 종단 간 화자 분할의 훈련 및 추론 과정 54

그림 5.1. SA-EEND 화자 분할 모델 구조 58

그림 5.2. 화자 특징 학습 손실을 적용한 SA-EEND 화자 분할 모델 구조 61

그림 5.3. 단일 레이블 분류 기반 화자 분할의 훈련 및 추론 수행 과정 65

그림 5.4. 잔차 연결 구조를 적용한 Res-SL-SA-EEND 모델 구조 68

그림 6.1. 잡음 오염 음성, 깨끗한 음성, 향상된 음성의 스펙트럼 비교 83

그림 6.2. 화자 특징 학습 손실로 훈련된 SA-EEND 모델의 화자 및 프레임 특징 시각화 그래프 88