표제지
목차
Abstract 10
1. 서론 12
1.1. 일반적인 심층신경망 소개 12
1.2. 신경망 역사 12
2. 관련 연구 19
2.1. 기울기 소실 문제 19
2.2. 파라메트릭 활성함수 21
3. 기울기 소실 유형 분류와 파라메트릭 활성함수를 사용한 완화 방법 23
3.1. 미분계수의 의한 기울기 소실 3가지 유형 분류 23
3.2. 파라메트릭 활성함수 27
3.3. 파라메트릭 활성함수를 사용한 기울기 소실의 완화 30
4. 실험 35
4.1. 은닉층이 10개인 XOR 문제 35
4.2. 은닉층이 8개인 MNIST 문제 48
5. 결론 58
참고문헌 59
[표 1] 다양한 파라메트릭 활성함수 28
[표 2] 파라메트릭 활성함수의 미분계수 29
[표 3] 실험 조건 36
[표 4] 100회 실험 결과 36
[표 5] 1000번 실시한 실험 결과 47
[표 6] MNIST 실험에 사용된 활성함수들 49
[표 7] 파라메트릭 활성함수들의 초기화 값 50
[표 8] 실험 조건 51
[그림 1] 일반적인 심층신경망의 학습 구조 12
[그림 2] 시간축으로 나열된 신경망 역사의 중요한 화제 13
[그림 3] 간단한 퍼셉트론 모형 13
[그림 4] (A) : XOR 문제, (B) : 퍼셉트론이 예측한 XOR 문제 14
[그림 5] XOR 문제를 해결한 신경망 구조와 각 노드의 그림 15
[그림 6] K개의 은닉층을 가지는 일반적인 심층신경망 구조 23
[그림 7] i 번째 경사하강법을 통해 학습된 선형변환 파라미터 w(i). (A) : 기존 활성함수를 사용, (B) : 파라메트릭 활성함수를 사용.[이미지참조] 27
[그림 8] (A) Sigmoid 함수와 PPNS 함수(a,b에 따른 변화) (B) : Sigmoid 함수와 PPNS 함수의 미분계수 30
[그림 9] 심층신경망의 파라미터 (W,A,B)에 대한 손실함수 공간. (W : 모든 은닉층의 선형변환 파라미터, A,B : 모든 은닉층의 파라메트릭... 32
[그림 10] 은닉층이 10개, 각 노드가 2개인 신경망 구조 35
[그림 11] Sigmoid 함수와 PPNS 함수의 비교, (A) : iteration에 따른 손실함수 값, (B) : iteration에 따른 ∂L/∂w11(1) 값.[이미지참조] 37
[그림 12] Iteration에 따른 (∂z(m)/∂y(m-1))ij 과 (∂y(m)/∂z(m))ij, m=2,…,10,out 값[이미지참조] 43
[그림 13] (A) : Sigmoid 함수, (B) : PPNS 함수, 를 사용한 (w1j(l),w2j(l)),l=1,…,out,j=1,2의 초깃값과 학습된 값[이미지참조] 44
[그림 14] PPNS 활성함수 파라미터 (aj(l),bj(l)),l=1,…,10,j=1,2의 초깃값과 학습된 값의 분포[이미지참조] 45
[그림 15] 은닉층이 8개, 각 노드가 128개인 심층신경망 구조 51
[그림 16] MNIST 실험결과, Step에 따른 손실함수 값 52
[그림 17] Iteration에 따른 손실함수에 대한 첫 번째 선형변환 미분계수 값 54
[그림 18] 활성함수들의 |(∂z(m)/∂y(m-1))ij|≥1 개수[이미지참조] 56