목차

표제지

목차

제1장 서론 11

1.1. 연구 배경 및 필요성 11

1.2. 연구범위 14

1.3. 연구의 구성 14

제2장 이론적 고찰 및 문헌연구 16

2.1. WTA(Weapon Target Assignment) 16

2.1.1. SWTA(Static Weapon Target Assignment) 17

2.1.2. Heuristic SWTA 19

2.1.3. DWTA(Dynamic Weapon Target Assignment) 24

2.2. Reinforcement Learning 27

2.3. MDP(Markov Decision Process) 33

2.4. DP(Dynamic Programming) 41

2.5. ADP(Approximate Dynamic Programming) 46

2.6. Policy Approximations 48

2.7. 연구사례 54

제3장 요격통제 및 다대다교전 문제의 정의 59

3.1. 문제의 정의 및 가정사항 59

3.2. MDP 모형 62

3.3. ADP 모형 68

제4장 시뮬레이션 시나리오 76

4.1. 시나리오 76

4.2. LSTD 알고리즘 매개변수 78

제5장 시뮬레이션 결과 및 효과분석 80

5.1. Rₜ ＝ (2,2) 시뮬레이션 결과 80

5.2. Rₜ ＝ (4,4) 시뮬레이션 결과 83

5.3. Rₜ ＝ (12,12) 시뮬레이션 결과 86

5.4. 시뮬레이션 효과분석 평가 88

제6장 결론 90

참고문헌 92

국문요약 99

ABSTRACT 101

〈표 1〉 Policy Comparison for Scenario 1, Rₜ ＝ (2,2) 82

〈표 2〉 Policy Comparison for Scenario 2, Rₜ ＝ (4,4) 85

〈표 3〉 Policy Comparison for Scenario 3, Rₜ ＝ (12,12) 87

〈표 4〉 Comparison for Scenario Expected Loss 88

〈그림 1〉 The Agent - Environment interaction in a Markov decision process 33

〈그림 2〉 State transition diagram 38

〈그림 3〉 Scenario Diagram 56

〈그림 4〉 Rule-based Flow Chart 57

〈그림 5〉 Network Architecture 58

〈그림 6〉 Diagram outlining the timing of events for the MDP model 64

〈그림 7〉 A sequence of decisions as a MDP with the post-decision state 71

〈그림 8〉 LSTD Algorithm 74

〈그림 9〉 Scenario Layout 77