표제지
국문 초록
목차
제1장 서론 12
제1절 연구배경 12
제2절 연구목적 13
제2장 관련연구 15
제1절 침입탐지시스템(IDS) 15
1. NIDS 15
2. HIDS 15
3. 비정상 행위 탐지 15
4. 오용기반탐지 16
제2절 특성 공학 16
1. 특성 선택 16
2. 특성 추출 18
제3장 연구방법 19
제1절 NSL-KDD 데이터셋 19
1. DoS 20
2. Probing Attack 20
3. R2L(Remote To Local Attack) 20
4. U2R(User To Root Attack) 20
제2절 데이터 전처리 21
1. One-Hot Encoding 21
2. Min-Max Scaling 21
제3절 특성 선택 및 추출방법 21
1. 필터 기반 기법(Filter-based Method) 22
2. 래퍼 기반 기법(Wrapper-based Method) 23
3. 임베드 기반 기법(Embedded-based Method) 24
4. PCA(주성분분석) 25
5. 특성조합 25
제4절 모델 알고리즘 30
1. Logistic Regression 30
2. XGBoost 30
3. LightGBM 30
4. SVM 31
5. ANN 31
제5절 성능평가 지표 31
1. 정확도(Accuracy) 32
2. 정밀도(Precision) 32
3. 재현율(Recall) 32
4. F1 스코어(F1-Score) 32
5. AUROC Score 33
제4장 실험결과 및 분석 34
제1절 실험환경 34
제2절 실험결과 34
1. Logistic Regression 34
2. XGBoost 39
3. LightGBM 44
4. SVM 49
5. ANN 54
6. 전체평가 59
제5장 결론 69
참고문헌 71
〈표 1〉 NSL-KDD 데이터셋의 클래스 분류 19
〈표 2〉 필터 기반 기법(Filter-based Method)으로 선택된 특성 20개 22
〈표 3〉 래퍼 기반 기법(Wrapper-based Method)으로 선택된 특성 20개 23
〈표 4〉 임베드 기반 기법(Embedded-based Method)으로 선택된 특성 20개 24
〈표 5〉 조합된 특성들의 특징 27
〈표 6〉 선택된 특성들의 조합 28
〈표 7〉 차원 수와 PCA 사용에 따른 Group 구분 29
〈표 8〉 혼동행렬 31
〈표 9〉 구글 코랩 Pro+ 환경 34
〈표 10〉 Logistic Regression 알고리즘 학습 결과 36
〈표 11〉 Logistic Regression 알고리즘 학습 결과 시각화 37
〈표 12〉 Logistic Regression Group별 평균 현황 38
〈표 13〉 XGBoost 알고리즘 학습 결과 41
〈표 14〉 XGBoost 알고리즘 학습 결과 시각화 42
〈표 15〉 XGBoost Group별 평균 현황 43
〈표 16〉 LightGBM 알고리즘 학습 결과 46
〈표 17〉 LightGBM 알고리즘 학습 결과 시각화 47
〈표 18〉 LightGBM Group별 평균 현황 48
〈표 19〉 SVM 알고리즘 학습 결과 51
〈표 20〉 SVM 알고리즘 학습 결과 시각화 52
〈표 21〉 SVM Group별 평균 현황 53
〈표 22〉 ANN 알고리즘 학습 결과 56
〈표 23〉 ANN 알고리즘 학습 결과 시각화 57
〈표 24〉 ANN Group별 평균 현황 58
〈표 25〉 모델 별 정확도 현황 59
〈표 26〉 모델별 정밀도 현황 61
〈표 27〉 모델별 재현율 현황 63
〈표 28〉 모델별 F1-Score 현황 65
〈표 29〉 모델별 AUROC Score 현황 67
〈그림 1〉 NSL-KDD의 고유계수 하중 벡터 25
〈그림 2〉 AUROC Score 커브 33
〈그림 3〉 ANN 모델 요약 54
〈그림 4〉 모델별 정확도 시각화 60
〈그림 5〉 모델별 정밀도 시각화 62
〈그림 6〉 모델별 재현율 시각화 64
〈그림 7〉 모델별 F1-Score 시각화 66
〈그림 8〉 모델별 AUROC Curve 시각화 68