표제지
목차
약어표 8
논문요약 9
제1장 서론 11
1-1. 연구 배경 및 목적 11
1-2. 관련 연구 12
1-3. 연구 범위 및 구성 14
제2장 이론적 배경 15
2-1. 웹 크롤러(Web crawler) 15
2-2. 기계학습(Machine Learing) 16
2-3. 자연어 처리(Natural Language Processing, NLP) 18
1) 형태소 분석 19
2) 텍스트 전처리(Text Preprocessing) 19
2-4. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 21
제3장 LDA를 이용한 사이버 위협정보 중요도 및 확산도 산출 연구 23
3-1. 데이터 수집 및 구성 23
3-2. 사이버 위협정보 전처리 28
3-3. LDA를 이용한 사이버 위협정보 중요도 및 확산도 산출 모델 29
제4장 실험 및 분석방법 39
4-1. 실험 데이터 셋 구성 39
4-2. 실험 결과 42
제5장 결론 45
참고문헌 47
ABSTRACT 49
[표 2-1] 토큰화(Tokenization) 작업 결과 예시 20
[표 3-1] 사이버 위협정보 데이터 수집 대상 23
[표 3-2] 한국어 형태소 분석기를 활용한 사이버 위협정보 텍스트 전처리 결과 28
[표 3-3] LDA 알고리즘을 활용한 사이버 위협정보 수집 데이터 대분류 결과 30
[표 3-4] 컨볼루션 신경망(Convolution Neural Network)을 이용한 대용량 텍스트... 32
[표 3-5] 최적의 토픽 수(k)를 찾기 위한 LDA 알고리즘 튜닝 결과 33
[표 3-6] 10개 대분류에 대한 사이버 위협정보 중요도 및 확산도 산출 범례 38
[표 4-1] 2019년 한국인터넷진흥원 인터넷침해대응센터(KISC) 종합상황실에서 직접... 40
[표 4-2] 10-Fold 교차검증(10-Fold Cross Validation)을 이용한 사이버 위협정보... 44
[그림 2-1] 웹크롤러 수집 DATA ETL 프로세스 15
[그림 2-2] 기계학습(Machine Learning) 기술의 범례 17
[그림 2-3] 자연어 처리(Natural Language Processing)를 이용한 기술 분야 18
[그림 2-4] LDA 알고리즘을 활용한 사이버 위협정보 토픽 분류 과정 21
[그림 3-1] C#을 이용한 사이버 위협정보 수집기(웹크롤러) 소스코드 25
[그림 3-2] Python을 이용한 사이버 위협정보 수집기(웹크롤러) 소스코드 27
[그림 3-3] LDA 알고리즘을 활용한 사이버 위협정보 중요도 및 확산도 산출 과정 29
[그림 3-4] 컨볼루션 신경망(Convolution Neural Network)을 이용한 대용량 텍스트 분류기 개요 31
[그림 3-5] 대분류 '해킹(C01)'의 LDA 학습 후 최적 토픽 수(k) 시각화 34
[그림 3-6] 대분류별 최적 토픽(k)을 구성하는 단어별 가중치 사전 35
[그림 3-7] 사이버 위협정보 신규 데이터 유입 시 중요도 및 확산도 산출 과정 36
[그림 3-8] 대분류 '스미싱(C03)' 중 사이버 위협정보의 확산도 산출 예시 37
[그림 4-1] Confusion Matrix를 활용한 사이버 위협정보 평가 데이터 셋 샘플 43