목차

표제지

목차

약어표 8

논문요약 9

제1장 서론 11

1-1. 연구 배경 및 목적 11

1-2. 관련 연구 12

1-3. 연구 범위 및 구성 14

제2장 이론적 배경 15

2-1. 웹 크롤러(Web crawler) 15

2-2. 기계학습(Machine Learing) 16

2-3. 자연어 처리(Natural Language Processing, NLP) 18

1) 형태소 분석 19

2) 텍스트 전처리(Text Preprocessing) 19

2-4. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 21

제3장 LDA를 이용한 사이버 위협정보 중요도 및 확산도 산출 연구 23

3-1. 데이터 수집 및 구성 23

3-2. 사이버 위협정보 전처리 28

3-3. LDA를 이용한 사이버 위협정보 중요도 및 확산도 산출 모델 29

제4장 실험 및 분석방법 39

4-1. 실험 데이터 셋 구성 39

4-2. 실험 결과 42

제5장 결론 45

참고문헌 47

ABSTRACT 49

[표 2-1] 토큰화(Tokenization) 작업 결과 예시 20

[표 3-1] 사이버 위협정보 데이터 수집 대상 23

[표 3-2] 한국어 형태소 분석기를 활용한 사이버 위협정보 텍스트 전처리 결과 28

[표 3-3] LDA 알고리즘을 활용한 사이버 위협정보 수집 데이터 대분류 결과 30

[표 3-4] 컨볼루션 신경망(Convolution Neural Network)을 이용한 대용량 텍스트... 32

[표 3-5] 최적의 토픽 수(k)를 찾기 위한 LDA 알고리즘 튜닝 결과 33

[표 3-6] 10개 대분류에 대한 사이버 위협정보 중요도 및 확산도 산출 범례 38

[표 4-1] 2019년 한국인터넷진흥원 인터넷침해대응센터(KISC) 종합상황실에서 직접... 40

[표 4-2] 10-Fold 교차검증(10-Fold Cross Validation)을 이용한 사이버 위협정보... 44

[그림 2-1] 웹크롤러 수집 DATA ETL 프로세스 15

[그림 2-2] 기계학습(Machine Learning) 기술의 범례 17

[그림 2-3] 자연어 처리(Natural Language Processing)를 이용한 기술 분야 18

[그림 2-4] LDA 알고리즘을 활용한 사이버 위협정보 토픽 분류 과정 21

[그림 3-1] C#을 이용한 사이버 위협정보 수집기(웹크롤러) 소스코드 25

[그림 3-2] Python을 이용한 사이버 위협정보 수집기(웹크롤러) 소스코드 27

[그림 3-3] LDA 알고리즘을 활용한 사이버 위협정보 중요도 및 확산도 산출 과정 29

[그림 3-4] 컨볼루션 신경망(Convolution Neural Network)을 이용한 대용량 텍스트 분류기 개요 31

[그림 3-5] 대분류 '해킹(C01)'의 LDA 학습 후 최적 토픽 수(k) 시각화 34

[그림 3-6] 대분류별 최적 토픽(k)을 구성하는 단어별 가중치 사전 35

[그림 3-7] 사이버 위협정보 신규 데이터 유입 시 중요도 및 확산도 산출 과정 36

[그림 3-8] 대분류 '스미싱(C03)' 중 사이버 위협정보의 확산도 산출 예시 37

[그림 4-1] Confusion Matrix를 활용한 사이버 위협정보 평가 데이터 셋 샘플 43