목차

표제지

목차

요약 8

I. 서론 9

1.1. 연구 배경 9

1.2. 텍스트 분류 10

1.2.1. 머신러닝을 사용한 텍스트 분류 12

1.2.2. 딥러닝을 사용한 텍스트 분류 15

1.2.3. 뉴스 기사 분류를 위한 워드 임베딩 23

II. 선행 연구 26

III. 방법론 28

3.1. 메소드 구조 28

3.2. 뉴스 기사 데이터 세트 29

3.3. EDA 데이터 분석 30

3.4. 데이터 전처리 32

3.5. 테스트 세트와 학습 세트 33

3.6. 머신러닝 모델 하이퍼파라미터 33

3.7. 딥러닝 모델 하이퍼파라미터 정의 34

3.8. 모델 성능 평가 38

IV. 실험 결과 41

4.1. 머신러닝 알고리즘을 사용한 결과 41

4.2. 딥러닝 알고리즘을 사용한 분유 결과 49

V. 결론 53

참고 문헌 54

Abstract 58

〈표-1〉 Some statistic about Eduge news dataset 31

〈표-2〉 각 클래스별 데이터 개수 31

〈표-3〉 Mongolian stop word 32

〈표-4〉 학습과 테스트 세트 개수 33

〈표-5〉 MLP 모델 36

〈표-6〉 CNN 모델 36

〈표-7〉 LSTM 모델 37

〈표-8〉 Confusion matrix 38

〈표-9〉 Accuracy of each classifier 41

〈표-10〉 Precision with Count Vectorizer 42

〈표-11〉 Recall with Count Vectorizer 43

〈표-12〉 F1 score Count Vectorizer 44

〈표-13〉 Precision with TF-IDF 45

〈표-14〉 Recall with TF-IDF 45

〈표-15〉 F1 score TF-IDF 46

〈표-16〉 딥러닝 모델 결과 49

〈그림-1〉 지도 학습을 통한 텍스트 분류 11

〈그림-2〉 SVM Network 14

〈그림-3〉 Naive Bayesian Network 15

〈그림-4〉 Multi Layer Perceptron 18

〈그림-5〉 CNN Architecture 20

〈그림-6〉 LSTM architecture 22

〈그림-7〉 word2vec architechture 23

〈그림-8〉 fastText word embedding architecture 25

〈그림-9〉 Combination of classifiers and word embedding methods 28

〈그림-10〉 연구 구조 29

〈그림-11〉 example of Eduge data set 30

〈그림-12〉 뉴스 길이 히스토그램 31

〈그림-13〉 TF-IDF+NB 분류기의 혼동 행렬 47

〈그림-14〉 TF-IDF+SVM 분류기의 혼동 행렬 48

〈그림-15〉 MLP 모델의 loss graph 50

〈그림-16〉 fasttext+MLP 모델의 loss graph 50

〈그림-17〉 fasttext+CNN loss graph 51

〈그림-18〉 fasttext+LSTM loss graph 51