목차

표제지

목차

약어표 9

국문요약 10

제1장 서론 11

1-1. 연구 배경 11

1-2. 관련 연구 12

1-3. 연구 목적 및 구성 12

제2장 배경 지식 14

2-1. Term Frequency - Inverse Document Frequency(TF-IDF) 14

2-2. Multi-Layer Perceptron(MLP) 15

제3장 TF-IDF를 이용한 MLP기반의 문서 분류 방법 18

3-1. TF-IDF를 이용한 텍스트 전처리 18

3-1-1. 텍스트 전처리 18

3-1-2. 형태소 분석 23

3-1-3. MLP의 입력 길이 제한 26

3-2. MLP 네트워크 구조 30

제4장 실험 32

4-1. 실험 데이터 셋 구성 32

4-2. MLP 학습의 Hyperparameter 조절 33

4-3. 실험 결과 및 분석 34

제5장 결론 36

참고문헌 37

ABSTRACT 39

[표 3-1] 국문 뉴스 불용어 목록 18

[표 3-2] 국문 뉴스 텍스트 전처리 전·후 비교 19

[표 3-3] 국문 댓글 불용어 목록 19

[표 3-4] 국문 댓글 텍스트 전처리 전·후 비교 20

[표 3-5] 영문 뉴스 불용어 목록 20

[표 3-6] 영문 뉴스 텍스트 전처리 전·후 비교 20

[표 3-7] 스테밍을 적용 하지 않은 영문 뉴스 텍스트 전처리 비교 20

[표 3-8] 영문 댓글 불용어 목록 21

[표 3-9] 영문 댓글 텍스트 전처리 전·후 비교 21

[표 3-10] 스테밍을 적용 하지 않은 영문 댓글 텍스트 전처리 비교 22

[표 3-11] 한국어 형태소 분석기에 사용한 태그 집합 23

[표 3-12] 국문 뉴스 형태소 분석 전·후 비교 24

[표 3-13] 국문 댓글 형태소 분석 전·후 비교 25

[표 3-14] 영어 형태소 분석기에 사용한 태그 집합 25

[표 3-15] 영문 뉴스 형태소 분석 전·후 비교 25

[표 3-16] 영문 댓글 형태소 분석 전·후 비교 26

[표 3-17] Unigram 기준 문서 별 토큰 수 29

[표 3-18] 국문 뉴스 상위 10% 토큰 수(21개)로 제한한 학습에 사용한 토큰 29

[표 3-19] 국문 댓글 상위 5% 토큰 수(9개)로 제한한 학습에 사용한 토큰 29

[표 3-20] 영문 뉴스 상위 5% 토큰 수(19개)로 제한한 학습에 사용한 토큰 29

[표 3-21] 영문 댓글 상위 50% 토큰 수(261개)로 제한한 학습에 사용한 토큰 30

[표 4-1] 본 논문에서 사용한 데이터 셋 현황 33

[표 4-2] Batch-Size 조절에 따른 MLP 모델의 분류 정확도 33

[표 4-3] 모델에 따른 테스트 데이터 정확도 35

[그림 2-1] 다수의 입력을 받는 퍼셉트론 15

[그림 2-2] 은닉층이 2개 이상인 심층 신경망 17

[그림 3-1] Unigram 기준 모든 형태소로 분석한 국문 뉴스에서 동일 토큰 수 대비 문서 빈도수 현황,... 27

[그림 3-2] Unigram 기준 모든 보통명사로 분석한 국문 댓글에서 동일 토큰 수 대비 문서 빈도수 현황,... 27

[그림 3-3] Unigram 기준 단순명사, 복수명사로 분석한 영문 뉴스에서 동일 토큰 수 대비 문서 빈도수 현황,... 28

[그림 3-4] Unigram 기준 띄어쓰기 기준의 영문 댓글에서 동일 토큰 수 대비 문서 빈도수 현황,... 28

[그림 3-5] 국·영문 뉴스 문서 분류에 사용하는 MLP 네트워크 구조 31

[그림 3-6] 국·영문 댓글 문서 분류에 사용하는 MLP 네트워크 구조 31

[그림 4-1] Batch-Size 조절에 따른 문서 별 정확도 그래프 34

[그림 4-2] 모델에 따른 정확도 비교 차트 35