표제지
목차
약어표 9
국문요약 10
제1장 서론 11
1-1. 연구 배경 11
1-2. 관련 연구 12
1-3. 연구 목적 및 구성 12
제2장 배경 지식 14
2-1. Term Frequency - Inverse Document Frequency(TF-IDF) 14
2-2. Multi-Layer Perceptron(MLP) 15
제3장 TF-IDF를 이용한 MLP기반의 문서 분류 방법 18
3-1. TF-IDF를 이용한 텍스트 전처리 18
3-1-1. 텍스트 전처리 18
3-1-2. 형태소 분석 23
3-1-3. MLP의 입력 길이 제한 26
3-2. MLP 네트워크 구조 30
제4장 실험 32
4-1. 실험 데이터 셋 구성 32
4-2. MLP 학습의 Hyperparameter 조절 33
4-3. 실험 결과 및 분석 34
제5장 결론 36
참고문헌 37
ABSTRACT 39
[표 3-1] 국문 뉴스 불용어 목록 18
[표 3-2] 국문 뉴스 텍스트 전처리 전·후 비교 19
[표 3-3] 국문 댓글 불용어 목록 19
[표 3-4] 국문 댓글 텍스트 전처리 전·후 비교 20
[표 3-5] 영문 뉴스 불용어 목록 20
[표 3-6] 영문 뉴스 텍스트 전처리 전·후 비교 20
[표 3-7] 스테밍을 적용 하지 않은 영문 뉴스 텍스트 전처리 비교 20
[표 3-8] 영문 댓글 불용어 목록 21
[표 3-9] 영문 댓글 텍스트 전처리 전·후 비교 21
[표 3-10] 스테밍을 적용 하지 않은 영문 댓글 텍스트 전처리 비교 22
[표 3-11] 한국어 형태소 분석기에 사용한 태그 집합 23
[표 3-12] 국문 뉴스 형태소 분석 전·후 비교 24
[표 3-13] 국문 댓글 형태소 분석 전·후 비교 25
[표 3-14] 영어 형태소 분석기에 사용한 태그 집합 25
[표 3-15] 영문 뉴스 형태소 분석 전·후 비교 25
[표 3-16] 영문 댓글 형태소 분석 전·후 비교 26
[표 3-17] Unigram 기준 문서 별 토큰 수 29
[표 3-18] 국문 뉴스 상위 10% 토큰 수(21개)로 제한한 학습에 사용한 토큰 29
[표 3-19] 국문 댓글 상위 5% 토큰 수(9개)로 제한한 학습에 사용한 토큰 29
[표 3-20] 영문 뉴스 상위 5% 토큰 수(19개)로 제한한 학습에 사용한 토큰 29
[표 3-21] 영문 댓글 상위 50% 토큰 수(261개)로 제한한 학습에 사용한 토큰 30
[표 4-1] 본 논문에서 사용한 데이터 셋 현황 33
[표 4-2] Batch-Size 조절에 따른 MLP 모델의 분류 정확도 33
[표 4-3] 모델에 따른 테스트 데이터 정확도 35
[그림 2-1] 다수의 입력을 받는 퍼셉트론 15
[그림 2-2] 은닉층이 2개 이상인 심층 신경망 17
[그림 3-1] Unigram 기준 모든 형태소로 분석한 국문 뉴스에서 동일 토큰 수 대비 문서 빈도수 현황,... 27
[그림 3-2] Unigram 기준 모든 보통명사로 분석한 국문 댓글에서 동일 토큰 수 대비 문서 빈도수 현황,... 27
[그림 3-3] Unigram 기준 단순명사, 복수명사로 분석한 영문 뉴스에서 동일 토큰 수 대비 문서 빈도수 현황,... 28
[그림 3-4] Unigram 기준 띄어쓰기 기준의 영문 댓글에서 동일 토큰 수 대비 문서 빈도수 현황,... 28
[그림 3-5] 국·영문 뉴스 문서 분류에 사용하는 MLP 네트워크 구조 31
[그림 3-6] 국·영문 댓글 문서 분류에 사용하는 MLP 네트워크 구조 31
[그림 4-1] Batch-Size 조절에 따른 문서 별 정확도 그래프 34
[그림 4-2] 모델에 따른 정확도 비교 차트 35