초록

실질적인 텍스트 데이터베이스를 관리하는 수요가 빠르게 증가하고 있어 텍스트 분류는 데이터 마이닝의 인기 있는 동적 연구 분야이다. 다양한 주제의 대규모 온라인 뉴스가 인터넷에 게시되고 있다. 이 데이터를 처리하는 작업 중 하나는 뉴스를 빠르고 쉽게 검색할 수 있는 적절한 방법과 도구를 사용자에게 제공하는 것이다. 이 문제를 해결하기 위한 접근 방식은 뉴스를 각 클래스로 합리적으로 배포하는 것이다. 이것은 전자 문서 섹션의 자동 분류의 중요성을 증가시킨다. 많이 사용되는 언어(high resource language)에 대해서는 이미 수많은 연구가 진행되어 왔지만 몽골어 같은 많이 사용되지 않은 언어(low resource language)에 대해서는 아직까지 연구가 부족한 상태이다, 따라서 본 논문에서는 몽골어 뉴스 기사 데이터 세트를 활용하여 몽골어 텍스트 자동 분류를 위해 머신러닝 기반의 Support Vector Machine(SVM), Logistic Regression(LR), Naive Bayes(NB), Random Forest(RF), 딥러닝 기반의 Convolution Neural Network, LSTM 등을 워드 임베딩 방식 TF-IDF, CountVectorizer, word2Vec과 fastText을 적용해 실험 결과를 비교했다. 실험 결과 TF-IDF+SVM 조합이 91%로 가장 높은 정확도와 정밀도를 보였고 TF-IDF+NB 조합이 82%로 가장 낮은 결과를 나타냈다. 딥러닝을 사용한 결과 MLP, CNN과 LSTM이 각각 86%, 88%과 84%의 정확도를 보였다.