본 연구는 LDA 토픽모델링 분석에 적합한 문서의 수를 알아보고자 하였다. 이를 위해 고교학점제 도입 발표 이후 2022년까지 고교학점제를 주제로 보도된 뉴스 기사 7,115건을 대상으로 샘플데이터를 생성하여 R 프로그램을 활용하여 토픽 분석 후 네 가지 방법을 통해 LDA 토픽모델링에 적합한 문서 수를 분석하고 결과를 종합하였다. 첫 번째, 문서 수에 따라 6가지 유형별 20개씩 총 120개의 샘플데이터를 생성하여 전체 문서를 대상으로 분석한 토픽과 일치도를 분석하였다. 두 번째, ROC곡선의 AUC를 통해 문서 수에 따른 전체 문서 토픽과 동일 토픽 분석력을 알아보았다. 세 번째, 문서 수별로 전체 문서 토픽과 동일한 토픽이 분석된 횟수를 비교하였다. 네 번째, 전체 문서 토픽별 문서의 할당률 및 가중치를 반영한 샘플데이터를 문서 수별 6가지 유형으로 생성하여 토픽 일치도를 비교하였다. 분석 결과 LDA 토픽모델링 분석을 위해서는 연구 대상인 문서 수가 최소 약 700건은 확보되어야 하고, 약 2,000건 이상의 문서가 확보될 경우 충분한 것으로 나타났다.