현대 정보 시대에서 정보의 폭발적인 증가와 빠른 변화로 인해 정보의 흐름과 토픽의 다양성이 이전보다 더 빠르게 진행되고 있으며, 정보 탐색과 분석의 과제도 점점 복잡해지고 있다. 이러한 환경에서 주제의 변화를 식별하고 이해하는 능력은 중요한 경쟁 요소가 되고 있다. 이와 관련하여 토픽 모델링이라는 연구 분야가 발전해왔다. 대표적인 토픽 모델링 기법인 Latent Dirichlet Allocation을 기준으로, 이 모형을 확장하여 시간의 흐름에 따른 토픽의 변화를 포착하고자 하는 시도가 이루어졌다. 토픽 키워드 발생 확률의 변화를 모형에 반영하거나 주제의 진화과정을 Hidden Model로 모형화하는 방법들이 제안되었다. 하지만, 이러한 방법들은 변화 시점을 특정하지 못 하거나 변화 시점을 탐지하는 과정에서 다른 외부 변수의 영향을 제어하기 어렵다.
시간의 흐름을 포함하는 데이터에서 급격히 변화하는 양상을 탐지하는 연구는 주로 시계열 데이터 분석의 한 분야로 연구된다. 가장 일반적인 방법으로, 통계량을 사용하거나 시계열 모델 등을 활용하여 변화가 발생한 지점을 탐지하는 방법이 있다. 하지만, 이러한 방법들은 설정된 임계값에 민감하거나 변경점에 대한 정보를 필요로 한다. 사회 과학 분야에서는 특정 시점에서 트렌드나 추세가 변화하는 것을 분석하기 위해서 변경점을 추정 모수로 포함한 Bayesian change point model을 주로 사용한다. Bayesian change point model은 변화 시점을 사전에 특정할 수 없는 경우, 변화 시점을 추정 모수에 포함시켜 모형을 통해 추정할 수 있으며, 모델에 공변량을 포함하여 외부 변수와의 관계 변화에 대한 해석력을 높일 수 있다.
본 논문에서 제안하는 프레임워크는 Latent Dirichlet Allocation를 기반으로 토픽을 도출한 후, 포아송 회귀 모델에 기반한 Bayesian change point model을 통해 각 토픽의 빈도가 변화하는 지점을 탐지한다. 대한민국의 국회 본회의 회의록 데이터를 사용하여 제안된 방법론을 시연하며, 특정 분야에서 주제의 변화가 급격하게 변화하는 시점을 찾고, 공변량을 활용하여 변화의 원인에 대해 논의한다. 또한, 변경점에 대한 정보가 있는 데이터를 활용하여 주제 빈도가 변화하는 지점에 대해 여러 변경점 탐지 모델에 대한 정량비교를 한다. 본 연구는 단순히 주제의 빈도 변화뿐만 아니라 주제 등장빈도에 영향을 미치는 공변량을 모형에 포함하여 그 관계가 급격히 변화하는 시점을 파악하고, 그 원인을 해석할 수 있다는 것에 의의가 있다.