본고에서는 중국어 문두 다중논항의 어순 배열 문제를 해결하기 위해 트랜스포머 기반의 신경망 언어 모델을 적용하고 그 효율성을 검증하는 연구를 수행하였다. 본 연구에서는 문두에 나타나는 다양한 성분들과 이들 사이의 상호 작용, 그리고 어순 배열에 대한 제약이 어떻게 문법성을 형성하는지에 초점을 맞췄다. 이를 통해 중국어 문두 다중논항의 어순 배열과 관련된 문법성을 판단하는데 자연어처리 방법론이 얼마나 효과적인지 검증하고자 하였다.
본 연구에서 구축된 ‘문두 다중논항 데이터셋’은 15,298개의 중국어 문장으로 이루어져 있으며, 이 데이터셋은 문법적으로 올바른 문장과 비문법적인 문장을 이진 분류 방식으로 레이블링 하여 사용되었다. 연구팀은 이 데이터셋을 활용하여 문두 다중논항의 어순 수용성을 예측하는 모델을 개발하고, 그 정확도를 평가하였다. 연구 결과, 모델은 90%의 높은 정확도로 어순 수용성을 예측할 수 있음을 보여주었다.
또한, 본 연구는 원어민의 판단과 모델의 예측이 일치하지 않는 경우를 분석하여, 언어 수용도가 단순한 이분법으로만 구분되지 않음을 확인하였다. 이를 통해 언어 모델의 예측 능력과 원어민 판단 사이의 상관성을 보다 정교하게 파악할 수 있었다. 원어민의 판단과 AI 모델의 예측이 일치하지 않는 경우의 다양성을 고려하여, 본 연구는 153개의 문장에 대한 2차 분석을 실시하였다. 이 과정에서 74개의 문장이 유사 문장으로 재분류되었고, 결과적으로 1,450개 문장(94.8%)이 두 예측치가 일치하거나 유사한 것으로 평가되었다. 이는 AI 모델 예측의 높은 정확도를 보여주는 결과이다.