초록

한국어는 교착어로써 실질적인 의미를 가지는 어휘형태소와 문법적 기능을 하는 문법형태소가 하나로 합쳐져 말과 말 사이의 문법적 역할 혹인 관계의 차이를 나타내게 된다. 이러한 과정에서 한국어의 어휘는 형태소의 원형이 변하게 되며 이러한 원형 변형이 일어난 문장에서 어휘형태소와 문법형태소로 복원하는 과정을 형태소 분석이라고 하며 이러한 형태소 분석으로 복원한 토큰들의 역할을 하는 문법적인 품사를 부착하는 과정을 품사 태깅이라고 한다. 현대의 자연어 처리 작업은 감성 분석, 사용자 의도파악, 문서 분류 등에서 딥 러닝을 이용한 작업이 많아진 상황이다. 이러한 작업에서 서브워드 방식의 토큰화를 많이 사용하지만 음절단위 방식의 토큰화는 토큰의 의미를 상실 할 수도 있어 추가적인 문장에서의 자질로 형태소분석을 이용한 토큰들을 추가자질로 사용하고 있다. 하지만 이러한 형태소 분석들은 원형복원으로 인해 특별히 의미를 가지지 않는 불필요한 문법형태소까지 원형복원을 일으켜 불필요한 문법형태소 때문에 토큰의 길이를 증가시킨다. 본 논문에서는 원형 복원을 거치지 않고 음절단위로 실질적인 의미를 가지는 어휘 형태소 부분인 Head 토큰과 문법적인 의미를 가지는 문법 형태소 부분 Tail 두개의 토큰만을 이용하여 문장내에서의 자질을 추출하고 문법형태소를 이루는 태그들을 하나의 복합문법형태소 태그로 합쳐서 Head-Tail 태그셋을 구성한 후, 딥 러닝을 이용한 Head-Tail 토크나이저와 품사태거를 소개한다.

Head-Tail 토크나이저 문제를 태깅 문제로 정의하여 BiLSTM을 이용하여 토큰화 하였으며 토큰화 정확도를 99.47%를 기록하였으며, Head-Tail 태깅 작업은 BERT와 Subword단위 Bigram 자질을 이용하여 태그를 간소화하지 않고 세부태그로 이루어진 복합태그 어절 정확도 98.38% 토큰 정확도 98.88%을 달성하였다. 품사 태그를 간소화 하여 어절 정확도 99.43% 토큰 정확도 99.58%를 기록 하였으며, 분류 작업에서 여러 형태소 분석기의 자질과 비교하여 Head-Taild의 형태소 분석으로써의 실용성을 실험하였다.