많은 기업들이 웹 문서(리뷰, 댓글 등)를 감성 분석에 활용하여 기업의 마케팅과 소비자의 편의성 등에서 좋은 효과를 얻으려 한다. 기존의 감성 분석은 하나의 문장 혹은 문서를 단일 감성만으로 분류한다. 하지만 한 문장안에 두 가지 이상의 감성이 존재할 수 있다. 따라서 본 논문에서는 이를 해결하기 위해 어절 단위로 감성 표현 영역을 구분하는 작업을 제안한다. 한 문장에는 여러 감성 표현 영역이 존재할 수 있고, 하나의 감성 표현 영역은 하나의 감성만을 표현한다.
선행 연구를 통해 감성 분석에서 주제를 자질로 사용하는 것이 상당히 효과적이라는 것은 알 수 있다. 주제를 분류하는 것은 하나의 독립된 작업이며, 본 논문에서는 주제 분류를 위해 주제별 사전을 사용하였다. 주제별 사전은 학습단계 초기에 구축되며, 학습 모듈이 학습 말뭉치에서 주제별 단어를 수집하고 어휘의미망을 이용해 주제별 단어를 확장한 것이다. 본 논문에서는 주제별 사전으로 예측한 문장의 주제를 모델의 자질로 사용한다.
최근 자연어 처리 분야에서는 BERT(Bidirectional Encoder Representations from Transformers)와 같은 트랜스포머로 구현된 딥러닝 모델들이 좋은 성능을 보인다. BERT는 파인 튜닝을 통해서 여러 작업을 수행할 수 있으며, 감성 분석 연구에서도 BERT을 활용한 연구가 활발하게 진행되고 있으며 좋은 성능을 보이고 있다. 본 논문의 제안 모델도 UTagger로 형태소 분석한 문장을 입력값으로 사용하는 BERT인 UBERT을 사용한다. 제안 모델의 구조는 UBERT에 주제 분류와 감성 표현 영역을 예측하는 레이어를 추가한 것이다. 모델 내 자질 추가는 문장의 임베딩에 문장의 주제 자질 임베딩을 잇는 방식을 사용한다.
감성 표현 영역 추출 작업의 학습 및 테스트 말뭉치는 국립 국어원의 모두의 말뭉치 감성 분석을 사용하였다. 평가 방식은 어절 단위 F1-Score를 사용한다. baseline 모델의 F1-Score는 57.22%이다. 상술한 문장 주제를 자질로 사용한 제안 모델은 F1-Score이 58.19%까지 나왔으며, baseline 모델 보다 0.97% 포인트 향상했다. 이러한 실험을 통해 어휘의미망으로 확장된 주제별 사전을 사용하면 학습 말뭉치 내 없는 단어 문제를 해결할 수 있으며, 이를 통해 예측한 문장 주제는 감성 표현 영역 추출의 성능 향상에 도움이 된다는 것을 알 수 있다.