구어로 의사소통이 어려운 언어 장애인들이 사용하는 의사소통 도구에는 보완대체의사소통(Augmentative and Alternative Communication, AAC)이 있다. AAC 서비스는 모바일 서비스, 웹 서비스 등 다양한 형태로 개발되고 있으나, 현존하는 AAC 서비스는 주로 대면 의사소통에 활발히 사용되며, 전자우편, 메신저 등의 비대면 의사소통 상황에서는 활용이 어렵다. 인터넷의 보급 및 사용이 증가함에 따라 비대면 의사소통도 증가했으며, 비장애인과 장애인 사이의 의사소통 중재가 필요해졌다. 비대면 의사소통 상황에서는 주로 텍스트 대화가 오가는데, AAC 상징을 주로 사용하는 언어 장애인들은 글을 이해하는 것에 어려움이 있다.
본 논문에서는 상징이 가지는 다중 의미를 고려한 대화 문장의 AAC 상징 변환을 통해 비장애인이 입력한 텍스트를 언어 장애인에게 익숙한 AAC 상징으로 변환하는 모델을 제안한다. 대화 문장을 AAC 상징으로 변환하기 위해 한국어 대화 문장과 한국형 보완대체의사소통 체계집을 사용하였다. 한국어 대화 문장은 AI Hub의 공개 데이터인 한국어 대화 데이터에 유아용 동화책 문장을 추가로 수집하여 구성하였다. 문장은 상징 시퀀스로 대응시켜 나타낼 수 있으므로 AAC 상징 이미지의 특징을 고려하고, 문맥에 맞는 상징을 사용하여 상징 시퀀스 데이터를 구축하였다. 또, 상징이 가지는 다중 의미를 파악하여 문장에 대응되는 상징 시퀀스를 1개 이상 추가하는 작업을 수행하였다. 이에 따라, 다중 의미를 갖는 상징을 포함하는 문장은 최소 2개 이상의 상징 시퀀스를 갖는다. 문장을 AAC 상징으로 변환하는 모델은 기존 연구의 Sequence to Sequence 모델과 어텐션(Attention) 매커니즘 기반 Sequence to Sequence 모델, 그리고 케라스 임베딩과 Word2Vec 임베딩에 GloVe와 FastText 임베딩을 사용하는 모델을 추가하였다. GloVe 임베딩은 일정 범위 내의 단어만 고려하여 예측하는 Word2Vec의 단점을 보완하여 전체 말뭉치에서 단어가 등장하는 횟수를 반영한다. FastText 임베딩은 단어를 더 작은 단어로 나누어 학습을 수행하기 때문에 학습하지 않은 어휘에 대해서도 예측할 가능성이 높다. 두 임베딩을 사용한 모델을 추가 실험하여 문장의 상징 시퀀스 예측 변환 성능을 비교하였다. 성능은 BLEU 점수를 사용하여 측정하였고, 사전 훈련된 FastText 임베딩을 활용한 어텐션 매커니즘 기반 Sequence to Sequence 모델이 가장 좋은 성능을 보였다.