본 연구는 TTS와 성우의 감정 음성을 비교한 후, TTS 음성합성에 필요한 SSML의 각 요인을 감정 요소에 맞게 분류하고, 감정표현에 필요한 요인이 무엇인지 알아보았다. 인공 지능 허브(aihub)의 성우 데이터와 SSML을 적용하여 제작한 TTS 음성을 이용하여 분석한 결과, 서사를 적용한 감정분류과제에서는 놀람(47.2%), 혐오(44.4%), 행복(44.4%)의 감정이 정확도 면에서 높게 나타났다. 다차원척도법으로 각 감정의 위치를 분석한 결과 x축은 음높이(pitch), 주파수변동률(Jitter)이 주요인이었고, y축으로는 음크기변화인 진폭변동률(shimmer)과 말의 속도, 배음 간 잡음비(NHR)가 주요인이었다. 비서사적 감정 음성에 대한 청자들의 심리적 평가결과 Perfect Confirm, Error-Confirm, Correct Confuse, Error Confuse그룹으로 분류하였으며, 그 결과 완벽한 분류를 나타내는 Perfect Confirm이 높은 감정 오디오 데이터는 슬픔(63.89%), 중립(52.78%) 순으로 나타났다. SSML를 이용한 감정제어에서 중요한 요소는 포먼트주파수, 음높이(pitch), 음의길이(Duration), 주파수변동률(Jitter), 진폭변동률(shimmer), 배음 간 잡음비(NHR)이었다. 따라서, 청자들의 지각 요소와 음향학적 특징을 모두 고려한 TTS에 대한 SSML의 설계는 인공지능 TTS제작시 비용을 줄여주는 음성 활용 시스템 개발에 도움을 줄 것으로 기대한다.
This study compared the emotional speech of TTS and voice actors, classified each factor of SSML required for TTS speech synthesis according to the emotional factor, and investigated what factors are required for emotional expression. Using voice actor data from the Artificial Intelligence Hub (aihub) and TTS voices produced by applying SSML, the results showed that the emotions of surprise (47.2%), disgust (44.4%), and happiness (44.4%) were highly accurate in the narrative emotion classification task. When analyzing the location of each emotion using a multidimensional scale, pitch and frequency fluctuation (jitter) were the main factors on the x-axis, and amplitude fluctuation (shimmer), speech rate, and noise-to-noise ratio (NHR) were the main factors on the y-axis. The listeners' psychological evaluation of non-narrative emotional speech was classified into Perfect Confirm, Error-Confirm, Correct Confuse, and Error Confuse groups, and as a result, the emotional audio data with high Perfect Confirm, which indicates perfect classification, were sad (63.89%) and neutral (52.78%). The important factors for emotion control using SSML were formant frequency, pitch, duration, jitter, shimmer, and inter-tone noise ratio (NHR). Therefore, the design of SSML for TTS that considers both perceptual factors and acoustic features of listeners is expected to help develop a speech utilization system that reduces the cost of AI TTS production.