본 논문은 대규모 자동 음성 인식(ASR) 모델에 적용된 효율적인 파라미터 미세 조정(PEFT) 방법론에 대한 심도 있는 탐구를 진행하며, 특히 OpenAI 의 Whisper 모델과 Meta AI의 다국어 대화(MMS) 모델을 중심으로 연구를 진행한다. SPGIspeech 코퍼스를 활용한 본 연구는, 특히 그래픽 처리 장치(GPU)와 같은 연산 자원이 제한된 개인 및 소규모 연구 집단을 위해 최신 ASR 기술을 보편화하는 것을 목표로 한다.
연구는 심층 신경망(DNN) 기반 ASR 모델의 진화 과정을 순환 신경망(RNN)에서 Transformer 기반 모델로의 전환을 중점으로 검토한다. 저차원 최적화 (LoRA)와 언어 특화 어댑터 및 헤드 조정(LSAH)과 같은 PEFT 방법론을 심층적으로 다루며, 이들의 효율성을 연산 장치 및 훈련 시간으로 입증한다. 주목할 만한 발견은 LoRA 미세 조정이 GPU 메모리 할당을 약 40% 감소시키는 능력으로, 특히 Whisper 'small.en' 모델 훈련 시 16 기가바이트 미만의 GPU 메모리만을 필요로 하여 Google Colab과 같이 접근성이 용이한 플랫폼에서의 훈련을 가능해진다는 발견을 하였다.
성능 측면에서, LoRA 미세 조정은 가장 열악한 성능을 보인 Whisper 'small.en' 모델의 정확도까지 최적화 시킴으로써, PEFT 방법론이 낮은 성능 기반의 ASR 모델을 최적화할 수 있음을 입증한다. 또한, Whisper 'large-v2' 모델에 대한 증폭 인자 (amplification factor) 분석은 증가된 데이터 양이 미세 조정의 영향을 크게 증폭시키며, 추가 데이터가 모델이 사전 훈련된 구조를 더 효과적으로 활용하며 복잡한 데이터에 더 잘 적응할 수 있음을 시사한다.
MMS 모델의 경우, LSAH 미세 조정 방법론이 전체 파라미터를 미세 조정하는 방법보다 단어 오차율 (WER)에서 더 우수한 성능을 보이면서도 효율성을 유지한다. MMS 모델은 높은 상대적 문자 오차 감소율 차이(DRCR) 값으로 Whisper 모델보다 데이터 증가분으로 인한 우월한 성능 향상을 보였다. MMS 모델의 최종 레이어인 언어모델 헤드(LM Head) 레이어에 대한 특이값 분해(SVD)는 다양한 미세 조정 방법이 모델이 데이터 변동성을 포착하는 능력에 관한 통찰력을 제공한다. LM 헤드의 특이값 분석은 모델 내의 유의미한 정보를 시사하고, 훈련 대상 파라미터 수와 훈련의 효율성 사이의 최적 균형을 달성하기 위한 미세 조정을 위한 통찰을 제공한다. 모델의 특이값 패턴이 이상적으로 발견된 LSAH 방법은 균형적인 미세 조정 방법으로, 적은 수의 파라미터로도 최적의 성능을 달성한다.
논문은 한계점과 향후 연구 방향에 대한 논의로 결론짓는다. 다양한 언어 및 도메인에 걸친 폭넓은 실험, LoRA 랭크 및 LoRA 대상 모듈에 대한 추가적인 실험이 필요함을 강조하는 동시에, 양자화된 저차원 최적화 (QLoRA) 및 프리픽스 튜닝(Prefix-Tuning)과 같은 최신 PEFT 기술에 대한 연구의 필요성도 강조한다. 나아가 Whisper와 MMS 모델 간 구조적 차이를 상쇄하기 위한 다각적인 성능 비교 연구의 필요성을 제안한다. 본 연구는 ASR 기술의 미래 발전을 위한 길을 열어주며, 다양한 연구 및 응용 분야에서 더 접근하기 쉽고 적용 가능하게 만드는 것을 목표로 한다.