초록

최근 트랜스포머 모델의 레이어 개수, 시퀀스 길이, 어덴션 헤드 개수 등을 키워 GPT-4와 같이 수백억 개의 모델 파라미터 개수를 가진 거대 언어 모델들(LLM, Large Language Models)이 나타나 높은 성능을 보여주고 있다. 트랜스포머 기반 거대 언어 모델은 단일 가속기에서 학습이 불가능하기 때문에 다중 노드 환경에서 데이터 병렬화, 파이프라인 병렬화, 텐서 병렬화로 구성된 3차원 병렬적 분산 딥러닝과 최근 메모리 사용량을 줄여 거대 언어 모델로 데이터 병렬적 딥러닝이 가능한 ZeRO 최적화 기법을 사용하여 학습할 수 있다.

거대 언어 모델은 수십 ~ 수천 대의 노드를 사용하여 학습하기 때문에, 설계 공간에서 최적의 3차원 분산병렬도를 찾아 학습 시간을 최소화하는 것이 중요하며, 효율적인 설계공간 탐색을 위해 빠르고 정확한 학습 시간 예측기가 필요하다. 본 논문에서는 임의의 모델과 분산플랫폼이 주어질 때, 분석적 모델 기반으로 ZeRO 기법을 고려한 3차원 딥러닝 모델의 학습 시간을 예측하는 학습 시간 예측기를 제안한다. 32대의 A10 GPU를 사용하여 ZeRO-1, 2, 3의 학습 시간 상대오차 절대값 평균 11.9% 달성하였다.