표제지
국문 초록
목차
제1장 서론 10
제2장 기존 연구 13
제1절 3차원 병렬적 딥러닝 13
제2절 ZeRO 기법 14
제3절 시간 예측 모델 19
제3장 본론 20
제1절 분산 딥러닝 학습 시간 예측기 20
1. 탐색 공간 20
2. 예측 방법 20
3. 예측식 21
제2절 순전파, 역전파 연산 시간 예측 모델 25
제3절 집합 통신 시간 예측 모델 26
제4절 옵티마이저 연산 시간 예측 모델 30
제4장 실험 31
제1절 전체 학습 시간 예측 정확도 32
제2절 집합 통신 시간 예측 정확도 34
제3절 옵티마이저 연산 시간 예측 정확도 35
제4절 ZeRO-2,3의 학습요소별 예측정확도 36
제5장 결론 38
참고 문헌 39
영문 초록 42
표 1. (GPT-2 1.5B 모델) ZeRO를 고려한 3차원 병렬적 분산 딥러닝의 설계 선택지에 따른 학습 시간 11
표 2. ZeRO 단계에 따른 분할 대상, 결합가능한 분산 딥러닝 조합 15
표 3. A10 GPU 32개를 사용하는 환경에서 DP degree=32일 때, ZeRO 단계에 따른 학습 시간과 메모리 최고 사용량 비교 (GPT-2 1.5B) 15
표 4. 탐색 공간 20
표 5. 학습 시간 예측 32
표 6. 상대오차가 높은 조합에 대한 순전파, 역전파 시간 33
표 7. ZeRO-2,3의 학습 시간 예측 33
표 8. 통신 시간 예측 34
표 9. 옵티마이저 연산 시간 예측 35
표 10. ZeRO-2,3의 학습요소별 예측 37
그림 1. 거대 언어 모델의 모델 크기 변화 10
그림 2. ZeRO 단계에 따른 모델 파라미터, 그래디언트, 옵티마이저 분할 14
그림 3. ZeRO-1의 도식화 16
그림 4. ZeRO-2의 도식화 17
그림 5. ZeRO-3의 도식화 18
그림 6. 동기 통신(좌)과 비동기 통신(우) 21
그림 7. ZeRO-1 동기식 동작 도식화 22
그림 8. ZeRO-2 동기식, 비동기식 동작 도식화 23
그림 9. ZeRO-2+TP 동기식 동작 도식화 24
그림 10. ZeRO-3 동기식, 비동기식 동작 도식화 25
그림 11. Tree 토폴로지에서 데이터 통신 방식 27
그림 12. 대역폭 공유 예시. (TP, DP, PP) = (4, 4, 2) 28