초록

하이퍼스케일 데이터 센터는 컴퓨팅과 AI 성능을 극대화하기 위하여 기존의 데이터센터 네트워크 인프라와는 다른 형태의 데이터 센터 네트워크 인프라가 요구된다. 하이퍼스케일 데이터 센터는 AI 연산을 위한 다수의 GPU 서버 클러스터 간의 통신을 보장하기 위해 100Gbps 이상의 높은 대역폭을 갖춘 저지연과 무손실의 전용 네트워크 패브릭을 제공하는 것이 중요하다. 그러나 단순히 데이터 센터 내부 패브릭의 대역폭을 높이는 것만으로는 저지연 혹은 무손실 네트워크를 보장할 수 없으므로 GPU 서버 클러스터 간의 연결성이 보장되지 않으므로 최근에는 이러한 문제를 해결하기 위하여 RoCE (RDMA over Converged Ethernet) 네트워크 프로토콜을 사용하여 저지연과 무손실의 GPU 연산 데이터를 전송하는 방법이 관심을 받게 되었다.

본 논문에서는 100Gbps 를 기반으로 한 저지연 무손실 스토리지 네트워크 테스트베드를 구축한 뒤 RoCEv2 프로토콜에서의 스토리지 성능을 확인한다. RoCEv2 프로토콜을 통한 스토리지 성능 평가는 주요 네트워크 장비 제조사 별로 시험한다. 시험 결과는 네트워크 장비 제조사 별 유의미한 스토리지 성능 차이를 확인하였으며 저지연 무손실 네트워크의 구현 및 RoCEv2 가 하이퍼스케일 데이터 센터에 사용의 적합함을 확인하였다.

RoCEv2 를 이용한 스토리지 환경에서의 네트워크 시험 및 검증을 통하여 해당 프로토콜이 고성능 GPU 처리에 적합하다는 것을 확인하였으며 레퍼런스의 확보 뿐만 아니라 실제 서비스 네트워크에도 적용 될 수 있음을 확인하였다.