ACROFAN

그래프코어, 최신 MLPerf 벤치마크서 기록적인 성능 달성

기사입력 : 2021년 12월 09일 12시 55분
ACROFAN=류재용 | jaeyong.ryu@acrofan.com SNS
인공지능(AI) 반도체 기업 그래프코어가 최신 MLPerf 1.1 벤치마크 테스트에서 자사의 IPU(Intelligence Processing Unit) 시스템이 기록적인 성능을 달성했다고 밝혔다. 이로써, 그 규모가 점차 확대되면서 효율성과 성능, 소프트웨어 성숙도는 물론 사용 편의성이 꾸준히 향상되고 있는 그래프코어 IPU 시스템의 경쟁력을 다시한번 입증했다.

▲ 9일 진행된 그래프코어 기자간담회에 참석한 페브리스 모이잔 글로벌 세일즈 부사장

■ 그래프코어 IPU 시스템, 엔비디아 DGX A100 성능 능가

그래프코어 IPU 시스템은 지속적인 소프트웨어 최적화를 통해 향상된 성능을 제공하고 있다. 특히, 이번 MLPerf 벤치마크에서 그래프코어 IPU-POD16은 컴퓨터 비전 모델 ResNet-50 훈련에 있어 엔비디아의 DGX A100을 능가하는 성능을 보였다. ResNet-50을 훈련하는데 엔비디아 DGX A100은 29.1분이 걸린데 반해, 그래프코어의 IPU-POD16은 28.3분을 기록했다. 이는 소프트웨어만으로 첫 MLPerf 테스트 결과 대비 24%의 성능 향상을 이룬 것으로, 통상적으로 ResNet-50 모델 학습에 GPU가 사용되고 있다는 점을 감안하면 이번 결과는 더욱 주목할 만하다.

▲ 그래프코어 IPU-POD16이 ResNet-50 훈련에서 엔비디아의 DGX A100을 능가하는 성능을 기록했다.

■ 새로운 IPU-POD256, ResNet-50 모델 훈련 시간 단 3분대 기록

그래프코어는 또한 최근 새롭게 출시된 IPU-POD128 및 IPU-POD256에 대한 벤치마크 결과도 공개했다. 그래프코어는 MLPerf '상용화 가능(Commercially Available)' 부문에 해당 시스템에 대한 테스트 결과를 제출하며 지속적인 시스템 규모 확대 및 성능 향상을 위한 노력을 증명했다. 그래프코어 IPU 시스템 상 역대 최고의 성능을 자랑하는 IPU-POD128과 IPU-POD256의 경우 ResNet-50 모델 훈련에 걸린 시간은 각 5.67분, 3.79분에 불과했다.

▲ 그래프코어의 새로운 플래그십 제품 IPU-POD128과 IPU-POD256의 ResNet-50 모델 훈련 시간은 각 5.67분, 3.79분에 불과했다.

자연어 처리(NLP) 모델 BERT의 경우, 그래프코어는 IPU-POD16, IPU-POD64 및 IPU-POD128 훈련 데이터를 오픈(Open) 및 클로즈드(Closed) 부문 모두에 제출했다. 특히 오픈 부문에서 최신 IPU-POD128의 훈련 시간은 5.78분으로 월등한 성능을 보였다. 전반적으로 BERT 모델 훈련 성능은 지난 MLPerf 벤치마크 대비 IPU-POD16은 5%, IPU-POD64는 12%가 각각 향상됐다.

▲ 전반적으로 BERT 모델 훈련 성능은 지난 MLPerf 벤치마크 대비 IPU-POD16은d%, IPU-POD64는 12%가 각각 향상됐다.

이 밖에도, 그래프코어의 플래그십 제품 IPU-POD256은 EfficientNet B4 모델 훈련에 대해 단 1.8시간을 기록하며 실질적인 성능적 이점의 가능성을 보여주기도 했다.

■ 효율성을 고려한 획기적인 설계

MLPerf 테스트의 원 데이터를 살펴보면 각 벤더의 시스템과 연결된 호스트 프로세서의 수가 굉장히 많다는 점이 눈에 띈다. 일부 참가 기업의 경우, 두 개의 AI 프로세서 마다 하나의 CPU를 지정하기도 한다. 이에 반해, 그래프코어는 가장 낮은 호스트 프로세서 대 IPU 비율을 지속적으로 유지하고 있다. IPU는 데이터 이동에만 호스트 서버를 사용하며 런타임 시점에 호스트 서버가 코드를 발송할 필요가 없다. 따라서 IPU 시스템에 필요한 호스트 서버 수가 적은만큼, 더욱 유연하고 효율적인 확장이 가능해진다.

BERT-Large와 같은 자연어 처리 모델의 경우, IPU-POD64는 하나의 듀얼 CPU 호스트 서버만 필요로 한다. ResNet-50은 이미지 사전 처리를 위해 더 많은 호스트 프로세서 지원이 필요하므로 IPU-POD64당 4개의 듀얼 코어 서버가 지정된다. 이때 시스템 대비 호스트 프로세서 비율은 1:8 로, MLPerf에 참가한 다른 모든 시스템보다 낮은 비율을 자랑한다. 이번 MLPerf 1.1 벤치마크 테스트에서 그래프코어는 BERT 훈련에서 단 10.6분으로 가장 빠른 단일 서버 훈련 시간을 기록했다는 점도 눈 여겨 볼만 하다.

▲ 그래프코어는 BERT 훈련에서 단 10.6분으로 가장 빠른 단일 서버 훈련 시간을 기록했다.

■ 끊임없는 혁신

그래프코어는 지속적인 포플러(Poplar) 소프트웨어개발키트(SDK) 최적화와 신규 IPU-POD 제품 출시를 거듭하며 AI 훈련 성능 향상에 노력을 기울여왔다. 특히, 지난 6월 첫 MLPerf 테스트에 이어 이번에도 크게 향상된 결과를 보여주며, 지속적인 혁신을 위한 그래프코어의 끊임없는 헌신을 입증해 냈다.

호스트 서버와 AI 컴퓨팅을 분리하는 등 시스템 설계 단계에서부터 업계 내 다른 기업들과는 근본적으로 다른 ‘혁신적 접근’을 취해온 그래프코어는 최소 3개월마다 성능 향상을 위한 소프트웨어 업데이트를 진행하고 있으며, IPU를 위한 새로운 모델 및 워크로드를 구현하고 최적화하는 작업을 수행하고 있다.

한편, 그래프코어는 12월 9일 온라인 기자간담회를 갖고 최신 IPU-POD 시스템과 MLPerf 벤치마크 테스트 결과를 발표하고, 국내 AI 혁신 가속화를 위한 그래프코어의 계획과 국내 사업 성과 및 방향성 등에 대해 소개했다.

Copyright ⓒ Acrofan All Right Reserved.

디지털 마케팅의 새로운 장을 만들다! 신개념 퍼포먼스마케팅 플랫폼 '텐핑'

[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 권용만
Copyright © ACROFAN All Right Reserved