ACROFAN

전세계 톱 500 슈퍼컴퓨터 70%, 엔비디아 기술로 구동

기사입력 : 2021년 11월 19일 13시 35분
ACROFAN=Newswire | newswire@acrofan.com SNS
엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 슈퍼컴퓨팅 컨퍼런스 2021(SC21)에서 발표된 전세계 슈퍼컴퓨터 톱 500(Top500) 리스트 중 70%에 달하는 355개 시스템이 엔비디아 기술로 가속되고 있다고 밝혔다. 또한, 새로 구축된 시스템의 90% 이상이 엔비디아의 기술력을 채택하고 있다.

또한 에너지 효율이 가장 높은 시스템을 선별하는 그린500(Green500)의 상위 25개 시스템 중 23개가 엔비디아 기술로 구동되고 있다. 평균적으로 엔비디아 GPU 기반 슈퍼컴퓨터는 GPU를 사용하지 않는 그린500 시스템 대비 3.5배 높은 에너지 효율을 제공한다.

마이크로소프트의 GPU 가속 애저(Azure) 슈퍼컴퓨터는 10위에 오르면서 클라우드 기반 시스템으로는 최초로 10위권에 진입했다. AI는 과학 연구를 위한 컴퓨팅을 혁신하고 있다. 최근 고성능컴퓨팅(HPC)과 머신러닝을 활용한 논문의 수가 급증해 2018년에 약 600편 정도 제출되었던 관련 논문이 2020년에는 5,000편으로 증가했다.

HPL-AI는 혼합정밀도연산(딥러닝과 다양한 과학 연구, 상업적 활용의 기초)을 사용하면서도 배정밀도 연산의 정확도(전통적 HPC 벤치마크의 표준 측정자 역할)를 온전히 제공하는 HPC와 AI 융합형 워크로드의 새로운 벤치마크다.

MLPerf HPC는 슈퍼컴퓨터상의 시뮬레이션을 AI로 가속, 개선하는 컴퓨팅 스타일을 평가한다. HPC 센터의 주요 워크로드인 천체물리학(Cosmoflow)과 날씨(Deepcam), 분자동역학(Opencatalyst)을 바탕으로 성능을 측정한다.

엔비디아는 GPU 가속 프로세싱, 스마트 네트워킹, GPU 최적화 애플리케이션, AI와 HPC 융합 지원 라이브러리들로 풀 스택을 커버한다. 이 같은 접근법을 통해 워크로드를 가속하고 과학적 혁신을 이룩할 수 있었다.

- 가속 컴퓨팅

다양한 활용 사례에서 GPU의 병렬 처리 기능과 2,500개 이상의 GPU 최적화 애플리케이션이 결합하면 HPC 작업에 소요되는 시간을 몇 주에서 몇 시간으로 단축할 수 있다. 엔비디아는 쿠다-X(CUDA-X) 라이브러리와 GPU 가속 애플리케이션을 지속적으로 최적화하고 있기 때문에 동일한 GPU 아키텍처에서 예측이 불가하지만 강력한 성능 강화를 경험하는 것은 드문 일이 아니다.

그 결과, 가장 널리 사용되는 과학 애플리케이션들인 일명 “골든 스위트(golden suite)”의 성능이 지난 6년 동안 16배 이상 개선되었고, 앞으로도 더 많은 발전이 기대되고 있다.

또한 엔비디아는 강력한 성능의 신속한 활용을 지원하고자 AI와 HPC 소프트웨어의 최신 버전을 NGC 카탈로그의 컨테이너로 제공한다. 이제 사용자는 자신의 슈퍼컴퓨터나 데이터센터, 클라우드에 애플리케이션을 가져와 실행하기만 하면 된다.

- HPC와 AI의 융합

HPC와 AI를 융합하면 시뮬레이션을 가속하면서도 기존 시뮬레이션 방식의 정확도를 그대로 달성할 수 있다. 이는 AI로 작업을 가속하는 연구자의 수가 증가하는 이유이다. 슈퍼컴퓨팅 부문에서 최고의 권위를 자랑하는 고든 벨(Gordon Bell) 상의 최종 후보 중 4인도 마찬가지다. 이와 더불어 여러 기관들도 HPC와 AI를 결합하는 새로운 모델을 지원할 엑사스케일(exascale) AI 컴퓨터의 구축에 앞다투어 뛰어들고 있다.

또한 HPL-AI와 MLPerf HPC처럼 비교적 새로운 벤치마크들은 HPC와 AI 워크로드가 지속적으로 수렴되는 현실을 반영해 HPC와 AI 융합 모델의 성능에 특히 주안점을 두고 있다. 이 추세를 더욱 가속하기 위해 엔비디아는 다양한 범주의 고급 라이브러리와 HPC용 소프트웨어 개발 키트를 새로 공개했다.

현대 데이터 사이언스의 주요 데이터 구조인 그래프(Graphs)가 이제 새로운 파이썬(Python) 패키지인 Deep Graph Library(DGL)을 통해 심층 신경망 프레임워크에 투영(projection)된다. 엔비디아 모듈러스(Modulus)에서는 물리법칙을 익히고 따를 수 있는 물리학 기반 머신러닝 모델을 구축, 훈련할 수 있다. 엔비디아는 다음과 같은 신규 라이브러리도 소개했다.

ReOpt – 10조 달러 규모 물류산업의 운영 효율 개선
cuQuantum –양자 컴퓨팅 연구 가속
cuNumeric – 파이썬 커뮤니티의 과학자와 데이터 사이언티스트, 머신러닝과 AI 연구자를 위한 넘파이(NumPy) 가속

이 모두를 하나로 연결하는 것이 바로 엔비디아 옴니버스(Omniverse)이다. 옴니버스는 3D 워크플로우를 위한 가상 세계 시뮬레이션과 협업 플랫폼이다. 옴니버스는 창고와 공장, 물리적/생물학적 시스템, 5G 엣지, 로봇, 자율주행 자동차, 아바타 등의 디지털 트윈(digital twin) 시뮬레이션에 활용됩니다. 엔비디아는 옴니버스 기반의 슈퍼컴퓨터인 E-2(Earth-2)의 구축 계획을 발표한 바 있다. E-2는 지구의 디지털 트윈을 만들어 기후 변화를 예측하는 임무에 전념할 예정이다.

- 클라우드 네이티브 슈퍼컴퓨팅

데이터 애널리틱스와 AI, 시뮬레이션과 가상화 전반에서 슈퍼컴퓨터가 담당하는 워크로드가 증가하는 추세다. 이에 따라 크고 복잡한 시스템의 운영에 수반되는 통신 작업을 지원해야 할 CPU의 부담 또한 늘고 있다.

데이터처리장치(DPU)는 이러한 프로세스의 일부를 오프로드하여 CPU의 스트레스를 줄인다. 완전 통합형의 데이터센터온칩(data-center-on-a-chip) 플랫폼인 엔비디아 블루필드(BlueField) DPU는 호스트 프로세서 대신 데이터센터의 인프라 업무를 오프로드, 관리해 슈퍼컴퓨터를 보다 효율적으로 조정하고 보안을 강화한다.

블루필드 DPU 아키텍처와 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand) 플랫폼이 결합하면 최적의 베어메탈(bare-metal) 성능을 제공하는 한편, 네이티브 환경에서 다중 노드의 테넌트(tenant) 격리를 지원한다.

이 새로운 시스템들은 제로 트러스트(zero-trust) 방식의 접근법 덕분에 더욱 안전하다. 블루필드 DPU가 인프라에서 애플리케이션들을 격리하고, 최신 블루필드 소프트웨어 플랫폼인 엔비디아 DOCA 1.2가 차세대 분산 방화벽과 회선당 데이터 암호화의 폭넓은 사용을 지원한다. 그리고 엔비디아 모피우스(Morpheus)는 데이터센터 내에 침입자가 들어와 있다는 가정 하에 딥 러닝 기반 데이터 사이언스를 활용해 침입자의 활동을 실시간으로 감지한다.

엔비디아 퀀텀-2(Quantum-2)는 400Gbps 인피니밴드 플랫폼으로, 퀀텀-2 스위치와 커넥트X-7(ConnectX-7) NIC, 블루필드-3 DPU, 그리고 새로운 네트워킹 아키텍처를 위한 새로운 소프트웨어로 구성된다. 엔비디아 퀀텀-2는 베어메탈 방식 고성능 컴퓨팅의 장점과 안전한 멀티테넌시(multi-tenancy)를 제공해 차세대 슈퍼컴퓨터들이 클라우드 네이티브를 기반으로 더욱 안전하고 효과적으로 활용될 수 있도록 지원한다.


Copyright ⓒ Acrofan All Right Reserved.

디지털 마케팅의 새로운 장을 만들다! 신개념 퍼포먼스마케팅 플랫폼 '텐핑'

[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 권용만
Copyright © ACROFAN All Right Reserved