ACROFAN

인텔 차세대 제온 파이 프로세서 발표 기자간담회

기사입력 : 2016년 07월 13일 17시 21분
ACROFAN=권용만 | yongman.kwon@acrofan.com SNS
인텔(Intel)은 7월 13일, 서울 서초구 엘타워에서 기자간담회를 열고, 코드명 ‘나이트 랜딩(Knights Landing)’으로 알려진 차세대 인텔 제온 파이(Xeon Phi) 프로세서의 주요 특징을 소개했다. 인텔의 제온 파이 프로세서는 인텔 확장형 시스템 프레임워크(SSF)의 핵심 요소로, 주요 기술을 하나로 결합해 고성능 클러스터를 구성하고 손쉽게 구축할 수 있게 한다.

새로운 인텔 제온 파이 프로세서는 고도로 병렬화된 워크로드를 위한 부팅 가능한 호스트 프로세서로, 메모리 및 패브릭 기술을 프로세서에 결합했다. 500GB/s 성능의 16GB 고대역폭 메모리와 인텔 옴니패스 아키텍처(OPA)를 프로세서 패키지에 통합했으며, 최대 72개 코어와 AVX-512 지원으로 고도화된 병렬 컴퓨팅 환경을 제공한다. 특히 호환성 측면에서도 제온 프로세서와의 바이너리 호환성을 제공해 x86 워크로드를 처리할 수 있고, 기존의 에코시스템 등도 재사용할 수 있다.

HPC 환경의 폭넓은 활용을 위한 인텔 SSF는 다양한 용도를 위한 구성의 유연함을 제공하며, 인텔은 최적화된 HPC 시스템을 위한 권장 하드웨어 및 소프트웨어 구성 기준을 제공하는 SSF 레퍼런스 아키텍처를 발표했다고 소개했다. 또한 새로운 지원 제품군인 HPC 오케스트레이터는 통합, 테스트 및 검증에 필요한 작업량을 감소시켜 소프트웨어 스택 구축 및 진행 중인 유지관리를 단순화시킬 수 있다. OPA 또한 시장의 도입이 빠르게 증가해, 8만여 개 이상의 노드를 확보하고 있다고 소개되었다.

 
▲ 휴고 샬레 인텔 HPC 그룹 마케팅 책임자

휴고 샬레(Hugo Saleh) 인텔 HPC 그룹 마케팅 책임자는 먼저, HPC의 활용 영역이 전통적인 정부, 과학과 전문 연구 영역 뿐 아니라 금융이나 제조, 영화 제작에 이르기까지 문제 해결에 폭넓게 사용되고 있다고 소개했다. 또한 최근 보이는 활용 방법의 변화로는, 기존에는 가설을 입증하기 위해 실험 등을 진행해 나갔지만, 지금은 IoT 등을 통해 들어오는 다양한 외부 데이터를 기반으로 해 분석해 나가는 방식으로 바뀌어 가고 있다는 점을 지적했다.

클라우드로 정보와 컴퓨팅 역량이 집중되면서 머신 러닝 또한 활성화되고 있으며, 전통적인 HPC와 머신러닝의 차이로는 분석 결과를 ‘누가’ 소비하는가가 꼽혔다. 기존에는 인간이 분석 결과를 보고 결정을 했지만, 머신 러닝은 머신이 결과를 보고 학습과 후속 활동을 진행하고, 스코어링 후 추천값을 제안하는 형태라는 것이다. 또한 자동차의 자율주행 등을 위한 ‘인지적 인프라’ 측면에서는, 센서와 네트워크, 클라우드 등을 포괄하는 전반적인 인지적 인프라가 필요하다고 덧붙였다.

인텔의 SSF(Scalable System Framework)는 HPC를 위한 데이터센터와 시스템을 효율적으로 구현할 수 있게 하며, 하나의 프레임워크 아키텍처에서 다양한 형태의 워크로드에 최적화할 수 있도록 유연한 프로세서와 메모리, 스토리지, 패브릭과 소프트웨어 구성을 제공한다. 그리고 새롭게 선보이는 제온 파이 프로세서는 이 SSF의 핵심 요소 중 하나로, 주요 기술을 하나로 결합하여 높은 확장성을 가진 고성능 클러스터를 손쉽게 구성할 수 있도록 한다.


 
▲ 제온 파이 7200 시리즈는 이제 완전한 ‘프로세서’의 구성을 갖추었다

 
▲ 프로세서 형태의 구성과 고속 메모리 서브시스템으로 병목 지점을 제거했다

코드명 나이트 랜딩(Knights Landing)으로 알려진 제온 파이 7200 시리즈 프로세서는 고도의 병렬 워크로드에 최적화된 인텔의 첫 번째 부팅 가능한 호스트 프로세서 형태를 가진다. 프로세서 패키지 내부에는 16GB의 고대역폭 메모리를 장착했으며, 프로세서와 직접 연결되는 이 메모리의 대역폭은 최대 500GB/s 정도이고, 캐시 혹은 메모리 영역으로 활용할 수 있다. 이와 함께 6채널 DDR4 메모리 컨트롤러로 메모리를 확장해, 프로세서 당 최대 총 396GB 메모리 구성을 지원한다.

이와 함께 차세대 제온 파이 프로세서에는 듀얼 포트의 옴니패스 아키텍처(OPA: Omni-Path Architecture)를 패키지에 통합한 제품도 제공되며, 이를 통해 솔루션 비용이나 전력소비량, 활용 공간 등을 절감시킬 수 있을 것으로 기대했다. 성능 측면에서는 호스트 프로세서 형태로의 전환과 아키텍처 최적화, 고속 메모리의 사용 등으로 경쟁 GPU 가속기들 대비 금융 분석의 몬테카를로 DP에서 2.7배, 라이프 사이언스의 LAMMPS에서 5배 등 뛰어난 성능을 제공한다고 덧붙였다.

한편 차세대 제온 파이 프로세서에서 인상적인 부분으로는 1소켓 SPECfp 테스트의 세계 기록 달성이 꼽혔으며, 이는 제온 파이가 제공하는 바이너리 호환성 측면까지 함께 보여주는 것이라 강조했다. 또한 제온 파이 프로세서와 제온 프로세서와의 바이너리 호환성은, 기존 제온 파이 기반 환경에서 제온 파이를 집중적으로 활용할 경우 호스트 프로세서의 활용도가 낮았던 것에 비해, 최적화된 ROI와 TCO 등을 제공할 수 있게 한다고 밝혔다.

차세대 제온 파이 프로세서 제품군은 크게 네 가지로 나뉘고, 모델에 따라 64코어에서 최대 72코어까지, 프로세서와 내장 메모리, DDR4 컨트롤러의 동작 속도에 따라 차등화되어 있다. 또한 출시 당시 3만 유닛이 이미 고객에 전달되었으며, 연말까지는 10만 유닛 이상이 고객에 전달될 것으로 예상되며, 에코시스템 측면에서도 30개 이상의 시스템 공급업체들이 제온파이 프로세서 기반의 시스템을 다루고 있고, 국내 업체도 4개가 포함되어 있다고 덧붙였다.


 
▲ 인텔 SSF 기반에서 제온과 제온 파이는 서로 보완적인 존재다

차세대 제온 파이 프로세서는 최근 주목받는 머신 러닝 부분에서 효율적으로 활용할 수 있는 강력한 성능과 유연성을 제공하는 것으로 소개되었다. 그리고 알렉스넷(AlexNet) 토플로지 기반에서 제온 파이 기반 128노드 인프라 구성은 단일 노드 대비 최대 50배 빠른 속도로 모델을 훈련시킬 수 있으며, 32노드 인프라 기반에서 GPU보다 최대 1.38배 향상된 확장성을 제공할 수 있다는 결과를 제시했다. 이와 함께 제온 E5 제품군과의 결합으로 한층 향상된 성능을 낼 수 있다고 덧붙였다.

한편 인텔은 SSF의 생태계 강화를 위해, 최적화된 SSF 레퍼런스 아키텍처와 두 개의 디자인을 소개했다고 밝혔다. 그리고 이 새로운 레퍼런스 아키텍처 및 디자인은 시스템 개발업체들이 설계 및 검증 단계를 단순화할 수 있게 하며, 엔드 유저에게는 구매 의사결정을 단순화시키고, 이미 기존에 갖추고 있던 부분들을 SSF 아키텍처 안에서 구성, 활용을 극대화할 수도 있을 것이라고 소개했다. 또한 SSF의 채택도 광범위하게 이루어지고 있으며, 기존 ‘클러스터 레디’ 프로그램이 SSF로 수용되면서 생태계도 강화될 것이라 덧붙였다

옴니패스 아키텍처는 시장의 도입이 빠르게 증가해 현재 8만 개 이상의 노드를 확보하고 있으며, 기존 인피니밴드 EDR 대비 더 높은 비용 효율로, 동일한 투자 규모에서 더 높은 성능을 낼 수 있게 한다고 소개했다. 또한 OpenHPC 관련에서는 현재 멤버 수가 39개에 이르렀고 인텔 아키텍처 기반이 아닌 업체들도 참여하고 있다고 밝혔다. 그리고 인텔 HPC 오케스트레이터는 통합, 테스트 및 검증에 필요한 작업양을 감소시켜 HPC 시스템 소프트웨어 스택의 구축 및 유지관리를 단순화시키며, OpenHPC 커뮤니티 소프트웨어를 기반으로 한다고 덧붙였다.

향후 인텔은 다양한 프로세서와 FPGA 등에 이르기까지 AI와 머신러닝 등을 위한 최적화를 해 나갈 것이며, 툴과 라이브러리의 성능 최적화 측면에서도 오픈소스 기반 프레임워크들과의 관계를 증대시킬 것이고, MKL-DNN 등 오픈 소스 기반에서 최적화된 알고리즘을 제공해 많은 사람들이 혜택을 누릴 수 있게 하고자 한다고 소개했다. 또한 머신 러닝과 관련해 개발자 트레이닝 프로그램의 진행이나, 학자들을 위한 얼리 액세스 프로그램 지원 등을 제공하고 있다고 덧붙였다.

 
▲ KISTI 류 훈 박사

 
▲ 새로운 제온 파이는 GPU 가속기나 이전 제온파이보다도 높은 성능을 비교적 쉽게 얻을 수 있다

KISTI의 류 훈 박사는 이 자리에서 차세대 제온 파이 아키텍처 기반의 성능 개선 사례에 대해 소개했다. KISTI는 차세대 반도체 소재 및 소자 특성 모델링의 연산 성능 최적화에 인텔 제온 파이를 활용했으며, 인텔의 초고성능 컴퓨팅 활용기술 연구사업 IPCC에 2년 연속으로 선정된 바 있다. 연구 목표로는 차세대 반도체 소자 설계 및 소재 발굴을 위한 TCAD의 개발과 제온 파이를 통한 성능 최적화, 이를 통한 연구사례 창출과 향후 사례를 통한 교육 등이 제시되었다.

지금까지의 주요 성과로는 프로세서 레벨에서의 대용량 PDE 방정식 계산의 병렬화 및 주요 계산 정확성 향상이 소개되었으며, 제온 파이의 활용에서는 비동기 오프로드를 활용해 제온 프로세서와 제온 파이 프로세서를 연산에 동시에 활용, 성능 향상을 구현한 점 등이 꼽혔다. 이전 세대의 제온파이를 활용한 사례에서는, 프로세서만 사용한 경우 대비 성능이 1.5배에서 2배까지 향상되었으며, 이것 또한 GPU 활용 대비 높은 성능인 것으로 소개했다.

기존 제온 파이 대비 최신 제온 파이 프로세서의 차별점으로는 16GB의 고대역폭 내장 메모리와 6채널 DDR4 외부 메모리로 구성되는 메모리 서브시스템이 꼽혔으며, 이 내장된 16GB 메모리의 활용에 따른 성능 차이도 큰 것으로 소개되었다. 내부 테스트에서, 최신 제온 파이 프로세서는 제온 프로세서 단독 활용 대비 최대 3배 이상의 성능 차이를 보이고, 내부 MCDRAM의 캐싱 활용 여부에 따른 성능 차이는 테스트 조건에 따라 2~2.4배 정도로 소개되었다.

노드 확장에 따른 성능 향상을 알아보는 MPI 기반의 테스트에서 MCDRAM의 캐시 활용 여부는 성능 향상에 꽤 큰 영향을 미치는 모습이며, MPI 프로세스 수가 12배 늘어나는 동안 성능 향상은 MCDRAM이 없을 때 4.4배, 있을 때 8.3배로 나타났으며, 이 차이는 쓰레드 간 통신에서 캐시의 영향이 결과로 나타난 것으로 분석했다. 한편 제온 파이를 통한 성능 향상은 관리성 측면에도 의미를 가지며, 두 배 성능은 절반 규모의 노드 구성으로도 수요를 충족할 수 있어, 비용 측면에서도 효과적일 것이라고 덧붙였다.

 
▲ 워크로드 특화형 프로세서로의 구성을 갖춘 새로운 제온 파이 프로세서


Copyright ⓒ Acrofan All Right Reserved.

디지털 마케팅의 새로운 장을 만들다! 신개념 퍼포먼스마케팅 플랫폼 '텐핑'

[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 유재용
Copyright © ACROFAN All Right Reserved