ACROFAN

[인텔 데이터 센트릭 프레스 워크숍] 2세대 제온 스케일러블 프로세서 기술 개요

기사입력 : 2019년 04월 03일 07시 10분
ACROFAN=권용만 | yongman.kwon@acrofan.com | SNS
인텔(Intel)은 3월 5, 6일 양일간 미국 오레곤(Oregon)주 힐스보로(Hillsboro)의 인텔 존스 팜 캠퍼스(Intel Jones Farm Campus)에서 ‘인텔 데이터 센트릭 프레스 워크숍(Intel Data-Centric Press Workshop)’을 열고, 데이터 주도의 시대를 위한 인텔의 솔루션 포트폴리오를 소개했다. 이 자리에서는 차세대 제온 스케일러블(Xeon Scalable) 프로세서와 옵테인 DC 퍼시스턴트 메모리(Optane DC Persistent Memory) 등, 차세대 프로세서와 플랫폼의 기술적 특징들이 소개되었다.

IoT와 클라우드, 5G와 인공지능에 이르기까지 다양한 IT 기술의 변화는 폭발적인 데이터의 증가 추세를 만들어내고 있으며, 이 데이터를 다루는 역량이 경쟁력으로 연결되고 있다. 이와 함께 IT 인프라 또한 클라우드 컴퓨팅으로의 이동과 AI, 분석의 활용 증가, 네트워크와 엣지의 클라우드화 등이 변화의 수요를 이끌고 있다. 인텔은 이 ‘데이터 주도’ 시대에 총 규모 2000억 달러의, 역대 최대 규모의 시장 기회가 있을 것으로 예상하고, 이 시장에 대비하기 위해 모든 것을 처리하고, 더 많은 것을 저장하고, 더 빠르게 옮길 수 있는, 소프트웨어와 시스템 레벨에 최적화된 솔루션을 제시한다는 계획을 소개했다.

인텔은 이 ‘데이터 주도’ 시대를 위한 새로운 포트폴리오로, 2세대 제온 스케일러블 프로세서와 새로운 제온 D 프로세서, Agilex FPGA, 옵테인 DC 퍼시스턴트 메모리와 옵테인 DC SSD, QLC 3D NAND 기반의 DC 시리즈 SSD, 800 시리즈 이더넷 어댑터 등을 소개했다. 새로운 제온 스케일러블 프로세서와 옵테인 DC 퍼시스턴트 메모리, 옵테인 DC SSD, 이더넷 기술 등은 시스템 레벨에서 긴밀히 결합되고, 소프트웨어 레벨의 최적화를 통해 다양한 워크로드에서 뛰어난 성능과 효율성을 제공할 수 있을 것으로 기대되며, 검증된 최적화된 구성의 ‘인텔 셀렉트 솔루션’을 통해 이러한 혁신을 더욱 빨리 누릴 수 있게 한다고 밝혔다.

▲ 코드명 ‘캐스케이드 레이크’로 알려진 2세대 제온 스케일러블 프로세서

▲ ‘캐스케이드 레이크’의 리드 아키텍트를 맡았던 이안 스테이너

▲ 2세대 제온 스케일러블 프로세서의 주요 기술적 특징

코드명 ‘캐스케이드 레이크(Cascade Lake)’로 알려진 2세대 제온 스케일러블 프로세서에 대한 설명은, 2세대 제온 스케일러블 프로세서의 리드 아키텍트를 맡았던 이안 스테이너(Ian Steiner)가 맡았다. 그는 먼저, 7년 전 ‘샌디 브릿지(Sandy Bridge)’ 기반의 제온 E5-2600 시리즈가 선보였을 때와 지금의 상황을 비교하면, 그 당시에는 클라우드화의 초기 단계였다면 이제는 모든 영역에 클라우드가 활용되고 있고, 당시에는 전력 소비량이 중요했다면 지금은 이런 부분까지 모두 ‘비용’으로 계산하고 있다고 소개했다. 또한 집중적으로 연산 능력을 필요로 하는 곳은 HPC 이외에도 분석과 AI 등으로 늘었으며, 워크로드 최적화 커스텀 프로세서 또한 활용이 늘었다고 덧붙였다.

2세대 제온 스케일러블 프로세서는 기존 ‘스카이레이크(Skylake)’ 아키텍처가 가진 특징이나 플랫폼을 기반으로, 더 향상된 성능과 확장성, 효율 등을 제공하는 것이 특징이다. 메모리 지원의 경우 16Gb DDR4 지원으로 기존보다 지원 용량이 두 배 늘었으며, 메모리 컨트롤러 동작 속도는 DDR4-2933까지 높아졌다. 이와 함께 AVX-512 VNNI와 DL Boost 기술을 통해 AI 추론 성능을 크게 높였다. 이 외에도 옵테인 DC 퍼시스턴트 메모리의 지원이나, 지금까지 알려진 멜트다운, 스펙터 등의 취약점에 대한 하드웨어 레벨의 대응이 적용되었고, 14nm 공정을 사용하지만 더 높은 동작 속도와 전력 효율을 달성할 수 있도록 개선이 있었다고 덧붙였다.

2세대 제온 스케일러블 프로세서는 8200 시리즈에서 최대 28코어 구성을, 9200 시리즈에서는 최대 56코어 구성을 제공하며, 캐시 구성이나 다이간 연결을 위한 최대 3개의 10.4GT/s UPI 연결, 최대 48레인 PCIe 연결 등의 특징은 그대로 유지된다. 메모리의 경우 6채널 DDR4-2933 지원으로 동작 속도가 높아졌고, 16Gb DDR4 지원으로 최대 지원 용량도 높아졌으며, 옵테인 DC 퍼시스턴트 메모리를 사용할 경우 프로세서 당 최대 4.5TB 메모리 구성을 지원한다. 벡터 연산에서는 AVX-512를 통해 단일 사이클에 16 DP, 32 SP, DL Boost를 활용한 128 INT8 MACs 의 처리가 가능하다.

2세대 제온 스케일러블 프로세서 제품군에서 처음 선보이는, 제온 플래티넘 9200 시리즈 프로세서는 하나의 패키지에 두 개의 프로세서 다이를 구성하고, 이를 UPI로 묶는 형태다. 최대 두 개 프로세서 구성을 지원하는 제온 플래티넘 9200 시리즈는, 듀얼 프로세서 구성시 논리적으로는 기존의 4소켓 시스템과 동일하지만, 지연시간 측면이나 더욱 작은 폼팩터에서 더 높은 컴퓨트 밀도를 구성할 수 있다는 점 등에서 장점을 가진다. 메모리 컨트롤러의 경우 두 개 다이 모두를 활용한, 프로세서 당 12채널 구성으로 최대 281GB/s의 대역폭을 제공한다. 제온 플래티넘 9200 시리즈는 메인보드에 BGA로 접합된 형태로 공급되며, TDP는 250~400W 정도에 이른다.

▲ VNNI는 기존 3 사이클이 걸리던 추론 관련 연산을 한 사이클에 끝낼 수 있게 한다

▲ 소프트웨어 최적화와 하드웨어 지원을 통해 큰 폭의 추론 성능 향상을 기대할 수 있다

딥러닝 환경에서 주로 사용되는 행렬 곱셈은 다수의 행과 열을 곱한 값을, 하나의 값으로 모으는 작업이다. 그리고 전통적인 HPC나 AI 트레이닝 워크로드에서는 여기에 부동소수점 연산을 사용했는데, 이 경우 가능한 값의 범위가 큰 것이 성능에 발목을 잡는 요인이었다. 그리고 추론에 FP 대신 INT8을 활용할 경우 고려해야 할 값의 범위 자체가 크게 작아지고, 더 적은 곱셈 연산을 통한 더 높은 전력 효율, 캐시와 메모리 서브시스템의 부담 경감 등이 장점으로 꼽혔다. 2세대 제온 스케일러블 프로세서에서 AVX-512와 VNNI를 사용할 경우, INT8 값을 받아 INT32로 출력하는 연산에서 AVX2 대비 4배의 성능 향상이 가능할 정도다.

기존에는 INT8 값을 입력해 INT32의 결과를 얻는데, 곱셈과 업컨버트, 축적(accumulate)의 세 단계를 거쳐 결과를 얻고, 최대 128개 MAC를 코어당 두 개 포트와 세 사이클을 사용해 처리하게 된다. 하지만 DL Boost의 VNNI를 사용할 경우, 이 세 단계를 하나의 명령어로, 한 사이클에 처리할 수 있어, 이론적으로는 세 배의 성능 향상이 가능하다. 인텔은 MKL-DNN 라이브러리를 활용했을 때, FP32를 AVX-512 기반 INT8로 전환할 경우 1.33배의 성능 향상이 가능하며, AVX-512 기반 INT8을 VNNI 기반 INT8로 전환할 경우 3배의 성능 향상을 기대할 수 있다고 설명했다.

인텔은 MKL-DNN의 마이크로벤치마크 시나리오에서, VNNI를 활용함으로써 단위 전력 소비당 성능을 크게 높일 수 있다고 소개했다. VNNI 사용시 소켓당 전력 소비량은 FP32와 비슷한 수준을 보이지만, 대폭 향상된 성능을 보이는 만큼 단위 성능당 전력 사용량은 크게 낮아진다. 또한 DL Boost 기술 사용시 프로세서의 L2 캐시 미스 확률도 FP32 대비 크게 떨어지는 모습을 보이며, 메모리 대역폭 사용량 역시 감소되는 모습을 보인다고 덧붙였다.

▲ ‘인텔 리소스 디렉터 기술’에는 메모리 대역폭 할당 기능이 추가되었다

▲ 주로 네트워크 워크로드 특화 ‘N-시리즈’ 제품들에 적용되는 ‘스피드 시프트’ 기술 유형

▲ 데이터센터를 위한 특화 제품 ‘Y-시리즈’ 제품들에 적용되는 ‘스피드 시프트’ 기술 유형

2세대 제온 스케일러블 프로세서부터 정식 지원하는 ‘옵테인 DC 퍼시스턴트 메모리’는 DRAM을 캐시로 사용해 전체 메모리 용량을 확장하는 형태의 ‘메모리 모드’, DRAM과 옵테인 DC 퍼시스턴트 메모리를 애플리케이션이 직접 각자의 목적에 맞게 접근할 수 있는 워크로드 최적화 형태의 ‘앱 다이렉트 모드’로 활용할 수 있다. DDR4 인터페이스에 호환되며 128~512GB 모듈이 선보일 예정이다. 이와 함께, 인텔은 이 ‘옵테인 DC 퍼시스턴트 메모리’의 개발에서, 시작 단계에서부터 프로세서와 모듈이 함께 개발되었다는 점을 강조했다.

인텔 리소스 디렉터 기술(RDT: Resource Director Technology)에도 새로운 기술이 추가되었다. 이 리소스 디렉터 기술을 활용하면, 프로세서 영역을 나누어 각각의 작업 성능에 영향을 주지 않도록 할 수도 있으며, 작업에 우선순위를 부여해 처리함으로써 SLA 수준을 준수하면서 시스템 활용도를 극대화할 수 있다. 그리고 리소스 디렉터 기술에서는 L3 캐시와 메모리 대역폭의 ‘모니터링’과 ‘제어’가 가능한데, 2세대 제온 스케일러블 프로세서에서는 ‘메모리 대역폭 할당(Memory Bandwidth Allocation)’ 기술이 추가되어, 특정 작업에 메모리 대역폭을 할당 혹은 제한함으로써 전체 시스템에서 특정 작업의 성능 영향을 최소화하고 SLA를 준수할 수 있게 한다.

워크로드 최적화된 환경을 위한 ‘인텔 스피드 셀렉트 기술(SST: Speed Select Technology)’는 크게 세 가지 세부 기술로 구성되어 있고, 제품군에 따라 적용되는 기술이 다르다. 이 중 SST-CP는 우선순위의 작업에 더 높은 동작속도를 유지하고, 다른 낮은 우선순위 작업에서의 프로세서 동작속도를 떨어뜨리며, SST-BF(Base Frequency)는 특정 코어를 높은 동작속도로 설정하고 여기에 특정 워크로드를 할당하는 식으로 동작한다. 이러한 기술을 통해, 동작 속도에 민감한 워크로드와 그렇지 않은 워크로드 모두에 최적의 환경을 제공하면서도 전체 전력소비량은 일정 수준으로 유지할 수 있다.

SST-PP는 프로세서의 선택과 서버 운영의 유연성을 확보할 수 있게 해 주며, 한 제품에서 최대 3개의 프로파일을 통해 활성화된 코어 수, 동작 속도, TDP나 최대 온도 등을 모두 상이하게 설정할 수 있다. 이를 통해 프로세서의 활성 코어 수를 줄이고 동작 속도를 올린 설정, 동작 속도를 낮추고 활성 코어 수를 최대화한 설정 등을 두고, 상황에 따라 이를 선택해 활용할 수 있다. 이 기술의 활용 측면에서는, 오픈스택의 베어메탈 프로비저닝 시스템인 아이로닉(Ironic)에서 이 SST-PP의 프로파일을 선택해 서버를 부팅, 워크로드를 프로비저닝 할 수 있다고 소개되었다. 이 기술을 통한 효과로는 서로 상이한 성격과 변화가 많은 워크로드를 다루는 인프라에서 유연성을 강화할 수 있다는 점이 꼽혔다.

▲ ‘제온 플래티넘 9200’ 시리즈 프로세서의 듀얼 프로세서 구성은 논리적으로 기존의 4소켓 구성과 일치한다

이어 인텔 데이터센터 그룹의 카르틱 아난스(Kartik Ananth)가 제온 플래티넘 9200 시리즈 프로세서와 플랫폼에 대해 소개했다. 이 프로세서의 가장 큰 특징이라면 두 개의 2세대 제온 스케일러블 프로세서 다이 두 개를 하나의 프로세서와 소켓에 구성함으로써, 뛰어난 소켓당 프로세서 성능을 보인다는 점이다. 또한 두 개의 다이 구성을 통해 프로세서 당 두 배의 메모리 대역폭을 얻을 수 있으며, 그럼에도 각 다이간 접근은 단일 홉 레이턴시로 구현했다는 점이 꼽혔다. 이에, 컴퓨팅 역량의 ‘밀도’가 중요한 경우, 기존의 4소켓 구성보다 더 적은 면적으로 동등한 역량을 확보할 수 있다고 덧붙였다.

제온 플래티넘 9200 프로세서는 하나의 프로세서에 두 개의 다이가 UPI를 통해 연결된 구성이다. 그리고 최대 두 개 프로세서 구성을 지원하며, 이 때 실질적으로는 기존의 4소켓 구성과 논리적으로 동일한 형태가 되고, 각 다이당 3개의 UPI가 다른 다이와 직접 연결되는 모습이다. 다이당 6채널의 DDR4 메모리 컨트롤러를 가지므로, 프로세서 단위에서는 12채널 DDR4 메모리 컨트롤러가 된다. 프로세서 패키지는 0.99mm 피치를 사용하는 5903개 접점의 BGA로, 이 프로세서의 경우 메인보드와 함께 시스템 레벨로 공급될 예정이다. 제온 플래티넘 9200 시리즈의 듀얼 프로세서 구성을 제공하는 ‘인텔 서버 시스템 S9200WK’는 최대 80개의 PCIe 3.0 레인을 제공한다.

제온 플래티넘 9200 시리즈 프로세서는 32, 48, 56코어 구성으로 제공되며, 모든 프로세서에서 12채널 DDR4 메모리 컨트롤러를 갖추어 메모리 성능 집중적 워크로드에 뛰어난 성능을 보인다. 인텔의 테스트 결과에서는 듀얼 프로세서 구성에서 최대 407GB/s STREAM-TRIAD 성능을 내며, 코어당 성능은 56코어 프로세서에서는 코어당 3.6GB/s, 32코어 프로세서에서는 코어당 6.2GB/s 정도가 할당되어, HPC 애플리케이션 등 메모리 대역폭에 민감한 애플리케이션에 유리한 환경을 제공한다. 이 외에도, 모든 제품군에서 단일 방열판으로 전체 TDP를 소화할 수 있다.

▲ ‘제온 플래티넘 9200’을 위한 ‘인텔 서버 시스템 S9200WK’의 주요 특징

▲ ‘제온 플래티넘 9200’ 시리즈 프로세서는 시스템 레벨의 제공이 기본이다

제온 플래티넘 9200 시리즈 프로세서는 ‘인텔 서버 시스템 S9200WK’ 제품과 함께 제공되며, 이는 메인보드에 BGA 실장되는 제품의 특징에 따른 것이기도 하다. ‘S9200WK’는 2U 랙 폼팩터로, 노드 구성에 따라 최대 4개의 독립 컴퓨트 노드를 갖출 수 있고, 각 노드는 웜 스왑(Warm-Swap)이 가능하다. 메모리는 프로세서당 12개 DIMM으로 12채널 구성을 사용할 수 있으며, 스토리지는 2U 컴퓨트 모듈에서 모듈당 2개의 핫스왑 U.2 NVMe SSD를 사용할 수 있다. 파워서플라이는 섀시에 핫스왑 2100W나 1600W 3개를 사용하며, 쿨링은 공냉 뿐 아니라 수냉 옵션도 있다.

컴퓨트 노드는 1U, 절반 폭의 수냉 사용 모듈, 2U, 절반 폭의 수냉, 공냉 구성이 있다. 핫스왑 스토리지는 2U 컴퓨트 모듈에서만 사용할 수 있고, NVMe는 1U에서는 노드당 2개 M.2, 2U에서는 2개의 M.2, 2개의 U.2를 가지고 있다. PCIe 확장은 1U에서는 노드당 2개의 LP PCIe를, 2U에서는 노드당 4개의 LP PCIe 카드를 사용할 수 있다. ‘인텔 서버 섀시 FC2000’은 인텔의 ‘분리형(disaggregated) 서버’ 구성으로, 파워와 쿨링은 공유 형태로 제공하고, 1600W나 2100W의 3개 파워 구성으로 고가용성을 확보하고, 공냉 혹은 수냉 쿨링 옵션을 제공한다.

소프트웨어 아키텍처 차원의 최적화 측면에서, 제온 플래티넘 9200 프로세서는 CPUID에 멀티칩 패키징에 대한 추가 정보가 들어갔다. 이를 통해 두 개의 프로세서로 볼 수 있을 두 개 다이 구성의 제온 플래티넘 9200 프로세서지만, 논리적으로 하나의 물리적 패키지로 인식하고 동작시킬 수 있게 한다. 또한 2세대 제온 스케일러블 프로세서의 DL Boost 기술이나 AVX-512의 지원, AI 등을 위한 다양한 소프트웨어 최적화 등을 통한 혜택도, 제온 플래티넘 9200 프로세서를 통해 동일하게 얻을 수 있고, 제온 스케일러블 프로세서의 출시 초기 시점 대비 제온 플래티넘 8280 프로세서의 추론 성능은 14배 향상되었고, 제온 플래티넘 9282의 경우 이 향상 폭이 30배에 이른다고 덧붙였다.

Copyright ⓒ Acrofan All Right Reserved



[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 권용만
Copyright(c) ACROFAN All Right Reserved