ACROFAN

[인텔 데이터 센트릭 프레스 워크숍] 가상화와 클라우드, AI 워크로드에서의 성능 개요

기사입력 : 2019년 04월 05일 12시 19분
ACROFAN=권용만 | yongman.kwon@acrofan.com | SNS
인텔(Intel)은 3월 5, 6일 양일간 미국 오레곤(Oregon)주 힐스보로(Hillsboro)의 인텔 존스 팜 캠퍼스(Intel Jones Farm Campus)에서 ‘인텔 데이터 센트릭 프레스 워크숍(Intel Data-Centric Press Workshop)’을 열고, 데이터 주도의 시대를 위한 인텔의 솔루션 포트폴리오를 소개했다. 이 자리에서는 차세대 제온 스케일러블(Xeon Scalable) 프로세서와 옵테인 DC 퍼시스턴트 메모리(Optane DC Persistent Memory) 등, 차세대 프로세서와 플랫폼의 기술적 특징들이 소개되었다.

IoT와 클라우드, 5G와 인공지능에 이르기까지 다양한 IT 기술의 변화는 폭발적인 데이터의 증가 추세를 만들어내고 있으며, 이 데이터를 다루는 역량이 경쟁력으로 연결되고 있다. 이와 함께 IT 인프라 또한 클라우드 컴퓨팅으로의 이동과 AI, 분석의 활용 증가, 네트워크와 엣지의 클라우드화 등이 변화의 수요를 이끌고 있다. 인텔은 이 ‘데이터 주도’ 시대에 총 규모 2000억 달러의, 역대 최대 규모의 시장 기회가 있을 것으로 예상하고, 이 시장에 대비하기 위해 모든 것을 처리하고, 더 많은 것을 저장하고, 더 빠르게 옮길 수 있는, 소프트웨어와 시스템 레벨에 최적화된 솔루션을 제시한다는 계획을 소개했다.

인텔은 이 ‘데이터 주도’ 시대를 위한 새로운 포트폴리오로, 2세대 제온 스케일러블 프로세서와 새로운 제온 D 프로세서, Agilex FPGA, 옵테인 DC 퍼시스턴트 메모리와 옵테인 DC SSD, QLC 3D NAND 기반의 DC 시리즈 SSD, 800 시리즈 이더넷 어댑터 등을 소개했다. 새로운 제온 스케일러블 프로세서와 옵테인 DC 퍼시스턴트 메모리, 옵테인 DC SSD, 이더넷 기술 등은 시스템 레벨에서 긴밀히 결합되고, 소프트웨어 레벨의 최적화를 통해 다양한 워크로드에서 뛰어난 성능과 효율성을 제공할 수 있을 것으로 기대되며, 검증된 최적화된 구성의 ‘인텔 셀렉트 솔루션’을 통해 이러한 혁신을 더욱 빨리 누릴 수 있게 한다고 밝혔다.

▲ 인텔의 클라우드를 위한 데이터센터 포트폴리오는 ‘멀티 클라우드’ 시대를 반영한다

▲ 다양한 영역에서 더 나은 가치를 제공하는 2세대 제온 스케일러블 프로세서

클라우드 애플리케이션은 점점 다양해지고 있고, 빠르게 변화하고 있으며, 그 위치 또한 퍼블릭, 프라이빗은 물론이고 하이브리드 구성까지 다양해지고 있다. 인텔은 이러한 ‘멀티 클라우드’ 요구에 대응하기 위해 ‘제온 스케일러블’ 프로세서와 플랫폼을 포함한 다양한 포트폴리오를 제공하고 있다고 소개했다. 그리고 데이터센터 컴퓨팅 환경은 가상화를 거쳐 IaaS에서 리소스 활용을 최적화하고, 오케스트레이션의 규모를 데이터센터간에 이르기까지 넓히고 컨테이너 등을 활용해 더욱 효율적인 작업 배치와 자원 할당을 가능하게 한 ‘하이퍼 스케일 클라우드’ 에 이르고 있다고 덧붙였다.

클라우드 서비스 사업자들의 요구 사항은 서비스 유형에 따라 달라진다. IaaS의 경우에는 요구 성능을 충족하는 코어 성능과 높은 인프라 밀도, 인스턴스 타입당 낮은 비용이 필요하며, 이에 따라 코어 성능과 멀티태넌트 격리, 확장성, 커스텀 제품군 등이 요구된다. 하지만 ‘티어드 SaaS’는 쓰레드 레벨 SLA 기반에서 노드당 더 많은 사용자를 수용할 수 있는, 특정 앱에서의 최적화된 전체 성능이 필요하며, 이에 따른 워크로드 최적화 성능, 높은 동작속도와 적은 코어 수를 갖춘 제품이나 에너지 효율 등을 요구한다. 또한 하이퍼컨버지드 SaaS의 경우에는 여러 앱이 혼재된 상황의 전체 성능의 극대화가 필요하며, 이종 워크로드에 대한 대응이나 마이크로서비스 트래픽, 에너지 효율 등이 요구된다.

엔터프라이즈 환경의 도전 과제로는 디지털 환경으로의 비즈니스 전환과 비용 절감 측면, 레거시 환경의 리프레시 요구와 보안 강화 등이 꼽힌다. 그리고 이에 따른 기회 측면에서 요구되는 기술 특징으로는 더 높은 코어 성능, 시스템 단위에서의 TCO 최적화, 데이터센터의 사용 면적 최소화, 더 높은 VM 밀도와 더 나은 가상화, 향후 시스템의 소켓 확장성과 투자 보호, 보안 측면 등이 꼽혔다. 그리고 이 퍼블릭 클라우드와 엔터프라이즈 환경이 연결되는 ‘멀티 클라우드’ 환경에서, 2세대 제온 스케일러블 프로세서는 범용 목적부터 분석, AI, 스토리지, 미디어와 그래픽, 보안에 이르기까지 다양한 ‘코어 서비스’에서 향상된 가치를 제공한다고 덧붙였다.

▲ 특정 유형의 워크로드 최적화 환경을 제시하는 제품군들의 종류도 좀 더 늘었다

▲ 제품군에 따라 두 가지 동작 형태를 가지고 있는 ‘인텔 스피드 셀렉트 기술’

클라우드 서비스 제공자 등에서의 범용 컴퓨팅 수요에서 주요 요구사항으로는 비용 효율이나 운영 효율 향상, 높은 성능과 최소화된 다운타임, 예측 가능한 성능을 통한 높은 SLA 준수성, 다양한 워크로드에 대한 뛰어난 성능과 효율 등이 꼽힌다. 그리고 인텔은 이러한 요구에 대응하기 위해 다양한 기술적 특징을 제공하고 있다고 강조했다. 또한 다양한 워크로드에서 최적의 성능과 효율을 제공하기 위한 방법으로 특정 워크로드의 특징에 맞춘 ‘워크로드 최적화 제품군’을 선보이고 있는데, 대표적으로 ‘검색’ 애플리케이션에 최적화된 18코어 2.6GHz 동작 속도의 5220S나, VM 밀도 극대화를 위한 24코어 1.9GHz, 135W의 6262V, 20코어 1.8GHz, 115W의 6222V, ‘스피드 시프트’ 기술이 적용된 8260Y, 6240Y, 4214Y 등이 있다.

VMware 등의 가상화 환경에서, 기존의 인텔 프로세서 기반 인프라에서 새로운 인텔 프로세서 기반 인프라로는 다운타임 없는 라이브 마이그레이션이 가능하다. 하지만 새로운 인프라가 인텔 프로세서 기반이 아닐 경우에는 다운타임이 발생하는 ‘콜드 마이그레이션’이 필요하며, 이 때 다운타임 발생은 물론이고 재기동 과정에서 새로운 문제에 당면할 수도 있게 된다. 이와 함께 ‘리소스 디렉터 기술’은 퍼블릭 IaaS 환경에서 각 VM간 성능 간섭 문제를 최소화하고, 프라이빗 클라우드에서는 작업의 우선순위 부여를 통해 중요한 작업에 영향을 주지 않으면서 시스템 활용도를 끌어올릴 수 있게 한다. 또한 클라우드에서의 ‘플랫폼 리소스 매니저’를 통해 운영을 최적화할 수 있다.

‘스피드 셀렉트 기술’은 클라우드와 엔터프라이즈 인프라를 위한 SST-PP(Performance Profile), 네트워크 애플리케이션을 위한 ‘SST-BF(Base Frequency)’로 나뉜다. 이 중 ‘SSP-PP’는 워크로드에 따른 서버 간 서로 다른 성능 특성을 한 대의 서버로 유연하게 맞추기 위해, 프로세서에 세 가지 프로파일을 두고 상황에 따라 선택해 쓸 수 있게 한 것이다. 오픈스택의 ‘아이로닉(Ironic)’을 통한 베어메탈 관리 환경에서 이 프로파일 선택 기능을 활용할 수 있으며, 이 기능을 통해 서버 구매와 구성, 관리에서의 복잡성을 줄이면서도 인프라 전반의 최적화가 가능해진다. ‘SST-BF’는 높은 동작 속도가 성능에 유리한 특정 VM이 사용하는 코어를 더 높은 동작속도로 사용할 수 있게 해, 전체 작업량을 최적화한다.

▲ 옵테인 DC 퍼시스턴트 메모리의 등장은 분석 등에서 새로운 가능성을 제시한다

▲ 클라우드에서 고밀도의 강력한 보안 환경 구성을 위한 ‘인텔 SGX 카드’

데이터베이스와 분석 애플리케이션의 성능 측면에서는, 전통적인 데이터베이스와 인메모리 데이터베이스, 빅데이터 분석 등으로 그 성격과 요구사항이 달라진다. 그리고 이런 데이터베이스와 분석 애플리케이션에서, 2세대 제온 스케일러블 프로세서와 옵테인 DC 퍼시스턴트 메모리는 비용 효율적으로 더욱 큰 데이터를, 더 높은 성능으로 다룰 수 있게 한다. 특히 클라우드 서비스에서, 구글과 텐센트는 2세대 제온 스케일러블 프로세서와 옵테인 DC 퍼시스턴트 메모리를 활용해 더 큰 용량의 확보와 다운타임 최적화, TCO 절감과 통찰력 도출 시간 감소 등의 효과를 얻었다고 소개했다.

구글은 2세대 제온 스케일러블 프로세서와 옵테인 DC 퍼시스턴트 메모리를 SAP HANA를 위한 인스턴스 운영에 활용했고, 인메모리 데이터베이스 워크로드를 위한 7TB 용량의 GCP VM 운영을 현실적으로 가능하게 했다. 그리고 이를 통해 고객에는 서비스 구현에 있어 데이터 계층화 등의 복잡함을 줄일 수 있게 했고, 스타트업 시간을 크게 줄여 가용성을 더 높였으며, 비용도 최적화할 수 있게 했다고 소개했다. 이 외에도 텐센트는 Redis에 2세대 제온 스케일러블 프로세서와 옵테인 DC 퍼시스턴트 메모리를 사용했으며, 메모리 모드와 앱 다이렉트 모드를 모두 사용해, 더 큰 메모리 활용 등으로 인프라 효율을 높이고, 서버 상면 공간을 절감하는 등의 효과를 얻었다고 덧붙였다.

클라우드에서의 AI 추론 성능에서, 인텔은 실리콘에서부터 라이브러리, 프레임워크, 애플리케이션에 이르기까지 다양한 영역에서 최적화된 환경을 제공하고 있다고 소개했다. 그리고 이전 세대 제온 스케일러블 프로세서에서 FP32를 사용한 경우와 비교해, 2세대 제온 스케일러블 프로세서에서 INT8과 DL Boost를 사용한 경우 4배 높은 이미지 인식 성능을 보였다고 설명했다. 이와 함께 ‘추론 모델 매니저(IMM: Inference Model Manager)’는 추론 환경을 위한 최적화된 클러스터 확장 환경을 제공하며, 쿠버네티스 기반에서 손쉽게 수천 노드까지 스케일아웃 확장을 할 수 있게 한다고 소개했다.

클라우드 환경의 보안을 위해서는 ‘SGX 카드’가 소개되었다. SGX 환경을 간편하게 구축할 수 있게 하는 이 카드는, 카드당 제온 E3 프로세서 3개를 탑재하고, PCIe x16 인터페이스를 사용한다. 일반적인 제온 스케일러블 프로세서 기반 서버는 최대 4장의 카드를 사용해, 단일 2U 서버에서 최대 12개의 SGX 지원 프로세서를 탑재할 수 있게 된다. 또한 QAT(QuickAssist Technology)는 서버에서 네트워크 암호화, 복호화, 압축 등의 작업에 대한 하드웨어 가속 기능을 제공하며, 현재 제온 스케일러블 프로세서 기반 플랫폼의 칩셋에 통합된 QAT는 100Gbps 급의 암호화와 압축 성능을 제공하고 있다. 그리고 이를 활용하는 경우, NGINX에서 8배 많은 보안 연결 트래픽을 처리할 수 있다고 덧붙였다.

▲ 2세대 제온 스케일러블 프로세서는 데이터베이스와 분석에서 5년 전 대비 수 배의 성능을 제공한다

▲ 최신 플랫폼과 소프트웨어를 활용하면, 성능을 크게 높이면서 비용은 더 절감할 수 있다

이제 데이터에 대한 통찰력은 기업의 새로운 경쟁력으로 대두되고 있으며, 이에 따라 기업들의 데이터 분석에 대한 수요도 높아지고 있다. 그리고 인텔은 이러한 수요에 대응해 데이터의 수집과 저장, 분석과 통찰력 도출에 이르는 모든 과정에서 하드웨어 뿐 아니라 다양한 라이브러리, 프레임워크, 컴파일러, 소프트웨어와 ISV 솔루션 생태계까지 폭넓은 포트폴리오를 갖추고 있다고 소개했다. 이와 함께, 2세대 제온 스케일러블 프로세서는 이 데이터베이스와 분석 부분에서 5년 전 대비, OLTP 데이터베이스 성능은 3.7배 향상된 성능을, 빅데이터 분석은 2.3~4.3배 향상된 성능을 제공하고 있다고 덧붙였다.

2세대 제온 스케일러블 프로세서와 옵테인 DC 퍼시스턴트 메모리의 조합은 데이터 분석에서 새로운 기회를 만들기도 한다. 더 큰 메모리 용량을 더 낮은 비용으로 구현해, 더 큰 데이터셋을 사용해 더 빠르게 데이터를 다룸으로써, 더 빠른 통찰력 도찰 뿐 아니라 기존에는 불가능하던 통찰력의 도출 기회도 만들어낼 수 있다는 것이다. 그리고 이 두 가지 기술의 조합을 가장 최적화된 형태로 제공하는 ‘인텔 셀렉트 솔루션’은 SAP HANA, MS SQL 서버, 오라클의 DB를 위한 구성이 마련되어 있으며, 하드웨어와 소프트웨어가 긴밀히 최적화되어 검증된 구성을 제공함으로써 더 빠른 가치 회수가 가능하다고 소개되었다.

SAP HANA를 위한 환경에서 DRAM 6TB 구성 대비 옵테인 DC 퍼시스턴트 메모리를 사용한 가용 용량 6TB 구성은, 시스템 재시작의 다운타임을 20분에서 90초로 줄여 가용성을 높이고, 비용 측면에서도 39%의 비용 절감이 가능한 것으로 소개되었다. 또한 MS SQL 서버에서는, 4년 전의 E5 v3와 구형 소프트웨어를 최신 2세대 제온 플래티넘과 최신 소프트웨어로 교체함으로써 약 26.8배의 성능 향상이 가능하고, 가상화 환경에서는 메모리만 사용할 경우 22개의 인스턴스를 VM당 1,588달러의 비용으로 구동하던 데 비해, 옵테인 DC 퍼시스턴트 메모리의 활용시 30개의 SQL VM 인스턴스를 VM당 1,108달러로 구동할 수 있어, 노드당 36% 더 많은 VM을 구동할 수 있고, VM당 하드웨어 비용도 30% 줄일 수 있다고 소개했다.

▲ 프레임워크에 따라 다르지만, 하드웨어와 소프트웨어 최적화 적용 수준에 따라 큰 성능 차이를 기대할 수 있다

인공지능과 머신러닝 성능 측면에서, 최근 딥러닝 토폴로지 부분은 빠르게 발전하고 있으며, 새로운 기술도 등장하고 있는 상황이라고 소개되었다. 그리고 이렇게 빠르게 변화하는 AI와 머신러닝 기술의 처리를 위한 접근법으로는, 특정 워크로드에 최적화된 솔루션 혹은 여러 가지 기술에 범용적으로 접근할 수 있는 솔루션의 활용이 있을 것이고, 제온 스케일러블 프로세서는 이 중 범용적으로 접근할 수 있는 솔루션이라고 밝혔다. 물론 이 범용 솔루션에서도 지속적인 성능 향상이 있어, 초대 제온 스케일러블 프로세서의 경우 그 이전보다 50배의 성능 향상이 있었고, 2019년 2월 기준 소프트웨어 최적화 등을 통해 같은 하드웨어에서도 성능 향상은 5.7배에 이르렀다고 덧붙였다.

2세대 제온 스케일러블 프로세서는 새로운 하드웨어와 소프트웨어 최적화를 통해, 이전 세대보다는 두 배 이상, 제온 스케일러블 프로세서의 출시 당시와 비교하면 14배에 이르는 Caffe ResNet-50의 성능 향상을 선보였으며, 새로운 ‘제온 플래티넘 9200’은 이보다 두 배 가량 빠른, 2017년 당시와 비교하면 30배 향상된 성능을 제공하고 있다고 소개했다. 그리고, 2세대 제온 스케일러블 프로세서에서 이러한 AI 추론 성능이 향상된 이유는 AVX-512 기반의 VNNI 명령어를 통한 ‘DL Boost’ 기술 덕분으로, 이 기술은 현재 주요 딥러닝 프레임워크에서 활용할 수 있다고 밝혔다.

딥러닝을 위한 주요 프레임워크와 툴킷에서의 성능 향상에서, 기존 제온 스케일러블 프로세서에서 INT8을 사용하던 경우 2세대 제온 스케일러블 프로세서에서 INT8과 DL Boost를 적용하는 경우 ResNet-50에서의 성능 향상은 1.8~2.3배 정도로 나타난다. 그리고 기존에 FP32를 사용하던 경우, INT8과 DL Boost를 사용하면 성능 향상 폭은 3~4배 정도로 나타난다. 이 때, FP32 대신 INT8의 사용은 기존 제온 스케일러블 프로세서에서도 성능 향상을 위한 소프트웨어 최적화의 주요 수단 중 하나이기도 하다.

▲ ‘DL Boost’ 기술은 특히 이미지 인식과 분류에 효율적인 모습을 보인다

이전 세대의 FP32 대비 2세대 제온 스케일러블 프로세서의 DL Boost 활용시 성능 차이는 워크로드 유형에 따라 다소의 차이가 있다. ‘추천 시스템’인 텐서플로우의 ‘Wide & Deep’에서는 2.1배 성능 향상이 있지만, ‘사물 인식’에서는 Caffe의 SSD-Mobilenet에서 2.2배, MXNet의 SSD-VGG16에서 2.5배 향상된 성능을 제공한다. 이미지 분류 측면에서는 좀 더 성능 향상 폭이 높아지는데, 텐서플로우의 Inception v3에서는 3.1배, MXNet ResNet-101에서는 3.8배, 텐서플로우의 ResNet-50에서는 3.9배의 성능 향상 폭을 제공한다.

텐서플로우를 사용할 경우, FP32에서 INT8과 DL Boost 활용으로 바꾸는 경우 성능 향상은 Wide & Deep 에서 2.1배, Inception v3에서는 3.1배, ResNet-50에서는 3.9배, ResNet-101에서는 4배에 이르고, 이는 하드웨어의 개선과 소프트웨어 최적화 양 쪽의 장점을 포함한다. 그리고 기존에 INT8 기반으로 소프트웨어 최적화가 되어 있는 경우, 하드웨어 교체와 DL Boost 기술의 활용으로는 Wide & Deep 에서 1.5배, Inception v3와 ResNet-101에서는 1.9배 향상된 성능을 기대할 수 있다. OpenVINO에서도 FP32에서 INT8과 DL Boost 적용시 작업 유형에 따라 적게는 1.8배에서 크게는 3.9배까지 성능이 올라가며, INT8 기반에서 DL Boost 적용시에는 1.2~1.9배 정도 성능이 높아진다.

한편, 2세대 제온 스케일러블 프로세서와 DL Boost 기술의 활용은 GPU에 근접하는 높은 추론 성능을 얻을 수 있게 한다고 소개되었다. ResNet-50의 성능에서 2소켓 제온 플래티넘 8280은 7ms 이하 지연시간으로의 추론 처리 성능에서 초당 3248 이미지를 처리해, 엔비디아의 T4 GPU의 초당 4189 이미지 처리 성능과 격차를 꽤 좁혔고, MXNet Wide & Deep에서는 FP32에서 꽤 큰 차이로 앞선 성능을 보여준다. 이 때, 다양한 범용 워크로드도 처리할 수 있는 제온 프로세서는 워크로드의 유연성 측면에서 큰 장점을 지닌다고 설명했다. 이 외에도 딥러닝 훈련 성능에서, 기존 제온 플래티넘 8180 대비 새로운 제온 플래티넘 9282는 더 늘어난 코어 등에 기반해, 1.87배 높은 CPU MLPerf 성능을 보인다고 덧붙였다.

Copyright ⓒ Acrofan All Right Reserved



[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 권용만
Copyright © ACROFAN All Right Reserved