ACROFAN

인텔, ‘아키텍처 데이’ 통해 차세대 PC 제품들에 적용될 다양한 아키텍처 혁신 발표

기사입력 : 2021년 08월 20일 15시 18분
ACROFAN=권용만 | yongman.kwon@acrofan.com SNS
인텔(Intel)은 미국 현지시각 8월 19일에 온라인을 통해 개최한 ‘인텔 아키텍처 데이 2021’ 행사를 통해, 차세대 제품들에 적용될 최신 아키텍처에 대한 세부 사항들을 소개했다. 이 자리에서 인텔은 12세대 코어 프로세서로 선보일 ‘엘더 레이크(Alder Lake)’의 하이브리드 아키텍처, 차세대 인텔 제온 스케일러블 프로세서인 ‘사파이어 래피즈’, 새롭게 소개하는 인프라 처리 장치(IPU), 그래픽 아키텍처 제품군으로 Xe HPG와 Xe HPC아키텍처, ‘알케미스트’와 ‘폰테 배키오’ SoC 등 다양한 혁신 기술을 소개했다.

클라이언트 PC를 위해 설계된 12세대 코어 프로세서 ‘엘더 레이크’는 모든 워크로드 타입에 뛰어난 성능과 효율을 제공하기 위해 ‘퍼포먼스 코어(Performance Core)’와 ‘에피션트 코어(Efficient Core)’ 로 구성된 두 가지 코어 타입이 통합된 하이브리드 구조로 선보일 계획이다. 이 중 기존 ‘그레이스몬트(Gracemont)’로 알려졌던 ‘에피션트 코어’는 폭넓은 워크로드들에 효율적으로 대응하기 위해, 낮은 구동 전압과 전력 소비, 그리고 작업 부하에 맞춘 넓은 폭의 동작 속도와 뛰어난 확장성을 지원한다. 이 고효율 ‘에피션트 코어’는 기존의 ‘스카이레이크(Skylake)’ 마이크로아키텍처와 비교할 때 동일한 전력에서 40% 더 높은 성능, 혹은 동일한 성능을 40% 미만의 전력 소비로 제공하며, 4개 코어 구성은 2코어 4쓰레드의 스카이레이크 대비 80% 향상된 성능, 혹은 동일 성능을 80% 적은 전력 소비량으로 제공할 수 있다.

기존 코드명 ‘골든 코어(Golden Cove)’로 알려졌던 인텔의 새로운 ‘퍼포먼스 코어’는 짧은 대기 시간과 높은 단일 쓰레드 애플리케이션 성능에 최적화되었으며, 대용량 코드 애플리케이션을 보다 효과적으로 지원하고, 범용 성능에서 확실한 성능 개선을 제공한다. 이 퍼포먼스 코어는 기존 데스크톱 PC용 11세대 코어 프로세서에 사용되는 ‘사이프러스 코브(Cypress Cove)’ 대비 광범위한 워크로드에서 19% 정도의 IPC 향상과 함께, 차세대 내장 AI 가속화를 위한 인텔 어드밴스드 매트릭스 익스텐션(AMX: Advenced Matrix Extension)을 지원한다. 그리고 12세대 코어 프로세서는 서로 다른 성격을 가진 두 유형의 코어에 가장 적합한 작업을 할당하기 위해 ‘인텔 스레드 디렉터(Intel Thread Director)’로 명명된 향상된 스케줄링 기술을 활용하며, 마이크로소프트의 ‘윈도우 11’에서 최상의 성능을 발휘할 수 있도록 최적화했다고 발표했다.

인텔의 Xe 아키텍처 기반 제품군 중 PC 게이밍 시장을 위해 준비되고 있는 Xe HPG는 인텔 아크(Arc) 브랜드로 2022년 1분기에 첫 관련 제품이 선보일 예정이다. 기존 ‘DG2’로 알려진 알케미스트(Alchemist) SoC는 이제 생산 전 단계에 있으며, DirectX Ultimate 용으로 설계된 고정 기능을 갖춘 최대 8개의 렌더 슬라이스, 16개 벡터 엔진, 16개 매트릭스 엔진, 캐시 및 공유 로컬 메모리를 갖춘 새로운 Xe 코어, DirectX나 Vulcan을 지원하는 새로운 레이 트레이싱 장치 등을 갖춘 것이 특징이다. 또한 아키텍처와 로직 설계, 공정 기술 및 소프트웨어 최적화 등을 통해 Xe LP 대비 1.5배의 동작 속도 및 1.5배의 와트당 성능 향상을 제공하며, TSMC의 N6 공정을 사용해 제조될 계획으로 알려졌다.

▲ 인텔은 ‘아키텍처 데이’를 통해 차세대 제품들의 최신 아키텍처들을 소개했다 (자료제공: Intel)

▲ ‘에피션트 코어’만으로도 이전의 ‘스카이레이크’를 뛰어넘는 역량을 달성한다 (자료제공: Intel)

▲ ‘퍼포먼스 코어’는 아키텍처 차원의 확장과 함께, AI 워크로드를 위한 새로운 가속 기능을 제공한다 (자료제공: Intel)

인텔은 기존에 아톰 프로세서의 계보를 잇는 코드명 ‘그레이스몬트’로 알려진 ‘에피션트 코어’에서 중요하게 여긴 점으로 효율성, 작은 면적으로 구현하는 높은 밀도와 뛰어난 확장성, AVX 등의 벡터와 AI 연산에 유리한 명령어의 지원, 그리고 넓은 동작 속도 범위의 지원을 꼽았다. 그리고 이를 위해 아키텍처와 제조 공정 전반에 걸친 최적화를 진행해, 에피션트 코어는 저전압으로 작동해 전력 소비를 줄이고 더 넓은 동작 속도 범위를 구현해, 까다로운 작업 부하에 맞게 주파수를 높이고 성능을 향상할 수 있도록 했다. 이를 통해, 이 ‘에피션트 코어’는 기존의 ‘스카이레이크’ 대비 더 작은 면적에서 구현되면서, 동일한 전력으로 40% 더 높은 단일 쓰레드 성능을 제공하거나, 40% 미만의 전력으로 동일한 성능을 구현할 수 있고, 4개 에피션트 코어는 2코어 4쓰레드의 스카이레이크 대비 80% 더 높은 성능 혹은 80% 더 낮은 전력 소비로 동일 성능을 구현할 수 있다.

아웃 오브 오더(OoO: Out-of-Order) 아키텍처 기반의 ‘에피션트 코어’는 64KB의 명령어 캐시와 5,000개의 엔트리 분기 타겟 캐시를 통해 보다 정확한 분기 예측이 가능해졌다. 또한 에너지 효율성을 유지하면서 사이클당 최대 6개의 명령어를 디코딩할 수 있는, 클러스터링된 OoO 디코더와, 시전 디코딩 정보를 생성하는 온디맨드 방식의 명령어 길이 디코더를 갖춘 것도 특징이다. 백엔드에서는 5폭 할당 및 8폭 리타이어, 256개 엔트리 아웃 오브 오더 윈도우 및 17개의 실행 포트 등 폭넓은 백엔드를 갖추었으며, 특히 AVX 등 벡터 연산을 위한 명령어 지원이 포함된 것이 특징이다. 이와 함께, 인텔 제어 흐름 적용 기술 및 인텔 가상화 기술 리디렉션 보호 지원으로, 뛰어난 수준의 보안성을 제공한다. 메모리 서브시스템에서도 듀얼 로드, 듀얼 스토어 구성과 함께 최대 4MB의 L2 캐시 구성, 고급 프리페처, 인텔 리소스 디렉터 기술 지원 등이 제공된다.

기존 코드명 ‘골든 코브(Golden Cove)’로 알려졌던 인텔의 새로운 퍼포먼스 코어(Performance core) 마이크로아키텍처는 병렬화를 높이고, 레이턴시를 줄이고 범용 성능을 높이기 위해 더 넓고, 깊으며 스마트한 아키텍처로 설계됐다. 또한 대용량 데이터 및 많은 코드가 필요한 애플리케이션도 지원한다. 퍼포먼스 코어는 동일한 클럭스피드로 데스크톱 PC용 11세대 코어 프로세서의 ‘사이프레스 코브(Cypress Cove)’ 대비 광범위한 워크로드에서 기하평균으로 약 19% 더 높은 성능을 제공한다. 또한 이 퍼포먼스 코어는 전용 하드웨어와 행렬 곱셈 연산을 위한 인텔의 새로운AMX(Advanced Matrix Extensions)기술을 지원, 기존의 AVX-512 대비 최대 8배 이상 AI 워크로드 성능을 가속할 수 있다.

퍼포먼스 코어의 아키텍처는 보다 광범위하고 심층적이며 스마트한 구조로 구성되었다. 프론트엔드는 기존보다 두 개 늘어난 6개 디코더, 두 개 늘어난 8개 마이크로-오퍼레이션 캐시 등을 갖추고, 전반적으로 확장된 명령어 캐시 구조와 함께 더욱 정밀해진 분기예측 기술이 적용되었다. 아웃 오브 오더 엔진 또한 기존보다 한 개 늘어난 6개의 할당, 두 개 늘어난 12개 실행 포트 등으로 확장되었으며, 512 엔트리 리오더 버퍼와 더 넓은 스케줄러 크기를 갖췄다. 그리고 두 개 늘어난 실행 포트 중 하나는 정수 연산에, 나머지는 메모리 서브시스템 쪽에 할당되었다. 벡터 연산 유닛에서는 새로운 고속 덧셈기(FADD), FMA 유닛에서의 FP16 형식 지원이 추가되었다. 이 외에도, 메모리 서브시스템의 추가 포트를 통한 성능 향상과 함께, 클라이언트에서는 1.25MB, 데이터센터에서는 2MB의 캐시를 제공하며, 캐시 효율 또한 높아졌다고 덧붙였다.

▲ 12세대 코어 프로세서로 선보일 ‘엘더 레이크’는 하이브리드 형태의 코어 구성으로, 폭넓은 클라이언트 시장에 유연하게 대응한다 (자료제공: Intel)

▲ ‘인텔 스레드 디렉터’는 서로 상이한 성격의 코어가 함께 있는 하이브리드 구성에서 가장 적합한 형태로 워크로드를 할당할 수 있게 한다 (자료제공: Intel)

12세대 코어 프로세서로 선보일, 코드명 ‘엘더 레이크(Alder Lake)’로 알려진 인텔의 차세대 클라이언트 아키텍처는 폭넓은 워크로드 유형에 가장 적합한 대응을 위해, ‘퍼포먼스 코어’와 ‘에피션트 코어’가 단일 프로세서에 함께 구성되는 하이브리드 형태가 특징이다. 그리고 인텔의 하이브리드 아키텍처 기반 프로세서를 위한 ‘인텔 스레드 디렉터(Intel Thread Director)는 단일 프로세서 내에 구성된 상이한 성격의 코어들을 적절하게 활용하기 위한 방법으로, 코어에 직접 내장된 인텔리전스를 통해 운영체제와 원활하게 상호 작용하고, 동적, 지능적으로 적절한 위치에 워크로드를 할당하고 시스템을 최적화해 실제 성능과 효율성을 극대화한다. 한편, 인텔은 마이크로소프트와 협력해 윈도우 11에서 최상의 성능을 발휘할 수 있도록 스레드 디렉터를 최적화했으며, 개발자가 스레드에 대한 속성을 API로 지정할 수 있고, 스레드가 전력 효율성을 선호하는지 스케줄러에 알려주는 새로운 EcoQoS 분류를 적용했다고 언급했다.

하이브리드 구성의 멀티코어 아키텍처를 갖춘 ‘엘더 레이크’는 TDP 125W의 데스크톱 PC에서 TDP 9W 급의 울트라 모바일 세그먼트에 이르기까지 폭넓은 클라이언트 시장에 대응하며, 데스크톱 용의 LGA1700, 모바일에서의 BGA Type3, 울트라 모바일의 BGA Type4 HDI 등 세 가지 폼팩터로 구현된다. 그리고 모든 폼팩터에서 주요 IP 블록들을 공유해 가장 적절한 형태로 구성하며, 데스크톱에서는 최대 8개의 퍼포먼스 코어, 8개의 에피션트 코어, 32EU 구성 GPU 등을 갖추고, 모바일에서는 최대 6개의 퍼포먼스 코어, 8개의 에피션트 코어, 96EU의 GPU, IPU, 썬더볼트 지원 등을 제공하며, 울트라 모바일에서는 최대 2개의 퍼포먼스 코어, 8개의 에피션트 코어, 96EU의 GPU, IPU, 썬더볼트 지원 등을 제공한다.

엘더 레이크의 메모리 구성에서는, 기존의 DDR4-3200, LPDDR4x-4266과 새로운 DDR5-4800, LPDDR5-5200을 함께 지원하며, PCIe 또한 PCIe 5 규격을 지원해, x16 레인에서 기존 대비 두 배 늘어난 최대 64GB/s의 대역폭을 지원할 것으로 소개되었다. 프로세서 내부의 인터커넥트 성능 또한 향상되었으며, 컴퓨트 패브릭은 최대 1000GB/s, I/O 패브릭은 최대 64GB/s, 메모리 패브릭은 최대 204GB/s의 성능을 제공한다. 한편 컴퓨트 패브릭의 대역폭은 코어 또는 클러스터당 100GB/s의 대역폭이며, 실제 패브릭 로드에 따라 지연시간이나 대역폭 최적화를 위한 데이터 경로를 동적으로 선택할 수 있고, LLC 정책 또한 활용률 기반으로 포함(inclusive)과 비포함(non-inclusive) 사이에서 동적으로 조정할 수 있다.

▲ Xe HPG 기반 ‘알케미스트’는 최대 8개 렌더 슬라이스로 확장되는 구조를 갖췄다 (자료제공: Intel)

▲ XeSS는 성능에 대한 부담을 최소화하면서 높은 품질의 그래픽을 구현할 수 있게 한다 (자료제공: Intel)

인텔의 Xe 그래픽 마이크로아키텍처는 이전 세대들 대비 큰 폭의 성능 향상을 달성한 바 있으며, 인텔은 이 아키텍처를 다양한 시장에 적합한 형태로 확장한다는 계획을 제시한 바 있다. 이러한 계획 중에서, Xe HPG는 PC에서의 게이밍 및 콘텐츠 제작 워크로드를 위한 성능 요구에 대응하도록 구성되었으며, 새로운 Xe-코어, 연산 중심의 프로그래밍 및 확장 기능 요소, 다이렉트X 12 얼티밋(DirectX 12 Ultimate) 지원 등의 특징을 제공한다. 또한 Xe 코어에 내장된 뉴 매트릭스 엔진(New Matrix Engine) 혹은 Xe 매트릭스 익스텐션(XMX)은 고성능 및 고화질 게임을 가능하게 하는 새로운 업스케일링 기술인 XeSS와 같은 인공지능 워크로드를 가속화한다. 기존 코드명 DG2로 알려진 Xe HPG 기반의 제품은 ‘알케미스트(Alchemist)’로 명명되어, 2022년 1분기 새로운 인텔 아크(Intel Arc) 브랜드로 출시될 예정이다.

Xe HPG 마이크로아키텍처 기반 ‘알케미스트’ SoC의 Xe 코어는 16개의 벡터 엔진, 16개의 매트릭스 엔진(XMX: Xe Matrix eXtensions), 캐시 및 공유 로컬 메모리로 구성되며, 렌더 슬라이스는 4개의 Xe 코어와 4개의 DirectX, Vulcan을 지원하는 레이 트레이싱 유닛을 갖추고 있다. 또한 지오메트리나 레스터라이제이션 파이프라인, 샘플러, 픽셀 백엔드 등은 DirectX 12 Ultimate를 지원하는 고정 기능 블록으로 구현되어 있다. 이러한 렌더 슬라이스는 메모리 패브릭과 캐시를 공유하며 최대 8개까지 확장된다. 한편, 인텔은 이 Xe HPG가 아키텍처, 로직 설계, 공정 기술 및 소프트웨어 최적화 등을 적용해, Xe LP 대비 동작 속도 1.5배 향상, 와트당 성능 1.5배 향상을 달성했으며, TSMC의 N6 공정으로 제조될 것이라 덧붙였다.

이와 함께, 인텔은 이미지 품질과 성능을 양립시킬 수 있는 업스케일링 기술로 XeSS 기술을 소개했다. 이 기술은 알케미스트가 내장한 XMX AI 가속 기술을 활용하며, 딥러닝 기술을 활용해 기본 고해상도 렌더링 품질에 가까운 이미지를 성능 영향을 최소화하면서 얻을 수 있다. 이를 통해, 낮은 품질의 설정이나 낮은 해상도에서만 플레이 가능한 게임도 고품질 및 고해상도에서 매끄럽게 구동될 수 있다. XeSS는 모션 보정된 이전 프레임 뿐 아니라 인접 픽셀에서 하위 픽셀 세부 정보를 재구성해 작동하며, 재구성은 높은 성능과 우수한 품질을 전달하도록 훈련된 신경 네트워크에 의해 수행된다. 한편, 인텔은 XeSS가 알케미스트의 XMX 뿐 아니라, 광범위한 하드웨어에서 활용할 수 있는 DP4a 명령어 세트로도 구현될 수 있으며, XMX 버전의 SDK는 이번 달에 가용 가능하고, DP4a 버전은 올해 말 출시 예정이라 소개했다.


Copyright ⓒ Acrofan All Right Reserved.

디지털 마케팅의 새로운 장을 만들다! 신개념 퍼포먼스마케팅 플랫폼 '텐핑'

[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 유재용
Copyright © ACROFAN All Right Reserved