ACROFAN

Arm 테크데이 2018 기자간담회

기사입력 : 2018년 06월 20일 11시 44분
ACROFAN=권용만 | yongman.kwon@acrofan.com SNS
Arm은 6월 19일 서울 중구 웨스틴 조선 호텔에서 ‘Arm 테크데이 2018 기자간담회’를 열고, 자사의 최신 IP 제품과 솔루션들을 소개했다. 이 자리에서는 2019년에 선보일 디바이스들을 위한 최신 프로세서, GPU, VPU IP와 함께, 엣지 디바이스에서의 머신러닝 가속을 위한 ‘프로젝트 트릴리엄’ 에 포함된 솔루션들, 초기 부담을 최소화하면서 Arm의 IP를 사용할 수 있는 ‘디자인 스타트’의 업데이트가 소개되었다.

Arm의 2019년형 최신 클라이언트 IP 플랫폼 솔루션은 향상된 생산성, 몰입형 AR/VR 및 게임, AI와 머신 러닝, UHD 8K 시청 경험 등에서의 사용자 경험 향상을 제시하며, 프로젝트 트릴리엄(Project Trillium) 플랫폼을 보완해 엣지 디바이스 레벨에서의 머신 러닝 및 AI 사용을 최적화한다. 이 중 새로운 Cortex-A76 프로세서 IP는 기존 세대 대비 40% 향상된 효율성과 함께 35%의 성능 향상을 제공해 스마트폰의 전력 효율을 유지하면서 랩톱 등급의 성능을 제공하며, 머신러닝 성능도 4배 향상되었다고 발표했다.

빠르게 성장하고 있는 고성능 모바일 게이밍, 크로스 플랫폼 게이밍 시장을 위한 Arm의 Mali-G76 GPU는 기존 세대 대비 30% 향상된 성능 밀도, 30% 향상된 에너지 효율을 제공하며, 머신러닝 성능 향상은 2.7배에 달한다. 또한 Mali-V76 VPU는 최대 60fps의 8K 디코드 또는 4개의 4K 60fps 디코드 등을 지원해, 4K 시대의 비디오 활용 경험을 확장함과 함께 본격적인 8K 비디오 시대의 토대를 제공한다. 이 외에도, 엣지 디바이스에서의 AI와 머신러닝 구현을 위한 플랫폼 ‘프로젝트 트릴리엄’의 머신러닝 프로세서와 2세대 사물 인식 프로세서, Cortex-M 프로세서를 대상으로 하는 ‘디자인 스타트’ 프로그램의 성과와 특징도 소개되었다.

 
▲이안 스마이스 Arm 클라이언트 사업부 마케팅 프로그램 수석 디렉터

이안 스마이스(Ian Smythe) Arm 클라이언트 사업부(IPG) 마케팅 프로그램 수석 디렉터는 먼저, 지난 1년간 Arm이 이룬 성과에 대해 소개했다. Arm은 지난 해 Cortex-A75, A55 등 새로운 프로세서 IP와 프리미엄 GPU인 Mali-G72, 메인스트림 급 GPU IP인 Mali-G52, G31 GPU IP 등을 선보인 바 있으며, 엣지 디바이스 레벨에서의 머신러닝 컴퓨팅 구현을 위한 ‘프로젝트 트릴리엄’도 소개했다고 밝혔다. 이 외에도 보안 측면에서 ‘플랫폼 시큐리티 아키텍처’와 Cortex-M 프로세서에서의 안티템퍼링 기술 등도 중요한 발표로 언급되었다.

Arm은 모바일 디바이스를 위한 최신 IP들을 선보이는 데 있어 가장 중요하게 보는 것으로 소비자 경험을 꼽으며, 혁신은 모든 성장을 견인하는 동력이라고 강조했다. 그리고 Arm 기반의 칩은 2017년 말 약 1,200억 개가 출하되었으며, 시장 점유율은 39%에 달하고 있다고 소개했다. 그리고 현재 소형 스마트 디바이스에서부터 랩톱, TV 등을 포함하는 ‘모바일과 소비자 디바이스’는 지속적인 성장이 기대되고 있으며, 모바일 게이밍 마켓 또한 빠르게 성장하는 시장으로, 특히 아시아 시장에서는 e-스포츠에서 선도적인 위치에 있고 ZTE, 샤오미, 레이저 등이 게이밍 특화 단말기를 선보이고 있기도 하다고 덧붙였다.

5G 또한 모바일 세계의 연결성에 있어 새로운 시대를 여는 계기로 기대되고 있다. 향후 5G로 인해 디바이스들이 어떻게 진화해 갈 지는 예측하기 쉽지 않지만, VR과 AR 등으로 상징되는 몰입형 경험이나, AI로 인한 디바이스와의 상호작용 방식의 변화 등이 주목받을 것으로 예상된다. 또한 언제 어디서나 디바이스를 통해 인터넷에 연결되는 시대에, 컴퓨팅 파워를 통한 고객 경험 향상과 함께 안전한 보안 플랫폼의 제공 또한 중요하다고 밝혔다. 한편 ‘진정한 모바일’에 대해서, Arm은 와이어 없이도 상시 연결될 수 있는 세계를 추구한다고 덧붙였다.

 
▲ 7nm 기반 Cortex-A76은 현재 제품 대비 큰 폭의 성능과 효율성 향상을 이룰 것으로 기대된다

2019년 선보일 디바이스들을 위한 최신 IP 제품에는 랩톱 급 성능을 스마트폰과 Arm 기반 PC에 제공하는 새로운 프리미엄 프로세서 Cortex-A76, 고성능 게이밍과 크로스플랫폼 경험을 제공하는 Mali-G76 GPU, 8K 시청 경험을 제공하는 Mali-V76 VPU 등이 대표적이다. 또한 Arm은 엣지 디바이스들에 인텔리전스 부여를 위해, 전체 IP에서 머신러닝 성능 향상에도 주안점을 두었으며, 머신러닝과 사물 인식을 위한 프로세서 IP를 통해 더욱 높은 수준의 프리미엄 경험을 제공한다고 덧붙였다.

무어의 법칙은 이제 과거만큼의 의미를 가지지는 않는다는 평이지만, Arm은 효율성을 유지하면서도전년 대비 평균 20% 가량의, 큰 폭의 성능 개선을 지속적으로 이루어 가고 있다는 점을 강조했다. 또한 최신 IP인 Cortex-A76의 성능 향상 폭은 여느 때보다 커서, 현 세대의 A75 대비 성능 향상 폭은 35%에 달하며, 이러한 큰 폭의 성능 개선은 랩톱 영역에서도 경쟁력을 높이는 요인이 되고 있다고 밝혔다. 랩톱 수준 성능을 스마트폰에서도 제공할 수 있다는 점을 강조하는 Cortex-A76은 DynamIQ 기술 기반에서 새로운 마이크로아키텍처의 도입으로 A75 대비 35%, A73 대비로는 두 배의 성능 향상을 제공하며, 더 긴 배터리 사용 시간과 향상된 생산성을 제공한다.

Arm은 7nm 공정 기반에서 3GHz 동작 속도로 구현된 Cortex-A76의 예측치로, 10nm 공정 기반에서 2.8GHz 동작 속도를 가지는 A75 대비 35% 높은 성능과 40% 향상된 에너지 효율, 4배 향상된 머신러닝 성능을 제시했다. 특히 열과 전력 소비량 측면의 제약이 동일한 상태에서도 35%의 성능 향상을 구현함으로써, 반응성 개선과 지속적인 성능 유지를 통한 사용자 경험 향상이 가능하다고 강조했다. 또한 A76은 7nm 공정 기반에서 3GHz 이상의 동작 속도 구현이 가능하며, 함께 구성할 수 있는 A55 리틀 코어의 L2 캐시 확장이나 4MB L3 캐시 구성, 메모리 시스템 최적화를 통해 전반적인 플랫폼 성능을 높이고, 프리미엄 경험을 제공할 수 있다고 덧붙였다.

A76의 순차처리 프론트엔드는 멀티레벨 분기 타겟 캐시 및 하이브리드 간접 예측기를 사용해 최대 처리량을 유지하면서 사이클당 4~8개의 명령어를 패치할 수 있다. 또한 4와이드 디코드 코어를 갖춰 사이클 당 최대 8개 작업을 비순차적 코어에 디스패치 함으로써 더 광범위한 영역에 대한 전력 최적화된 명령 창을 지원한다. 이와 함께, 쿼드 이슈 정수 유닛은 3개의 단순 ALU 및 1개의 다중 사이클 정수를 포함해 코어에 통합되며, 듀얼 이슈 네이티브 16B 벡터 및 부동소수점 유닛을 지원해, 기존 ARM 프로세서보다 두 배 많은 처리량과, 4배의 머신러닝 성능 개선을 제공한다.

 
▲ Mali-G76은 G72 대비 30% 향상된 성능 밀도와 에너지 효율성을 갖춘 것으로 소개되었다

 
▲ Mali-V76은 8K60 콘텐츠를 위한 대폭 강화된 성능을 선보였다

Mali-G76 GPU는 현재의 디바이스 대비 1.5배의 모바일 게이밍 성능을 제공할 수 있는 프리미엄 GPU IP 제품으로, 모바일 게이밍 시장의 성장 동력으로 꼽히는, 모든 플랫폼에서 동일한 조건의 경험을 제공하는 ‘크로스 플랫폼’ 게이밍 경험을 모바일의 다양한 제약 사항 아래에서도 만족스럽게 제공하면서, 에너지 효율 개선을 통해 게임 플레이 가능 시간을 더 연장한다고 밝혔다. Arm은 기존 G72 대비, G76이 30% 더 높은 면적당 성능, 30% 향상된 에너지 효율, 2.7배 향상된 머신 러닝 성능을 제공한다고 소개하며, 열과 전력 측면의 제약이 있는 모바일 디바이스에서도 지속적인 성능 제공이 가능해 동일한 작업에서 에너지 30% 절감, 혹은 동일한 에너지에서 30% 높은 성능을 제공한다고 덧붙였다.

G76은 4개에서부터 최대 20개까지의 쉐이더 코어 구성이 가능한 확장형 구조를 갖추고 있으며, 각 쉐이더 코어에는 세 개의 실행 엔진(execution engine)을 갖추고 있다. 또한 L2 캐시 슬라이스도 2개에서 4개까지 유연한 구성이 가능하다고 밝혔다. 이와 함께 듀얼 텍스쳐 맵퍼 도입으로 두 배 향상된 처리량을 제공하며, 레지스터 뱅크 수는 절반으로 줄이되 크기를 증가시켜, 면적과 에너지 효율 모두 향상되었다. 이 외에도 프리로드 최적화를 위한 기술이나, 캐시 개선 등이 적용된 것으로 소개되었다.

Mali-V76 VPU의 가장 큰 특징으로는 8K 60fps 콘텐츠의 지원이 꼽혔으며, V61 대비 두 배 향상된 디코드 성능과 함께 줄어든 면적에서도 강화된 역량을 제공한다고 소개되었다. V76은 V61 대비 디코드 성능은 두 배 향상되었으며, 인코딩 품질은 25% 개선되었고, 4K120 기준으로 40% 더 적은 면적에서 구현 가능하다. 그리고 8K 60fps 콘텐츠의 지원 역량은 4개의 4K 60fps 스트림이나 16개의 1080p FHD 스트림을 동시에 처리할 수 있도록 해, 콘텐츠 제공 업체에서의 고품질 미리보기 지원이나 비디오 월 구현 등 다양한 시청 옵션을 제공할 수 있다고 덧붙였다.

V76에서는 8K 스트림 처리에서 요구되는 4K60 스트림의 4배 대역폭을 구현하기 위해 AXI 버스를 추가하고, 비디오 파이프라인 전체에서 라인 버퍼를 두 배 확장했다. 또한 D71 등 디스플레이 프로세서와의 조합에서, 깜빡임 제거(Blink Removal) 기능은 사람이 인식하지 못했을 수도 있는 많은 시각적 인공음영을 부드럽게 처리해, 해상도와 프레임 속도 개선의 차원을 넘어서 시각적 품질을 향상시킬 수 있다. 한편, Arm은 펌웨어와 하드웨어의 통합에 있어, 지속적인 펌웨어 개선을 통해 기존 IP에도 이점을 제공하고 있으며, 향후에도 더욱 향상된 최적화와 개선을 제공할 예정이라고 소개했다.

 
▲ 이안 브랫 Arm 머신 러닝 기술 그룹의 디스팅귀시드 엔지니어 겸 기술 디렉터

Arm의 ‘프로젝트 트릴리엄’에 대한 소개는 이안 브랫(Ian Bratt) Arm 머신 러닝 기술 그룹의 디스팅귀시드(Distinguished) 엔지니어 겸 기술 디렉터가 진행했다. ‘프로젝트 트릴리엄’은 모든 디바이스를 위한 Arm의 머신러닝 지원 기술로, 머신러닝에 특화된 프로세서와 사물 인식(OD: Object Detection) 프로세서, 신경망 네트워크(NN: Neural network) 소프트웨어 라이브러리 등을 포함한다. 이 플랫폼은 주요 프레임워크와 애플리케이션, 알고리즘을 지원하는 ARM의 하드웨어와 소프트웨어 라이브러리로 구성되며, 특히 하드웨어에서도 파트너들의 IP를 포함할 수 있는 개방성을 갖춘 점이 특징이다.

머신러닝과 AI의 구현에 있어, 모든 데이터를 클라우드로 보내고 받는 것은 향후 폭증하는 디바이스로 인한 네트워크의 부담과 비용, 지연 시간 등에서 현실적인 문제가 예상되고, 이에 상당 부분을 엣지 레벨에서 효율적으로 처리하는 엣지 컴퓨팅 등의 기술이 주목받고 있다. 그리고 ARM은 머신러닝을 위한 프로세서 구현에 있어, 관련 워크로드의 특성을 살펴본 결과, 머신 러닝의 효율적인 실행을 위해서는 이를 위해 설계된 IP가 필요하며, 이 때 기존 프로세서와 GPU IP에서의 전문성을 활용해 프로그래머블 특성과 높은 처리량을 모두 갖출 수 있었다고 밝혔다.

Arm의 머신러닝을 위한 프로세서는 머신러닝 워크로드의 효율적 처리를 위해 개발되었으며, 손쉬운 배포를 위한 오픈 소스 기반의 스택을 갖추고 있고, IoT에서 서버와 자동차에 이르기까지 적용 가능한 아키텍처 확장성을 가지고 있다고 소개했다. Arm은 이 프로세서에 대해, 초기에는 모바일 시장을 위주로 하지만, 향후 IoT나 서버, 엔터프라이즈에 이르기까지 확장하는 것 또한 염두에 두고 있다고 덧붙였다. 2018년 중반 릴리즈 예정인 이 머신러닝 프로세서는 3TOP/W 이상의 효율과 4.6TOP/s의 성능을 목표로 하며, 중요한 특징으로는 효율적인 합성곱(convolution)과 데이터 이동, 프로그램 가능한 점과 유연성을 꼽았다

 
▲ Arm의 머신러닝 프로세서는 2018년 중반 릴리즈 예정이다

 
▲ ‘프로젝트 트릴리엄’의 하드웨어는 Arm 뿐 아니라 파트너의 IP들도 포함할 수 있다

Arm의 머신러닝 프로세서는 Cortex-M 기반의 컨트롤 유닛과 인터페이스를 위한 DMA 엔진, 16개의 컴퓨트 엔진을 갖췄고, 각 컴퓨트 엔진은 로컬 SRAM, 합성곱 연산을 위한 MAC 엔진, 비 합성곱 워크로드 처리를 위한 PLE(Programmable Layer Engine)을 갖추고 있다. 그리고 신경망 네트워크에서는 합성곱 연산이 전체 워크로드에서 많은 부분을 차지하며, 이는 MAC 엔진에서, 양자화된 도메인에서 8비트 데이터 타입으로 연산되고, SRAM에는 액티베이션 데이터와 웨이트가 저장되며, 액티베이션이 이루어지면 이를 다른 컴퓨트 엔진에 브로드캐스팅해 효율성을 높인다고 설명했다.

데이터 이동의 효율성에서는, 워크로드 수행시 전력 소비량의 절반 가까이를 차지하는 DRAM에서의 소비를 줄이기 위해, 데이터의 이동을 줄이기 위한 새로운 액티베이션 기법이나 GPU에서 사용되는 메모리 압축 기능 등을 활용하고, 컴파일러의 개선 등을 통해 DRAM 대역폭을 줄였다고 소개되었다. 또한 피쳐 맵(Feature Map)의 압축 기술에서는, GoogleNet v3에서 메타데이터를 포함해 3.3배의 압축률을 기록했다고도 덧붙였다. 프로그래밍 가능성 측면에서는 프로세서 기술 기반으로 벡터 연산 확장이나 신경망 네트워크 확장 기술을 갖추고, 새로운 워크로드나 연산자 추가에도 대응한다고 덧붙였다.

Arm의 사물 인식(OD) 프로세서는 이제 2세대 째로, FHD 60fps 환경에서 실시간 사물 인식이 가능하며, 사물 크기는 50*60픽셀 이상부터 가능하다. 또한 아주 상세한 캐릭터화가 가능해 사람들이 어느 방향을 향하고 어떤 제스처를 취하는지까지 탐지할 수 있다. 사물 인식 프로세서는 Arm의 프로세서나 GPU, 머신러닝 프로세서 등과 결합되어 실시간으로 물체를 인식하고 분석하는 일련의 과정을 구현, 향상된 사용자 경험을 제공할 수 있다. 한편, 소프트웨어 측면에서 Arm의 솔루션들은 텐서플로우 라이트, Caffe 2, 안드로이드 NNAPI 등을 지원하며, 임베디드 리눅스에서도 Arm NN SDK를 통해 역량을 활용할 수 있다고 덧붙였다.

 
▲ 디자인스타트 프로그램은 리스크를 최소화하면서 SoC를 만들 수 있는 길을 제공한다

Arm의 디자인스타트(DesignStart) 프로그램에 대한 소개는 이안 스마이스(Ian Smythe) Arm 클라이언트 사업부(IPG) 마케팅 프로그램 수석 디렉터가 진행했다. 웹 기반 인터페이스로 제공되는 ‘디자인스타트’ 프로그램을 통해 임베디드 개발자들은 Cortex-M0, M3 프로세서 기술, 수천 개의 물리 IP 라이브러리와 SoC 디자인들에 접근할 수 있고, 즉시 무료 다운로드와 평가 및 프로토타입 개발이 가능한 IP 액세스를 제공해 빠르게 상용 프로세서 개발에 착수할 수 있으며, 선행 라이선스 및 평가 비용을 제거해서 리스크가 낮은 성공 기반의 로열티 모델을 제공하는 것이 특징이다.

현재 디자인스타트 프로그램을 통해 제공되는 Cortex-M0, M3는 Arm의 프로세서 IP 중에서도 가장 광범위하게 사용되는 프로세서로, 2017년 기준 전체 출하된 1,200억 개 디바이스 중 280억 개가 이 M0, M3 기반의 SoC로 소개되었다. 이 프로그램은 평가 프로그램 ‘디자인스타트 Eval’ 을 통해 무료로, 빠르게 다운로드해 바로 사용 가능하며, 상용 제품의 개발을 위한 ‘디자인스타트 Pro’는 동일한 웹 인터페이스를 사용하지만 계약서가 존재하고, 1주일 이내에 등록 후 요금 선지불 없이 성공 기반의 로열티 모델이 적용된다.

지난 1년간 ‘디자인스타트 Eval’의 성과는 성공적인 것으로 평가되며, 지난 12개월 간 두 개의 프로세서 기반에서 3천명 이상의 사용자가 5천 번 이상의 다운로드를 만들었고, 이 중 25% 이상이 아시아에서 발생한 것으로 소개되었다. 애플리케이션 별로는 평가와 교육, 연구, 시스템 디자인 등에서 주로 활용된 것으로 조사되어, 다양한 분야에서 적용된 것으로 보인다고 덧붙였다. 또한 ‘디자인스타트 Pro’의 경우 지난 12개월간 300개 이상의 라이선스가 판매되었고, 이 중 40% 이상이 아시아 지역이었으며, 주로 스타트업이나 대규모 OEM, 반도체 기업, 학교 등에서 구매한 것으로 파악되었다고 밝혔다.

Arm의 Artisan 물리 IP 또한 SoC 구축을 위한 다양한 IP를 디자인스타트의 웹 기반 환경에서 제공하고 있으며, 18개의 파운더리 파트너와의 협력을 통해, 여러 파운더리에 쉽게 생산 배포를 결정하고 이전할 수 있게 한다고 소개되었다. 또한 선지급 금액이 없는 점도 특징으로, 다양한 제품에서 사용된 바 있다고 덧붙였다. 디자인스타트 프로그램은 스타트업 기업들에 리스크를 줄이고 빠른 제품화를 가능하게 하는데, 중국 Eigencomm의 사례에서는 디자인스타트 프로그램과 Artisan RAM IP 등을 사용하고, 회사는 NB-IoT 등의 핵심 역량에만 집중해 SoC를 구현했으며, 최적의 조건으로 대량 생산이 가능한 파운더리로의 이전 등도 가능했다고 소개되었다.

Arm은 고객의 SoC가 성공적으로 개발되기 위해서는 프로세서 IP의 제공 등에만 그치지 않고, EDA와 디자인, 파운드리 등에서의 협업은 물론 Arm이 제공하는 트레이닝이나 다양한 서비스, 개발이나 소프트웨어 등까지 고려해야 하며, Arm은 물론 파트너사들의 툴도 모두 포함되어야 한다고 밝히며, 디자인스타트 프로그램은 이를 모두 포함하는 360도 생태계를 갖추고 있다고 소개했다. 또한 ‘Arm 인증 디자인 파트너’ 프로그램을 통해서도 Arm의 IP, 지원과 교육 등을 제공하고 있다고 덧붙였다.

 
▲ 차세대 프리미엄 디바이스를 위한 Arm의 시스템 구성도는 대략 이런 모습이다


Copyright ⓒ Acrofan All Right Reserved.

디지털 마케팅의 새로운 장을 만들다! 신개념 퍼포먼스마케팅 플랫폼 '텐핑'

[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 유재용
Copyright © ACROFAN All Right Reserved