ACROFAN

자일링스-SK텔레콤 FPGA 기반 AI 가속기 구현 사례 발표 기자간담회

기사입력 : 2019년 11월 03일 00시 10분
ACROFAN=권용만 | yongman.kwon@acrofan.com | SNS
자일링스(Xilinx)와 SK텔레콤은 11월 1일 서울 강남구 그랜드 인터컨티넨탈 서울 파르나스 호텔에서 기자간담회를 열고, SK 텔레콤이 자사의 실시간 AI 기반 물리적 무단 침입 탐지 및 도난 감지 서비스를 강화하기 위해 자일링스의 알비오(Alveo) 데이터센터 가속기 카드를 채택했다고 발표했다. 자일링스의 알비오를 기반으로 한 SK텔레콤의 AI 추론 가속기(AIX)는 DNN을 활용해 정확하고 효율적으로 물리적 무단 침입을 감지할 수 있도록 하며, ADT캡스가 라이선스를 맺고 상업용으로 구축하게 된다.

SK텔레콤의 AI 기반 물리적 무단침입 감지 서비스인 티뷰(T view)는 수백만 고객의 상업용 및 가정용 카메라 시스템을 실시간으로 모니터링하고, 물리적 무단침입 상황이 발생하면 보안요원을 파견한다. 이 때, DNN을 이용해 수천 대의 카메라에서 전송되는 대규모의 데이터를 처리하기 위해서는 충분한 데이터 처리량과 정확도를 제공하는 강력한 AI 가속기가 필요하다. 티뷰는 자일링스의 알비오 U250 카드를 기반으로 구현된 SK텔레콤의 AI 추론 가속기(AIX)를 이용하며, SK텔레콤의 데이터센터 서버 상에서 실행되는 알비오 U250 카드는 도난 감지 서비스 데모에서 뛰어난 처리량과 높은 정확도를 제공하는 것으로 확인되었다고 소개되었다.

자일링스의 16nm 울트라스케일+(UltraScale+) 아키텍처를 기반으로 구현된 알비오 가속기는 변화하는 알고리즘 및 가속 요건에 적응이 가능하며, 하드웨어를 변경하지 않고도 다양한 작업부하에 따라 성능을 최적화하고, 총 소유비용을 절감할 수 있는 도메인 특화 아키텍처를 제공한다. 특히 데이터센터 AI 작업부하에서 요구되는 성능 및 유연성을 충족시킬 수 있도록 설계되었으며, GPU 대비 AI 기반 음성변환의 경우 10배 더 높은 성능과 비디오 분석 파이프라인의 경우 3배 더 뛰어난 처리량을 제공할 수 있다.

▲ 샘 로간 자일링스 APAC 지역 세일즈 총괄 부사장

▲ 박진효 SK텔레콤 ICT 기술센터장

샘 로간(Sam Rogan) 자일링스 APAC 지역 세일즈 총괄 부사장은 이 자리에서, 더 늘어나는 컴퓨팅 수요를 소화하기 위해 관건이 되는 것은 ‘성능’인데, 이를 정의하는 방법도 여러 가지 방법이 있다고 소개했다. 그리고 이 성능의 정의와 성능 향상의 방법도 바뀌어 오고 있는데, 프로세서의 단순한 동작 속도 경쟁에서부터 시작해 병렬 프로세싱, 멀티코어와 이종 코어의 조합 등이 이루어졌고, 그 과정에서 큰 폭의 성능 향상이 이루어졌지만, 다시금 성능 향상의 한계에 직면하고 있고, 자일링스는 차세대의 시스템 구성 형태로 ‘도메인 특화 아키텍처’를 제시했다.

이 ‘도메인 특화 아키텍처’는 최근 주목받고 있는 인공지능과 머신러닝 애플리케이션 등에서 더욱 주목받고 있다. 2012년 이후 지금까지 등장한 신경망의 모델만 20~30개에 이를 정도고, 초기의 모델에 비해 현재의 모델들은 병렬 처리나 비순차적 처리 방식을 사용할 수 있도록 해 처리 성능이 크게 높아지고 있다. 그리고 이러한 AI를 위한 신경망 모델이 최적의 성능을 발휘하기 위해서는 최적의 아키텍처가 필요하며, 아키텍처에서부터 최고의 성능을 내기 위해서는 맞춤화된 정밀도와 데이터패스, 메모리 계층 구조가 필요하다고 지적했다.

이 때, 이러한 특징을 구현하기 위해 사용할 수 있는 하드웨어는 GPU나 ASIC, FPGA 등이 꼽힌다. 이 중 GPU는 유연성이 높지만 전력소비와 지연시간이 크다는 문제가 있다. 또한 GPU의 단점을 극복하기 위해 로직을 하드웨어 상에서 고정하는 ASIC/ASSP의 경우에는, 설계에서 제품화에 이르기까지 시간이 걸려, 제품화가 끝날 때에는 이미 신경망 모델의 가치가 떨어지는 경우도 생긴다. 하지만 FPGA는 GPU, ASIC이 가진 문제를 모두 극복하고 지속적으로 빠르게 변화하는 신경망 모델의 변화에 빠르게 따라갈 수 있는 환경을 제공하며, 자일링스는 이를 위해 사용자들이 접근하기 쉬운 도구와 라이브러리를 개발하고, 기존의 모델 개발에 사용할 수 있는 고수준 언어를 FPGA에서도 사용할 수 있는 방법을 제공하고 있다고 강조했다.

SK텔레콤의 박진효 ICT 기술센터장은 기존의 통신사가 통신 이외의 ‘서비스’로의 영역 확장에 있어, 기존의 사업자들과 차별화할 수 있는 부분에 대해 ‘인공지능’의 활용이 필요하다고 생각했다고 소개했다. 그리고 SK텔레콤은 인공지능 서비스 ‘누구(NUGU)’를 가지고 있고, 이를 위해서는 인공지능을 위한 알고리즘과 소프트웨어의 개발이 필요하며, 개발한 소프트웨어와 알고리즘을 잘 사용하기 위해서는 적합한 ‘인프라’가 필요하다고 지적했다. 이에 SK텔레콤은 인공지능 서비스를 위한 인프라 연구에서 FPGA를 활용한 가속기에 착안했으며, 이번 사례는 SK텔레콤에 있어 세 번째의 활용이라고 밝혔다. 또한 향후 MEC에도 AI와 가속기가 활용될 것이며, 새로운 융합 서비스를 만드는 데 자일링스와의 협력이 중요하다고 덧붙였다.

▲ 이강원 SK텔레콤 클라우드랩스장

▲ 고성능의 AI 추론 환경을 위한 가속기 ‘AIX’

SK텔레콤의 이강원 클라우드랩스장은 이 자리에서, SK텔레콤의 ‘AIX’는 AI 서비스를 위한 추론 가속기의 프로젝트명이었다고 소개했다. 그리고 SK텔레콤은 현재 국내에서 가장 큰 규모의 무선통신 사업자이며, 미디어나 e커머스, 보안, 반도체에 이르기까지 다양한 영역에서 사업을 진행하고 있으며, 이 모든 영역에서 다양한 용도로 AI가 활용되고 있고, AI는 특정 영역을 위한 기술이 아니라 모든 영역에서 고객과 사회에 가치를 제공할 수 있는 기술이라고 밝혔다. 또한 이러한 AI의 활용에 있어, 영상분석이나 데이터 분석, 자연어 처리 등 ‘핵심’이 되는 AI 기술이 있으며, SK텔레콤은 이러한 기술들이 사업의 핵심 역량이 될 것으로 보고, 가속기의 개발 등을 진행해 오고 있다고 덧붙였다.

일반적으로 AI 서비스의 라이프사이클은 ‘훈련’과 ‘추론’으로 구성되는데, 이 중 ‘훈련’은 개발 단계에서 데이터센터의 특정 부분에서 진행되고, 지연 시간에 민감하지도 않으며, 주로 GPU 팜 환경에서 배치 작업으로 진행된다. 그리고 ‘추론’은 이렇게 개발된 AI 서비스가 실제 서비스를 제공하는 부분이며, 향후 더 많은 부분이 AI화 되었을 때, 추론 관련에 더욱 큰 시장 기회가 있을 것으로 예상된다. 또한 AI 추론 환경을 위한 서비스 인프라는 대규모 사용자를 대상으로 하며, 성능 뿐 아니라 비용과 전력 소비량도 중요해, 고성능과 고효율을 모두 만족시킬 수 있는 가속기가 효과적이라고 덧붙였다.

SK텔레콤의 AIX는 AI 추론을 위한 NPU(Neural Processing Unit)를 설계하고, 이를 자일링스의 FPGA에 탑재해 실제 서비스에 활용하는 형태다. 이 때, FPGA에 구현된 AIX 유닛은 HBM 등의 고성능 메모리와 함께 높은 성능을 제공할 수 있으며, FPGA는 PCIe 카드 형태로 상용 서버에 탑재되어 활용되는 구성이다. 또한 AIX를 위한 컴파일러와 라이브러리, 런타임 환경 등의 소프트웨어 스택이 준비되어 있으며, 소프트웨어 측면에서는 현재 많이 사용되는 프레임워크 환경을 지원하고 있고, 그 밑에 성능 최적화를 위한 모듈을 구성하고 있고, 사용자들의 편의성을 높이는 런타임 환경도 제공하고 있다고 설명했다.

▲ 알베오 U250 기반의 AIX로, 영상 환경에서의 침입탐지 처리를 가속화한 사례로 소개되었다

SK텔레콤은 자사의 AI 서비스들이 실험실 수준에서 만든 것이 아니며, 실제 서비스에서 활용하고 개선하는 작업을 반복해 왔다고 강조했다. 그리고 AIX는 ‘누구’ 스피커의 음성인식에 활용되어 기존의 GPU 기반 시스템 대비 높은 성능과 비용 효율을 얻은 바 있고, 콜센터의 STT(Speech to Text) 서비스 ‘바네사 스피치 노트’에도 AIX 가속기를 통한 실시간 STT 서비스를 제공했다고 소개했다. 또한 이 자리에서 소개한 ‘T view’의 사례에서, AIX는 영상 분석으로 그 활용 영역을 확대했으며, 지금까지 오탐이 많아 비효율적이었던 부분에서, AI 기반의 침입탐지 기술은 더욱 정확한 탐지와 높은 비용 효율을 얻을 수 있을 것이라 밝혔다.

이 ‘T view’의 사례에 활용된 하드웨어는 ‘알베오 U250’ 과 버텍스(Virtex) 기반의 FPGA 가 두 개 올라간 커스텀 카드의 두 가지로 소개되었다. 그리고 FPGA를 활용하는 AIX는 GPU 대비 두 배 이상의 비용 효율을 기대할 수 있으며, 지연 시간을 줄이면서도 많은 처리가 가능하고, 지연 시간의 제약 조건을 조금 풀더라도 GPU보다 좋은 성과를 얻을 수 있었다고 밝혔다. 또한 침입 탐지에 AIX를 활용함으로써, 지금까지 오탐이 많았던 환경에서 오탐으로 인한 현장 출동의 비효율을 줄이고, 정확하고 신속하게 침입 탐지를 수행해, AI가 출동 요청을 보낼 수 있는 환경을 구현했다.

한편, 5G 네트워크의 대두와 함께 ‘엣지 클라우드’는 사용자와 더 가까운 곳에 인프라와 서비스를 배치하고, 더 낮은 지연 시간의 장점을 기대할 수 있다. 이에 5G 네트워크에서 엣지 클라우드의 활용을 통해, 지금까지는 지연 시간 때문에 디바이스가 처리해야 했던 일들을 네트워크와 엣지 클라우드가 처리할 수 있도록 해, 디바이스 성능의 의존을 줄이고 더욱 ‘스마트’한 디바이스 활용의 확산을 기대할 수 있을 것이라 소개했다. 특히 AI 또한 네트워크 수준에서 처리해, 더욱 다양한 AI 서비스를 더욱 많은 사용자들에게 제공하고, 고객들에 새로운 가치를 제공할 수 있을 것이라고 덧붙였다.

▲ 아담 스크라바 자일링스 데이터센터 제품 마케팅 디렉터

아담 스크라바(Adam Scraba) 자일링스 데이터센터 제품 마케팅 디렉터는 이 자리에서, ‘적응형 플랫폼’과 바이티스(Vitis) 통합 소프트웨어 플랫폼에 대해 소개했다. 그는 먼저, 앞으로는 음성 기반의 AI 어시스턴트나 가정 보안, 리테일 환경 등에서 ‘실시간’ AI 서비스에 대한 수요가 늘어날 것으로 예상되는데, 이러한 목표의 달성은 그리 쉽지 않다고 밝혔다. 그리고 이를 달성하기 위해서는 ‘프로세서’ 중심의 컴퓨팅 아키텍처가 워크로드에 맞춤화된 형태로 바뀌어야 하며, 컴퓨팅은 스토리지, 네트워크와도 좀 더 긴밀하게 결합되는 형태로 발전할 것이라 기대했다.

앞으로의 서비스들이 요구할 높은 처리량과 저지연, 전력 효율성이나 최신 알고리즘의 빠른 적용 등의 특징을 만족시키기 위해서는, 차세대 컴퓨팅 환경도 소프트웨어, 하드웨어 양쪽에서 정의 가능한 ‘적응형 플랫폼’으로의 변화가 요구되고 있다. 또한 자일링스는 ‘알베오’ 데이터센터 가속기 카드를 통해 SK텔레콤 등 기업들이 당면한 문제들에 적절하게 대응할 수 있으며, 최신 아키텍처나 성능, 연결성 등이 모두 결합되고, 클라우드 서비스 등 다양한 영역에서 활용할 수 있으며, 무엇보다 하드웨어와 소프트웨어적 측면 모두에서 ‘적응형’ 특성이 제공된다고 강조했다.

자일링스는 ‘알베오’ 가속기 카드와 플랫폼을 위한 솔루션 스택을 제공하고 있으며, 알베오의 시장 진입 측면에서는 온프레미스와 클라우드 양쪽에서 활용할 수 있고, 이에 따라 채널 파트너 혹은 클라우드 사업자, 솔루션 제공자 등 다양한 방법이 가능할 것이라 소개했다. 그리고 알베오는 AI 추론 성능에서, 다양한 알고리즘과 워크플로우가 있는 상황에서 성능 목표를 달성하기 위한 효과적인 수단으로 활용할 수 있으며, HPC에서도 금융 리스크 모델링 등에서 전통적인 CPU/GPU 대비 수 배에서 수십 배의 성능 향상을 제공할 수 있다고 덧붙였다.

이러한 새로운 워크로드에서의 ‘적응형 하드웨어’의 활용에 있어, 자일링스의 ‘바이티스’ 통합 소프트웨어 플랫폼은 개발자들이 추상화를 좀 더 잘 진행할 수 있게 하고, 업계 표준 프레임워크 기반에서 애플리케이션을 개발하고 자일링스의 하드웨어를 최적의 형태로 활용할 수 있게 해, 개발 속도를 끌어올릴 수 있는 환경을 제공한다고 소개했다. 또한 ‘바이티스 AI’는 ‘도메인 최적화 아키텍처’ 개발 환경을 통합해, 업계에서 보편적으로 사용하는 프레임워크들과 사전 훈련된 AI 모델들을 통해, 사용자의 AI 모델이 자일링스의 하드웨어에서 최적으로 활용될 수 있도록 지원한다고 덧붙였다.

Copyright ⓒ Acrofan All Right Reserved



[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 권용만
Copyright © ACROFAN All Right Reserved