ACROFAN

엔비디아, 추론 서버 ‘트리톤’ 통해 마이크로소프트 트랜스레이터 품질 향상

기사입력 : 2022년 03월 25일 14시 16분
ACROFAN=Newswire | newswire@acrofan.com SNS
엔비디아(www.nvidia.co.kr, CEO 젠슨 황)는 자사 추론 서버 트리톤(Triton)을 통해 마이크로소프트(Microsoft)의 트랜스레이터(Translator) AI 품질과 효율성을 향상시킨다고 밝혔다. 엔비디아 GPU와 트리톤 추론 소프트웨어가 애저(Azure)와 함께 사용되면 강력한 AI 트랜스포머(transformer) 모델을 최초로 생산할 수 있다.

마이크로소프트 애저의 인지 서비스인 트랜스레이터는 더욱 많은 사람들의 의사소통을 지원하기 위해 세계에서 가장 큰 AI 모델 중 일부를 적용하고 있다. 트렌스레이터 개발팀 매니저 비샬 차우하리(Vishal Chowdhary)는 이에 대해 "멋진 이야기들이 정말 많다"고 말했다.

그 중에는 2010년, 7 강도의 지진이 일어난 아이티에서 구호 요원들을 돕던 애플리케이션에 아이티어 크리올(Creole)을 5일만에 빠르게 추가했던 사례가 있었다. 해당 소프트웨어를 통해 서로 멀리 떨어진 곳에서 자라면서 다른 언어를 사용하던 손주들과 조부모들이 처음으로 실시간으로 대화하도록 도운 사례도 있었다.

트렌스레이터의 목표

차우하리는 "우리의 비전은 수천 명의 개발자가 이미 사용하고 있는 API를 통해 모든 언어와 모달리티의 장벽을 허무는 일"이라고 전했다. 전 세계에서 사용되고 있는 언어가 약 7,000개임을 감안한다면 이는 야심찬 목표이다. 이에, 트렌스레이터 개발팀은 강력하고 복잡한 도구인 MoE(mixture of experts) AI 기술을 사용한다.

MoE 모델은 자연어 처리의 빠른 발전을 이끄는 트랜스포머 모델의 최첨단 기술에 속한다. 50억 개의 파라미터를 사용하기 때문에 자연어 처리를 위한 생산 분야에서 개발팀이 현재 보유한 가장 큰 모델보다 80배 더 크다. MoE 모델은 고도의 컴퓨팅 기술이기에 이를 생산으로 이어갈 수 있는 인력을 찾기란 어렵다. 또한 초기 테스트에서 CPU 기반 서버로는 이 모델을 사용해 1초 만에 문서를 번역해야 하는 개발팀의 요건을 충족하지 못했다.

속도를 27배 향상시킨 엔비디아 추론 서버 트리톤

그 후 개발팀은 이번 주 GTC 2022에서 발표한 엔비디아 AI 엔터프라이즈(Enterprise) 2.0 플랫폼에 속한 엔비디아 트리톤 추론 서버를 사용한 가속 시스템에서 테스트를 실시했다. 차우하리는 “엔비디아 GPU와 트리톤을 사용해 MoE 모델을 효율적으로 실행할 수 있었다”고 말했다. 실제로, 개발팀은 최적화되지 않은 GPU 런타임에 비해 최대 27배 향상된 속도를 달성했다.

테스트를 감독한 마이크로소프트의 수석 연구원인 해니 하산 아와달라(Hanny Hassan Awadalla)는 "우리는 각 작업에 대해 별도의 모델을 개발할 필요 없이 요약, 텍스트 생성 및 번역 등 여러 언어의 이해 작업을 한꺼번에 수행할 수 있는 하나의 모델을 구축할 수 있었다"고 말했다.

엔비디아 트리톤의 지원 방식

마이크로소프트의 모델은 문서 더미를 번역하는 엄청난 규모의 작업을 수백 개의 문장을 번역하는 작은 작업 여러 개로 나눈다. 트리톤의 동적 배치(batching) 기능은 GPU 기술을 최대한 활용하기 위해 이러한 많은 요청을 풀링한다.

개발팀은 CPU와 GPU 혹은 기타 가속기를 사용해 모든 모드로 모든 모델을 실행할 수 있는 트리톤의 성능을 높이 평가했다. 십년 넘게 대규모 분산 시스템을 개발해온 개발팀 매니저 비샬 차우하리는 “이는 제가 저를 위해 개발한 것처럼 저의 시나리오에 필요한 모든 기능이 잘 고려된 것 같았다"고 전했다.

트리톤 성공의 핵심은 두 개의 소프트웨어 구성 요소에 있다. 엔비디아는 MoE 모델을 지원하기 위해 추론 연산을 처리하는 소프트웨어 레이어인 패스터 트랜스포머(Faster Transformer)를 확장했다. 또한 MoE모델을 효율적으로 구현하기 위해 엔비디아 수학 라이브러리인 커트래스(CUTLASS)가 지원됐다.

4주 만에 시제품 검증

테스트는 복잡했지만 개발팀은 엔비디아 엔지니어들과 협력하여 트리톤을 사용한 엔드-투-엔드 시제품을 만들고 시행하는 데 한 달이 채 걸리지 않았다. 아와달라는 "그 기간 안에 배송 가능한 제품을 만들었던 건 정말 인상적이다"며 감사를 전했다.

또한 트리톤을 사용한 첫 경험이었지만, "이를 사용해 큰 노력을 들이지 않고 런타임 환경을 재설계하여 MoE 모델을 출하했다. 그래서 이제는 트리톤이 이 장기적 호스트(host) 시스템의 일부가 되었으면 좋겠다"라고 덧붙였다.

다음 단계

가속 서비스는 먼저 몇 개의 주요 언어를 통한 문서 번역 작업에서 시작해 적절한 단계로 거쳐 나갈 예정이다. 차우하리는 "결국 우리는 고객들이 우리의 모든 시나리오에서 이러한 새로운 모델의 장점을 경험하길 바란다"고 밝혔다.

이 작업은 마이크로소프트의 광범위한 이니셔티브에 속한다. 마이크로소프트는 오피스(Office) 및 팀즈(Teams)와 같은 광범위한 제품군은 물론 소형 IT 기업에서부터 포츈(Fortune) 500대 기업에 이르는 개발자 및 고객의 제품 발전을 촉진하는 것을 목표로 삼고 있다.

아와달라 팀은 지난 9월 엔비디아 A100 텐서 코어(Tensor Core) GPU에서 최대 2000억 개의 파라미터가 있는 MoE 모델 훈련에 관한 연구를 발표했다. 그 이후로 3000억 개 이상의 파라미터를 가진 모델에서 A100 GPU의 80G 버전을 사용해 추가로 속도를 8배 높일 수 있었다.

아와달라는 "특히 데이터가 많지 않은 언어들을 더 잘 구현하기 위해서는 모델들이 점차 더 확대될 필요가 있다"고 말했다.

Copyright ⓒ Acrofan All Right Reserved.

디지털 마케팅의 새로운 장을 만들다! 신개념 퍼포먼스마케팅 플랫폼 '텐핑'

[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 유재용
Copyright © ACROFAN All Right Reserved