엔비디아, 트랜스포머 모델 통해 다양한 산업 내 AI 분야 혁신

산업	경제	테크	게임	자동차	미디어	사회	생활	테마	사진	영상	연재
일반 항공/방산 물류/운송 건설/토목 에너지 기계 소재 바이오/메디컬 식품 뷰티 패션 육아	일반 정책 금융 증권 부동산 스타트업 프랜차이즈 리테일 해외	컴퓨터 모바일 기기 부품 엔터프라이즈 통신 인터넷 보안 리뷰 소식	PC 콘솔 모바일 eSports 개발 리뷰 소식	자동차 오토모티브 애프터마켓 자동차문화 교통 리뷰 소식	방송 연예 영화 음악 한류 리뷰 소식	일반 국회 법원 정부 교육 과학 환경 고용 복지 언론 사회공헌 오피니언	일반 여행 여가 맛집 축제 행사 지역 국제 책 종교 건강 스포츠	테마	사진	영상	연재

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망인 ‘트랜스포머(Transformer)’ 모델을 통해 AI 분야를 가속한다고 밝혔다. 더불어, 엔비디아는 다양한 분야의 선도기업에 트랜스포머 모델을 지원하고 있다고 밝혔다.

- 트랜스포머 모델이란

트랜스포머 모델은 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망을 의미한다. 어텐션(attention) 또는 셀프어텐션(self-attention)이라 불리며, 진화를 거듭하는 수학적 기법을 응용해 서로 떨어져 있는 데이터 요소들의 의미가 관계에 따라 미묘하게 달라지는 부분까지 감지한다.

구글(Google)의 2017년 논문에 처음 등장한 트랜스포머는 지금까지 개발된 모델 중 가장 새롭고 강력한 성능을 보여주며, ‘트랜스포머 AI’라 불리는 머신 러닝계의 혁신을 주도한다. 스탠퍼드대학교 연구진은 2021년 8월에 발표한 논문에서 트랜스포머를 ‘파운데이션 모델(foundation model)’로 일컬은 바 있다. 연구진은 해당 모델들이 AI의 패러다임 변화를 견인할 것이라 전망했으며, “지난 몇 년 사이 등장한 파운데이션 모델의 놀라운 규모와 범위는 상상을 뛰어넘는 수준으로 그 범주를 넓혀왔다”고 설명했다.

- 트랜스포머 모델의 기능

트랜스포머는 텍스트와 음성을 거의 실시간으로 옮겨 청각 장애인 등 다양한 청중의 회의와 강의 참여를 지원한다. DNA의 유전자 사슬과 단백질의 아미노산에 대한 이해를 도와 신약 디자인을 가속하기도 한다.

트랜스포머는 트렌드와 이상 징후를 감지해 부정 방지, 제조 간소화, 온라인 추천, 헬스케어 개선 등에 기여한다. 구글이나 마이크로소프트 빙(Microsoft Bing)에서 검색할 때에도 트랜스포머를 사용한다.

- 트랜스포머 AI의 선순환

순차적 텍스트나 이미지, 비디오 데이터를 사용하는 애플리케이션은 무엇이든 트랜스포머 모델이 될 수 있다. 이는 트랜스포머 AI의 선순환으로 이어진다. 대규모 데이터세트로 구축된 트랜스포머는 정확한 예측을 통해 효과적인 쓰임새를 찾아내고, 이로 인해 더 많이 생성한 데이터로 개선된 모델을 구축할 수 있다.

엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 GTC 2022 키노트에서 트랜스포머가 “자기지도(self-supervised) 학습을 가능하게 하고, AI가 초고속으로 움직이게 만든다”고 설명했다.

- CNN과 RNN을 대체하는 트랜스포머

불과 5년 전까지 가장 인기 있는 딥 러닝 모델로 손꼽혔던 합성곱과 순환 신경망(CNN과 RNN)은 현재 트랜스포머가 대체하고 있다.

실제로 지난 2년간 아카이브(arXiv)에 게재된 AI 관련 논문의 70%에 트랜스포머가 등장한다. 2017년 전기전자학회(IEEE) 논문에 패턴 인식 분야의 최고 인기 모델로 RNN과 CNN이 보고됐다는 사실을 감안하면 이는 아주 전위적인 변화이다.

- 라벨링은 없애고 성능은 높이고

트랜스포머의 등장 전까지는 라벨링된 대규모 데이터 세트로 신경망을 훈련해야 했다. 이런 데이터 세트들은 구축에 많은 시간과 비용이 소요된다. 트랜스포머는 요소들 사이의 패턴을 수학적으로 찾아내기에 이러한 과정을 필요로 하지 않는다. 따라서, 수조 개의 이미지와 페타바이트(petabytes)급 텍스트 데이터를 웹과 기업 데이터베이스에서 사용할 수 있다.

이에 더해 트랜스포머가 사용하는 연산은 병렬 프로세싱에 적합하기에 모델의 실행 속도 또한 빨라진다. 현재 트랜스포머는 2019년 언어 처리 시스템용으로 개발된 벤치마크인 수퍼글루(SuperGLUE) 등의 유명 성능 리더보드들을 압도한다.

- 트랜스포머와 어텐션

신경망 대부분이 그렇듯 트랜스포머 모델도 기본적으로 데이터를 처리하는 대형 인코더/디코더 블록에 해당한다. 이 블록에 작지만 전략적인 요소들을 추가해(하단 그림 참고) 트랜스포머를 개선할 수 있다.

트랜스포머는 네트워크에 송수신되는 데이터 요소에 위치 인코더로 태그를 지정한다. 이 태그를 따라 어텐션 유닛이 데이터 요소 간의 관계를 보여주는 일종의 대수 지도(algebraic map)를 계산한다. 어텐션 쿼리는 멀티헤드 어텐션(multi-headed attention)이라 불리는 방정식들의 행렬을 계산해 대개 병렬로 실행된다. 이러한 도구들을 활용해 컴퓨터는 인간의 눈에 비치는 패턴을 똑같이 볼 수 있게 된다.

- 의미를 찾는 셀프어텐션

예를 들어, “그녀는 주전자의 물을 컵에 따랐다. 그것이 가득 찰 때까지” 라는 문장에서 ‘그것’은 컵을 의미한다. 또한 “그녀는 주전자의 물을 컵에 따랐다. 그것이 텅 빌 때까지”라는 문장에서 ‘그것’은 주전자를 의미한다.

구글 브레인(Google Brain)의 수석 연구원으로 앞서 언급된 2017년 논문 연구를 이끈 아시시 바스와니(Ashish Vaswani)에 따르면 “의미는 사물 간 관계의 결과이고, 셀프어텐션은 관계를 배우는 일반적 방법이다. 기계 번역은 단어 사이의 가깝고 먼 관계들을 파악해야 하는 셀프어텐션의 확립에 좋은 수단이다. 이제 셀프어텐션은 강력하고 유연한 학습의 도구로 완전히 자리매김했다”고 말했다.

- 트랜스포머의 탄생

신경정보처리시스템학회(NeurIPS)의 2017년 컨퍼런스에 발표된 논문에서 구글 팀은 자신들이 개발한 트랜스포머가 기계 번역에서 기록한 정확도를 함께 공개했다. 해당 모델의 경우 다양한 기법과 더불어 8개의 엔비디아 GPU를 활용해 3.5일만에 훈련을 완료했다. 기존 모델과 비교하면 미미한 수준의 시간과 비용을 들였으며, 최대 10억 개의 단어쌍으로 구성된 데이터 세트에서 훈련했다.

2017년 당시 구글 인턴으로 연구에 참여한 에이단 고메즈는 “논문을 제출하기까지 3개월간 전력으로 질주했다. 논문 제출을 앞둔 밤, 아시시와 나는 구글에서 밤을 샜다. 조그만 회의실에서 두어 시간 정도 눈을 붙이기로 했다. 그날 밤에 아시시는 트랜스포머가 대형 사건이 될 테고, 게임의 판도를 완전히 바꿔놓을 것이라 말했다. 나는 그렇게까지 확신하지는 못했다. 벤치마크에서 괜찮은 결과를 얻을 것 정도로만 생각했다. 하지만 아시시의 말이 옳았다”고 회상했다. 그는 현재 트랜스포머 기반 언어 처리 서비스를 제공하는 스타트업 코히어(Cohere)의 CEO이다.

- 머신 러닝계의 중대 사건

바스와니는 페이스북(Facebook) 팀이 CNN으로 진행한 유사 연구 결과를 트랜스포머가 능가하던 당시를 생생하게 기억한다고 말했다. 그는 “이것이 머신 러닝계의 일대 사건이 되리라는 것을 알 수 있었다”고 밝혔다.

1년 후 또다른 구글 팀이 트랜스포머로 텍스트 시퀀스의 포워드와 백워드 처리를 시도했다. 이를 통해 단어들 간의 관계를 더 많이 포착하고, 문장의 의미를 이해하는 모델의 능력을 개선했다. 이들이 개발한 BERT(Bidirectional Encoder Representations from Transformers) 모델은 11개의 신기록을 세웠고, 구글 검색 알고리즘에 포함됐다.

전세계 연구자들은 언어와 산업 전반의 활용 사례에 앞다퉈 BERT 모델을 도입했다. 20년간 머신 러닝을 연구한 베테랑 앤더스 아프테그(Anders Arpteg)에 따르면 “텍스트는 기업이 보유하고 있는 가장 일반적인 데이터 유형의 하나이기 때문”이다.

- 트랜스포머 활용하기

트랜스포머 모델들은 과학과 헬스케어에 도입됐다. 런던 딥마인드(DeepMind)는 최근 <네이처(Nature)> 지에 소개된 트랜스포머인 알파폴드2(AlphaFold2)를 활용해 생명체의 빌딩 블록에 해당하는 단백질 연구를 개선하고 있다. 이 모델은 아미노산 사슬을 문자줄처럼 처리하는 혁신을 통해 단백질이 접히는 방식을 설명하고 신약 발견을 가속한다.

엔비디아와 아스트라제네카(AstraZeneca)는 신약 개발용 트랜스포머인 메가몰바트(MegaMolBART)를 구축했다. 아스트라제네카가 보유한 몰바트 트랜스포머의 다른 버전인 메가몰바트는 라벨링되지 않은 대규모 화합물 데이터 세트에서 대형 트랜스포머 모델 구축용 프레임워크인 엔비디아 메가트론(Megatron)을 사용해 훈련됐다.

- 분자와 의료 기록 읽기

작년에 메가몰바트가 발표되던 당시 아스트라제네카의 올라 잉크비스트(Ola Engkvist) 분자AI와 발견과학, 연구개발 부문 책임자는 “AI 언어 모델이 문장 속 단어들의 관계를 학습하듯, 우리의 목표는 분자 구조 데이터로 훈련된 신경망이 실제 분자 속 원자들의 관계를 학습할 수 있게 되는 것”이라고 말했다.

플로리다대학교 학술의료센터는 엔비디아 연구진과 협업해 게이터트론(GatorTron)을 구축했다. 이 트랜스포머 모델은 방대한 양의 임상 데이터에서 인사이트를 추출해 의료 연구를 가속한다.

- 트랜스포머의 성장

이 과정에서 연구자들은 트랜스포머의 규모가 클수록 성능도 좋아진다는 사실을 발견했다. 일례로 AI와 생물학 접목 연구의 선구자인 뮌헨공과대학교 소속 로스트랩(Rostlab) 연구진은 자연어 처리를 활용해 단백질을 연구하고 있다. 9,000만 개의 매개변수를 가진 RNN에서 5억 6,700만 개의 매개변수를 가진 트랜스포머 모델들로 18개월에 걸쳐 이동했다.

오픈AI(OpenAI) 랩은 GPT(Generative Pretrained Transformer)를 통해 대규모 모델의 우수함을 증명했다. 최신 버전인 GPT-3의 경우, GPT-2에서는 15억 개였던 파라미터 수가 1,750억 개로 늘었다. GPT-3는 특별히 따로 훈련하지 않은 작업에서도 사용자의 쿼리에 응답할 수 있다. 시스코(Cisco)와 IBM, 세일즈포스(Salesforce) 등의 기업에서 이미 사용되고 있다.

- 메가 트랜스포머

엔비디아와 마이크로소프트는 지난 11월 5,300억 개의 파라미터를 가진 MT-NLG(Megatron-Turing Natural Language Generation) 모델을 발표하면서 대형 트랜스포머의 정점을 찍었다. 이 모델은 새로운 프레임워크인 엔비디아 네모(NeMo) 메가트론과 함께 공개됐다. 어떤 기업이든 십억 또는 조 단위의 파라미터를 보유한 자체 트랜스포머를 개발할 수 있도록 지원해 커스텀 챗봇과 개인 어시스턴트 등 언어를 이해하는 AI 애플리케이션을 개선하는 것이 목표이다.

MT-NLG는 2021년 11월 엔비디아 GTC 키노트에 등장한 TJ, 즉 토이 젠슨(Toy Jensen) 아바타의 브레인으로 공식 데뷔전을 치른 바 있다. 이 모델의 훈련 담당팀을 이끈 모스토파 팻워리(Mostofa Patwary)는 “TJ가 젠슨 황 CEO의 질문에 답하고 우리가 진행한 작업의 위력을 입증했을 때 무척 기뻤다”고 말했다.

MT-NLG는 수천억 개의 데이터 요소를 사용해 훈련됐으며, 이 과정은 수천 개의 GPU를 동원해 수주일 동안 계속됐다. 모스토파 팻워리는 “대규모 트랜스포머 모델의 훈련은 많은 비용과 시간을 요하기 때문에 최초 한두 번의 시도에 성공하지 못하면 프로젝트 자체가 취소될 가능성이 있다”고 강조했다.

- 조 단위의 파라미터를 가진 트랜스포머

오늘날 많은 AI 엔지니어들이 조 단위의 파라미터를 보유한 트랜스포머와 이들을 위한 애플리케이션을 개발한다. 팻워리는 “우리는 이 같은 대형 모델의 더 우수한 쓰임새를 끝없이 탐색하고 있다. 모델의 성능과 규모 개선에 도움이 되도록 실패 사례의 면면도 함께 연구한다”라고 설명했다.

이러한 모델들에 필요한 컴퓨팅 능력을 제공하기 위해 엔비디아가 내놓은 최신 액셀러레이터인 엔비디아H100 텐서 코어(Tensor Core) GPU는 트랜스포머 엔진을 탑재하고 새로운 FP8 포맷을 지원한다. 이는 훈련 가속화와 정확도 유지를 동시에 달성한다. 젠슨 황 CEO는 다양한 혁신들 덕분에 “트랜스포머 모델의 훈련이 수주일에서 수일로 단축될 수 있다”고 전망했다.

- 트랜스포머 강화하는 MoE

지난해 구글 연구진은 최초의 조 단위 파라미터 모델인 스위치 트랜스포머(Switch Transformer)를 선보였다. AI 희소성(sparsity)과 복잡한 MoE(mixture-of experts) 아키텍처 등의 혁신을 활용해 언어 처리 성능을 개선하고 사전 훈련 속도를 최대 7배까지 높였다.

마이크로소프트 애저(Azure)의 경우 엔비디아와 협업을 통해 트랜스레이터(Translator) 서비스용 MoE 트랜스포머를 구현했다.

- 트랜스포머의 과제 해결하기

일각에서는 파라미터의 개수가 더 적고 단순하면서도 대규모 모델과 비슷한 성능을 제공하는 트랜스포머의 개발을 진행 중이다. 고메즈 코히어 CEO는 딥마인드의 레트로(Retro) 모델을 예로 들며 “검색 기반(retrieval-based) 모델의 가능성을 보고 또 하나의 돌파구를 찾은 듯해 무척 기뻤다”고 말했다. 검색 기반 모델은 데이터베이스에 쿼리를 제출해 학습한다. 그는 이어서 “지식들이 모여 있는 거점에 무엇을 넣을지 선택할 수 있어 좋다”고 덧붙였다.

스텔스(stealth) AI 스타트업의 공동 창립자가 된 바스와니는 모델들이 “실세계의 맥락에서 아주 적은 데이터로도 인간처럼 학습할 수 있게 만드는 것”이 궁극적인 과제라고 말했다. 그는 더 많은 연산을 선행한 덕분에 더 적은 데이터가 필요하고, 사용자가 피드백을 제공하는 방법 또한 개선된 미래 모델들을 상상한다.

- 안전하고 책임성 있는 모델

모델이 그릇되거나 유해한 언어를 내놓는 경우에 대한 해결방법도 연구되고 있다. 스탠퍼드대학교는 문제의 탐구를 위해 ‘파운데이션모델연구센터(Center for Research on Foundation Models)’를 설립했다.

해당 분야를 연구 중인 엔비디아 연구원 시리마이 프라뷰모예(Shrimai Prabhumoye)는 “이들은 모델의 안전한 배포를 위해 반드시 해결해야 할 중대 사안”이라며 “오늘날 대부분의 모델은 확실한 단어나 구문을 찾아내는 편이지만 실세계에서는 민감하게 받아들여지는 경우가 발생하므로 전체적인 맥락을 고려할 수 있어야 한다”고 말했다.

고메즈 CEO는 “코히어 또한 이 문제에 대해 깊이 고민하고 있다. 사람을 해하는 모델이라면 그 누구도 사용하지 않을 것이다. 따라서, 가장 안전하고 책임성 있는 모델을 만드는 것이 필수적이다”라고 강조했다.

- 지평을 넓히다

바스와니는 스스로 학습하고 어텐션 기법을 활용하는 트랜스포머가 AI라는 성배에 가까워지는 미래를 전망한다. 그는 “’범용 인공지능’이라는 말이 만들어지던 당시 함께 거론됐던 목표를 일부 달성할 기회가 주어진 셈이다. “우리는 신경망과 같은 간단한 기법이 새로운 가능성의 폭발로 이어지는 시대를 살고 있다”고 말했다.

Copyright ⓒ Acrofan All Right Reserved.

엔비디아, 트랜스포머 모델 통해 다양한 산업 내 AI 분야 혁신

최근기사

테크

자동차