ACROFAN

구글 AI 포럼 제15강: 접근성 개선을 위한 AI, 라이브 트랜스크라이브

기사입력 : 2019년 03월 14일 12시 37분
ACROFAN=신승희 | seunghee.shin@acrofan.com | SNS
구글은 3월 14일, 서울시 강남구에 위치한 자사 사무실에서 ‘구글 AI 포럼 제15강: AI 라이브 트랜스크라이브(Live Transcribe)’ 행사를 개최했다.

'구글 AI 포럼'은 최근 도래하고 있는 AI-First 시대를 맞아 인공지능 및 머신러닝과 관련해 좀 더 알기 쉬운 설명 및 사례와 함께 더욱 깊게 공부할 수 있는 기회를 제공하기 위해 구글이 준비한 행사로, 매월 진행되고 있다.

이날 행사에서는 구글의 사가 사블라(Sagar Savla) AI 리서치 프로덕트 매니저가 구글의 머신러닝 기반 음성 텍스트 변환 기술을 활용한 라이브 트랜스크라이브에 대해 소개했다.

▲ ‘구글 AI 포럼 제15강: 접근성 개선을 위한 AI, 라이브 트랜스크라이브’이 개최됐다.

▲ 구글의 사가 사블라 AI 리서치 프로덕트 매니저가 화상 연결을 통해 발표했다.

사가 사블라는 세계보건기구(WHO)에 따르면 전 세계 4억 6,600만 명에 달하는 사람들이 청각 장애를 앓고 있다고 참고하며, 구글은 ASR 기술을 통해 인식 가능한 언어를 감지 후 청각 장애인이 읽을 수 있도록 글로 변환하는 서비스를 제공하지만 청각 장애인들은 여전히 사람이 직접 하는 전사 서비스에 주로 의존한다고 얘기했다.

하지만 이러한 서비스는 엄두를 못 낼 만큼 비싸거나 사용하기 훨씬 전에 예약을 해야 하는 경우가 많아 즉석에서 대화를 나누거나 사람들과 만나는 자리가 있을 때는 사용하기 어렵다고 설명했다. 이에 구글은 자동 자막 생성 기능을 활용해 실생활에서 사람들과 더욱 편하게 대화할 수 있도록 도와주는 라이브 트랜스크라이브 서비스를 출시하였다고 소개했다.

구글 클라우드에 기반을 둔 라이브 트랜스크라이브는 진행되는 대화를 실시간으로 맥락을 고려한 후 자막으로 변환해 보여주며, 지연 시간은 200ms 미만의 성능을 보여준다. 그리고 전 세계 인구의 80% 이상이 사용하는 70개 이상의 언어를 지원한다고 덧붙였다.

또한, 구글의 라이브 트랜스크라이브는 클라우드 ASR 기술을 활용하면서 정확성을 높이는 한편, 온디바이스(on-device) 신경망 기반 음성 감지기를 통해 음성을 감지하고 클라우드 ASR 엔진과 네트워크의 연결을 자동으로 관리함으로써 오랜 시간에 걸쳐 사용되는 경우에도 데이터 사용량을 최소화하는 데 성공했다고 설명했다.

▲ 구글의 라이브 트랜스크라이브의 지연 시간은 200ms 미만의 수준으로 시간 지체 없는 대화를 가능케 해준다.

사가 사블라는 "구글에서는 라이브 트랜스크라이브를 최대한 직관적으로 만들기 위해 갈루뎃 대학(Gallaudet University)과 협력해 사용자 경험 공동연구를 세 가지 측면에서 진행했으며, 첫 번째는 폼 팩터 결정 작업, 두 번째는 자막의 신뢰도 표시 작업, 그리고 세 번째는 칵테일 파티 효과 해결 작업"이라고 설명했다.

먼저 폼 팩터 관련해서는 사용자 경험 연구를 통해 여러 개의 양식과 컴퓨터, 태블릿, 스마트폰, 심지어 작은 영사기까지 검토해 청각 정보 및 자막을 표시하는 방법을 연구한 끝에, 스마트폰의 보편성과 나날이 발전하는 성능을 고려해 스마트폰 폼 팩터에 초점을 맞췄다고 설명했다.

다음으로 자막의 신뢰도를 표시하는 작업에서는, 사가 사블라의 연구팀은 실제로 단어 및 구문 단위로 자막의 신뢰도를 표시하는 방식이 사용자에게 도움이 되는지 실험을 했다. 연구 결과로는 색깔에 따라 신뢰도 수준을 보여주는 자막은 실제로 대화에 도움이 되지 않으며 사용자의 집중을 방해하는 것으로 나타났다고 얘기했다.

마지막으로 연구팀에서 집중한 부분은 칵테일 파티 효과라고도 잘 알려진 현재 환경의 소음 수준이었다. 본 연구를 통해 구글에서는 배경의 소음에 비해 사용자 음성의 음량이 어느 정도인지 시각화하여 보여주는 신호를 만들었고 이 신호는 마이크가 화자의 음성을 얼마나 잘 인식하고 있는지를 즉각적으로 보여주기 때문에, 사용자가 신호를 확인하며 휴대폰의 위치를 조정할 수 있다고 밝혔다. 또한 그는 사용자가 자신의 목소리가 어느 정도인지를 파악해 목소리 크기를 조정할 수 있다고도 덧붙였다.

한편, 그는 향후 이뤄질 라이브 트랜스크라이브의 개선 작업으로는 온디바이스 인식, 화자 분리, 음성 향상 등이 있다고 밝혔다. 그는 "생성되는 자막에만 의존하는 경우 소통 과정에서 의사가 잘못 전달될 위험이 있기 때문에 음성 가지 및 소음 표시 신호 등의 기타 청각 신호를 자막과 함께 제공하는 것이 사용자의 의사소통 선택권에 있어 체감할 수 있을 정도로 의미 있는 변화를 가져다줄 것"이라고 전했다.

▲ 노란색은 높은 수준의 신뢰도, 초록색은 보통, 파란색은 낮음을 의미한다. 연구에 따르면 자막의 신뢰도 수준 표시는 사용자의 대화에 도움이 되지 않는다는 것으로 나타났다.

▲ 소리의 세기와 소음을 나타내는 신호는 두 개의 동심원으로 이루어져 있으며 더 밝은 색상의 안쪽 원은 한경의 소음 정도를 나타내고 바깥쪽 원은 사용자의 음성이 얼마나 잘 인식되고 있는지를 보여준다.


Copyright ⓒ Acrofan All Right Reserved



[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 권용만
Copyright(c) ACROFAN All Right Reserved