Aceofan News

구글 AI 포럼 제8강 : AI 혁신과 자연어 처리

ACROFAN=권용만 | 기사입력 : 2017년 12월 05일 17시 02분
구글(Google)은 12월 5일, 서울 강남구 구글코리아 회의실에서 ‘AI 혁신과 자연어 처리’를 주제로 한 ‘구글 AI 포럼’을 진행했다. 이 자리에서 구글은 머신 러닝을 활용한 자연어 처리 기술을 통해, 사용자 경험을 향상시킬 수 있는 방법과 사례를 소개했다.

구글은 오랫동안 자연어 처리(NLP) 관련 연구를 진행해 왔으며, 다수의 언어와 도메인 등 적재적소에 바로 적용할 수 있는 알고리즘 개발에 초점을 두고 자연어 처리 연구를 진행하고 있다. 이러한 시스템은 구글 제품 및 서비스 전체에서 다양한 방식으로 활용되며, 사용자 환경 개선에 도움을 주고 있다. 그리고 구글은 전통적인 자연어 처리 업무 및 전반을 다루고 있으며, 보다 전문화된 시스템을 뒷받침하는 범용 구문 및 의미론적 알고리즘을 포함하고, 확장성이 뛰어나고 고도로 분산된 환경에서도 효율적으로 작동하는 알고리즘에도 높은 관심을 보이고 있다.

구글의 구문(Syntactic) 시스템은 주어진 문장에서 각 단어의 품사 태그 및 성별, 단, 복수 등의 형태학적 특징을 예측하고, 단어들 간의 관계를 주어, 목적어, 수식어 등으로 분류한다. 또한 구글은 분류되지 않은 많은 양의 데이터를 활용하는 효율적인 알고리즘을 집중 연구하고 있으며, 최근에는 신경망 기술을 도입하기도 한 바 있다. 한편 구글은 최근 다양한 출처의 지식과 정보를 포함시켜 텍스트 분석을 향상시키거나 명사구 및 문장, 문서 수준에서 프레임 의미론을 적용하는 데에 집중하고 있다.

 
▲ 구글 리서치 팀의 하다 셈토브 디렉터

구글 리서치 팀의 하다 셈토브(Hadar Shemtov) 디렉터는 먼저, 최근 몇 년간 검색 주변에서 사용자 환경 변화의 원동력으로는 ‘모바일’을 꼽으며, 오늘날 쿼리의 절반 이상은 모바일 환경에서 생성되고 있다고 밝혔다. 그리고 이에 따라, 검색 결과로는 ‘링크’보다는 즉각적인 ‘답’을 원하게 되었으며, 상호 작용 또한 ‘대화형’ 으로의 움직임이 두드러진다고 소개했다. 이에 최근 구글의 핵심 작업으로는 음성으로 이루어진 입력값을 인식하고, 텍스트로 변환, 이해한 뒤 결과값을 음성 형태로 출력하는 점이 소개되었다.

음성 형태 쿼리의 특징으로는 길이가 좀 더 길고, 자연어에 가까운 형태인 점이 꼽혔다. 또한 대화 형태로 구성되어, 이전 질문의 요소를 참조해 이어 가는 연속 쿼리도 음성 형태 쿼리의 중요한 특징으로 소개되었다. 그리고 이런 쿼리들에 대응하는 음성 응답 기술 또한 변화하고 있는데, 대답은 더 짧고 사용자 수준으로 유창하게 나올 필요가 있다고 밝혔다. 이에 구글은 두 가지 NLP 요소에 초점을 맞추고 있다고 소개되었는데, 긴 문장을 가져가서 짧은 문장 형태로 처리할 수 있는 방법과, 고품질 음성 합성을 진행하는 방법이 그것이다.

대답에 집중한 ‘답’을 내놓기 위해서는, 자연어 형태의 긴 질문을 적절한 형태로 짧고 효과적으로 재구성할 필요가 있다. 이 때 구글은 긴 질문에서부터 답을 찾기 위해, 검색을 통해 관련 문서를 검색하고, 문서에 들어 있는 답과 관련된 문단과 문장 단위까지 추려 내려간다. 그리고 관련된 답만을 간단하게 내놓는다. 이에, 문서 내에 추가적인 검색이 이루어지고 있는 만큼 ‘검색 안의 검색’ 으로도 볼 수 있다고 덧붙였다.

NLP 시스템은 문장 안에서 여러 단어 간에 문법적 관계와 그룹을 정의한다. 이 때 중요한 것은 간단히, 원하는 답이 들어있는 문장의 핵심을 어떻게 찾아낼지가 된다. 그래서 구글은 프로세스를 통해 다양한 단어를 그룹화했으며, 여러 예시와 사례를 통한 통계적 처리를 통해 맥락에 맞을 확률이 가장 높은 하나의 노드 값을 산출하게 된다. 그리고 머신 러닝을 적용한 모델의 구축을 통해, 문장의 핵심을 유지하면서도 문법적으로도 정확한 답을 도출할 수 있다고 덧붙였다.

또한 문장을 줄이는 방법에 있어서는, 문장에서 각각의 단어별로 이를 유지할지, 혹은 버릴지에 대해 결정할 필요가 있다. 이에 문장의 모든 단어를 분류하고, 여러 문장의 예시, 시그니처 값을 함께 모델링 함으로써 LSTM을 적용한 시퀀스 투 시퀀스 값을 확인할 수 있고, 결과적으로 불필요한 부분을 삭제해 핵심만 보유한 간단한 문장을 산출해 낼 수 있게 된다고 설명했다. 이런 방식을 통해 연산을 통해 문장을 요약하고, 핵심만 포함한 간단하면서도 정확한 값을 도출할 수 있게 된다.

 
▲ 웨이브넷 기술은 입력과 출력 사이에 여러 개의 레이어로, 다양한 요소들을 결부시켜 품질을 높이고 있다

구글 어시스턴스 등에서, 어시스턴스는 음성 기반의 인터페이스만을 사용하는 만큼 음성 출력의 품질은 대단히 중요하다. 하지만 기존의 음성, 텍스트 합성 기술은 음절 개개별로 녹음한 뒤 분류하고, 필요할 때 다시 조합해 산출하는 방식을 사용했고, 품질 면에서 한계가 있었다. 하지만 구글이 새롭게 선보인 음성 합성 기술 ‘웨이브넷(WaveNet)’은 확률 기반으로, 디지털화된 음성 샘플을 이용해 음성의 파형 정보 등을 획득하고, 모델을 구축하고 이를 기반으로 학습을 시켜, 새로운 텍스트에 모델링을 적용해 고품질의 결과물을 얻을 수 있게 된다고 설명했다.

웨이브넷 기술은 음성과 관련해 파형 정보를 바탕으로 음성, 텍스트화한 다음 언어적인 특성을 파악하고, 구축한 모델을 통해 음성 합성 과정을 진행한다. 이후, 이 모델을 바탕으로 새로운 텍스트가 주어졌을 때 기존에 가지고 있던 언어적 특성과 모델링을 결합해 새로운 음성적 형태를 파악하고, 새로운 음성을 산출하게 된다고 밝혔다. 또한 이 알고리즘은 다양한 입력 데이터와 출력 데이터 사이에 여러 개의 레이어가 존재하고, 다양한 요소들이 함께 결부됨으로써 결과값의 품질을 높이고 있다고 덧붙였다.

그는 음성 처리에 대해, 연산 성능과 비용이 꽤 많이 들어가는 작업이긴 하지만, 그럼에도 연산 작업을 실시했고, 기존 음성합성 기술 대비 높은 수준의 품질을 구현할 수 있었다고 강조했다. 그리고 아날로그 영역에서의 형태학적 특징인 ‘파형’에 대해서도, 이를 디지털화하고 ms당 예측 방법을 적용해 음파를 수치화함으로써, 실제 육성과 유사한 음성 출력 결과를 만들어낼 수 있었다고 덧붙였다.

 
▲ 구글 전산 언어학자 팀 리드인 최현정 연구원

구글의 전산 언어학자 팀 리드인 최현정 연구원은, 구글은 국제화에 많은 노력을 기울이고 있으며, 나라마다 선보인 디바이스는 다르지만 약 15개 국에 어시스턴트를 선보였고, 한국에서도 안드로이드에서 사용 가능한 어시스턴트를 선보인 바 있다고 소개했다. 그리고 많은 국가들에 어시스턴트를 빠르게 출시하기 위해서는 더 많은 언어로 쉽게 확장할 수 있도록 하는 ‘확장성’이 중요하며, 이를 위해 탄탄한 시스템의 구축과 데이터 기반 머신 러닝을 최대한 활용하는 것 등이 중요하다고 밝혔다.

구글은 어시스턴트의 글로벌화 과정에 대해, 구현할 기능을 정의하고 디자인을 한 뒤, 우선적으로 영어로 기본적인 NLP 시스템을 구현하고, 다른 언어로의 확장 적용을 시작하면서 전체 언어 시스템의 질을 함께 향상시키고 있다고 소개했다. 그리고 어시스턴트를 만드는 시스템 대부분에 머신러닝을 활용하고 있고, 최근에는 신경망 모델의 딥러닝도 활용하고 있는데, 음성합성과 인식, 대화모델 구축 등이나 기존의 규칙 기반 기계학습으로 풀기 어려운 모델에는 신경망 모델을 활용하고 있다고 덧붙였다.

머신러닝과 딥러닝 양쪽 모두 학습을 위한 데이터가 중요하고, 목적에 맞게 수집된 양질의 데이터가 필수적이다. 그리고 구글 어시스턴트는 대화 모델인 만큼, 데이터에도 더 많은 점들을 고려해야 할 필요가 있다고 밝혔다. 사람과 사람, 혹은 사람과 기계와의 대화인지에 따라서도 양상이 달라지고, 구어와 문어의 차이, 뉴스와 블로그 데이터, 검색어 등 도메인에 대해서도 데이터는 다른 양상을 보이게 된다. 또한 다양한 언어로의 확장에 있어, 여러 언어로의 병렬 데이터도 필요하다고 덧붙였다.

 
▲ 생략된 부분을 맥락에 맞게 만들어 낼 수 있는 ‘Implicit Mention Detector’

한국어는 데이터 수집과 모델링 등에 있어서도 난이도가 높은 언어 중 하나로 꼽혔다. 영어의 경우 인간과 기계의 대화가 사람과 사람간의 대화와 큰 차이가 없지만, 한국어는 상황이 다르다는 것이다. 한국어 대화에서는 주어나 서술어 등이 빈번하게 생략되기도 하고, 맥락의 파악 난이도도 높으며, 마지막에는 다양한 겸양적 표현도 존재한다. 이와 함께 사람을 가리키는 존칭어 또한 다양하고 복잡하며, 띄어쓰기나 운율의 미묘함도 있다. 이에 기계의 입장에서는 이런 점들을 정확히 파악하고 모델링하기 꽤 어렵다고 소개했다. 이에 구글은 이러한 어려움을 지식 기반 모델로 해결하고 있다고 언급했다.

구글은 한국어의 대화 등에서 흔히 나오는 문장 요소의 생략에 대해 머신 러닝 기반의 ‘Implicit Mention Detector’를 사용, 문장에서 생략된 부분을 인식하고, 만들어 내 완전한 문장으로 구축한다고 소개했다. 이 시스템은 모든 서술어부를 찾아내 표시하고, 암시적으로 숨어 있는 대명사격 등을 복원한다. 이 때 결과는 모든 주어 등이 복원된 상태로 나오고, 이를 ‘Co-Reference’ 모델을 사용해, 한 개체를 지칭하는 모든 단어를 그룹으로 묶는다. 이를 통해 주어나 목적어 생략을 많이 복원하고, 트레이닝하고 있다고 밝혔다.

또한, 사람의 말을 이해할 때 다양한 표현들에 대해 ‘쿼리 매처(Query Matcher)’를 사용해 비슷한 의미들을 같이 이해할 수 있게 하는데, 딥러닝을 활용해 입력값을 벡터 값으로 변환한 다음, 벡터값에서 거리를 계산해서 비슷한 의미를 파악하고, 이들을 한 그룹으로 묶어 다양한 언어 체계를 이해하는 데 사용하는 방법으로 활용하고 있다고 소개했다. 이 외에도 운율의 구현을 위해서도, 구문과 운율의 모델링에서 적절한 형태로 알아듣고 구현할 수 있도록 하는 모델을 만들고 있다고도 밝혔다.

Copyright ⓒ Acrofan All Right Reserved



[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 권용만
Copyright(c) ACROFAN All Right Reserved