"500시간 이상 AI 목소리 들어"…5분이면 음성 뚝딱, 통화연결음 완성

"500시간 이상 AI 목소리 들어"…5분이면 음성 뚝딱, 통화연결음 완성

[쿠키인터뷰] 박지웅 LG유플러스 음성기술팀 선임, TTS기술로 개인화 통화연결음 서비스 개발

기사승인 2019-10-15 03:00:00

“안녕하세요~ 최고의 맛과 품질을 보장하는 ◯◯◯ 입니다”. 

최근 요식업 등 일반 매장에 전화를 걸면 친절한 목소리가 흘러나오는 경우가 많아졌다. 통화 연결 시 별도 음성을 제공하는 ‘통화연결음 서비스’다. 이 서비스는 통신사에서 제공하는 부가서비스의 하나로 신제품 홍보나 고객 안내 사항을 쉽게 전달할 수 있어 기업의 중요한 마케팅 수단 중 하나로 자리잡고 있다. 

통화연결음을 제작하기 위해선 이제껏 성우가 매번 음성 녹음에 직접 참여해 많은 비용과 시간이 필요했다. 원활한 서비스를 제공하기 위해서는 녹음하는 데만 반나절에서 하루 정도가 소요됐다. 

LG유플러스는 이 녹음을 ‘음성합성(Text to Speech, TTS)’ 기술로 전환했다. TTS 기술을 도입해 고객이 원하는 문구를 작성하면 통화연결음으로 ‘실시간’ 적용할 수 있다. 지난 4월 통화연결음 서비스에 TTS 기술을 처음 적용한 후, 5개월간 평균 가입자 수는 1.8배나 상승했다. 현재는 여성/남성/어린이 세가지 항목 중 선택에서 원하는 안내 문구를 흘러나오게 하지만, 향후엔 자신의 목소리로 직접 안내 멘트를 넣을 수 있도록 개발 중이다. 

LG유플러스 관계자는 이처럼 뛰어난 성과를 나타낸 ‘음성합성’ 기반의 통화연결음 서비스가 이제 막 입사 4년차에 접어든 선임의 노력에서 시작했다고 귀띔했다. LG유플러스 마곡사옥에서 박지웅 LG유플러스 언어기술팀 선임을 만나 통화연결음 서비스의 개발 과정을 들어봤다. 

-담당하는 업무에 대해 소개한다면

▶ LG유플러스 FC부문 AI기술담당 언어기술팀에서 음성합성 기술의 연구 개발을 담당하고 있다. 특히 음성합성 기술에서도 사람이 말하는 것처럼 운율을 살려 자연스러운 목소리로 표현하기 위한 ‘뉴럴 보코더(Neural Vocoder)’ 개발 및 감정이 실린 목소리를 만들어 내는 ‘감성 TTS’ 등을 중점적으로 연구하고 있다. 

-LG유플러스에서 음성합성 기술이 어떻게 활용되고 있나

▶ 음성합성은 입력된 문자를 토대로 음성을 변조해 내는 기술이다. 기업 고객에게 제공 중인 통화연결음 서비스가 대표적이다. 고객이 웹 상에서 원하는 통화연결음의 문구를 정하고, 실시간으로 들어볼 수 있다. 예전엔 같은 서비스를 신청하려면 하루 이상이 소요됐지만 이제 즉시 가능하다. 비용도 1/4 가량 저렴해졌다. 

-음성합성 기술을 통화연결음에 접목시키게 된 계기는?

▶ 사실 통화연결음 서비스에 음성합성 기술을 도입한 것은 경쟁사에서 먼저 했다. 현장에서는 경쟁사에 비해 통화연결음 제작이 오래걸리고 비용이 비싸 어려움을 토로하는 상황이었다. 작년 10월, 딥러닝 기반의 음성합성 기술을 개발 완료한 상태여서 6개월만인 올 4월에 서비스를 출시할 수 있게 됐다. 

-늦게 시작한 만큼 타사와 차별화되는 장점이 있다면? 

▶ LG유플러스 통화연결음 서비스에는 ‘USS(음소단위합성)’와 ‘DNN(딥러닝기반합성)’ 크게 2가지 음성합성 엔진이 적용됐다. USS 방식은 현재 대부분의 음성합성 서비스에 적용된 기술이다. ‘ㄱ’, ‘ㅏ’ 등 음소 단위로 대량의 음원을 녹음하는 방식으로 데이터가 많아질수록 음성이 자연스러워진다. 

반면 DNN 방식은 녹음된 데이터를 접합하는 게 아닌, 문장 단위로 전체 음원을 생성한다. 이에 USS 방식의 단점으로 꼽히던 발음 간에 어색함을 해소할 수 있다. 녹음의 양이 중요해지지 않기 때문에 USS 방식보다 비용 측면에서도 유리하다.  

타사는 USS 방식으로만 통화연결음 서비스를 제공하는 데 비해 우리 회사는 USS 방식으로 여성의 목소리를, DNN 방식으로 남성과 아이 목소리를 제작할 수 있다. 여성의 목소리만 USS 방식으로 제공하는 이유는 그만큼 이미 많은 데이터를 확보한 상태이기 때문이다.

-현재는 두가지 기술을 함께 사용하지만 결국 딥러닝 기반의 DNN 방식에 주력할 것 같다.

▶ 맞다. DNN 방식을 활용하면 향후 목소리에 ‘감성’도 포함할 수 있어 고객 입장에서 통화연결음을 생성할 때 선택의 폭이 넓어질 수 있다. 향후 감성 TTS 기술을 상용화되면 서비스 별 다양한 감정을 표현할 수 있다. 예를 들어 상조회사의 통화연결음은 “차분한 목소리”, 쇼핑몰은 “경쾌한 목소리”로 음성을 제공하게 된다. 해당 기술은 지난 9월 개발을 완료해 상용화를 위한 검증을 진행하고 있다. 

-입사 4년차에 메인이 되어 프로젝트를 진행했다. 어려웠던 점과 기뻤던 점이 있다면 

▶ 음성합성 엔진의 결과가 좋다/나쁘다 판단 내리기 위해선 직접 경험해보는 수밖에 없었다.  생성된 목소리를 듣기 전까지는 아무도 결과를 모르기 때문에 그야말로 ‘노가다’의 연속이었다. 매일 4시간 이상, 6개월간 저 혼자만도 500시간 이상은 AI의 목소리를 들어야 했다. ‘목소리’ 자체가 정성적인 지표로 밖에 판단할 수 없기 때문에 많은 평가자가 필요했다. AI기술담당 인원들은 이제 그만 듣고 싶다고 나를 피할 정도였다. 

기뻤던 순간은 통화연결음 서비스를 위한 음성합성 개발이 끝나고, 내부에서 현장 인원들 대상으로 진행한 신상품 영업설명회 결과를 진행했을 때다. 다른 신상품들과 함께 소개되었는데, 통화연결음을 자주 바꿔야 하는 기업고객들에게 유용하다는 점을 인정받아 ‘상품매력도 1위’를 차지했다. 입사부터 쭉 음성합성 기술을 연구 개발하면서, 처음으로 회사 매출에 기여할 수 있는 서비스를 만들었다는 점에 뿌듯했다. 

-향후 계획은 무엇인가 

▶ 단기로는 DNN 방식의 음성합성 기술을 ‘키즈워치’ 서비스에 확대 적용할 예정이다. 어린이들이 사용하는 키즈워치에서도 앞으로 자연스럽고 감정이 실린 목소리로 업그레이드 될 예정이다. 향후에는 AI 기술로 개인화된 ‘브랜드 보이스’를 만들어주는 것을 목표로 하고 있다. 고객별로 업종이나 상황에 따라 AI가 최적의 목소리를 생성해줘, 사람이 목소리를 듣고서 ‘이 목소리는 어느 회사/매장의 목소리네!’라고 알아챌 수 있도록 하는 것이다. 

이안나 기자 lan@kukinews.com
이안나 기자
lan@kukinews.com
이안나 기자
이 기사 어떻게 생각하세요
  • 추천해요
    0
  • 슬퍼요
    0
  • 화나요
    0
추천기사
많이 본 기사
오피니언
실시간