KT, 텍스트를 목소리로 바꿔주는 '마음톡' 앱 개발

기사승인 2020-07-27 10:36:02

KT 목소리 찾기 프로젝트 참가자 김혜원 씨가 마음 톡을 이용해 지인과 대화를 나누고 있다. /제공=KT

[쿠키뉴스] 구현화 기자 = KT는 20명의 '목소리 찾기' 참가자들이 구현된 목소리로 언제나 소통할 수 있도록 전용 모바일 애플리케이션 ‘마음 Talk(이하 마음 톡)’을 개발하고 목소리를 참가자들에게 전달했다고 26일 밝혔다. 마음 톡은 목소리 찾기 참가자와 그 가족·지인들만 이용할 수 있는 서비스다.

마음 톡은 농인이 앱에 입력한 텍스트를 KT GPU 클라우드 플랫폼에 전달해 참가자 각각의 목소리로 바꾼다. 이 과정에서 GPU로 수천만 번의 연산을 진행해 음성을 만든다. 실제 연산 시간은 1초 내외로 사용자가 체감하는 지연 없이 실시간으로 대화할 수 있다. 자주 쓰는 문장은 저장해뒀다가 필요할 때 즉시 재생을 눌러 상대방에게 음성을 전할 수 있다. 또 농인과 건청인이 한 공간에 있을 때 대화하는 것도 도와준다.

마음 톡의 기능 중 ‘내 목소리 음성·영상통화’ 이용하면 농인은 문자를 하는 방식으로 소통하고 상대방은 일반 음성통화하는 것처럼 대화를 나눌 수 있다. 음성통화 중간에 통화를 끊지 않고 영상통화로 전환이 가능해 수어와 목소리를 함께 사용해 소통할 수 있다. KT는 앞으로 2년 동안 전용 앱을 지원하고, 사용자의 불편함을 점검해 지속적으로 앱을 업데이트할 예정이다.

목소리 찾기는 청력을 잃었거나 사고나 질병 등으로 후천적으로 목소리를 잃은 농인의 목소리를 만들어 주는 프로젝트다. 이 프로젝트는 삶에 도움이 되는 기술로 일상의 불편함을 덜고자 하는 고민에서 출발했다. KT는 지난 4월 참가자 20명을 선발하고 목소리 구현에 들어간 바 있다.

KT는 국내 최고 수준의 개인화 음성합성기술(P-TTS)을 보유하고 있다. 개인화 음성합성기술은 딥러닝 기반 학습을 통해 사람의 목소리를 만드는 기술이다. 이번 목소리 찾기 프로젝트에서 KT는 국내 최초로 본인 목소리 학습 데이터 없이 목소리를 구현했다. 기존 음성합성기술은 한 문장이라도 본인 목소리 녹음이 필요했으나, KT는 이번 프로젝트에서 본인의 목소리를 내기 어려운 농인들을 위해 가족 목소리 데이터를 이용해 목소리를 만들었다. KT는 성별, 나이, 구강구조 등 개인의 특성을 AI 엔진으로 분석해 참가자만의 특색 있는 목소리를 만들었다.

각 참가자의 동성 가족 구성원들은 참가자의 목소리 구현을 위해 1000문장을 녹음했고, 인당 평균 6시간이 소요됐다.KT는 가족의 목소리 데이터와 구강구조 데이터를 양 축으로 두고 목소리 모델링을 진행했다. 나이에 따른 억양 차이도 보정했다.

한편, KT는 25일 서울·부산·광주·대전에서 농인 참가자와 가족들에게 마음 톡 앱 사용법을 설명하는 시간을 가졌다. KT는 유튜브 생중계로 각 지역 행사장을 연결했다. 이 자리에서 참가자와 가족들은 마음 톡 앱을 이용해 대화를 나눴다..

KT 홍보실장 양율모 상무는 “목소리 찾기 프로젝트는 지난 18년 동안 이어온 소리찾기 사업의 연장선으로 앞으로도 KT는 마음을 담아 목소리 찾기 프로젝트를 이어갈 것”이라고 말했다.

kuh@kukinews.com