[쿠키뉴스=김정우 기자] 인공지능(AI) 기술 발전이 언어 간 번역 서비스 품질을 비약적으로 높이면서 구글, 네이버 등이 ‘소리 없는 전쟁’을 벌이고 있다. 인공지능 학습 방법론 ‘머신러닝(기계학습)’과 뇌신경을 모방해 복잡한 정보 학습을 가능케 하는 ‘신경망기계번역(NMT)’ 기술이 핵심이다.
지난 9일 구글코리아는 서울 강남구 대치동 구글캠퍼스에서 ‘구글 AI 포럼’을 열고 구글 번역 기술과 그 성과를 소개했다.
구글은 지난해 9월 ‘구글신경망기계번역(GNMT)’ 기술을 공개하고 11월 한국어를 포함한 8개 언어, 총 16개 언어 조합에 적용했다. NMT는 기존 구문 기반 기계번역(PBMT)이 문장을 단어와 구 단위로 개별 번역하는 것과 달리 전체 문장을 하나의 단위로 한꺼번에 번역해 보다 자연스러운 문장을 제공한다. 과거 문법에 맞지 않는 문장으로 ‘구글체’라는 희화화 대상까지 됐던 기존 번역 결과가 NMT 기술을 통해 극복 가능해진 것이다.
구글은 NMT 기반 학습 시스템으로 지난 10년간의 노력을 합친 것 이상의 성과를 낼 수 있었다고 강조했다. 번역된 문단뿐 아닌 전체 텍스트의 가독성이 향상됐고 번역 오류는 55~85% 가량 줄었다는 설명이다(위키피디아‧뉴스 매체 샘플 문장 기준). 학습 내용을 축적하는 NMT 시스템은 시간이 지남에 따라 더 자연스러운 번역 결과를 제공할 수 있다.
구글 번역의 가장 큰 특징은 광범위한 서비스 지역을 기반으로 다양한 언어 데이터를 쌓고 있다는 점이다. 2007년 2개 언어에 대한 서비스로 시작한 구글 번역은 현재 전 세계 103개 언어를 지원하며 5억명 이상이 하루 1400억개 이상의 단어를 100개 이상의 언어로 번역하고 있다.
이 중 영어-프랑스어, 영어-독일어, 영어-스페인어, 영어-포르투갈어, 영어-중국어, 영어-일본어, 영어-한국어, 영어-터키어 등 8개 언어 총 16개 조합에 NMT 기술을 적용했다. 이는 전체 구글 번역 검색 요청의 35% 이상에 해당한다. 여기서 생산되는 데이터는 인공지능 머신러닝의 기초 데이터로 활용된다.
특히 구글은 ‘다중언어신경망기계번역’과 ‘제로샷 번역’이라는 방법을 더해 번역 가능 범위를 한층 넓혔다.
다중언어NMT는 영어를 한쪽에 놓고 비슷한 특징의 언어 조합을 구성하는 기술로 특정 언어 조합에서 학습한 ‘번역 지식’을 다른 언어 조합에까지 적용할 수 있다. 이 다중언어 트레이닝을 통해 실제 테스트하지 않은 여러 언어 조합의 번역도 가능하게 하는 기능이 제로샷 번역이다. 예를 들어, 영어-한국어, 영어-일본어 간 번역 지식을 통해 한국어-일본어 조합의 번역도 가능해진다.
네이버도 NMT를 활용한 번역 서비스 경쟁에 박차를 가하고 있다. 구글이 서비스 범위 기반 데이터에서 강점을 가졌다면 네이버는 콘텐츠 사업에서 축적한 데이터를 기반으로 다양한 신조어나 구어체까지 번역할 수 있는 시스템을 구축 중이다.
생활환경 전반에 지능을 부여해 삶을 이롭게 한다는 취지의 ‘생활환경지능’을 방향성으로 삼은 네이버는 2013년부터 연구개발(R&D) 조직 네이버랩스를 통해 머신러닝 관련 분야 연구를 진행해 왔다. 이를 기반으로 네이버는 지난해 8월 자동통역 앱 ‘파파고’를 출시했다.
출시 당시 통계기반번역(SMT) 기반으로 한국어, 일본어, 중국어, 영어 등 4개 국어의 언어 조합 번역을 지원한 파파고는 지난해 10월 한국어-영어 번역에 NMT를 처음 적용한 데 이어 12월에는 한국어-중국어(간체)까지 확대했다. 한국어-영어 NMT 번역의 경우 구글보다 한 달가량 빨랐다.
네이버는 구글에 비해 데이터와 서비스 범위 규모가 작지만 콘텐츠 사업이라는 무기를 갖고 있다. 최근 주력 콘텐츠로 떠오른 웹툰에서 전문 번역사를 통해 번역된 데이터를 파파고에 적용해 일상생활에서 쓰이는 언어 학습을 가능케 한다는 방침이다. 또 동영상 스트리밍 앱 ‘브이 라이브’의 번역 데이터도 활용 가능하다. 네이버는 이를 통해 ‘꿀잼’과 같은 신조어까지 번역할 수 있다고 설명했다.
적용 언어 범위도 꾸준히 확대될 예정이다. 국내 ‘네이버’ 서비스는 한국어가 중심이지만 다른 주력 사업 축인 해외 ‘라인’ 플랫폼을 통해 일본어, 영어 등의 데이터도 활용한다. 파파고에는 올해 안에 스페인어, 프랑스어, 인도네시아어, 태국어, 중국어(번체), 베트남어 등 6개 언어 번역을 추가하고 NMT 기술을 네이버 서비스 전반까지 확대 적용할 계획이다.
네이버 관계자는 “인공지능 번역 기술은 알고리즘 외에도 정제된 데이터가 중요하다. 단순히 양만 많은 데이터는 오히려 인공지능 학습을 저해할 수 있다”며 “이런 차원에서 네이버는 과거 국내 기업들이 글로벌 기업의 새로운 기술을 따라가던 것과 달리 (구글 등과) 대등한 수준에서 경쟁할 수 있다”고 강조했다.
한편, 일각에서는 NMT 기술이 초기 단계에 있는 만큼 아직 기업 간 우위를 논하는 것은 이르다고 평가한다. 업계 한 관계자는 “신경망번역이 학계에 나온 지 2년여 밖에 안됐다. 아직 신생아 수준”이라며 “누가 더 잘하고 있는지 비교하는 것은 무의미하다”고 말했다.
네이버 측도 “번역 기술을 100점 만점으로 볼 때, 전문 통역사 수준이 95점 내외라면 현재 인공지능 번역은 60점대”라는 자체 분석 결과를 밝혔다.
구글의 음성‧번역 연구를 담당하고 있는 마이크 슈스터 박사는 “구글 번역은 한 발의 진보라 할 수 있고 해야 할 일이 굉장히 많다”며 “각기 다른 나라 언어를 배우는 데는 굉장한 어려움이 따르며 여기는 언어 외에 문화 차이 등도 있다. 이를 충족하기까지 앞으로 오랜 시간이 필요할 것”이라고 말했다.
tajo@kukinews.com