
디지털휴먼은 인공지능, 그래픽 기술 등을 활용해 현실과 유사한 가상의 인간을 구현한 것으로, 방송, 교육, 의료, 연예 등 다양한 분야에 적용할 수 있다.
한국전자통신연구원(ETRI)이 사진 한 장만으로도 실제 사람처럼 자연스럽게 말하는 ‘초실사 인공지능(AI) 아바타 생성기술’을 개발했다.
이 기술은 자율주행 자동차와 사람 간 직관적 상호작용을 실현하는 차세대 인터페이스에 적용할 수 있고, 향후 디지털휴먼산업 전반으로 확산될 전망이다.

기존 음성기반 AI 비서, 내비게이션 시스템 등은 단순히 인간의 명령을 수행하는 데 그쳤다면, 이번 ETRI 기술은 정교한 표정과 입 모양 표현으로 실제 사람과 같은 자연스런 대화를 할 수 있다.
이를 통해 차량의 AI가 운전자와 대화하거나 보행자와 소통하는 등 인간 친화적 사용자경험을 제공한다.
이 기술의 핵심은 기존 생성형 AI와 달리 입술, 턱 등 발화와 직접 연관된 얼굴 부위를 선별적으로 학습·합성하는 독자 알고리즘이다.
이를 통해 다른 부분의 불필요한 정보 학습을 줄이고, 입, 치아, 주름 등이 복합된 세밀한 얼굴을 더욱 정교하게 표현할 수 있다.

실제 이 기술은 컴퓨터 비전 및 패턴 인식 분야 국제학술대회 CVPR(Computer Vision and Pattern Recognition)와 AI분야 AAAI(Association for the Advancement of Artificial Intelligence)에서 기존 기술보다 합성화질, 입술동기화 성능에서 우수성을 인정받았다.
합성화질은 AI나 그래픽으로 생성한 이미지나 영상의 시각적 선명도와 자연스러움을 평가한다. 또 입술동기화는 영상 속 인물의 입술 움직임이 음성과 얼마나 정확히 일치하는지를 나타내는 지표로, 디지털휴먼 및 영상합성 기술의 핵심 요소로 꼽힌다.
ETRI는 이 기술이 발전하면 키오스크, 은행창구, 뉴스 진행, 광고 모델 등 다양한 산업 분야에서 활용되고, AI 기반 디지털휴먼산업 혁신을 견인할 것으로 기대하고 있다.
ETRI 모빌리티UX연구실은 현재 사람-기계 간 상호작용(HMI) 기술을 중점적으로 연구하고 있으며, 운전자와 보행자의 감정, 피로도, 집중 상태 등을 분석하는 AI 기반 운전자 인터페이스 기술도 개발 중이다.
연구책임자인 최대웅 ETRI 선임연구원은 “AI 아바타가 실제 사람처럼 자연스럽게 대화하고 움직이는 기술을 고도화해 인력을 대체할 수 있을 정도의 상호작용을 실현하겠다”고 말했다.
한편, ETRI는 이번 기술을 본원 기술이전 사이트에‘실사 인물 발화 영상 생성 프레임워크 기술’로 등록하고 상용화 및 사업화 전략을 추진 중이다.