
▲컬럼비아대 연구팀은 음성 및 노래와 같은 작업을 위해 얼굴 입술 움직임을 학습할 수 있는 로봇을 만들었다. (사진=컬럼비아대)
美 컬럼비아대 연구팀이 말하기와 노래하기 등 복잡한 입술 동작을 스스로 학습할 수 있는 로봇 기술을 개발했다고 14일(현지시간) 밝혔다.
연구팀에 따르면, 인간의 의사소통에서 입술 움직임은 매우 중요한 역할을 하며, 대화 중 시각적 주의력의 절반 정도를 차지한다. 그러나 사람의 얼굴을 모방한 기존 로봇들은 ‘입술-음성 동기화’에 실패해 어색하고 생명력 없는 입술 동작을 선보인다. 로봇 산업계에선 이 같은 현상을 흔히 ‘불쾌한 골짜기’ 효과라고 부른다. 인간의 얼굴은 수십 개의 근육이 부드러운 피부 아래에서 자연스럽게 작동하는 데 반해 대부분 휴머노이드 로봇 얼굴은 경직되어 있고 움직임의 자유도가 매우 제한적이다.
연구팀은 기존 로봇이 두 가지 장벽을 갖고 있다고 지적했다. 첫째, 로봇 입술은 일반적으로 미묘한 인간 입 움직임을 재현하는 데 필요한 기계적 복잡성이 부족하다. 둘째, 기존의 동기화 방법은 수동으로 미리 정의된 움직임과 규칙에 의존하여 적응성과 사실성을 제한한다.
컬럼비아대 호드 립슨(Hod Lipson) 교수팀은 이러한 한계를 극복하기 위해 새롭게 설계된 휴머노이드 로봇 얼굴을 제시했다. 이 로봇은 10자유도 메커니즘으로 구동되는 부드러운 실리콘 입술을 특징으로 한다. 연구팀은 자연스러운 립싱크 동작을 구현하기위해 26개의 얼굴 모터가 장착된 로봇에게 거울 앞에서 자신의 안면 근육 활동에 따른 입술 움직임을 학습하도록 했다. 이어 수천 시간 분량의 유튜브 영상을 시청하게 함으로써 인간의 음성과 입술 동작 간의 상관관계를 스스로 파악하도록 유도했다. 연구팀은 로봇 학습에 ‘시각-행동 언어 모델(VLA·Vision-to-Action)’을 적용함으로써 오디오 신호를 즉각적인 입술 모터 제어로 전환할 수 있도록 했다.
시연 과정에서 이 로봇은 10개 언어의 단어를 즉시 소리낼 수 있을뿐 만 아니라, 자신의 AI 생성 데뷔 앨범인 ‘헬로 월드(hello world)’에 수록된 곡도 완벽하게 노래하며 향상된 립싱크 능력을 과시했다.
연구팀은 이 립싱크 기술이 챗GPT나 제미나이 같은 생성형 AI와 결합될 때 파급력이 더 높아질 것으로 보고 있다. 로봇이 인간의 대화를 더 많이 관찰할수록 감정적으로 연결될 수 있는 미묘한 얼굴 표정을 더 잘 모방하기 때문이란 설명이다. 현재 이 로봇은 파열음 ‘B’나 입술을 오므리는 ‘W’ 소리를 구현하는데 일부 한계를 보이고 있으나, 연구팀은 연습과 데이터 축적을 통해 충분히 개선될 수 있다고 주장했다.
이번 연구를 주도한 호드 립슨 교수는 “오늘날 휴머노이드 로봇 연구의 대부분은 보행과 파지(grasping)를 위한 다리와 손 동작에 집중하고 있지만, 인간과의 상호작용이 필요한 로봇 응용 분야에선 얼굴 표현도 똑같이 중요하다”며 “따뜻하고 생기 있는 얼굴은 향후 교육, 의료, 노인 돌봄 분야에서 인간과 깊은 유대감을 형성하는 데 필수적이다”라고 강조했다.
이번 연구 성과는 미국 국립과학재단과 아마존의 지원을 받았으며, 국제학술지 ‘사이언스 로보틱스’에 발표됐다.(논문 제목::Learning realistic lip motions for humanoid face robots)
백승일 기자 robot3@irobotnews.com
저작권자 © 로봇신문 무단전재 및 재배포 금지
'인공지능' 카테고리의 다른 글
| “중국, 피지컬 AI 분야 특허역량 세계 최고 수준" (0) | 2026.01.19 |
|---|---|
| 오픈AI, 로봇·AI 디바이스·데이터센터 사업용 미국내 공급망 구축 본격화 (0) | 2026.01.19 |
| 씨이랩, 산업 현장형 피지컬 AI 확산 위한 통합 솔루션 제시 (0) | 2026.01.15 |
| 포스코 포항제철소, ‘지능형 자동 크레인’으로 안전한 현장 만든다 (0) | 2026.01.14 |
| 한화비전, 중동 최대 보안 전시회에 ‘AI 고성능 PTZ 카메라’ 공개 (0) | 2026.01.14 |