인공지능

구글 딥마인드, 로봇용 생성형 인공지능 '제미니 로보틱스' 발표

로봇신문사 2025. 3. 14. 15:03

 

 

구글 딥마인드가 12일(현지 시각) 로봇용 생성형 인공지능 모델 2종을 새로 발표했다.

 

이 모델들은 텍스트, 음성, 이미지 데이터를 처리해 질문에 답하고, 조언하며, 일반적으로 도움을 줄 수 있는 멀티모달 파운데이션 모델인 ‘구글 제미니(Google Gemini) 2.0’ 기반으로 만들어졌다.

 

딥마인드가 이번에 발표한 AI 모델은 ‘제미니 로보틱스‘와 ’제미니 로보틱스-ER’이다. 전자는 로봇을 직접 제어하기 위한 새로운 출력 양식에 물리적 동작을 추가한 ‘고급 시각-언어-행동(VLA)’ 모델이다. 후자는 높은 공간적 이해 능력을 갖췄으며, 로봇 개발자가 제미니의 ‘체화된 추론(ER·embodied reasoning)’ 기능을 사용해 자체 프로그램을 실행할 수 있도록 지원한다.

 

딥마인드는 이 두가지 모델을 활용하면, 다양한 로봇이 이전보다 광범위한 실제 작업을 수행할 수 있다고 밝혔다. 이러한 노력의 일환으로, 앱트로닉과 협력해 차세대 휴머노이드 로봇을 개발하고 있으며, 신뢰할 수 있는 테스터들과 협력해 제미니 로보틱스-ER을 안내하고 있다고 설명했다.

 

딥마인드는 로봇용 AI 모델이 유용하려면 ▲ 다양한 상황에 적응할 수 있도록 '범용성'을 갖춰야 하고 ▲ 명령을 이해하고 환경 변화에 빠르게 대응할 수 있도록 '대화형'이어야 하며 ▲ 사람들이 손과 손가락으로 다양한 물체를 조작하는 것처럼 '손재주'를 갖추고 있어야 한다고 설명했다. 딥마인드는 제미니 로보틱스가 이 같은 세가지 특성을 모두 충족하는 데 상당한 진전을 이뤘으며, 진정한 범용 로봇에 한걸음 더 다가섰다고 주장했다.

 

딥마인드 기술 보고서에 따르면, 제미니 로보틱스는 다른 ‘고급 시각-언어-행동 모델’에 비해 일반적인 벤치마크 테스트에서 평균 두 배 이상의 성능을 발휘했다.

 

딥마인드에 따르면, 제미니 로보틱스는 광범위한 자연어 명령을 이해 및 반응하며, 사용자의 입력에 따라 동작을 조정할 수 있다. 또한 주변 환경을 지속적으로 모니터링하고 환경이나 명령의 변화를 감지해 동작을 조정한다. 이러한 제어 기능, 즉 '조종성(steerability)'은 가정에서 직장에 이르기까지 다양한 환경에서 사람들이 로봇과 효과적으로 협업할 수 있도록 도와준다. 또한 제미니 로보틱스는 종이접기, 지퍼백에 과자를 넣는 동작 등 정밀한 조작이 필요하고 여러 단계로 이뤄진 복잡한 작업을 수행할 수 있다.

 

사진 삭제

사진 설명을 입력하세요.

▲ 아폴로, 알로하2, 양팔 프랑카 로봇이 다양한 동작을 실행하고 있다(사진=딥마인드)

 

제미니 로보틱스는 다양한 로봇 유형에 쉽게 적응하도록 설계됐다. 딥마인드는 양팔 로봇인 ’알로하2‘의 데이터를 기반으로 모델을 학습시켰으며, 여러 연구실에서 사용하고 있는 프랑카 로봇 팔을 제어할 수 있다는 것을 입증했다.

 

또 다른 인공지능 모델인 제미니 로보틱스-ER은 공간 추론에 초점을 맞춰, 로봇공학에 필요한 방식으로 제미니의 ’세계’를 이해하는 법을 향상시키고, 로봇 공학자가 기존의 저수준 컨트롤러와 연결할 수 있도록 지원한다.

 

제미니 로보틱스-ER은 포인팅 및 3D 감지 등 '제미니 2.0'의 기존 기능을 크게 개선했다. 공간 추론과 제미니 코딩 능력을 결합해 새로운 기능을 즉석에서 구현할 수 있다. 예를 들어, 커피잔을 보여 주면 로봇은 손잡이를 두 손가락으로 잡을 수 있는 적절한 그립과 안전한 접근 궤적을 직관적으로 파악할 수 있다.

 

딥마인드는 이들 모델을 적용한 로봇 동영상을 공개했다. 로봇은 종이접기, 과일 집기, 반찬통 가방에 넣기, 미니 농구공 골대에 넣기 등 다양한 동작을 수행했다.

 

장길수 ksjang@irobotnews.com

<저작권자 © 로봇신문사 무단전재 및 재배포금지>