
美 앨런 AI연구소(Ai2)가 로봇의 실세계 동작을 지원하는 오픈소스 AI 파운데이션 모델 '몰모액트(MolmoAct) 2'를 발표했다.
앨런 AI연구소는 작년 8월 처음으로 몰모액트(MolmoAct)를 공개했다. 이 모델은 로봇이 행동하기 전에 3차원 환경을 추론할 수 있게 해주는 AI 모델인 '행동 추론 모델(ARM·Action Reasoning Model)'을 채택하고 있다. 복잡한 자연어 명령을 현실 세계에서 실행 가능한 일련의 물리적 행동으로 전환할 수 있도록 지원한다.
회사 측은 이번에 공개된 몰모액트2가 기존 로봇 모델들의 성능을 크게 앞서면서 다양한 실세계 과제를 기존 모델 대비 최대 37배 빠르게 처리할 수 있다고 밝혔다. 관련 연구 논문은 출판전 논문 공개 사이트인 ‘아카이브(arXiv)’에 게재됐다.(논문 제목:MolmoAct2, Action Reasoning Models for Real-world Deployment)
몰모액트2의 가장 큰 특징은 로봇이 주변 공간을 정확하게 파악하는 능력이다. 물체까지의 거리, 빈 공간의 위치, 여러 카메라 화면 간 물체 연결 등을 판단하는 공간 이해 능력을 측정하는 국제 기준 13개 항목에서 GPT-5와 구글의 제미나이 로보틱스를 앞섰다고 연구팀은 밝혔다.
연구소는 몰모액트 2와 함께 양팔 로봇 훈련을 위한 대규모 데이터세트인 '몰모액트2-바이메뉴얼(Bimanual) YAM'도 공개했다. 이 데이터셋은 지금까지 공개된 두 팔 로봇 작동 시연 데이터 중 가장 큰 오픈소스로, 720시간 이상의 훈련 데이터를 담고 있다.
회사에 따르면 몰모액트2는 영상 이해 AI 모델인 몰모(Molmo)2를 단순히 확장한 것이 아니라, 공간 추론 체화 모델인 '몰모2-ER'을 기반으로 설계했다. 몰모2-ER은 이미지 기반 위치 지정, 물체 감지, 추상적 공간 추론, 다중 이미지 추론, 이미지 및 영상 기반 공간 질의응답 등 300만 개 이상의 사례로 훈련됐다.
이를 통해 새 모델은 전용 행동(액션) 모듈과 결합해 3차원 추론을 바탕으로 로봇 동작을 생성할 수 있도록 해준다. 연구팀은 이 과정에서 몰모액트2-바이매뉴얼 YAM 데이터셋 구축이 핵심적인 역할을 했다고 밝혔다. '바이매뉴얼(Bimanual)'은 수건 개기, 식료품 스캔, 스마트폰 충전, 테이블 정리 등 두 로봇 팔이 협력해 수행하는 작업을 의미한다.

▲몰모액트2을 적용한 로봇으로 로봇 동작을 테스트하고 있다 (사진=앨런 AI연구소)
700시간이 넘는 예시 데이터를 포함하고 있는 이 데이터셋은 업계 최대 규모를 자랑한다. 연구팀은 여기에 다양한 로봇 팔, 카메라 구성, 제어 방식, 작업 유형에 몰모액트2가 노출될 수 있도록 추가 로봇 데이터세트를 보완했다고 밝혔다.
연구팀은 몰모액트2의 실세계 작동 방식을 확인하기 위해 르 콩(Le Cong) 스탠포드대 의대 교수가 운영하는 ‘콩랩(Cong Lab)’과 협력해 시범 연구를 진행했다. 콩 랩은 유전자 편집 기술인 ‘크리스퍼(CRISPR)’를 연구하고 있는데, 이 과정에서 실험 장소 간 이동, 시료 피펫팅, 고정밀 장비 조작 등 정밀 작업이 요구된다. 실험 과정에서 오류가 빠르게 누적될 수 있으며, 로봇이 작업에서 이탈할 경우 전체 실험 과정이 순식간에 망가질 수 있다.
스탠포드 연구팀은 해당 작업 흐름에 맞게 다수의 범용 AI 모델을 테스트한 결과, 몰모액트2가 실험실 작업을 보조하는 데 강한 잠재력을 보인다는 결론을 내렸다.
백승일 기자 robot3@irobotnews.com
저작권자 © 로봇신문 무단전재 및 재배포 금지
'인공지능 > 기술' 카테고리의 다른 글
| 한국로봇융합연구원, 'AI 특화 공동훈련센터' 개소 (0) | 2026.05.21 |
|---|---|
| 英애스턴大, ‘시뮬레이션-현실 간극’ 좁히는 로봇 AI 훈련법 개발 (0) | 2026.05.21 |
| 제논, 시니어케어 휴머노이드 ‘젠피’ 피지컬 AI 시연 성료 (0) | 2026.05.11 |
| 경남TP, 공급망 구조 바꾼 ‘제조 AI 대전환’ 시동 (0) | 2026.05.11 |
| 마키나락스, 공모가 상단 1만5000원 확정…11일·12일 일반 청약 (0) | 2026.05.11 |