인공지능/기술

美 앨런 AI연구소, 오픈소스 AI 파운데이션 모델 '몰모액트2' 발표

로봇신문사 2026. 5. 21. 15:29

美 앨런 AI연구소(Ai2)가 로봇의 실세계 동작을 지원하는 오픈소스 AI 파운데이션 모델 '몰모액트(MolmoAct) 2'를 발표했다.

앨런 AI연구소는 작년 8월 처음으로 몰모액트(MolmoAct)를 공개했다. 이 모델은 로봇이 행동하기 전에 3차원 환경을 추론할 수 있게 해주는 AI 모델인 '행동 추론 모델(ARM·Action Reasoning Model)'을 채택하고 있다. 복잡한 자연어 명령을 현실 세계에서 실행 가능한 일련의 물리적 행동으로 전환할 수 있도록 지원한다.

회사 측은 이번에 공개된 몰모액트2가 기존 로봇 모델들의 성능을 크게 앞서면서 다양한 실세계 과제를 기존 모델 대비 최대 37배 빠르게 처리할 수 있다고 밝혔다. 관련 연구 논문은 출판전 논문 공개 사이트인 ‘아카이브(arXiv)’에 게재됐다.(논문 제목:MolmoAct2, Action Reasoning Models for Real-world Deployment)

몰모액트2의 가장 큰 특징은 로봇이 주변 공간을 정확하게 파악하는 능력이다. 물체까지의 거리, 빈 공간의 위치, 여러 카메라 화면 간 물체 연결 등을 판단하는 공간 이해 능력을 측정하는 국제 기준 13개 항목에서 GPT-5와 구글의 제미나이 로보틱스를 앞섰다고 연구팀은 밝혔다.

연구소는 몰모액트 2와 함께 양팔 로봇 훈련을 위한 대규모 데이터세트인 '몰모액트2-바이메뉴얼(Bimanual) YAM'도 공개했다. 이 데이터셋은 지금까지 공개된 두 팔 로봇 작동 시연 데이터 중 가장 큰 오픈소스로, 720시간 이상의 훈련 데이터를 담고 있다.

회사에 따르면 몰모액트2는 영상 이해 AI 모델인 몰모(Molmo)2를 단순히 확장한 것이 아니라, 공간 추론 체화 모델인 '몰모2-ER'을 기반으로 설계했다. 몰모2-ER은 이미지 기반 위치 지정, 물체 감지, 추상적 공간 추론, 다중 이미지 추론, 이미지 및 영상 기반 공간 질의응답 등 300만 개 이상의 사례로 훈련됐다.

이를 통해 새 모델은 전용 행동(액션) 모듈과 결합해 3차원 추론을 바탕으로 로봇 동작을 생성할 수 있도록 해준다. 연구팀은 이 과정에서 몰모액트2-바이매뉴얼 YAM 데이터셋 구축이 핵심적인 역할을 했다고 밝혔다. '바이매뉴얼(Bimanual)'은 수건 개기, 식료품 스캔, 스마트폰 충전, 테이블 정리 등 두 로봇 팔이 협력해 수행하는 작업을 의미한다.

▲몰모액트2을 적용한 로봇으로 로봇 동작을 테스트하고 있다 (사진=앨런 AI연구소)

700시간이 넘는 예시 데이터를 포함하고 있는 이 데이터셋은 업계 최대 규모를 자랑한다. 연구팀은 여기에 다양한 로봇 팔, 카메라 구성, 제어 방식, 작업 유형에 몰모액트2가 노출될 수 있도록 추가 로봇 데이터세트를 보완했다고 밝혔다.

연구팀은 몰모액트2의 실세계 작동 방식을 확인하기 위해 르 콩(Le Cong) 스탠포드대 의대 교수가 운영하는 ‘콩랩(Cong Lab)’과 협력해 시범 연구를 진행했다. 콩 랩은 유전자 편집 기술인 ‘크리스퍼(CRISPR)’를 연구하고 있는데, 이 과정에서 실험 장소 간 이동, 시료 피펫팅, 고정밀 장비 조작 등 정밀 작업이 요구된다. 실험 과정에서 오류가 빠르게 누적될 수 있으며, 로봇이 작업에서 이탈할 경우 전체 실험 과정이 순식간에 망가질 수 있다.

스탠포드 연구팀은 해당 작업 흐름에 맞게 다수의 범용 AI 모델을 테스트한 결과, 몰모액트2가 실험실 작업을 보조하는 데 강한 잠재력을 보인다는 결론을 내렸다.

 

백승일 기자 robot3@irobotnews.com

저작권자 © 로봇신문 무단전재 및 재배포 금지