마이크로소프트, 로봇 특화 AI ‘마그마’ 공개

▲ 마이크로소프트(MS)는 새롭게 멀티모달(복합감각) 로봇 제어 인공지능(AI) 플랫폼 ‘마그마(Magma)’를 새롭게 개발했다. 이 AI로 로봇을 구동해 본 결과 기존 다양한 모델에 비해 작업 성공률이 크게 높아졌다. 사진은 AI가 로봇 팔을 통해 모형 소시지를 모형 빵 사이에 끼워 핫도그 형태로 만들어 보이고 있는 모습(사진=MS)
최근 젠슨 황 엔비디아 최고경영자(CEO)가 ‘물리 AI(인공지능)’ 시대를 강조하며 로봇 제어 특화 AI에 관심이 깊어지고 있는 가운데, 마이크로소프트(MS)가 로봇 제어 특화 AI를 새로 공개했다.
MS 내부 연구부서 ‘마이크로소프트 리서치(MSR, MicroSoft Research)’는 로봇 제어 특화 생성형 AI 모델 ‘마그마(Magma)’를 지난주 발표했다. MSR을 주축으로 메릴랜드대, 위스콘신-매디슨대, 워싱턴대 등의 연구진이 참여했다. 우리나라 한국과학기술원(KAIST)이 참여했다.
마그마는 주위에서 얻은 다양한 정보를 종합해 판단하고, 이를 기반으로 로봇을 제어할 수 있다. 이른바 ‘멀티모달’ AI의 일종이다. MS는 “마그마는 텍스트, 이미지, 비디오와 같은 다양한 소통채널(Modality)에서 오는 데이터를 복합적으로 판단해 작동할 수 있는 최초의 모델”이라고 설명했다.
인간은 다른 사람과 이야기하고 있을 때도 피부로 온도와 감각을 느끼고, 코로 냄새를 맡고, 눈으로 시각적 정보를 얻으면서 모든 것을 종합해서 판단한다. 마그마는 이와 비슷하게 시각, 언어 등 다양한 정보를 결합해 로봇 시스템을 제어할 수 있다.
이런 시도가 마그마가 처음은 아니다. 이른바 챗GPT 형식의 ‘대형언어모델(LLM)’이 AI 연구의 핵심으로 떠 오르면서 이 같은 AI를 개발하려는 시도가 최근 자연스럽게 늘고 있다. 스탠포드대, UC 버클리대, 구글 딥마인드, 매사추세츠공대(MIT) 등의 공동 연구진이 지난해 6월 발표한 ‘오픈VLA(OpenVLA)’가 대표적이다. 페이스북 모회사 ‘메타’의 라마 언어 기반 오픈 소스 모델로, 매개변수만 70억 개에 달한다. VLA는 시각(Vision)-언어(Languge)-행동(Acition)이란 뜻으로, 로봇이 특별한 훈련 없이도 눈으로 보고 상황을 이해해 새로운 작업을 수행할 수 있다는 의미다. 이런 의미에서 보면 마그마 역시 VLA 모델에 해당한다.
그러나 오픈VLA를 포함해 지금까지 개발된 모든 로봇 제어용 AI는 여러 개의 AI 모델을 통합해서 사용해야 했다. 즉 인간의 명령을 들을 때 언어를 이해하기 위해 LLM을 이용하지만, 시각 정보를 이해하거나 로봇을 통제할 때는 별도 소프트웨어나 AI가 필요하다. 여러 개의 AI를 연결해 협업하도록 만드는 식이다. 그런데 마그마는 이런 기능을 모두 하나의 모델에 통합했다는 점에서 진일보된 형식으로 여겨진다.
조건만 잘 갖춰져 있다면 가상현실에서도 작업이 가능하다. 이른바 ‘디지털 트윈’ 등의 조건에서 학습하며 한층 성능을 높여나갈 수 있다는 의미다. 그 반대로 응용하는 것도 가능하다. 현실에서 얻은 데이터를 바탕으로 더 현실에 가까운 디지털 세계 운동 모델을 제작하는데도 쓸 수 있다. 연구진은 마그마에 대해 “디지털 세계와 물리적 세계, 양쪽 모두에서 멀티모달 AI 에이전트 작업을 제공하는 기반 모델”이라고 소개했다.
연구진은 실제로 같은 로봇팔에 오픈VLA과 마그마를 동시에 설치해 운동성능을 비교했다. 모형 소시지를 모형 빵 사이에 끼우거나, 버섯을 집어 그릇에 담거나, 미끄러운 타월을 한 쪽으로 밀어내는 동작을 실험한 결과, 거의 모든 상황에서 마그마의 운동 능력이 더 뛰어난 것으로 나타났다. 현실에선 약 2.7배(25점/67.5점), 리베로(LIBERO)란 가상현실 프로그램 안에서 실험에서도 2.5배(14점/34.7점) 가까운 수행 능력을 나타냈다.
마그마 형태의 모델이 발전하면서 주위 사물과 상호 작용하며 움직이는 로봇 개발 과정에서 한층 뛰어난 성능을 나타낼 것으로 기대된다. MS 측은 이 기능을 살려 청소나 요리 등 가사 분야에 쓸 수 있고, 산업 분야에서 인간의 판단이 필요하던 복잡한 영역까지도 스스로 판단해 작업할 수 있다는 것이다.
연구진은 논문을 통해 “기존의 로봇 제어 특화 AI는 할 수 있는 일이 제한적”이라며 “마그마는 멀티모달의 이해, 사용자 명령 인지, 로봇 제어 등 모든 영역에 적용할 수 있는 유일한 모델”이라고 했다.
전승민 기자 enhanced@irobotnews.com
<저작권자 © 로봇신문사 무단전재 및 재배포금지>