미국 오하이오주립대 연구팀은 로봇의 공간 인지 능력(Spatial Awareness)을 획기적으로 향상시킬 수 있는 새로운 훈련 데이터셋인 ‘로보스페셜(RoboSpatial)‘을 개발했다고 밝혔다. 이 데이터셋을 활용하면 사람처럼 보다 직관적으로 주변 환경을 인지할 수 있다는 설명이다. 이 데이터셋은 ‘비전-언어 모델’의 공간 추론 능력 향상, 로봇, 체화 AI 등에 활용될 수 있을 것으로 기대된다.
연구팀에 따르면, 공간 이해는 로봇이 주변 환경을 인식하고, 환경에 대해 추론하며, 의미 있는 방식으로 상호작용할 수 있도록 하는 핵심적인 능력이다. 현대 로봇 공학에서 이러한 능력은 점차 ‘비전-언어 모델(Vision-Language Models)’에 의해 제공되고 있다.
하지만, 이들 모델의 훈련 데이터는 종종 정교한 공간 이해가 부족한 범용 이미지 데이터셋에 기반하고 있기 때문에, 공간 추론 작업에서 중대한 문제에 직면한다. 예를 들어, 데이터셋은 기준 프레임(reference frame) 이해를 포착하지 못하는 경우가 많다. 따라서 효과적인 공간 추론을 위해선 자아 중심적(ego-centric), 세계 중심적(world-centric), 또는 객체 중심적(object-centric) 관점 중 무엇으로 추론해야 하는지를 이해하는 것이 필수적이다.
오하이오주립대 연구팀은 이러한 문제를 해결하기 위해, 로봇 공간 이해를 위한 대규모 데이터셋인 로보스페셜을 개발했다. 로보스페셜로 훈련된 로봇은 기존 모델로 훈련된 로봇들보다 공간 관계에 대한 복잡한 이해와 물리적 물체 조작 능력에서 더 나은 성능을 보였다. 이번 연구 성과는 전문 컨퍼런스인 ‘컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)’에서 발표됐다.(논문 제목:RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics)

▲로보스페셜은 3D 포인트 클라우드, 1인칭 시점 이미지, 3D 바운딩 박스 주석이 있는 기존 데이터셋으로부터 공간 관계 주석을 자동으로 생성해준다.
연구팀에 따르면, 인간의 시각적 인식은 주변 환경과 상호작용하고, 자신의 위치를 인지하는 방식에 깊이 관여한다. 하지만 기존의 로봇 훈련 데이터는 정교한 공간 이해가 부족해 로봇의 직관적 상호작용 능력을 떨어뜨리는 주요 원인이 되고 있다.
오하이오주립대 루크 송(Luke Song) 박사 과정 학생은 “진정한 범용 인공지능(AI) 파운데이션 모델을 갖추려면, 로봇은 주변의 3D 세계를 반드시 이해해야 하며, 공간 이해는 이를 위한 가장 핵심적인 능력 중 하나”라고 강조했다.
예를 들어 기존의 훈련 데이터셋은 로봇이 “테이블 위에 그릇이 있다”고 정확히 인식하게 할 수는 있었지만, 그 그릇이 테이블의 어느 위치에 있는지, 다른 물체와의 관계 속에서 어떻게 배치되어야 접근성이 좋은지 등의 구체적인 공간 추론 능력은 부족했다. 이러한 공간 추론 능력의 부재는 미래 AI 시스템이 복잡한 지시를 이해하고 역동적인 환경에서 작업하는 데 큰 걸림돌이 될 수 있다.
로보스페셜은 로봇에게 원근법을 비롯한 공간 정보를 효과적으로 가르치기 위해 설계됐다. 이 데이터셋은 100만 개 이상의 실제 실내 및 탁자 이미지, 수천 개의 상세한 3D 스캔, 300만 개의 주석이 달린 풍부한 공간 관계 정보 등 방대한 자원을 통합한다.
로보스페셜은 로봇 시점의 2D 이미지와 동일한 장면의 완전한 3D 스캔을 짝으로 제공한다. 이를 통해 모델은 평면 이미지 인식뿐만 아니라 3D 기하학 정보를 활용해 물체의 정확한 위치를 파악하는 방법을 학습한다. 연구팀은 이러한 과정이 실제 세계에서 인간이 시각적 단서를 해석하는 방식과 매우 유사하다고 설명했다.

▲로보스페셜로 학습받은 모델이 공간 추론을 사용해 조작 작업을 수행하는 것을 보여주는 사례.
로보스페셜로 훈련된 모델은 실제 로봇 작업에서 공간 추론 기술을 엄격하게 테스트받았다.
연구팀은 키노바 제이코(Kinova Jaco) 돌봄 보조 로봇 팔을 활용해 테스트를 진행했다. 이번에 개발한 프레임워크를 적용한 결과 로봇은 “의자를 테이블 앞에 놓을 수 있나요?”, “머그컵이 노트북 왼쪽에 있나요?”와 같은 간단한 공간 질문에 정확하게 답변할 수 있었다. 연구팀은 “이는 단순히 물건을 집어 들거나 놓는 개별 행동의 개선을 넘어, 로봇이 인간과 훨씬 더 자연스럽게 상호작용할 수 있도록 이끌 것”이라며, 공간적인 맥락을 정상화하여 로봇의 인식을 개선하는 이 작업이 더 안전하고 신뢰할 수 있는 AI 시스템으로 이어질 것이라고 전망했다.
백승일 기자 robot3@irobotnews.com
저작권자 © 로봇신문 무단전재 및 재배포 금지
'인공지능' 카테고리의 다른 글
| 모레, 텐스토렌트와 ‘슈퍼컴퓨팅 2025’서 AI 데이터센터 솔루션 공개 (0) | 2025.11.19 |
|---|---|
| AI 컨퍼런스서 퍼플렉시티가 ‘가장 실패할 가능성 높은’ 스타트업 1위 꼽혀 (0) | 2025.11.17 |
| AI 코딩 도구 커서(Cursor), 5개월 만에 기업가치 3배 급등…기업가치 40조원 돌파 (1) | 2025.11.14 |
| 갤럭스-이수앱지스, 인공지능 기반 신약개발 협력 MOU 체결 (0) | 2025.11.14 |
| 앤트로픽, 최초의 AI 주도 대규모 사이버 스파이 작전 적발 (0) | 2025.11.14 |