로봇부품·소프트웨어

MIT CSAIL, 시뮬레이션 환경에서 집안 일 학습하는 방법 제안

로봇신문사 2024. 7. 31. 16:44

 

▲ MIT CSAIL 연구팀이 '리얼투'를 활용해 로봇을 훈련시키고 있다(사진=MIT CSAIL)

 

MIT 컴퓨터과학·인공지능연구소(CSAIL) 연구팀이 시뮬레이션 환경에서 로봇에게 여러 가지 집안 일을 가르칠 수 있는 새로운 학습 방법을 제안했다. 기존의 모방학습과 강화학습을 개선한 새로운 접근 방법이란 설명이다.

 

연구팀은 이번 연구 성과를 출판전 논문 공개 사이트인 ‘아카이브(arXiv)’에 발표했다. (논문 제목:Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation)

 

연구팀에 따르면, 많은 개발자들은 로봇들이 어떤 조건 또는 어떤 장소에서도 작업을 수행할 수 있도록 하드웨어와 소프트웨어를 만드는 것에 목표를 두고 있다. 하지만 특정한 집에서 작동하는 로봇이 이웃의 모든 집에서 작동하는 방법을 알 필요는 없다. 가정마다 집안의 환경이 다르고, 설령 로봇이 집안을 모두 매핑한다고 하더라도 집안의 환경은 유동적으로 변화하기 마련이다. 따라서 다양한 실제 환경에서 로봇들이 작업을 수행하기위해선 로봇들에게 일반론적 정책들을 학습시킬 필요가 있다.

 

연구팀에 따르면, ‘모방 학습’은, 물체의 자세(object poses), 물리적 방해 및 시각적 방해 요소의 변화에도 강건한 '정책'을 학습하기 위해 상당한 수준의 인간 감독이 필요하다. 반면 '강화 학습'은 강건한 동작을 학습하기 위해 환경을 자율적으로 탐색할 수는 있지만 비현실적인 양의 안전하지 않은 실제 데이터 수집이 필요할 수 있다.

 

연구팀은 안전하지 않은 실제 데이터 수집 또는 광범위한 인간 감독의 부담 없이 성능이 뛰어나고 강건한 정책을 학습하기 위해 소량의 실제 세계(real world) 데이터를 통해 즉시 구축된 ‘디지털 트윈’ 환경에서, 강화 학습을 통해 실제 세계 모방 학습 정책(real-world imitation learning policies)을 강건하게 만들어주는 시스템인 ‘리얼투(RialTo)‘를 제안했다. 리얼투는 실제 세계 환경의 디지털 트윈을 빠르게 스캔하고, 구성하기 위한 쉬운 인터페이스를 제시한다.

 

MIT 연구팀은 ‘리얼-투-심-투-리얼 모델(Real-to-Sim-to-Real model)’이 가능하도록 특정한 환경에서 ‘로봇 정책(robot policies)’을 쉽게 훈련시키는 방법인 ‘리얼투(RialTo)’가 모방학습에 비해 67% 이상 ‘정책’을 향상시켰다고 밝혔다.

 

연구팀은 토스터 열기, 선반에 책 놓기, 선반 위에 접시 올려놓기, 선반 위에 머그컵 올려놓기, 서랍 열기, 캐비닛 열기 등 일상적인 작업을 로봇이 수행할 수 있도록 시스템을 가르쳤다.

 

논문 수석저자인 마르셀 토르네 빌라세빌은 "우리는 로봇들이 혼란, 방해, 변화하는 조명 조건, 물체 자세의 변화 등 환경에서도 작업을 잘 수행하는 것을 목표로 했다. 우리는 컴퓨터 비전의 최신 기술 발전을 활용해 디지털 트윈을 즉석에서 만들 수 있는 방법을 제안했다. 이 방법은 휴대폰으로 누구나 실제 세계의 디지털 복제품을 캡처할 수 있고 GPU 병렬화 덕분에 로봇이 실제 세계보다 훨씬 빨리 시뮬레이션 환경에서 훈련을 할 수 있도록 해준다”고 강조했다.

 

먼저 사용자는 NeRFS스튜디오, AR코드, 폴리캠(Polycam)과 같은 도구를 사용해 휴대폰으로 환경을 스캔한다. 이어 사용자는 리얼투(RialTo)의 인터페이스에 업로드하여 세부사항을 조정하고 로봇에 필요한 관절을 추가하는 등 작업을 수행할 수 있다. 이어 재정의된 장면을 시뮬레이터로 가져온다. 이는 실제 행동과 관찰을 기반으로 정책을 만드는 데 있다. 이러한 실제 시연은 시뮬레이션에서복제되어 강화학습(RL)에 유용한 데이터를 제공한다.

 

마르셀 토르네 빌라세빌은 "이 방법은 시뮬레이션과 실제 세계 모두에서 잘 작동하는 강건한 정책을 만드는 데 도움을 준다. 강화학습을 사용하는 향상된 알고리즘을 시뮬레이터 밖에서 적용할 때 정책의 효과성을 보증한다“고 말했다.

 

MIT CSAIL 연구팀은 ”리얼투(RialTo)가 통제된 실험실 환경이나 예측할 수 없는 실제 환경에서 다양한 작업을 위한 강력한 정책을 만들 수 있음을 발견했다. 리얼투는 새로운 '리얼-투-심-투-리얼 파이프라인(real-to-sim-to-real pipeline)'으로 실제 세계(리얼-월드) RL(강화학습)의 안전성 제약과 데이터 기반 학습 방법의 효율적인 데이터 제약을 직접적으로 해결할수 있다"고 말했다. 또한 "리얼투는 로봇 학습을 크게 확장할 수 있는 잠재력을 가지고 있으며 로봇이 복잡한 실제 시나리오에 훨씬 더 효과적으로 적응할 수 있도록 해준다“고 언급했다. 실제 데이터와 결합했을 때, 이 시스템은 시각적 주의를 산만하게 하거나 물리적 장애가 많은 상황에서 전통적인 모방학습 방법을 능가했다고 연구팀은 설명했다.

 

장길수 ksjang@irobotnews.com

<저작권자 © 로봇신문사 무단전재 및 재배포금지>