인공지능

MIT, 다목적 로봇 훈련을 위한 데이터 세트 통합 기술 개발

로봇신문사 2024. 6. 10. 10:34

 

 

 

▲ MIT 연구팀이 다양한 도구를 다루는 로봇을 테스트하고 있다.

 

MIT 연구팀이 다목적 로봇을 더 잘 훈련시키기 위해 생성형 인공지능(AI)의 일종인 ‘확산 모델(diffusion models)'을 활용해 데이터 양식(modalities)이나 작업 유형이 상이한 여러 데이터 소스(데이터세트)를 결합할 수 있는 기술을 개발했다고 MIT 뉴스가 3일 보도했다.

 

연구팀에 따르면, 다목적 로봇을 훈련시키기 위해선 엄청난 양의 데이터가 필요하다. 하지만 기존의 로봇 데이터 세트는 형식 면에서 매우 다양한 특성을 갖고 있다. 예를 들어 어떤 데이터 세트는 컬러 이미지를 포함하고 있으며, 또 다른 데이터 세트는 촉각 정보로 구성돼 있다. 또한 시뮬레이션이나 사람의 동작 시연(데모)과 같은 다양한 영역에서 데이터를 수집할 수 있으며, 각각의 데이터 세트는 고유한 작업과 환경을 캡처할 수 있다.

 

여러 소스의 데이터를 하나의 기계학습 모델에 효율적으로 통합하는 것이 어렵기 때문에 많은 방법이 한 가지 유형의 데이터만 사용해 로봇을 훈련시킨다. 이렇게 상대적으로 적은 양의 작업 데이터를 갖고 훈련한 로봇은 낯선 환경에서 새로운 작업을 수행하는 게 힘들다.

 

MIT 연구팀은 특정 데이터 세트를 사용해 하나의 작업을 완료하기 위한 전략 또는 정책을 학습하도록 별도의 확산 모델을 훈련시켰다. 이어 확산 모델로 학습된 정책을 로봇이 다양한 설정에서 여러 작업을 수행할 수 있도록 '일반 정책'으로 결합했다.

 

연구팀은 시뮬레이션과 실제 실험을 통해 이 같은 훈련 접근법이 로봇으로 하여금 여러 가지 도구 사용 작업을 수행하고, 훈련 중에 경험하지 않은 새로운 작업에 적응할 수 있도록 해준다는 것을 확인했다. ‘정책 합성(PoCo·Policy Composition)'이라고 알려진 이 방법은 기존 방법과 비교해 20%의 작업 성능 향상 효과를 보인 것으로 나타났다.

 

논문 주요 저자인 리루이 왕(Lirui Wang)은 "로봇 데이터 세트의 이질성을 해결하는 것은 ‘닭과 달걀’의 문제와 같다. 만약 우리가 일반적인 로봇 정책을 훈련하기 위해 많은 데이터를 사용하고 싶다면, 우리는 먼저 이 모든 데이터를 얻기 위해 배치 가능한 로봇이 필요하다. 우리는 연구자들이 챗GPT를 활용하는 것과 유사하게, 이용 가능한 모든 이질적 데이터를 활용하는 것이 로봇공학 분야에 중요한 단계라고 생각한다"라고 말했다.

 

로봇 정책은 입력을 받아 동작을 수행하는 데 사용하는 기계학습 모델이다. 로봇 정책을 학습하는 데 사용되는 데이터 세트는 일반적으로 작고, 물류창고의 상자에 상품을 포장하는 것과 같은 특정 작업 및 환경에 중점을 두고 있다.

 

리루이 왕은 "모든 로봇 물류창고는 수 테라바이트의 데이터를 생성하고 있지만, 패키지 작업을 수행하는 특정 로봇에만 국한돼 있다. 이러한 데이터를 일반기계를 훈련시키는 데 사용하는 것은 전혀 이상적이지 않다“고 말했다.

 

MIT 연구팀은 많은 로봇물류 창고에서 수집한 일련의 작은 데이터 세트를 가져와 각 데이터 세트에서 개별 정책을 학습하고, 로봇이 많은 작업에 일반화할 수 있는 방식으로 정책을 결합할 수 있는 기술을 개발했다.

 

 

연구팀은 확산 모델이라고 하는 일종의 생성 AI 모델을 사용했다. 이미지 생성에 자주 사용되는 확산 모델은 반복적으로 출력을 개선해 훈련 데이터 세트의 샘플과 유사한 새로운 데이터 샘플을 만드는 방법을 배운다. 이미지를 생성하는 확산 모델을 가르치는 대신 로봇의 궤적을 생성하는 것을 가르친다. 확산 모델은 훈련 데이터 세트의 궤적에 노이즈를 추가함으로써 이 작업을 수행한다. 확산 모델은 점차 노이즈를 제거하고 출력을 궤적으로 정교화한다.

 

확산 정책(Diffusion Policy)으로 알려진 이 기술은 이전에 MIT, 컬럼비아 대학, 도요타 연구소의 연구자들에 의해 소개됐다.

 

연구팀은 사람의 비디오 시연이 있는 데이터 세트와 로봇 팔의 원격 조작으로 수집된 데이터 세트 등 다른 유형의 데이터 세트로 각 확산 모델을 훈련시킨다. 그런 다음 연구팀은 모든 확산 모델에 의해 학습된 개별 정책에 가중치를 두고, 결합된 정책이 각 개별 정책의 목적을 충족하도록 출력을 반복적으로 정제한다.

 

연구팀은 이렇게 훈련받은 다목적 로봇으로 하여금 주걱, 칼, 망치, 렌치 등 다양한 도구들을 다루는 실험을 수행해 성과를 거뒀다.

 

이번 연구는 오는 15일부터 19일까지 네덜란드 델프트에서 열리는 ‘로보틱스: 사이언스 앤드 시스템즈 컨퍼런스(Robotics: Science and Systems Conference)’에서 발표될 예정이다.

 

장길수 ksjang@irobotnews.com

<저작권자 © 로봇신문사 무단전재 및 재배포금지>