
▲미국 캘리포니아 주립 버클리대(UC버클리) 연구원들이 강력한 강화학습 알고리즘인 데이드리머를 개발했다. 이들은 이를 사용해 중국 유니트리의 4족보행 로봇개 A1을 한시간만에 걷고, 밀면 버티고, 넘어졌을 때엔 제자리에서 굴러 재빨리 일어서도록 가르칠 수 있었다. (사진=UC버클리)
미국 캘리포니아 주립 버클리대(UC버클리) 연구진이 만든 강화학습(RL) 인공지능(AI) 알고리즘인 '데이드리머(DayDreamer)'가 4족 보행로봇(로봇개)에게 단 1시간 만에 걷기를 가르치는 데 성공했다고 더로봇리포트가 지난 23일(현지시각) 보도했다.
이 알고리즘은 로봇이 월드 모델을 사용해 픽킹, 탐색 또는 걷기와 같은 작업을 빠르게 학습할 수 있도록 도와준다. 월드 모델은 AI 시뮬레이터와 상호 작용할 필요 없이 강화학습만 사용하는 것보다 AI 알고리즘이 더 빠르게 학습할 수 있게 해 준다.
이 모델은 중국 유니트리 로보틱스의 4족보행 로봇 A1이 한 시간 만에 등을 굴려 일어서서 걸어다닐 수 있도록 훈련시켰고, 유니버설 로봇의 협동로봇 UR5의 매니퓰레이터와 U팩토리의 xArm 6가 약 10시간 만에 픽 앤 플레이스 작업을 완료하고, 스피로의 올리 이동로봇이 2시간 만에 내비게이션 작업을 완료할 수 있도록 가르치는 데 성공했다.
데이드리머는 신경망을 사용해 환경과 상호 작용하며 월드 모델을 배우기 위해 이 정보를 사용한다. 월드 모델은 AI가 일련의 행동의 결과를 예측할 수 있게 한다. 이 예측된 행동은 동작은 강화학습과 함께 로봇용 컨트롤러를 교육하는 데 사용된다.
이 프로세스는 기존의 전통적인 로봇 교육 방법에 비해 장점을 갖는다. 자체 강화학습보다 빠르고, 시뮬레이션된 환경에서 훈련하는 것보다 실제 세계의 복잡성과 역학을 처리할 수 있는 장비도 더 잘 갖추고 있다. 또한 월드 모델은 시뮬레이션된 환경보다 개발 시간과 비용이 적게 든다.
월드 모델 시스템은 인코더 신경망을 사용해 지도 센서 데이터를 더 작은 차원 표현과 동적 네트워크로 변환한다. 네트워크는 운동 동작들이 이 작은 표현들을 바꾸는 방법을 예측한다. 그런 다음 보상 신경망은 과제 달성 여부에 따라 어떤 운동 동작이 가장 좋은지를 결정한다. 다음으로, 강화학습 액터(actor) 비판 알고리즘은 그 결과로 나오는 월드 모델을 사용해 제어 동작을 학습한다.
이 방법을 사용하면 AI 알고리즘은 동시에 많은 다양한 운동 동작을 고려할 수 있게 해 준다. 이는 로봇이 일반적인 강화학습에서는 한 번에 하나의 동작을 시도하는 것과 차별화된다.
데이드리머는 로봇이 주변 환경에 빠르게 적응하도록 할 수 있다.
연구팀은 로봇개가 몸을 밀어도 견디거나 빠르게 몸을 좌우로 굴려 다시 일어서는 방법을 10분 이내에 배울 수 있다는 것을 발견했다.
로봇 팔들은 카메라 이미지와 희박한 보상을 사용해 물체를 선택하고 배치하는 방법을 배울 수 있으며, 모바일 로봇은 카메라 이미지만 사용하여 목표 위치로 이동할 수 있다.
이 팀의 모델과 여러 실험은 필립 우, 알레한드로 에스콘트렐라, 다니자르 하프너, 켄 골드버그, 피터 아브빌이 공동 집필한 논문에 실렸다.
그 논문은 아카이브(arXiv) 웹사이트에서 출판됐다. 이 사이트에 따르면 데이드리머 코드는 곧 오픈 소스로 제공될 것이며 깃허브에서는 이전 버전의 알고리즘을 사용할 수 있다.
이성원 sungwonly09@gmail.com
<저작권자 © 로봇신문사 무단전재 및 재배포금지>
'인공지능' 카테고리의 다른 글
| 씨드로닉스, 독일 조선해양 전시회서 ‘AI 기반 운항 모니터링’ 서비스 첫 공개 (0) | 2022.08.30 |
|---|---|
| 한국로봇산업협회, 로봇 AI 융합인재 양성 나선다 (0) | 2022.08.30 |
| KAIST, 10배 빠른 '설명가능한 인공지능' 처리 기술 개발 (0) | 2022.08.24 |
| LG, 5대 핵심가치 담은 ‘AI 윤리원칙’ 발표 (0) | 2022.08.24 |
| ‘2022 인공지능대학원 심포지엄’, 18일 개막 (0) | 2022.08.18 |