인공지능

美 UC버클리, 강력한 강화학습 알고리즘 ‘데이드리머’ 개발

로봇신문사 2022. 8. 29. 11:20

 

▲미국 캘리포니아 주립 버클리대(UC버클리) 연구원들이 강력한 강화학습 알고리즘인 데이드리머를 개발했다. 이들은 이를 사용해 중국 유니트리의 4족보행 로봇개 A1을 한시간만에 걷고, 밀면 버티고, 넘어졌을 때엔 제자리에서 굴러 재빨리 일어서도록 가르칠 수 있었다. (사진=UC버클리)

 

미국 캘리포니아 주립 버클리대(UC버클리) 연구진이 만든 강화학습(RL) 인공지능(AI) 알고리즘인 '데이드리머(DayDreamer)'가 4족 보행로봇(로봇개)에게 단 1시간 만에 걷기를 가르치는 데 성공했다고 더로봇리포트가 지난 23일(현지시각) 보도했다.

 

이 알고리즘은 로봇이 월드 모델을 사용해 픽킹, 탐색 또는 걷기와 같은 작업을 빠르게 학습할 수 있도록 도와준다. 월드 모델은 AI 시뮬레이터와 상호 작용할 필요 없이 강화학습만 사용하는 것보다 AI 알고리즘이 더 빠르게 학습할 수 있게 해 준다.

 

이 모델은 중국 유니트리 로보틱스의 4족보행 로봇 A1이 한 시간 만에 등을 굴려 일어서서 걸어다닐 수 있도록 훈련시켰고, 유니버설 로봇의 협동로봇 UR5의 매니퓰레이터와 U팩토리의 xArm 6가 약 10시간 만에 픽 앤 플레이스 작업을 완료하고, 스피로의 올리 이동로봇이 2시간 만에 내비게이션 작업을 완료할 수 있도록 가르치는 데 성공했다.

 

데이드리머는 신경망을 사용해 환경과 상호 작용하며 월드 모델을 배우기 위해 이 정보를 사용한다. 월드 모델은 AI가 일련의 행동의 결과를 예측할 수 있게 한다. 이 예측된 행동은 동작은 강화학습과 함께 로봇용 컨트롤러를 교육하는 데 사용된다.

 

이 프로세스는 기존의 전통적인 로봇 교육 방법에 비해 장점을 갖는다. 자체 강화학습보다 빠르고, 시뮬레이션된 환경에서 훈련하는 것보다 실제 세계의 복잡성과 역학을 처리할 수 있는 장비도 더 잘 갖추고 있다. 또한 월드 모델은 시뮬레이션된 환경보다 개발 시간과 비용이 적게 든다.

 

월드 모델 시스템은 인코더 신경망을 사용해 지도 센서 데이터를 더 작은 차원 표현과 동적 네트워크로 변환한다. 네트워크는 운동 동작들이 이 작은 표현들을 바꾸는 방법을 예측한다. 그런 다음 보상 신경망은 과제 달성 여부에 따라 어떤 운동 동작이 가장 좋은지를 결정한다. 다음으로, 강화학습 액터(actor) 비판 알고리즘은 그 결과로 나오는 월드 모델을 사용해 제어 동작을 학습한다.

 

이 방법을 사용하면 AI 알고리즘은 동시에 많은 다양한 운동 동작을 고려할 수 있게 해 준다. 이는 로봇이 일반적인 강화학습에서는 한 번에 하나의 동작을 시도하는 것과 차별화된다.

 

데이드리머는 로봇이 주변 환경에 빠르게 적응하도록 할 수 있다.

 

연구팀은 로봇개가 몸을 밀어도 견디거나 빠르게 몸을 좌우로 굴려 다시 일어서는 방법을 10분 이내에 배울 수 있다는 것을 발견했다.

 

로봇 팔들은 카메라 이미지와 희박한 보상을 사용해 물체를 선택하고 배치하는 방법을 배울 수 있으며, 모바일 로봇은 카메라 이미지만 사용하여 목표 위치로 이동할 수 있다.

 

이 팀의 모델과 여러 실험은 필립 우, 알레한드로 에스콘트렐라, 다니자르 하프너, 켄 골드버그, 피터 아브빌이 공동 집필한 논문에 실렸다.

 

그 논문은 아카이브(arXiv) 웹사이트에서 출판됐다. 이 사이트에 따르면 데이드리머 코드는 곧 오픈 소스로 제공될 것이며 깃허브에서는 이전 버전의 알고리즘을 사용할 수 있다.

 

 

 

이성원 sungwonly09@gmail.com

<저작권자 © 로봇신문사 무단전재 및 재배포금지>