美 UC버클리, 강력한 강화학습 알고리즘 ‘데이드리머’ 개발

인공지능

美 UC버클리, 강력한 강화학습 알고리즘 ‘데이드리머’ 개발

로봇신문사 2022. 8. 29. 11:20

▲미국 캘리포니아 주립 버클리대(UC버클리) 연구원들이 강력한 강화학습 알고리즘인 데이드리머를 개발했다. 이들은 이를 사용해 중국 유니트리의 4족보행 로봇개 A1을 한시간만에 걷고, 밀면 버티고, 넘어졌을 때엔 제자리에서 굴러 재빨리 일어서도록 가르칠 수 있었다. (사진=UC버클리)

미국 캘리포니아 주립 버클리대(UC버클리) 연구진이 만든 강화학습(RL) 인공지능(AI) 알고리즘인 '데이드리머(DayDreamer)'가 4족 보행로봇(로봇개)에게 단 1시간 만에 걷기를 가르치는 데 성공했다고 더로봇리포트가 지난 23일(현지시각) 보도했다.

이 알고리즘은 로봇이 월드 모델을 사용해 픽킹, 탐색 또는 걷기와 같은 작업을 빠르게 학습할 수 있도록 도와준다. 월드 모델은 AI 시뮬레이터와 상호 작용할 필요 없이 강화학습만 사용하는 것보다 AI 알고리즘이 더 빠르게 학습할 수 있게 해 준다.

이 모델은 중국 유니트리 로보틱스의 4족보행 로봇 A1이 한 시간 만에 등을 굴려 일어서서 걸어다닐 수 있도록 훈련시켰고, 유니버설 로봇의 협동로봇 UR5의 매니퓰레이터와 U팩토리의 xArm 6가 약 10시간 만에 픽 앤 플레이스 작업을 완료하고, 스피로의 올리 이동로봇이 2시간 만에 내비게이션 작업을 완료할 수 있도록 가르치는 데 성공했다.

데이드리머는 신경망을 사용해 환경과 상호 작용하며 월드 모델을 배우기 위해 이 정보를 사용한다. 월드 모델은 AI가 일련의 행동의 결과를 예측할 수 있게 한다. 이 예측된 행동은 동작은 강화학습과 함께 로봇용 컨트롤러를 교육하는 데 사용된다.

이 프로세스는 기존의 전통적인 로봇 교육 방법에 비해 장점을 갖는다. 자체 강화학습보다 빠르고, 시뮬레이션된 환경에서 훈련하는 것보다 실제 세계의 복잡성과 역학을 처리할 수 있는 장비도 더 잘 갖추고 있다. 또한 월드 모델은 시뮬레이션된 환경보다 개발 시간과 비용이 적게 든다.

월드 모델 시스템은 인코더 신경망을 사용해 지도 센서 데이터를 더 작은 차원 표현과 동적 네트워크로 변환한다. 네트워크는 운동 동작들이 이 작은 표현들을 바꾸는 방법을 예측한다. 그런 다음 보상 신경망은 과제 달성 여부에 따라 어떤 운동 동작이 가장 좋은지를 결정한다. 다음으로, 강화학습 액터(actor) 비판 알고리즘은 그 결과로 나오는 월드 모델을 사용해 제어 동작을 학습한다.

이 방법을 사용하면 AI 알고리즘은 동시에 많은 다양한 운동 동작을 고려할 수 있게 해 준다. 이는 로봇이 일반적인 강화학습에서는 한 번에 하나의 동작을 시도하는 것과 차별화된다.

데이드리머는 로봇이 주변 환경에 빠르게 적응하도록 할 수 있다.

연구팀은 로봇개가 몸을 밀어도 견디거나 빠르게 몸을 좌우로 굴려 다시 일어서는 방법을 10분 이내에 배울 수 있다는 것을 발견했다.

로봇 팔들은 카메라 이미지와 희박한 보상을 사용해 물체를 선택하고 배치하는 방법을 배울 수 있으며, 모바일 로봇은 카메라 이미지만 사용하여 목표 위치로 이동할 수 있다.

이 팀의 모델과 여러 실험은 필립 우, 알레한드로 에스콘트렐라, 다니자르 하프너, 켄 골드버그, 피터 아브빌이 공동 집필한 논문에 실렸다.

그 논문은 아카이브(arXiv) 웹사이트에서 출판됐다. 이 사이트에 따르면 데이드리머 코드는 곧 오픈 소스로 제공될 것이며 깃허브에서는 이전 버전의 알고리즘을 사용할 수 있다.

이성원 sungwonly09@gmail.com

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

씨드로닉스, 독일 조선해양 전시회서 ‘AI 기반 운항 모니터링’ 서비스 첫 공개 (0)	2022.08.30
한국로봇산업협회, 로봇 AI 융합인재 양성 나선다 (0)	2022.08.30
KAIST, 10배 빠른 '설명가능한 인공지능' 처리 기술 개발 (0)	2022.08.24
LG, 5대 핵심가치 담은 ‘AI 윤리원칙’ 발표 (0)	2022.08.24
‘2022 인공지능대학원 심포지엄’, 18일 개막 (0)	2022.08.18

현재글美 UC버클리, 강력한 강화학습 알고리즘 ‘데이드리머’ 개발

로봇신문

Today :
Yesterday :

로봇신문