![](https://blog.kakaocdn.net/dn/BF1xm/btsL8KbUtGg/CqQEKVXkrVCDk6ZaYK5V4k/img.png)
▲로봇이 블록 쌓기 훈련을 하고 있다.
일본 오키나와 과학기술대학(Okinawa Institute of Science and Technology·OIST) 연구팀은 어린 아이들이 언어를 배우는 것 처럼, 작업을 빠르게 학습할 수 있는 신경망 아키텍처인 ‘체화 지능(embodied intelligence mode) 모델’을 개발했다고 밝혔다.
이 모델은 어린이들이 일반화하는 것과 동일한 방식으로, ‘일반화’ 방법을 배울 수 있다. 인간은 일반화에 매우 뛰어난 능력을 갖고 있다. 예를 들어, 유아에게 빨간 공, 빨간 트럭 장난감, 빨간 장미를 보여주며 빨간 색을 식별하는 법을 가르치면, 처음 보는 토마토라도 색을 정확하게 식별할 가능성이 높다.
OIST는 체화 지능 모델에 대한 연구 성과를 ‘사이언스 로보틱스’에 발표했다.(논문 제목:Development of compositionality through interactive learning of language and action of robots)
논문 제1저자인 프라산나 비자야라가반(Prasanna Vijayaraghavan) 박사는 "이번 논문은 신경망이 ‘합성성(compositionality)‘을 성취할 수 있는 메커니즘을 보여준다"며 “우리의 모델은 방대한 데이터셋을 기반으로 한 추론이 아니라, 유아들이 그러는 것처럼 시각, 고유 감각, 작업 메모리, 주의력 등을 언어와 결합하는 방식으로 이뤄진다"고 말했다.
연구팀에 따르면, 인간은 학습된 행동을 학습되지 않은 상황에 적용하는 데 뛰어 능력을 갖췄다. 이러한 일반화 행동의 중요한 구성 요소는 전체를 '재사용' 가능한 부분으로 합성하고 분해하는 능력이다. 이를 ’합성성’이라고 부른다.
트랜스포머 네트워크 아키텍처 기반의 대규모 언어모델(LLM)은 방대한 양의 텍스트 데이터를 통해 단어들 간의 통계적 관계를 학습한다. 이러한 이해를 바탕으로 주어진 프롬프트에 대해 가장 가능성 있는 답을 내놓는다.
연구팀의 새로운 모델은 PV-RNN(예측 코딩에서 영감을 받은 변분 순환 신경망, Predictive coding inspired, Variational Recurrent Neural Network) 프레임워크를 기반으로 한다. 서로 다른 감각에 관한 세가지 동시 입력을 통합함으로써 체화된 상호작용(embodied interactions)을 구현하고, 훈련을 수행한다. 예를 들어, 로봇팔을 이용해 특정 색깔의 블록을 다른 색의 블록에 쌓을 경우, 시각(로봇 팔이 컬러 블록을 움직이는 영상), 팔다리의 고유 수용성(로봇팔의 관절 각도 등 로봇의 동작), 명령어(파란 색 블록위에 빨간 색 블록을 올려놓아라)등 3가지 입력을 통합한다. 이후 이 모델은 언어 명령에 따라 시각적 예측과 그에 상응하는 해당 관절 각도를 생성하거나, 감각의 입력에 대응해 언어 명령을 생성한다.
이 시스템은 우리 뇌가 과거의 경험을 바탕으로 감각 입력을 지속적으로 예측하고, '예측'과 '관찰'의 차이를 최소화하기 위해 조치한다는 ’자유 에너지 원리(Free Energy Principle)‘에서 영감을 받았다. '자유 에너지'로 정량화된 '예측'과 '관찰'의 차이는 불확실성을 측정하는 척도가 되며, 우리는 자유 에너지를 최소화함으로써 뇌의 안정적인 상태를 유지한다.
비자야라가반 박사는 "이 모델은 다양한 맥락에서 같은 단어에 많이 노출될수록 그 단어를 더 잘 학습한다는 것을 발견했다. 이는 유아가 여러 번 빨간 트럭 장난감을 미는 것 보다는 다양한 방식으로 여러 가지 빨간 물체와 상호작용할수록 빨간 색의 개념을 훨씬 더 빨리 배울 수 있다는 것을 반영한다"고 말했다. 이어 "우리 모델은 합성성을 달성하기 위해 훨씬 적은 훈련 세트와 컴퓨팅 성능을 필요로 한다. LLM보다 더 많은 실수를 저지르지만, 사람이 실수를 저지르는 것과 유사한 방식으로 실수를 한다”고 설명했다.
이 모델은 또한 아동의 빠른 언어 습득을 설명하기에 언어적 입력이 충분하지 않다고 가정하는 '자극의 빈곤 문제(the Poverty of Stimulus problem)'를 해결한다. LLM에 비해 데이터셋이 매우 제한적임에도 불구하고 합성성을 달성할 수 있으며, "행동에 언어의 기반을 두는 것"이 어린아이의 인상적인 언어 학습 능력에 중요한 촉매제가 될 수 있음을 시사한다는 것이다.
이러한 체화 학습(embodied learning) 방식은 투명성을 향상시키고, 행동의 효과를 더 잘 이해할 수 있도록 함으로써 미래에 더 안전하고 윤리적인 인공지능의 길을 보여줄 수 있다고 연구팀은 강조했다.
비자야라가반 박사는 "이 모델은 '언어'와 '행동'을 결합하는 방법을 관찰함으로써 인간 인지의 기초가 되는 근본적인 과정에 대한 통찰력을 제공한다. 언어 습득 시 ’합성성‘에 대해 많은 것을 배울수 있으며, 보다 효율적이고 투명하며 안전한 모델의 잠재력을 보여준다“고 말했다.
장길수 ksjang@irobotnews.com
<저작권자 © 로봇신문사 무단전재 및 재배포금지>
'미래기술' 카테고리의 다른 글
美 캔자스대, 스테레오택시스 수술 로봇으로 부정맥 시술 (0) | 2024.11.18 |
---|---|
처음으로 육지를 걸은 고대 물고기, '고대 로봇'으로 규명한다 (2) | 2024.10.31 |
레드닷드론재팬, 실내 드론 실증 실험 실시 (0) | 2024.08.01 |
싱가포르 난양이공대, 소프트 로봇용 착용형 직물 개발 (0) | 2024.07.22 |
"로봇 안내견에 필요한 기능, 시각장애인에게 물어봐야" (0) | 2024.05.24 |