▲ 펜실베이니아대 연구팀이 인공지능의 탈옥을 유도하는 알고리즘을 개발했다.
美 펜실베이니아대 연구팀이 챗GPT 등 대형 언어모델(LLM) 기반 인공지능 로봇의 ‘탈옥(jailbreaking)’을 유도할 수 있는 알고리즘인 ‘로보페어(RoboPair)’를 개발했다고 최근 밝혔다. 이후 LLM 기반 인공지능 로봇의 탈옥 공격에 따른 위험을 경고하는 목소리가 커지고 있다.
연구팀은 로보페어를 활용해 인공지능의 ‘안전 가드레일(safety guardrails)’을 우회해 ‘탈옥’을 유도하는 데 성공했다고 밝혔다. 연구팀은 관련 논문을 ‘아카이브(arXiv)’에 게재했으며(논문 제목:Jailbreaking LLM-Controlled Robots), 내년 아틀란타에서 열리는 ‘2025 IEEE International Conference on Robotics and Automation’에 연구 성과를 제출할 예정이다.
연구팀은 중국 유니트리의 4족 보행 로봇 ‘고(go) 2’, 학술적 연구에 자주 활용되는 클리어패스 로보틱스의 바퀴 달린 로봇 ‘자칼’, 엔비디아의 자율주행 시뮬레이터인 ‘돌핀 LLM’에 로보페어 알고리즘을 적용해 100% 탈옥을 유도하는 데 성공했다. 실험 결과 오픈 AI의 챗GPT가 탈옥 공격에 취약점을 갖고 있는 것으로 드러났다. 해커들이 안전 가드레일을 우회해 자율주행시스템을 조작한다면 자동차가 횡단보도에서 정지하지 않고 오히려 가속하도록 유도할 수 있다. 연구팀은 로봇의 탈옥을 유도하는 게 너무 쉽게 이뤄졌다며 대응 필요성을 강조했다.
▲ 로보페어를 활용해 인공지능 로봇의 탈옥을 유도하는 모습
이번 연구는 전미과학재단(NSF)과 육군연구소(Army Research Laboratory)의 지원을 받아 이뤄졌다. 이 연구는 로봇공학에서 대형언어모델(LLM)의 안전한 배포를 보장하기 위해 드러난 새로운 취약점을 해결하는 것을 목표로 하고 있다.
조지 파파스 펜실베이니아대 교수는 “우리의 연구는 대형 언어 모델이 물리적 세계와 통합될 때 충분히 안전하지 않다는 것을 보여준다”고 말했다. 현재 전세계 많은 로봇 기업들이 챗GPT 등 대형 언어모델을 로봇에 통합하려는 시도를 활발하게 추진하고 있다. 오픈AI의 챗GPT와 통합된 보스턴 다이나믹스의 4족 보행 로봇 ‘스팟’은 관광 가이드 역할을 수행할 수 있으며, 피규어(Figure)의 휴머노이드 로봇과 유니트리의 고2 로봇 역시 챗GPT를 지원하고 있다.
하지만 LLM 기반의 인공지능 로봇의 취약성이 새롭게 발견됨에 따라 인공지능 로봇에 대한 탈옥 공격 우려가 높아지고 있다는 경고음이 커지고 커지고 있다. 해커들이 악의적으로 LLM 로봇의 탈옥을 유도할 경우 인공지능을 속여 폭탄 제조, 불법적인 약물 제조법, 자선단체 사기 안내 등 원치 않는 콘텐츠를 생성할 수 있는 프롬프트의 개발 방법을 발견할 수 있다는 것이다.
IEEE 스펙트럼은 LLM 탈옥 공격에 대한 이전의 연구는 대부분 챗봇에 국한됐으나, 이제는 챗봇을 넘어 인간을 위협하는 로봇으로 발전할 수 있다고 우려했다. 예를 들어 한 유튜버는 화염방사기를 장착한 4족 보행 로봇에게 음성 명령으로 화염을 자신을 향해 쏠 수 있다는 사실을 보여주었다.
이번 연구에 참여하지 않은 예일대 아민 카르바시 교수는 "LLM이 LLM 제어 로봇을 통해 실제 세계에서 작동할 때 심각하고 가시적인 위협이 될 수 있다"고 경고했다.
과학자들은 탈옥한 LLM이 악의적인 프롬프트를 실행하는 것에서 벗어나 보다 적극적인 제안을 내놓을 수 있다는 점을 걱정하고 있다. 예를 들어, 탈옥한 로봇이 무기를 찾아달라는 요청을 받았을 때 주변에 있는 책상이나 의자와 같은 일반적인 물체를 사용해 사람을 때리는 방법에 관해 설명해줄 수 있다는 것이다.
펜실베이니아대 연구팀 관계자는 "악의적인 활용 사례에 대한 강력한 방어는 가장 강력한 공격을 먼저 식별한 후에만 설계할 수 있다“며 이번 연구가 "탈옥 공격에 대한 로봇의 강력한 방어로 이어질 수 있기를 희망한다”고 말했다.
장길수 ksjang@irobotnews.com
<저작권자 © 로봇신문사 무단전재 및 재배포금지>
'인공지능' 카테고리의 다른 글
MIT CSAIL, 생성형 인공지능 활용해 로봇 훈련 성공적으로 수행 (1) | 2024.11.13 |
---|---|
다빈치 로봇, 모방학습으로 인간처럼 봉합 수술 성공 (1) | 2024.11.13 |
한국법제연구원-법제처 ‘인공지능과 미래법제’ 포럼 개최 (2) | 2024.11.12 |
마음AI, '2024 대한민국 정부박람회'에 근로감독관 AI 지원시스템 출품 (2) | 2024.11.12 |
법제처, 생성형 AI 법령정보 제공 서비스 제공한다 (1) | 2024.11.12 |