▲ 이전 버전의 모델에서 생성된 데이터로 훈련받은 인공지능 모델이 점점 더 왜곡된 이미지를 만들어낸다.(사진=네이처, 아카이브(arXiv))
인공지능(AI)이 생성한 텍스트를 활용해 인공지능(AI) 모델을 훈련시킬수록 무의미하고(넌센스) 왜곡된 결과가 나온다는 경고가 나왔다.
인공지능 생성 텍스트가 인터넷에 널리 퍼지면서 사람이 만든 훈련 데이터가 고갈되는 현상이 벌어지고, 결국은 ‘모델 붕괴(model collapse)’라고 불리는 카니발리즘 현상(cannibalistic phenomenon)이 발생해 대규모 언어 모델(LLM·large language models)의 성능 개선을 멈추게 한다는 주장이다.
자카르 슈마일로프(Zakhar Shumaylov) 등 영국 캠브리지대학 연구팀은 지난달 24일 네이처에 인공지능 모델의 붕괴를 경고하는 논문을 발표했다.(논문 제목:AI models fed AI-generated data quickly spew nonsense)
자카르 슈마일로프는 “연구팀이 수학적인 분석 기법을 활용해 연구한 결과 모델 붕괴 문제가 보편화될 가능성이 있는 것으로 드러났다”며, “우리 연구는 단순한 이미지 생성기와 다른 유형의 인공지능뿐만 아니라 큐레이팅되지 않은 데이터를 사용하는 모든 언어 모델에 영향을 미친다는 것을 보여준다”고 말했다.
연구팀은 LLM을 사용해 위키백과와 유사한 항목을 만든 다음, 이전 모델에서 만든 텍스트로 새로운 버전의 모델을 훈련시켰다. 실험 결과 인공지능이 생성한 정보인 ‘합성 데이터’가 훈련 세트를 오염시키면서 모델이 횡설수설하는 출력물을 내놓았다는 것이다.
연구팀은 모델이 완전히 붕괴되기 이전이라도, 인공지능에서 파생된 텍스트를 통해 학습하면, 모델의 출력이 점점 더 동질화되면서 데이터 세트에 자주 언급되지 않은 정보를 점점 더 반영하지 않도록 만든다고 지적했다.
이번 연구 공동 저자인 옥스퍼드대 일리아 슈마일로프(Ilia Shumailov)는 낮은 확률의 사건은 빈번하게 '소외 그룹'과 관련돼 있으며, 모든 그룹을 공정하게 대표하는 AI 모델을 만드는 것이 힘들어진다고 우려했다.
연구팀은 그동안 많은 테크기업들이 자신들의 언어 모델에 점점 더 많은 양의 데이터를 제공함으로써 모델의 성능을 개선해 왔으나 인간이 생산한 콘텐츠가 고갈됨에 따라 합성 데이터를 사용하기를 점점 더 희망하고 있다고 지적했다.
언어 모델은 인터넷에서 수집한 방대한 양의 텍스트를 활용해 토큰 사이의 연관성을 형성하는 방식으로 작동한다. 이렇게 학습된 패턴을 기반으로 통계적으로 가장 가능성이 높은 '다음 단어'를 뱉어냄으로써 텍스트를 생성하는 것이다.
연구팀은 모델 붕괴를 시연하기 위해 사전 훈련된 LLM을 가져다가 위키백과 항목에 기반한 데이터 세트를 사용해 훈련시킴으로써 모델을 미세 조정했다. 이어 미세조정한 모델에게 위키백과 스타일의 기사를 생성하도록 요청했다. 연구팀은 모델 붕괴는 각각의 모델이 학습한 데이터에서만 샘플링하기 때문에 발생한다고 진단했다. 이는 원래 데이터에서 드물었던 단어가 재현될 가능성이 줄어들고, 일반적으로 사용되는 단어가 다시 반복될 확률이 높아진다는 것을 의미한다는 것이다.
연구팀은 완전한 모델 붕괴는 각 모델이 현실이 아닌 이전 모델의 현실 예측을 통해 학습하기 때문에 발생하며, 반복할 때마다 오류가 증폭된다고 설명했다. 일리아 슈마일로프는 "시간이 지남에 따라 모델은 기본적으로 오류만 학습하고, 오류들은 계속 쌓인다"고 주장했다.
네이처는 UC버클리의 컴퓨터 과학자인 하니 패리드(Hany Farid)를 인용해 이 문제가 마치 생물 종의 '근친 교배'와 유사하다고 지적했다. 유전자 풀을 다양화하지 않으면 결국 종의 붕괴로 이어진다는 것이다.
일리아 슈마일로프는 모델 붕괴가 LLM의 작동을 중단시키는 것을 의미하는 것은 아니지만, LLM을 만드는 비용 증가로 나타난다고 주장했다. 합성 데이터가 인터넷에 쌓이면서 모델이 더 많은 데이터를 학습할수록 더 나은 데이터를 얻을 수 있다는 '스케일링 법칙'이 깨질 가능성이 있다는 것이다. 모델이 학습하는 데이터는 인간이 생성한 콘텐츠의 풍부함과 다양성을 잃게 된다.
연구팀은 모델 훈련에 얼마나 많은 합성 데이터가 사용되는지가 중요하다고 강조했다. 또한 합성 데이터와 함께 10%의 실제 데이터에 대해 각 모델을 미세 조정했을 때 모델 붕괴는 더 느리게 발생했다고 밝혔다.
일리아 슈마일로프는 개발자들이 인공지능 생성 데이터를 실제 데이터로부터 분리하기 위해 워터마킹과 같은 방법을 찾아야 할 수도 있는데, 이것은 빅테크 기업들에 의한 전례 없는 조정을 필요로 할 것이라고 말했다.
장길수 ksjang@irobotnews.com
<저작권자 © 로봇신문사 무단전재 및 재배포금지>
'인공지능' 카테고리의 다른 글
美 AI 스타트업 ‘코드메탈’, 225억원 시드 투자 유치 (0) | 2024.08.07 |
---|---|
KAIST, 변화에 민감한 사용자도 맞춰주는 인공지능 기술 개발 (0) | 2024.08.05 |
KAIST, 로봇 등 온디바이스 인공지능 실현 기술 개발 (0) | 2024.08.01 |
코오롱베니트, 가산동에 ‘AI 솔루션 센터’ 개소 (0) | 2024.07.31 |
대통령 직속 '국가인공지능위원회' 생긴다 (0) | 2024.07.31 |