인공지능

바이두, 주제에 맞게 동영상 제작해주는 인공지능 개발

로봇신문사 2020. 5. 22. 09:28

중국 바이두(Baidu)가 자연어 처리(NLP) 기술과 컴퓨터 비전 기술을 활용해 짧은 분량의 동영상을 만들어주는 인공지능을 개발했다.

‘IEEE 스펙트럼’에 따르면 바이두는 자사 인공지능인 ‘어니(ERNIE)’를 활용해 특정 주제에 맞게 웹페이지,비디오 클립,미디어를 편집해 2분 가량의 짧은 동영상을 만들어주는 인공지능 ‘비드프레스(VidPress)’의 프로토타입을 개발했다.

바이두의 어니는 인간의 언어를 이해하는 자연어 처리 인공지능으로, 지난해말 구글의 인공지능인 ‘버트(BERT)’와 대결해 이겼다.

바이두가 개발한 비드프레스는 URL에서 텍스트를 분석한 후 간결한 형태의 내러티브(서술문)를 합성하고, 인공지능이 선택한 미디어 및 비디오 클립을 활용해 2분 가량의 동영상을 만들어낸다. 음성도 자동을 삽입해준다. 바이두는 사람이 동영상을 편집하는 데 들어가는 시간을 절약할 수 있으며 ,동영상의 품질도 사람을 능가한다는 게 바이두의 설명이다.

연구팀은 바이두의 동영상 플랫폼인 ‘하오칸’에서 비드프레스를 이용해 테스트한 결과 2분 가량의 동영상을 만드는데 9분 정도가 걸렸으며 시청자들의 관심도도 비교적 높은 것으로 나타났다. 사람이 편집한 동영상을 끝까지 시청한 비율이 50%에 그친데 반해 비드프레스가 편집한 동영상을 끝까지 시청한 비율은 65%에 달했다.

'바이두 리서치 USA'의 줄리아 리(Julia Li) 이사는 비드프레스의 원리를 다음과 같이 설명했다. 가령 올 초 헬리콥터 사고로 사망한 미 프로농구 스타 ‘코비 브라이언트’에 관한 동영상을 제작한다고 가정해보자.

비드프레스는 코비 브라이언트의 사망을 다룬 웹페이지를 분석한 후 짧은 스토리를 만들어낸다. 인공지능 알고리즘은 웹페이지에서 브라이언트의 사망에 관한 중요한 문장을 뽑아내 동영상 스크립트의 전면에 배치한다.이 스크립트에는 헬리콥터, 코비 등 핵심 키워드가 들어간다. 인공지능은 요약문의 논리적인 구조를 명확히 하고, 사람이 문장 작성시 범하기 쉬운 나쁜 버릇도 교정해준다. 예를 들어 사람이 흔히 범하는 '모호한' 대명사를 보다 명확하게 해준다.

비드프레스는 문자 음성 변환 기술을 통해 스크립트를 음성으로 변환할 수 있다. 여기에 사람이 관심을 가질만한 음성 트랙에 ‘앵커(anchors)’를 배치한다. 연구팀은 의사결정 모델을 이용해 스토리 주제와 앵커를 연관짓는 작업을 진행한다. 또 사람들이 관심을 갖는 브랜드나 위치 등을 효과적으로 처리하도록 만들었다.

비드프레스는 웹페이지나 바이두의 뉴스피드 네트워크인 ‘바이쟈하오(Baijiahao)’에서 캡처한 미디어에 대해 점수를 매긴다. 비드프레스 알고리즘은 높은 점수를 받은 동영상 클립과 이미지를 타임라인상의 앵커와 연결짓는 작업을 한다. 이를 효율적으로 할수 있도록 일반적인 웹페이지 접근 능력뿐 아니라 저작권을 갖고 있는 상업적인 데이터베이스에도 접속할 수 있도록 시스템을 개발했다.

동영상 제작에는 컴퓨터 비전 기술도 활용된다. 브라이언트의 헬리콥터 사고 당시 현장 사진에 생전에 촬영한 그의 인터뷰 화면을 추가할수 있다. 이같은 일련의 작업을 통해 비드프레스는 사람이 편집한 동영상 보다 시청자들의 관심도가 더 높은 2분 가량의 동영상을 만들 수 있다는 설명이다. 하지만 바이두 연구진은 비드프레스의 탁월한 능력에도 불구하고 인간의 창의성을 넘을 수 있는 수준은 아니라고 설명했다.

장길수 ksjang@irobotnews.com

<저작권자 © 로봇신문사 무단전재 및 재배포금지>