인공지능

칼 손잡이, 냄비 바닥 알아보는 로봇 등장할까

로봇신문사 2025. 5. 19. 15:01

 

▲ 한국과학기술원(KAIST) 심현정 교수팀 소속 최지호 연구원(박사과정)이 16일 서울 강남구 코엑스에서 열린 ‘KAIST 김재철 AI대학원 AI 기술설명회’ 오후 세션에서 ‘개방 어휘 부분 분할을 위한 다중 세분성 이해’라는 제목으로 고효율 OVPS 기술의 연구 과정에 대해 소개하고 있다. (사진=전승민 기자)

 

개는 뒷덜미 피부를 물어 새끼를 옮긴다. 그 부위를 무는 것이 가장 상처가 적다는 것을 본능적으로 이해하고 있는 것이다. 이처럼 자연계를 살아가는 동물은 어떤 객체를 바라볼 때 자연스럽게 부분(Part)별로 나눠서 인식하는 능력을 갖고 있다.

 

하지만 인공지능(AI)은 이야기가 다르다. ‘자동차’를 인식시키려면 자동차 이미지를 반복적으로 학습해 데이터를 쌓고, 그 안에서 공통적 요소를 분석해 이해하는 방식을 주로 사용하는데, 이 방법으로는 사물을 부위 별로 인식하도록 만들기가 쉽지 않았다. 로봇이 주방 일을 할 때 ‘칼의 손잡이’나 ‘냄비의 바닥’등을 구분해 이해하지 못하니 사람처럼 능수 능란하게 업무를 배우고 익히기 어렵게 된다.

 

한국과학기술원(KAIST) 연구팀이 이같은 문제를 해결하기 위한 기술을 새롭게 개발했다. 이미지 속 객체의 특정 부분을 글자 설명만으로 정확하게 구분해내는 ‘개방 어휘 부위 분할(OVPS, Open-Vocabulary Part Segmentation)’ 기술이다.

 

KAIST 심현정 교수팀 소속 최지호 연구원(박사과정)은 16일 서울 강남구 코엑스에서 열린 ‘KAIST 김재철 AI대학원 AI 기술설명회’ 오후 세션 연사로 나서 ‘개방 어휘 부분 분할을 위한 다중 세분성 이해’라는 제목으로 고효율 OVPS 기술의 연구 과정에 대해 소개했다.

 

OVPS 기술을 이용하면 이미지 속, 즉 카메라로 바라본 영상 속 객체의 특정 부분을 ‘글자 설명’만으로 정확하게 구분해내는 AI 기술이다. 즉 로봇에게 ‘국자의 손잡이 부분이 어디냐’고 묻거나, ‘자동차의 헤드라이트 부분이 어디냐’고 물어보면 AI는 그 부위를 말만 듣고 정확하게 찾아낸다. 고정된 라벨 없이도 자연어 설명을 통해 이미지 내 다양한 객체의 세부 부위를 인식하고 분할할 수 있어 AI 및 로봇의 현실 사회 작업성이 크게 높아질 기술로 이해된다.

 

기존 OVPS 기술들은 몇 가지 한계점을 안고 있었다. 객체 전체를 인식하는 단계를 넘어서 특정 부분을 인식하는 수준으로 발전하려면 학습이 필요한데, 정보 부족으로 인해 오류가 발생하는 일이 잦았다. 여러 부위가 겹쳐 있거나 경계가 모호한 경우 정확한 분할에 어려움을 겪기도 했다. 또 이미지 내에서 크기가 작거나 자주 등장하지 않는 부위는 누락되는 문제도 있었다. 특히 코, 얼굴, 머리 등 다양한 부분으로 다시 나눠 해석할 수 있는 ‘개방된 세분성(Open Granularity)’ 문제는 기존 기술로는 해결하기 어려운 난제였다.

 

연구팀은 ‘파트클립세그(PartCLIPSeg)'라는 기술을 이용해 이 같은 문제를 해결했다. 핵심 아이디어는 ’객체 수준의 맥락 정보(Object-level Contexts)‘를 활용하는 것이다. 즉 AI가 사람처럼 ’일반화된 부위(Generalized Parts)‘를 인식하도록 만드는 기술을 뜻 한다. 이 기술을 적용하면 한 번 일반화된 개념을 거의 모든 객체에 동일하게 적용할 수 있다.

 

예를 들어 고양이 이미지를 통해 부분별 구분 방법을 학습했더라도, 강아지는 물론 다른 동물의 이미지에서도 머리나 귀, 다리 등의 부위를 성공적으로 분할해 낼 수 있도록 만든 것이다. 연구팀은 여기에 ’어텐션 제어(Attention Control)’라는 메커니즘을 추가로 적용해 부위 간 경계의 모호성을 줄이고, 누락되기 쉬운 작은 부위도 효과적으로 찾아내도록 만들었다. 이렇게 만든 AI 기술을 실험해 본 결과, 기존 모델들 대비 우수한 성능을 보였으며, 특히 이전에 학습하지 않은 새로운 객체 역시 우수한 성공률로 인식한다는 사실을 확인했다.

 

최지호 연구원은 이날 발표에서 “정의된 고정된 라벨 없이도 자연어 설명을 통해 이미지 내 다양한 객체의 세부 부위를 인식하고 분할할 수 있는 것이 특징”이라고 소개했다.

 

해당 기술은 지난 해 신경정보처리시스템학회(NeurIPS)에서 발표한 바 있다. 올해 부터는 이 기술을 더욱 발전시킨 ‘파트캣세그(PartCATSeg)’ 기술을 올해 열릴 ‘컴퓨터 비전 및 패턴 인식 학회(CVPR) 2025’에서 공개할 계획이다.

 

이날 행사는 KAIST가 연구 중인 핵심 원천 인공지능(AI) 기술을 산업계와 대중에 소개해 AI 기술의 확산과 산학협력 활성화를 돕기 위해 개최됐다. KAIST와 공동으로 성남산업진흥원, 서울시가 공동 주최를 맡았다. 멀티모달 AI, 로보틱스, 대형언어모델(LLM), 생성 AI(이미지 및 비디오) 등 다양한 분야에 걸친 최신 연구 성과가 발표됐다. 오전 세션에서는 김재철AI대학원 소속 최윤재 교수팀, 서민준 교수팀 소속 관계자들이 강연을 이어갔으며, 양수열 크라우드웍스 CTO가 참석해 의료 AI에 대해 소개했다. 오후 세션에서는 김승룡 교수팀, 예종철 교수팀, 최재식 교수팀, 주재걸 교수팀, 신진우 교수팀 등 다양한 KAIST 연구팀 관계자들이 현재 진행 중인 최신 AI 연구 기술에 대해 소개했다. KAIST 김재철 AI 대학원은 이 행사를 매년 정기적으로 개최할 계획이다.

 

▲ 한국과학기술원(KAIST)은 16일 서울 강남구 코엑스에서 열린 ‘KAIST 김재철 AI대학원 AI 기술설명회’를 개최했다. (사진=전승민 기자)

 

 

저작권자 © 로봇신문 무단전재 및 재배포 금지