인물연구

'젊은 로봇 공학자' (74) KIST 김수민 박사

로봇신문사 2024. 10. 14. 15:10

 

'젊은 로봇 공학자(Young Robot Engineer)' 코너는 한국로봇학회와 로봇신문이 공동으로 기획한 시리즈물로 미래 한국 로봇산업을 이끌어 갈 젊은 로봇 공학자를 발굴해 소개하는데 있다.

 

74번째 인터뷰는 한국과학기술연구원(KIST) 김수민 박사다. 김 박사는 1988년생으로 2013년 KAIST 컴퓨터 사이언스 학사, 2015년 석사, 2021년 2월 박사학위를 받았다. 졸업 후 2021년 4월부터 현재까지 KIST AI·로봇연구소 인공지능연구단에서 재직하고 있으며, 2024년 3월 선임연구원으로 승진하였다.

 

2020년 KAIST 전기 및 전자공학부 EECS Rising Stars in Korea 상을 수상했으며, 2022년 GIST Institute of Integrated Technology Seminar, 2023 KOREATECH AI Seminar 등에서 초청 강연을 하였다.

 

주요 연구 분야는 컴퓨터 비전(장면/이미지 이해, 로봇비전), 비전 랭귀지 모델(VLM), 이미지 프로세싱/복원 등이다.

 

▲한국과학기술연구원(KIST) 김수민 박사

 

Q. KIST 인공지능연구단에 대해 간략한 소개 부탁 드립니다.

 

KIST 인공지능연구단은 한국과학기술연구원(KIST) AI·로봇연구소 내에 위치해 있으며 인공지능 기술을 다양한 분야에 적용하여 국가 사회적 문제를 해결하는 연구를 포함하여 다양한 인공지능 전반 연구를 진행 중입니다. 이는 디지털 휴먼, 3D 공간 인식, 로봇의 3차원 물체 인지 등을 포함하며 인공지능 응용기술인 과학치안 등을 포함하고 있습니다.

 

Q. 최근 하고 계신 연구가 있다면 소개 부탁드립니다.

 

저는 현재 사족보행 로봇이 촬영한 이미지를 활용하여, 비전 랭귀지 모델(VLM:Vision-Language Model)을 기반으로 로봇 주변 환경을 인식하고 그 상황을 분석하는 연구를 진행하고 있습니다.

 

▲Vision-Language Model(VLM)을 기반으로 주변 환경을 인식하는 예시

 

이 연구의 목표는 멀티 이미지 데이터를 활용해 하나의 VLM이 로봇의 환경을 정확히 인지하고, 그곳에서 벌어지는 상황을 이해할 수 있도록 하는 것입니다. 이를 통해 사용자가 로봇에게 질문을 하면, 로봇이 인식한 환경에 대해 적절한 답변을 제공할 수 있는 프레임워크를 구축하는 것 또한 목표라고 할 수 있습니다.

 

▲KIST 디지털 휴먼 캡처를 위한 다시점 촬영 포토 부스 (촬영되고 있는 사람이 김수민 박사)

 

이 기술은 다양한 응용 분야에 활용될 수 있지만, 우선적으로 자율주행 동행 로봇 연구에 적용될 예정입니다. 특히, 노약자나 여성의 안전한 귀가를 돕는 시스템에 활용될 가능성이 높습니다.

 

Q. 2021년 2월 KAIST에서 “Image Restoration and Enhancement with Physically-based Cues”로 박사 학위를 받으셨는데 어떤 내용인지 소개 부탁 드립니다.

 

제가 박사학위를 받은 연구는 이미지 복원 및 향상 기술에 대한 연구들로 고전적인 단일 이미지 기반 방법부터 학습 기반의 이미지 프로세싱 연구까지 포함하고 있습니다. 학위 논문은 크게 두 가지 연구로 나눌 수 있습니다.

 

▲이미지 복원/인페인팅 기술

 

하나는 이미지 인페인팅 연구로, 사용자가 지정한 이미지 내 특정 영역을 자동으로 채우는 문제입니다. 이미지 내 물체의 색이란 해당 물체의 고유한 반사율(reflectance)과 쉐이딩(shading)의 곱으로 나타낼 수 있으며 빛에 의한 효과를 제외한 고유 반사율을 추정해 물체의 본래 색상을 기반으로 인페인팅하는 방식을 제안했습니다. 이를 통해 잘못된 패치를 가져오는 문제를 방지하고, 조명이나 그림자로 인한 색변화가 존재하는 경우에도 사용자가 지정한 부분의 빈 공간을 자연스럽게 메꾸어줄 수 있는 결과를 얻었습니다.

 

▲유리 반사 제거 연구 (Reflection removal)

 

또 다른 하나는 GAN(Generatvie Adversarial Network)기반 유리 반사 제거 연구입니다. 유리 반사 제거 네트워크 학습을 위하여 유리 반사가 포함된 이미지와 그렇지 않은 실제 이미지 쌍이 대량으로 필요하지만 실제로 이러한 데이터는 존재하지 않는다는 점에 착안한 연구입니다. 이를 해결하기 위하여 기존 이미지 데이터에서 이미지의 깊이 정보(depth)를 추정하고 이를 기반으로 메쉬화하여 물리기반 렌더링을 통하여 카메라 렌즈와 유리 반사효과를 시뮬레이션한 유리 반사 학습 데이터 셋을 생성했습니다. 이 연구에서 물리적으로 타당한 방식으로 대규모 데이터 셋을 만들었으며 이를 최대한 활용할 수 있는 네트워크 구조를 제안하여 유리 반사 제거 성능을 크게 향상 시켰습니다.

 

▲유리 반사 제거 연구 (Reflection removal

 

Q. 박사님의 주요 관심 분야가 컴퓨터 비전(장면/이미지 이해, 로봇비전), 비전 랭귀지 모델(VLM), 이미지 프로세싱/복원 등으로 알고 있다. 컴퓨터 비전이나 VLM 분야의 최신 동향이나 기술적인 트렌드가 있다면 무엇인지 궁금합니다.

 

컴퓨터 비전과 VLM(Vision-Language Model) 분야는 최근 몇 년 동안 급격한 발전을 이루고 있습니다. 특히 멀티모달 학습을 이용한 네트워크들이 큰 변화를 주도하고 있습니다. 멀티모달 학습 중 가장 큰 부분은 텍스트와 이미지를 함께 학습하는 것인데 오픈AI의 클립, 플라밍고와 같은 모델들이 그 대표적 예이며 이들은 이미지의 시각적 정보와 텍스트의 의미 정보를 연결할 수 있는 능력을 보여주고 있습니다. 이와 같은 멀티모달 네트워크는 대규모 언어 모델(LLM)과 결합되어, 텍스트와 시각 정보를 동시에 학습하고 상호작용을 이해하는 VLM의 기반이 되었습니다. 이러한 VLM들은 자연어와 융합되어 이미지를 이해하는 것뿐 아니라, 자연어를 통해 이미지를 설명하고, 이미지와 관련된 질문에 대답할 수 있게 되었습니다.

 

로봇 비전 또한 VLM의 또 다른 중요한 응용 분야인 것 같습니다. 컴퓨터 비전과 VLM을 활용해 로봇이 실시간으로 환경을 인식하고, 상황을 분석하는 기술이 연구되고 있습니다. 특히, 멀티뷰 이미지나 3D 공간 인식 기술을 활용하여 로봇이 복잡한 환경에서도 정확하게 위치를 파악하고, 다양한 객체를 인식할 수 있는 기술들이 주목받고 있습니다. 이러한 기술은 자율주행차, 드론, 그리고 로봇 공학 분야에서 광범위하게 사용되고 있고 현재 저는 이 방향으로 연구를 진행 중입니다.

 

Q. 박사 학위 취득 후 2021년 4월 부터 현재까지 KIST AI·로봇 연구소 인공지능연구단에서 연구원, 선임연구원으로 계셨는데 어떤 연구를 하셨는지 궁금합니다.

 

저는 크게 두가지 연구를 진행하였었는데요, 뉴럴 휴먼 생성 연구와 언어 계층 정보를 접목한 장면 이해 연구입니다.

 

▲실존인물 모사 인공지능 디지털 휴먼 생성 기술

 

첫 번째로 뉴럴 휴먼의 경우 하나의 물체를 촬영한 다시점 이미지들을 이용하여 하나의 3D 모델 자체를 다층신경망(MLP:Multi-Layer Perceptron)에 저장하는 차세대 영상 합성 분야 기술인 NeRF(Neural Radiance Fields) 기반 디지털 휴먼 연구입니다. 이는 기존의 클래시컬한 메쉬(mesh)기반 모델링보다 더욱 실존 인물과 유사하기에 어색함이 덜하고 특히 NeRF기반 네트워크를 이용한 함축적(implicit) 모델링은 화소수에 상관 없이 결과를 뽑아낼 수 있어 많이 활용되고 있습니다. 저는 이러한 뉴럴 휴먼을 광선 굴곡법(ray bending)을 활용하여 움직이게 만드는 연구를 진행하였었습니다.

 

▲언어적 계층정보를 담은 멀티레벨 세그멘테이션. 장면별 의미론적 계층구조를 이용한 멀티레벨 세그멘테이션의 활용가능한 예시

 

두 번째로, 언어 계층 정보를 접목한 장면 이해 연구의 경우는 사람의 인지방식을 모사고자한 연구입니다. 인간은 사전에 학습된 언어 카테고리를 바탕으로 장면을 인지하며, 이러한 어휘 체계는 본질적으로 계층 구조를 가지고 있습니다.

 

▲언어적 계층정보를 담은 멀티레벨 세그멘테이션. 장면트리 생성 시 잘못된 동음이의어와 맞는 단어 선택하였을 때의 예시비교(장면 상 식물이 있는 경우)

 

예를 들어, 멀리서 보았을 때 의자나 책상과 같은 개별 객체들이 하나의 '가구'라는 범주로 인식되는 것처럼, 장면을 다양한 수준에서 이해하게 됩니다. 이 연구는 멀티레벨 세그멘테이션 데이터 생성 방법을 개발하여, 사람이 상황에 따라 동일한 물체를 다른 레벨로 인식하는 과정을 모사했습니다. 구체적으로는, 장면별 단어 트리를 생성해 객체를 다양한 수준에서 이해할 수 있도록 했으며, 또한 해당연구는 장면트리를 형성 시에 동음이의어를 제대로 처리하기 위하여 이미지 패치와 클립을 활용한 방법을 제안하였습니다.

 

Q. 컴퓨터 사이언스를 연구하면서 가장 어려운 점은 무엇입니까?

 

아무래도 너무 빠르게 기술들이 발전되고 또 트렌드가 변화하는 것이 어려운 점 중 하나인 것 같습니다. 인공지능(AI) 분야에서는 특히나 새로운 알고리즘, 모델, 그리고 하드웨어가 빠르게 등장하고 있습니다. 이러한 변화 속에서 연구자는 최신 기술과 트렌드를 지속적으로 따라가며, 새로운 도구나 이론을 빠르게 익혀야 하는데 그를 위한 많은 시간과 노력이 필요한 것 같습니다.

 

또한 대규모 데이터와 자원의 필요성도 어려운 점 중 하나인 것 같습니다. AI 기술들은 방대한 양의 데이터를 필요로 하고, 이를 학습하기 위한 고성능 컴퓨팅 자원이 필수적입니다. 연구자들은 이러한 대규모 자원 확보에 어려움을 겪는 경우가 많으며, 때로는 자원이 제한된 상황에서도 최선의 결과를 끌어내야 하게 되는데 이러한 부분 또한 풀어내야 하는 숙제라고 생각됩니다.

 

Q. 컴퓨터 사이언스를 연구하게 된 동기가 있다면?

 

저는 학부 물리학과와 전산학을 복수전공 하였는데, 졸업연구를 물리학과 광학연구실에서 적혈구의 이미지를 분석하여 해당 적혈구가 말라리아에 걸린 것인지, 걸렸다면 어느 정도 진행이 된 것인지에 추론하는 연구를 진행하였습니다. 이를 계기로 영상 기반의 인식 및 처리에 대한 깊은 흥미가 생겼고, 이를 바탕으로 석사/박사를 전산학(CS)로 진학하게 되었습니다. 이후 컴퓨터 비전/영상처리 쪽 연구 주제로 학위를 받게 되었습니다.

 

Q. 연구자로서 앞으로의 꿈과 목표가 있다면?

 

제 연구는 흔히 말하듯 컴퓨터에 ‘눈’을 달아주는 역할을 한다고 생각합니다. 따라서 저는 조금 더 사람과 비슷하게 사고하고 인식하는 컴퓨터의 ‘눈’을 만드는 연구를 해보고 싶습니다. 또한 이러한 연구들이 논문으로 발표되거나, 연구실에서만 머무는 것이 아니라 실제 환경에서 실질적으로 활용되고 또 나아가 널리 쓰이는 기술이 되게 하는 것이 목표입니다.

 

연구자 자체로써의 목표는 앞으로도 끊임없이 배우면서 배움을 게을리하지 않으며 AI와 컴퓨터 비전뿐만 아니라 로보틱스, 생명과학 등 다양한 학문과의 융합을 통해 새로운 가능성을 탐구하고 싶습니다.

 

Q. 컴퓨터 사이언티스트가 되려는 후배들에게 어떤 준비와 노력이 필요한지 조언해 주신다면?

 

크게 두 가지 측면의 준비와 노력이 필요하다고 생각합니다. 첫 번째는 컴퓨터 사이언스의 기본 지식을 확실히 이해하고, 이를 필요할 때 바로 적용할 수 있을 정도로 탄탄히 다지는 것입니다. 두 번째는 급격히 발전하는 기술들을 빠르게 파악하고, 짧은 시간 안에 이를 익혀 실제로 활용할 수 있는 능력을 기르는 것입니다.

 

최근 딥러닝을 포함한 다양한 기술들이 빠르게 발전하고 있으며, 오픈소스를 통해 쉽게 접할 수 있는 시대가 되었습니다. 많은 학생들이 이를 활용해보지만, 정작 그 기술들이 어떻게 작동하는지에 대한 이론적인 부분은 소홀히 하는 경우가 많습니다. 하지만 무엇인가 새로운 것을 만들어내고 발전 시키려면 기존 기술이나 구조의 한계와 문제를 명확히 이해하고, 이를 개선하기 위한 다양한 기반 지식이 필요합니다. 따라서 기초적인 이론과 지식습득을 소홀히 하지 말고, 깊이 있게 공부하는 것이 매우 중요하다고 생각합니다.

 

▲CVPR 2020 Oral 연구의 포스터 발표 (AI workshop) 당시 모습

 

Q. 국내 인공지능 산업이 한 단계 더 발전하기 위한 방안이 있다면...

 

인공지능 산업이 한 단계 더 발전하기 위하여 다양한 방안이 존재할 수 이지만 크게는 두 가지로 말해볼 수 있을 것 같습니다. 첫째는 AI 기술과 인프라를 확립하여 글로벌 기술 의존도를 줄이고, 국내 기술력을 독립적으로 발전시키는 것이 필요하다고 생각합니다. 현재 글로벌 기업들의 투자와 기술 개발 속도는 매우 빠르며, 그들과의 격차가 존재하는 것이 사실입니다. 그러나 국내에서도 공격적인 투자와 기술 개발이 이루어지지 않으면, 국내 상황 및 환경에 맞춘 독자적인 AI 기술 개발에는 한계가 있을 것이라 생각합니다. 이를 위해 정부와 민간이 함께 장기적인 전략을 세우고, AI 연구개발에 대한 인프라와 지원을 지속적으로 확대할 필요가 있다고 생각합니다.

 

둘째는 국내 실정에 맞는 학습 데이터의 구축과 관리입니다. 인공지능의 성능은 양질의 데이터에 크게 의존하므로, 국내 환경에 특화된 학습 데이터를 효율적으로 생성하고 관리하는 것이 중요하다 생각합니다. 다양한 산업에서 발생하는 데이터를 활용하여 국내 AI 모델이 더욱 정확하고 실용적으로 발전할 수 있도록 할 수 있게 하는 것이 필요하다 생각합니다.

 

▲Koreatech에서 Learning-based image and 3D volume reconstruction라는 주제로 김수민 박사가 세미나를 진행하고 있는 모습

 

Q. 연구에 주로 영향을 받은 교수님이나 연구자가 계시다면...

 

석박사 지도교수님이신 KAIST 윤성의 교수님께 아무래도 제일 많은 영향을 받은 것 같습니다. 처음 컴퓨터 그래픽스로 연구를 시작하여 컴퓨터 비전으로 연구 방향을 확장시켜 나간 것도, 또 컴퓨터 비전 연구가 로보틱스와 접목되어 여러 방향의 흥미로운 연구로 이어지게 된 것도 교수님의 방향성에 영향을 받은 것 같습니다. 교수님께서는 특히 학문 간의 융합과 실제적인 문제 해결에 대한 연구를 강조하셨습니다. 교수님께 배운 유연적 사고와 도전 정신은 저의 연구 과정 전반에 걸쳐 큰 영감을 주었고, 앞으로도 연구자로의 태도에도 영향을 줄 것 같습니다.

 

조규남 전문기자 ceo@irobotnews.com

<저작권자 © 로봇신문사 무단전재 및 재배포금지>