'젊은 로봇 공학자(Young Robot Engineer)' 코너는 한국로봇학회와 로봇신문이 공동으로 기획한 시리즈물로 미래 한국 로봇산업을 이끌어 갈 젊은 로봇 공학자를 발굴해 소개하는데 있다.
75번째 인터뷰는 서울대 전기컴퓨터공학부 최종현 교수다. 최 교수는 1980년생으로 2003년 서울대 전기공학부 학사, 2008년 석사를 거쳐, 2015년 5월 미국 매릴랜드대학교에서 전기컴퓨터공학으로 박사학위를 받았다. 졸업 후 2015년 4월부터 2016년 5월까지 미국 컴캐스트 어플라이드 AI 연구소, 2016년 5월부터 2018년 7월까지 앨런인공지능연구소(AI2)에서 연구원으로 근무했다. 귀국 후 2018년 8월부터 2022년 2월까지 GIST(광주과학기술원) 조교수를 거쳐, 2024년 2월까지 연세대 조교수, 포항공대 겸임교수로 있다 올해 3월부터 서울대 조교수로 재직하고 있다.
2020년 ECCV Embodied Vision, Actions & Language (EVAL) 워크숍 2, 삼성 휴먼테크 논문상 금상(2014년)/동상(2020년), 2021년 컴퓨터비전학술대회(CVPR) 알프레드 챌린지 임바디드 AI 2위, 2021년 컴퓨터비전학술대회(CVPR) 비전 챌린지 1위, 2022년 한국정보과학회 우수연구자상, 2023년 컴퓨터비전학술대회 일반 언어 기반 에이전트 챌린지 임바디드 AI 1위, 2023 국제 컴퓨터 비전학회(ICCV) 시프트 챌린지 1위 상을 수상했다.
주요 연구 분야는 컴퓨터 비전과 머신 러닝을 이용하여 실용적인 멀티모달 지각 시스템을 구축하는 것이다.
▲서울대 전기컴퓨터공학부 최종현 교수
Q. 최근 하고 계신 연구가 있다면 소개 부탁드립니다.
저희 연구실은 컴퓨터 비전을 중심으로 컴퓨테이셔널 퍼셉션(Computational Perception:계산적 지각) 알고리즘과 언어 형태의 지식을 결합하여 인간에게 도움이 되는 인공지능 알고리즘을 연구하고 있습니다. 구체적으로는 컴퓨터 비전, 자연어 처리, 퓨샷(Few-Shot:프롬프트에 몇 가지 예제를 추가하는 기법)/제로샷(Zero-Shot:한번의 질문에 답변을 구하는 프롬프트 기법)/연속학습(Continual Learning:지속적으로 증가하는 데이터를 학습하는 기법), 경량 신경망(Neural Network), 비디오와 언어 이해를 요하는 멀티모달(Multi-Modal) 인지 모델들을 연구하고 있습니다. 최근 GPT-4o, 소라(Sora), Gen-3 알파(Alpha) 등 생성형 AI를 포함하여 유용한 AI 모델들이 많이 개발되었는데, 저희는 이런 모델들의 문제점을 파악하고 개선하려는 노력을 하고 있습니다.
▲가장 최근 연구실에서 발표한 로봇 학습 논문
Q. 2015년 3월 미국 매릴랜드대에서 “Recognizing Visual Categories by Commonality and Diversity”로 박사 학위를 받으셨는데 어떤 내용인지 소개 부탁 드립니다.
지금은 많이 해결된 문제라고 간주되는 “이미지 분류” 문제에서 학습에 주어진 데이터가 적을 때 일반화 성능을 높이기 위해 해당 물체 카테고리의 샘플(이미지)들의 공통점과 다양성을 고루 확보해야 일반화 성능을 높일 수 있다는 실험적 스터디들을 담고 있습니다.
Q. 교수님의 주요 관심 분야가 컴퓨터 비전과 머신 러닝을 활용한 실용적인 멀티모달 지각 시스템 구축으로 알고 있습니다. 관련하여 최신 동향이나 기술적인 트렌드가 있다면 무엇인지 궁금합니다.
저희 연구실에서는 물리적 세계에서 로봇이나 다른 에이전트와 상호작용하는 AI 모델인 임바디드 AI(Embodied AI)를 응용분야로 하고 있는데, 이는 단순한 소프트웨어 기반 AI와 달리, 실제 환경에서 물리적 작업을 수행할 수 있는 능력을 포함하는 AI로 학습한다는 것이 특징입니다. 이 기술의 핵심은 환경에서 학습하고 적응할 수 있는 능력으로, 인간과 더 자연스럽고 유연한 상호작용을 가능하게 하여, 로봇 공학, 자율주행자동차, 스마트 가전 등 다양한 분야에서 응용될 수 있고, 세계적으로 많은 연구팀들이 연구하고 있습니다.
그리고 현재 고성능을 내는 대형언어모델(LLM, Large Language Model)과 대형멀티모달모델(LMM, Large Multi-modal Model)은 뛰어난 성능을 자랑하지만, 높은 계산 복잡도와 많은 자원 소모로 인해 실용성에 제한이 있습니다. 이러한 문제를 해결하기 위해 경량 AI 모델을 연구하는 분야가 더욱 주목받고 있습니다. 이 분야는 모델의 효율성을 극대화하면서 성능 저하를 최소화하는 것을 목표로 하고 있는데, 저희 연구실에서는 효율성을 최대화 한 이진 뉴럴 네트워크를 포함한 모델 압축, 지식 증류, 저정밀도 연산, 신경망 아키텍처 검색 등의 연구를 폭넓게 수행해 왔습니다. 현재에도 모바일 기기나 임베디드 시스템에서도 고성능 AI를 구현할 수 있게 하여, 다양한 응용 분야에서 AI의 활용성을 높이기 위해, 합성곱 신경망(Convolutional Neural Network:CNN), 트랜스포머스 등을 포함하여 최근에 개발된 최신 모델인 맘바(Mamba) 등의 아키텍처 구조의 의미를 분석하고 개선하는 연구를 진행하고 있습니다.
▲2024 ACL에서 구두발표 했던 논문을 포스터로 한번 더 발표하는 연구실 학생들
Q. 인공지능학제간프로그램(IPAI) 프로그램에 대한 소개 부탁 드립니다.
IPAI는 “인공지능 협동과정”의 영어 표현으로 서울대학교 대학원에서 다양한 학과의 지식이 필요한 융합분야의 전공을 개설할 때 사용하는 “협동과정”의 하나입니다. 인공지능과 관련된 지식은 컴퓨터공학, 전자공학, 인문학 등 여러개 학과의 다학제간 지식이 요구되기 때문에 서울대학교에서는 특정학과가 아닌 협동과정으로 개설하였습니다. 과학기술정보통신부가 지정한 10대 “AI대학원”사업도 본 인공지능 협동과정에서 수행하고 있습니다. 간단히 말해 ‘서울대학교 AI대학원’이라고 생각하시면 됩니다.
Q. 박사 학위 취득 후 2015년 4월 부터 2016년 5월까지 미국 컴캐스트 어플라이드 AI 연구소, 2016년 5월부터 2018년 7월까지 앨런인공지능연구소(AI2)에서 연구원으로 계셨는데 당시 어떤 연구를 하셨는지 궁금하고, 미국의 인공지능 연구에서 우리가 배울점이 있다면 무엇인지 궁금합니다.
컴캐스트(Comcast)에서는 스포트(Sport) 비디오에서 하이라이트(highlight)를 자동으로 추출하는 시스템을 구현했습니다. 계산 효율성을 위해서 시간 정보를 하이라이트로 보내게 되는데, 전미 51개주에 송출되는 케이블 TV용 스포츠 비디오가 미세하게 시간이 다르기 때문에 송출 시간을 기준으로 자를 수 없고, 비디오의 콘텐츠를 어느정도 이해하는 비전 모듈을 만들어서 배포했었습니다. 또한, 집 마다 설치된 방범용 CCTV에서 이상(Anomaly)을 검출하는 모듈을 만들어 사용자에게 위험을 알려 주는 시스템을 만드는 것에도 참여했었습니다.
AI2에서는 학습 데이터가 적은 경우에 비전 및 언어 모델이 높은 추론 정확도를 가질 수 있도록 하는 기계학습 방법론을 폭넓게 연구했습니다.
제가 인상적으로 봤던 미국의 인공지능 연구의 특징은 문제에 대한 ‘고민을 많이 한다는 점’입니다. 기존에 공식화(formulate) 되어 있는 문제를 잘 푸는 것도 중요하지만, 현재 풀고 있는 문제가 제대로 공식화 되어 있는지에 대한 진지한 고민을 매번한다는 점이 저에겐 새로운 경험이었습니다. 한국에 돌아와서도 문제에 대한 근본적 고민을 많이 하려고 노력하고 있습니다.
▲2024 CVPR에서 논문 저자인 연구실 학생들과
Q. 인공지능이나 컴퓨터 비전을 연구하면서 가장 어려운 점은 무엇입니까?
모델들이 점차 거대화 됨에 따라 컴퓨팅 리소스가 제약되어 자유로운 연구를 방해한다는 점이 가장 어려운 점입니다.
Q. 인공지능이나 컴퓨터 비전을 연구하게 된 동기가 있다면?
학부 때 로봇 동아리 (시그마 인텔리전스) 활동을 하면서 로봇 축구(FIRA MiroSot)를 접하게 되었습니다. 로봇과 공의 위치를 파악하기 위해서 간단한 컴퓨터 비전 시스템이 사용이 되는데, 이를 개선하는 간단한 방식을 제안하여 학부 졸업 논문을 작성한 것을 계기로 관련 분야로 대학원에 진학하게 되면서 컴퓨터 비전을 연구하게 되었습니다.
▲2022년에 발표한 인터랙티브 로봇 AI 논문
Q. 연구자로서 앞으로의 꿈과 목표가 있다면?
인공지능 모델에 대해 좀 더 깊이있게 이해하고, 모델들의 동작을 제어할 수 있는 방법들을 많이 만들어 보고 싶습니다.
Q. 인공지능을 전공하려는 후배들에게 어떤 준비와 노력이 필요한지 조언해 주신다면?
우선 관련된 학부 과목을 수강하여 최대한 깊이 있게 ‘이해’하는 것이 첫번째일 것 같습니다. 단순히 지식을 암기하고 시험을 잘 봐서 좋은 학점을 받기 보다는 그 과목에서 배우는 것이 어디에 사용될지 생각하면서 개념을 ‘이해’하면 재미도 있을 뿐 아니라, 이러한 이해를 바탕으로 나중에 어려운 문제를 만났을 때 훌륭한 해답을 얻을 수 있는 바탕이 되기 때문입니다. 또한, AI 를 비롯한 많은 공학 문제들은 우리가 매일 접하는 일상생활의 이슈에서 비롯되는 경우가 많습니다. 평상시에 사람들이 느끼는 불편함이 어떤 것인지 늘 고민하고, 이런 불편한 점들을 해결할 수 있는 자동화 장치 (많은 경우 우리는 이걸 컴퓨터 또는 AI라고 부르죠)가 어떻게 필요할지 고민하는 것에서 출발하여, 지금 가장 진보된 방법이 어떻게 해결하고 있는지를 이해하려는 태도가 매우 중요한 것 같습니다.
▲2023년 ICCV Test time adaptation 2023 워크샵 챌린지에서 2위 수상하는 사진
Q. 국내 인공지능 산업이 한 단계 더 발전하기 위한 방안이 있다면...
창업 실패 등이 좋은 경험이 될 수 있도록 대표님들의 연대 보증 등이 사실상 의무화 되어 있는 관행을 없애서, 리스키(risky)한 아이디어들이 많이 시도될 수 있는 풍토가 하루 빨리 자리잡을 수 있는 제도적, 사회적 장치가 마련되어야 할 것이라고 생각합니다.
또한, 거대 컴퓨팅 리소스가 필요한 부분에 대해 기업 차원의 투자가 쉽지 않기 때문에 국가 차원의 투자를 통해서라도 컴퓨팅에 대한 문제를 해결하면 좋을 것이라고 생각합니다.
▲2023년 CVPR Embodied AI 워크샵 챌린지에서 1위 수상하는 사진
Q. 연구에 주로 영향을 받은 교수님이나 연구자가 계시다면...
제 대학원 시절 지도교수님이셨던 서울대학교 이경무 교수님, 메릴랜드 대학교의 래리 데이비스(Larry S. Davis) 교수님을 포함하여, 학위 과정 기간과 그 이후 동안 오랫동안 같이 연구를 했던 메타의 모하매드 라스테가리(Mohammad Rastegari) 박사, 루즈베 모타기(Roozbeh Mottaghi) 박사, CMU의 아비나브 굽타(Abhinav Gupta) 교수님, UW과 AI2에 계시는 알리 파르하디(Ali Farhadi) 교수님, 오렌 엣지오니(Oren Etzioni) 교수님, 최예진 교수님, MSRA 도쿄의 야수유키 마츠시다(Yasuyuki Matsushita) 박사님, 커리어 전반에서 많은 조언을 아낌없이 주셨던 서울대학교 한보형 교수님, KAIST 윤국진 교수님, 연세대학교 김선주 교수님, 포스텍 조민수 교수님 등 제가 일일이 열거하기 어려울 만큼 많은 분들에게 좋은 가르침과 영향을 받았습니다.
조규남 전문기자 ceo@irobotnews.com
<저작권자 © 로봇신문사 무단전재 및 재배포금지>
'인물연구' 카테고리의 다른 글
'젊은 로봇 공학자' (74) KIST 김수민 박사 (0) | 2024.10.14 |
---|---|
'젊은 로봇 공학자' (73) GIST 김의환 교수 (0) | 2024.09.02 |
'젊은 로봇 공학자' (72) 한국과학기술연구원 변정환 박사 (0) | 2024.09.02 |
'젊은 로봇 공학자' (71) 서울대 김진수 교수 (0) | 2024.06.10 |
김진오 한국로봇산업협회 회장 취임 인터뷰 (0) | 2024.05.27 |