물리적 AI 플랫폼 '코스모스' 내놓은 엔비디아
스크린 밖으로 AI 불러낼 행동모델 구축 경쟁
단순 모방 아닌 물리력 계산과 구현 따라가야
휴머노이드 시장 진입 장벽 낮추는 데도 기여
편집자주
우주, 인공지능, 반도체, 바이오, 에너지 등 첨단 기술이 정치와 외교를 움직이고 평범한 일상을 바꿔 놓는다. 기술이 패권이 되고 상식이 되는 시대다. 한국일보는 최신 이슈와 관련된 다양한 기술들의 숨은 의미를 찾고 사회에 미치는 영향을 심층 분석하는 '테크 인사이트(Tech Insight)'를 격주 금요일 연재한다.

젠슨 황 엔비디아 최고경영자가 6일(현지시간) 미국 네바다주 라스베이거스 만달레이베이 호텔에서 열린 세계 소비자 가전·정보기술 전시회 'CES 2025'의 기조연설을 하고 있다. 이 자리에서 그는 물리적 세계를 이해하도록 설계된 인공지능 시스템 '코스모스'를 발표했다. 라스베이거스=AFP 연합뉴스
“엔비디아의 인공지능(AI) 플랫폼 '코스모스(Cosmos)'를 휴머노이드 로봇 개발에 사용해보기 위해 최근 등록을 마쳤어요. 로봇 학습에 걸리는 시간과 비용을 크게 줄여줄 수 있을 것으로 기대됩니다.”
휴머노이드 스타트업 에이로봇의 최고기술책임자(CTO)인 한재권 한양대 ERICA 로봇공학과 교수는 지난 16일 한국일보와의 통화에서 이 같이 말했다. 코스모스는 이달 6일(현지시간) 미국 라스베이거스에서 열린 세계 소비자 가전·정보기술(IT) 전시회 'CES 2025'에서 젠슨 황 엔비디아 창업자 겸 최고경영자(CEO)가 공개한 피지컬(Physical·물리적) AI 전용 플랫폼이다.
코스모스는 디지털 트윈 기술을 기반으로 로봇과 자율주행차 등에 ‘가상 훈련장’을 제공한다. 훈련장의 환경은 생성형 AI를 통해 각 기업과 연구자가 맞춤형으로 디자인할 수 있다. 얼핏 보면 가상현실 게임과 유사하지만, 이 훈련장은 현실의 물리법칙에 기반한 시뮬레이션이라는 점에서 큰 차이가 있다. 에이로봇을 비롯해 여러 로봇 연구자들이 주목하는 이유다.

엔비디아가 공개한 코스모스를 이용한 휴머노이드 학습 개념도. 코스모스의 프롬프트에 명령어를 입력하면 로봇이 보고 있는 것 같은 가상현실 영상이 생성된다. 엔비디아 홈페이지 캡처
젠슨 황 엔비디아 CEO는 “앞으로 물리적 AI의 시대가 열릴 것”이라며 코스모스 플랫폼을 선보였다. 데이터를 이해하고 처리하는 ‘인식 AI’, 데이터에서 패턴을 파악하고 콘텐츠를 생성하는 ‘생성형 AI’, 사람을 대신해 자율적으로 작업을 수행하는 ‘AI 에이전트’를 넘어선 4세대 AI를 예견한 것이다.
물리적 AI의 발전은 최근 휴머노이드 로봇 개발 열풍과 맞물려 학계와 산업계에서 꾸준히 논의돼 왔다. AI가 스크린을 벗어나 물리적 ‘신체’를 갖고 세상에 나오게 되면 더 고차원의 상호작용과 안전장치가 필요하기 때문이다. 과학기술계는 이를 위해 다양한 로봇과 상황에 적용이 가능한 ‘범용 로봇 두뇌’를 만들기 위해 공들이고 있다. 다만 결과가 나오기까지는 십수년의 노력이 더 필요할 전망이다.

그래픽=신동준 기자
피지컬 AI, 임보디드 AI 넘어 AGI로
물리적 AI는 로봇이나 자율주행차 같은 기계가 실제 세계를 인식하고 이해해 복잡한 업무를 수행할 수 있게 하는 인공지능이다. 문자 중심이던 기존 생성형 AI가 3차원 세계의 공간과 물리적 행동을 이해하도록 확장된 것이다.
물리적 AI는 자율 기계 외에도 인간이 조작하는 협동 로봇이나 환경 제어 분야에 활용된다. 예를 들어 수술용 로봇이 더 정밀한 동작을 할 수 있도록 훈련하기 위해 물리 기반 시뮬레이션을 통한 강화학습을 할 수 있다. 공항이나 공장 같은 공간이 인간의 행동과 환경 데이터를 인식해 자동으로 운영 효율을 최적화하는 데도 쓰인다. 물리적 AI 중 특히 휴머노이드 로봇 등에 탑재돼 현실 세계에서 사람, 사물, 환경과 상호작용하며 인간 신체와 같은 동작을 만들어내는 것을 '신체화(Embodied·임보디드) AI'라고도 부른다.
연관기사
물리적 AI가 주목받는 이유는 단순히 쓸만한 기계를 만드는 걸 넘어 인간과 유사한 수준의 인공일반지능(AGI)을 개발하는 데 꼭 필요하기 때문이다. AI 분야 4대 천왕으로 불리는 석학인 얀 르쿤 미국 뉴욕대 교수 겸 메타 수석과학자는 지난해 5월 영국 파이낸셜타임스와의 인터뷰에서 “대규모언어모델(LLM)만으로는 인간 수준의 추론과 계획 능력을 만들 수 없다”고 단언했다. LLM은 “물리적 세계에 대한 이해가 없기 때문”이라는 이유다. 인간은 공이 떨어지면 튀어오르는 등의 단순한 물리법칙을 관찰로 습득하고 적용하는 반면, 현 수준의 AI는 이 같은 능력이 없어 물리적 세상과 상호작용이 불가능하다. 로봇이 단순 명령을 구현하는 것을 넘어, 궁극적으로 스스로 복잡한 행동 계획을 짜고 알아서 수행하는 단계에 이르려면 물리적 AI를 통한 고도화가 필수라는 것이다.
언어 데이터는 많지만 행동 데이터는 부족

일본 도요타 연구소(TRI)가 구축 중인 대규모행동모델(LBM)로 훈련한 로봇이 스스로 감자를 깎고 있다. 로봇은 인간이 시범을 보인 동작 데이터를 받아들여 다양한 환경에서 이를 수행하는 학습을 한다. TRI 유튜브 영상 캡처
테크업계는 이를 실현할 AI인 ‘대규모행동모델’을 구축하기 위해 노력하고 있다. LBM(Large Behavior Model) 또는 LAM(Large Action Model)이라고 불리는 이 모델은 인간의 동작과 환경이 담긴 영상 또는 실제 인간의 동작 수행 데이터를 통해 로봇의 행동과 인지능력을 훈련시키는 데 쓰인다. 그러나 물리적 AI의 목표가 공상과학 소설처럼 화려한 것과 달리, 현 단계의 대규모행동모델 구축은 ‘식물에 물 주기’ 같은 평범한 행동의 무한 반복이다. 문자(언어) 데이터의 양은 차고 넘치지만, 행동 데이터는 단순한 것조차 부족한 상황이기 때문이다.
미국 휴머노이드 기업 보스턴 다이내믹스와 일본 도요타 연구소(TRI)가 공동으로 작업 중인 LBM 구축 과정이 대표적이다. TRI는 팔 모양 로봇으로 1,000여가지의 일상 동작 데이터를 수집하고 있다. 사람이 감자 깎기, 계란 풀기 등을 시범 보이면 로봇이 이를 따라하는 모방학습이 기본이다. 로봇에게 동작을 하나하나 가르치는 과정인 만큼 TRI는 이를 ‘로봇 유치원’이라 부르고 있다. 유사하지만 서로 조금씩 다른 동작 데이터를 반복적으로 학습함으로써 이를 응용하고 다양한 환경에 더 빠르게 적용하기 위한 행동 생성형 AI 모델을 구축하게 된다.
지난해 11월 아마존과 오픈AI가 4,000만 달러(약 576억 원)를 투자해 화제가 됐던 미국 스타트업 피지컬 인텔리전스가 개발한 범용 로봇 기반 모델 'π(파이)' 역시 비슷한 학습 과정으로 만들어졌다. 단, 사람이 직접 동작을 보이는 대신 로봇 팔을 조작해 빨래를 개고 커피를 만들면서 학습한 것이 특징이다. 이 조작 과정에서 나오는 데이터를 대량으로 쌓고 이를 AI 모델에 공급하면 물리적 이해를 넓히게 된다. 미국 카네기멜론대 로봇연구소는 2023년 로봇에게 일상생활 모습이 담긴 영상을 학습시켜 같은 동작을 다양한 환경에 맞춰 변형해 수행할 수 있는 모델 개발을 연구하기도 했다.
[도요타 연구소의 로봇 훈련과정]
행동 학습 공간을 가상 환경으로 확장
코스모스 플랫폼은 이 지난한 학습 과정을 비약적으로 단축할 것으로 기대된다. 제한된 환경과 동작으로 진행됐던 로봇 학습이 AI 시뮬레이션을 이용하면 크게 확장될 거라고 예상되기 때문이다. 예를 들어 모방학습을 통해 이족보행의 기본을 익힌 휴머노이드 로봇의 데이터를 코스모스에 적용해 공장, 가정, 학교, 놀이공원 등 다양한 가상 환경에서 걷고 뛰고 장애물을 피하는 모의 연습을 해볼 수 있다. 물론 실제 환경에서 로봇을 훈련시키는 것이 가장 좋지만, 안전 등의 문제 때문에 현실적으로 어렵다. 한재권 교수는 “최종 단계에서는 실전 훈련이 필요하겠지만, 그 전 약 80%의 학습은 가상 환경에서 빠르게 채울 수 있을 것”이라고 말했다.
전 세계의 로봇, 자율주행차 개발자들이 코스모스 플랫폼을 이용하면서 쌓이게 될 다량의 데이터도 큰 장점이다. 개발 과정에서 각 기업과 연구진이 갖고 있는 실제 행동 데이터가 시뮬레이션과 합성되면서 물리적 AI 구축에 쓸 수 있는 데이터의 양도 폭발적으로 늘어날 것으로 예상된다.

세계 소비자 가전·정보기술 박람회 'CES 2025' 가 열린 8일(현지시각) 미국 네바다주 라스베이거스에 마련된 중국 기업 유니트리의 전시관에서 휴머노이드 로봇 H1이 방문객과 악수하고 있다. 라스베이거스=AP·뉴시스
다만 물리력과 같은 보이지 않는 요소가 데이터에 반영되기 어렵다는 점에서 한계는 있다. 오용환 한국과학기술연구원(KIST) 휴머노이드연구단 책임연구원은 “로봇이 컵을 잡는 동작을 할 때는 적절한 힘이나 접촉력 등 무형의 데이터가 필요한데, 이는 단순히 행동 데이터를 모방하는 것만으로는 어렵다”며 “힘과 동작의 관계를 얼마나 잘 계산하고 구현해 내느냐가 관건”이라고 설명했다.
엔비디아가 쏘아올린 물리적 AI 개발 환경의 변혁은 휴머노이드 시장의 진입 장벽을 낮출 전망이다. 이는 우리 기업과 연구자들에게 희소식이면서도 한편으론 악재가 될 수 있다. 중국과의 경쟁이 더욱 어려워질 수 있기 때문이다. 오 연구원은 "그동안 저렴한 하드웨어로 승부를 보던 중국 휴머노이드의 소프트웨어가 빠르게 업그레이드 될 가능성이 열린 것"이라며 "중국 모델들과 차별화한 성능을 낼 수 있는 핵심 AI 연구에 투자가 필요하다" 고 말했다.
기사 URL이 복사되었습니다.
댓글0