구글 딥마인드의 제미나이가 로봇을 만났습니다. 오픈AI와 결별한 피규어는 두 대의 로봇을 자연어로 동시 제어하는 헬릭스를 내놨습니다. 마이크로소프트는 최초의 VLAM 마그마를 발표했는데요. 젠슨 황이 이야기한 피지컬 AI의 움직임이 빨라지고 있습니다. 빅테크와 중국과 일본 현황까지 단숨에 정리해 드립니다.
최근 AI 연구가 물리적 세계와 결합하는 방향으로 빠르게 발전하고 있습니다. 특히 피지컬 AI(Physical AI)는 로봇이 인간의 언어를 이해하고, 시각적으로 학습하며, 실제 환경에서 적응할 수 있도록 하는 기술을 의미합니다. 기존의 소프트웨어 기반 AI에서 벗어나, 현실 세계와 상호작용하는 인공지능이 점점 중요해지고 있습니다.
최근 구글 딥마인드의 제미나이 로보틱스(Gemini Robotics), 피규어 AI(Figure AI)의 헬릭스(Helix), 마이크로소프트의 마그마(Magma)등 비전-언어-행동(Visually-Language-Action) 모델이 늘고 있습니다. 슈퍼브 스폿라이트는 피지컬 AI 및 VLA 주요 기술 및 산업 동향을 살펴보고, 관련 산업과 미래를 전망해 보겠습니다.
글로벌 휴머노이드 로봇 시장 동향
최근 중국 쳰잔산업연구원이 발표한 '25년 휴머노이드 로봇산업 발전 동향 및 전망 청서에 따르면, 글로벌 휴머노이드 로봇산업 규모는 지속적으로 성장하고 있습니다. '23년부터 연평균 57% 상승하여 '29년에는 324억 달러(약 47조 원)에 이를 것으로 전망됩니다. 중국의 경우, 정책적 지원에 힘입어 '24년 휴머노이드 로봇 시장 규모는 27억 6천만 위안(약 5천 5백억 원)을 기록했으며, 연평균 93.6%로 성장하여 '29년에는 750억 위안(약 15조 원) 규모에 달할 것으로 예측됩니다.
중국과 일본의 움직임
올해 중국 양회에서 피지컬 AI를 의미하는 구신지능(具身智能)이라는 용어가 업무보고에 처음 등장했습니다. 베이징시는 양회에 발맞춰 ‘2025-2027 구신지능 기술혁신과 산업육성 발전계획’ 등 구체적인 정책 지원안까지 내놨죠. 중국 정부는 「휴머노이드 혁신 발전 지도의견(人形机器人创新发展指导意见)」을 발표하고, '27년까지 다양한 응용 시나리오 확보 및 실물 경제와의 통합을 추진하고 있습니다. 현재 중국에서의 AI 개발 붐은 ▲산업 특화형 모델에 집중 ▲‘산업 발전을 위한 AI’ 전략 추구 ▲로봇에 대한 관심 고조의 양상으로 전개되고 있습니다.
일본 경제산업연구소(RIETI)의 연구(24년 10월)에 따르면, AI와 로봇이 일본 경제의 노동생산성을 0.5~0.6% 향상시키는 것으로 분석되었습니다. 특히 정보통신업(1.60%)과 금융·보험업(0.94%)에서 AI 활용도가 높으며, 로봇 도입은 제조업(20.8%)과 건설업(26.9%)에서 생산성 향상 효과가 두드러지는 것으로 나타났습니다.
일본 기린 베버리지와 기린그룹 로지스틱스사는 최근 동일본 지역의 물류거점인 에비나(海老名)물류센터에 미쓰비시중공업의 자동화·지능화 솔루션을 도입했습니다. 도입한 솔루션은 무인지게차(AGF), 무인운반차(AGV), 피킹 로봇을 통합 제어하는 ‘ΣSynX’*와 ‘자동 피킹 솔루션’으로 구성되어있습니다. 해당 솔루션은 지금까지 물류 현장의 작업자가 수작업으로 수행하던 피킹 작업, 팔레트에 골판지를 적재하는 작업을 자동화하고 지능화함으로써 물류센터의 생산성을 42% 올렸습니다.
글로벌 기업들의 VLA 개발 현황
구글 딥마인드의 제미나이 로보틱스: 가장 발전된 VLA
구글은 최근 자사의 멀티모달 AI 모델 제미나이(Gemini)를 로봇 제어에 특화시킨 '제미나이 로보틱스(Gemini Robotics)'를 발표했습니다. 이 모델은 텍스트 명령을 로봇의 물리적 동작으로 변환하는 능력을 크게 향상시켰으며, 특히 일상 환경에서의 복잡한 작업 수행에 중점을 두고 있습니다. 구글 딥마인드는 텍스트, 이미지, 오디오, 비디오를 활용한 멀티모달 추론 능력을 발전시켜 왔으나, 디지털 환경에서만 사용되었죠. 현실 세계에서 AI가 유용해지려면 인간처럼 환경을 이해하고 반응하며, 안전하게 작업을 수행하는 "구체적 추론(embodied reasoning)" 능력이 필요합니다. 구글 딥마인드는 구체적 추론 능력을 탑재한 두 개의 새로운 모델을 선보입니다.
제미나이 로보틱스: 제미나이 2.0 기반, 로봇 직접 제어하는 비전언어행동(VLA) 모델
제미나이 로보틱스-ER: 향상된 공간 이해력과 로봇 제어 능력을 제공하는 모델
위 모델은 기존 VLA 모델 대비 일반화 성능이 2배 향상되었고, 자연어 명령을 이해하고 반응하며, 종이 접기 등 세밀하고 복잡한 다단계 작업이 가능합니다. 코드 생성 능력까지 결합되어 로봇이 새로운 작업 방식을 즉석에서 생성할 수 있다고 하네요. 현재 앱트로닉(Apptronik)과 협력해 다음 세대의 휴머노이드 로봇을 개발 중이라고 합니다. 구글 딥마인드 유튜브 채널에 13개의 데모 영상이 올라와 있는데, 진짜 이렇게까지 섬세하게 되나 싶을 정도의 동작도 잘 되네요.(아래 유튜브 영상도 보세요)
피규어 AI의 헬릭스(Helix): 두대의 로봇도 동시에 제어
미국의 휴머노이드 로봇 스타트업 피규어 AI는 로봇용 AI 모델 '헬릭스'를 25년 2월 공개했습니다. 오픈AI와의 기술 협력을 종료한지 2주만이었는데요.
피규어 AI는 헬릭스의 아키텍처를 2개로 분리했습니다. 장면 이해 및 언어 이해를 위한 비전언어모델(VLM)과 데이터를 통해 생성한 의미를 동작으로 변환하는 액션 모델인데요. VLM은 일반화를 잘 하지만 빠르지 않고, 로봇 동작 변환 모델은 일반화는 잘 못하지만 처리 속도가 빠릅니다. 피규어 AI는 두 모델의 장점을 결합했는데요. 사전 훈련된 VLM이 여러 객체와 맥락을 따져 일반화를 하면, 이 의미 표현을 아주 빠르고 정확하면서도 연속적인 로봇 동작으로 변환해 로봇의 고속 제어가 가능해졌습니다. 헬릭스가 자랑하는 다중 로봇 협업도 가능하죠. 두대의 로봇에서 동시에 작동하는 최초의 VLA 모델이라고 합니다. "오른쪽 로봇에게 쿠키 봉지를 건네주세요" 또는 "왼쪽 로봇으로부터 쿠키 봉지를 받아서 열린 서랍에 넣으세요"와 같은 자연어 프롬프트로 조작이 가능한 제로샷 액션이 인상적입니다.
모델뿐만이 아니라 실제 로봇 생산에도 박차를 가하고 있는데요. 3월 15일, 휴머노이드 로봇을 위한 대량 생산 시설 BotQ도 공개했습니다. 연간 12,000대에서 100,000대로 로봇 생산 규모를 확대할 예정이라고 합니다.
이러한 속도는 로봇을 만드는 로봇 덕분에 가능한데요. 헬릭스를 도입해 로봇이 생산 라인의 핵심 구성 요소를 조립하고, 스테이션간 상품을 이동하도록 합니다. AI 기반 자동화와 인간 감독을 결합해 생산 일정을 가속화하고 있다고 합니다.
마이크로소프트 마그마 - VLAM 첫 파운데이션 모델
마이크로소프트와 메릴랜드대학교, 위스콘신대학교-매디슨, 한국과학기술원(KAIST), 워싱턴대학교 등 연구진이 25년 2월 발표한 마그마(Magma)는 디지털 및 물리적 환경 모두에서 정보를 처리하고 액션 제안을 생성하도록 설계된 멀티모달 AI 기반 모델입니다. AI 에이전트가 사용자 인터페이스를 해석하고 버튼 클릭과 같은 액션을 제안하는 동시에 물리적 세계에서 로봇의 움직임과 상호 작용하도록 설계되었습니다.
기존 VLA 모델은 비전-언어 쌍과 행동 데이터를 대규모 데이터셋으로 훈련해 멀티모달 작업을 해결하려고 했지만, 수시로 바뀌는 다양한 환경에 적응하는 데는 어려움이 있었죠.
연구진은 멀티모달 이해, 행동 기반, 계획을 결합한 강력한 훈련 방법을 적용하고, 3천 9백만개의 샘플을 포함한 다양한 데이터셋으로 훈련했다고 합니다. 두 가지 주요 혁신은 SoM, ToM이라는 훈련 패러다임입니다.
Set-of-Mark(SoM): SoM은 주어진 목표 달성과 관련된 주요 객체, 인터페이스 요소의 주석이 달린 집합. 예를 들어 웹페이지 탐색 작업을 할 때, SoM에는 클릭 가능한 사용자 인터페이스 요소에 대한 모든 바운딩 박스 포함.
Trace-of-Mark(ToM): ToM은 시간에 따른 객체 이동을 따라가는 추적 선. SoM은 작업 관련 주요 객체나 인터페이스 요소를 강조한다면, ToM은 이러한 요소가 어떻게 변경되거나 이동하는지 포착.
마그마는 멀티모달 입력을 해석하고 근거를 제공할 수 있는 최초의 파운데이션 모델로, 제로 샷 UI 탐색 작업에서 57.2%의 정확도, 비디오 질문-답변 테스트인 인텐트QA와 넥스트QA에서 각각 88.6%, 72.9%의 정확도를 기록했다고 합니다.
피지컬AI, 핵심 기술 트렌드 분석
멀티모달 모델의 중요성 증대
모든 선도적 피지컬 AI 시스템에서 공통적으로 나타나는 특징은 강력한 멀티모달 모델의 활용입니다. 언어, 시각, 행동 데이터를 통합적으로 처리하는 능력이 피지컬 AI의 핵심 경쟁력으로 부상하고 있으며, 특히 VLA 모델 구조가 표준으로 자리잡고 있습니다.
시뮬레이션과 실제 환경의 간극 해소
최근 모델들은 시뮬레이션 환경에서 학습한 지식을 실제 물리 세계로 효과적으로 전이하는 능력이 크게 향상되었습니다. 구글 딥마인드의 제미나이 로보틱스와 피규어의 헬릭스는 모두 시뮬레이션-현실 간 격차(Sim-to-Real Gap)를 줄이기 위한 새로운 학습 방법론을 도입했습니다.
자율적 학습 능력 강화
지도 없이 환경과의 상호작용을 통해 스스로 학습하는 능력이 중요해지고 있습니다. 특히 마그마 형태의 모델이 발전하면서 주위 사물과 상호 작용하며 움직이는 로봇 개발이 늘어날 것으로 보입니다. 마이크로소프트 측은 앞으로 산업 분야에서 인간의 판단이 필요하던 복잡한 영역까지도 스스로 판단해 작업할 수 있을 것으로 예상합니다.
피지컬 AI 기술은 이제 실험실을 넘어 실제 산업 현장에 적용될 만큼 성숙단계에 접어들고 있습니다. 미국과 중국의 기술 기업들은 이 분야에서 주도권을 확보하기 위한 경쟁을 본격화하고 있으며, 각국 정부 역시 전략적 지원을 강화하고 있습니다.
국내 기업들도 이러한 글로벌 흐름에 주목할 필요가 있습니다. 특히 한국이 강점을 가진 반도체, 배터리, 정밀기계 등의 분야와 피지컬 AI의 결합은 새로운 성장 동력을 창출할 가능성이 높습니다.
슈퍼브에이아이는 국내 첫 비전 파운데이션 모델을 보유하고 있으며, VLM 기반의 영상 관제 솔루션, 제로샷 불량 검수 솔루션 등 산업 현장의 혁신을 이끄는 AI 프로젝트를 다수 진행해 왔습니다. 피지컬 AI에 적극 대응하고 싶다면, 슈퍼브에이아이에 문의 주세요.
벤처캐피탈 NFX의 AI 에이전트 이코노미에 대한 전망입니다. AI 에이전트의 시대가 도래하고 있으며, AI 에이전트 구축 비용과 난이도가 점점 낮아지는 추세입니다. 이제부터는 다양한 산업에서 AI 에이전트를 활용해 작업을 의뢰하고, 거래하고, 협력하는 AI 에이전트 마켓플레이스가 부상할 것으로 보고 있습니다. 승자독식 방식으로 전개될 가능성이 큽니다. 기존 마켓플레이스 빌딩 노하우와 네트워크 효과 이론을 AI 환경에 맞게 재해석해야 하는 시점입니다.
화재 연기 감지, 차량 인식, 얼굴 인식, 쓰러짐 및 이상 행동 감지까지 다양한 상황을 자동 식별하는데요. 핵심 기술인 객체 ID 추적기능을 통해 영상 내에서 특정 객체에 고유한 식별자를 할당하고, 시간이 지나거나 환경이 변화해도 그 객체를 지속적으로 추적할 수 있습니다.
멀티모달 기술과 생성형 AI가 적용되어 영상 내용을 자연어로 검색할 수 있습니다. 시간, 날짜, 카메라 위치 기반의 기존 검색 방식을 넘어 영상 콘텐츠 자체를 이해하고 검색할 수 있는 지능형 시스템입니다.