본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
공부하는 습관을 들이자

Embodied AI_LLM에서 행동형 AI로

by 꿀먹은데이터 2025. 10. 19.

1. 개요

최근 인공지능(AI)은 텍스트 중심의 모델을 넘어, 실제 세계와 상호작용하는 **‘행동형 AI(Embodied AI)’**로 진화하고 있다.
이는 단순히 언어를 이해하는 수준을 넘어, 세상을 보고, 듣고, 느끼며, 물리적 행동을 수행할 수 있는 지능을 의미한다.
즉, Embodied AI는 멀티모달 강화학습(MMRL) 이후의 자연스러운 확장선으로, AI가 “이해하는 존재”에서 “행동하는 존재”로 발전하는 전환점이다.

“LLM이 문맥을 읽는 두뇌라면, Embodied AI는 그 두뇌에 몸을 부여하는 기술이다.”


2. Embodied AI란 무엇인가

Embodied AI는 멀티모달 학습(Multi-modal Learning), 강화학습(Reinforcement Learning), **로보틱스(Robotics)**가 결합된 형태의 인공지능이다.
핵심은 AI가 단순히 데이터를 입력받는 것이 아니라, 자신의 행동으로 환경을 변화시키고 그 결과를 학습한다는 점이다.

  • 멀티모달 AI: 시각·청각·언어 등 다양한 감각 입력을 통합
  • 강화학습: 보상 구조를 기반으로 행동 정책을 스스로 최적화
  • 로보틱스/시뮬레이션: 물리적 환경에서 실험과 피드백을 반복

이 세 요소가 합쳐지면, AI는 더 이상 ‘지식을 예측하는 모델’이 아니라 ‘세상과 상호작용하며 학습하는 존재’로 발전한다.


3. 주요 기술 축

① Sensor Fusion & Simulation

Embodied AI의 첫 번째 축은 다중 센서 융합이다.
시각(카메라), 청각(음성), 촉각(압력·힘 센서) 등 다양한 입력이 통합되어 하나의 공간적·시간적 인식을 형성한다.
또한, 실제 로봇 환경에서의 실험이 어렵기 때문에 시뮬레이션 환경(Simulator) 이 핵심 역할을 한다.
대표적으로 AI Habitat, Isaac Sim, Mujoco 등이 사용된다.

인간이 현실에서 시행착오를 통해 배우듯, AI는 가상공간에서 수백만 번의 시도를 반복하며 학습한다.


② Policy Distillation (from LLM)

두 번째 축은 언어 모델로부터 행동 정책을 학습하는 과정이다.
LLM이 언어적 지식을 풍부하게 가지고 있다면, 이를 행동 정책으로 변환하는 것이 Embodied AI의 핵심 과제다.
예를 들어, “컵을 집어 테이블 위에 올려라”라는 문장을 LLM이 이해하고, 실제 로봇 팔이 수행할 수 있도록 행동 명령으로 변환한다.

이 과정에서 사용되는 기법이 바로 Policy Distillation이다 —
LLM의 ‘추론 능력’을 ‘행동 정책’으로 증류(Distill)하여 실제 환경에서 재활용하는 것이다.


③ Physical Interaction Learning

세 번째 축은 물리적 상호작용 학습이다.
이는 단순한 인식 기반 모델을 넘어, 실제 물리적 행동을 통해 세상과 교감하는 학습 단계다.
물체의 질감, 무게, 마찰력 등 물리적 피드백(Physical Feedback) 을 학습해 행동의 정밀도를 높인다.
예를 들어, 로봇이 컵을 너무 세게 쥐면 깨지고, 너무 약하게 쥐면 떨어지는 상황을 통해 힘 조절 정책(Force Policy) 을 스스로 학습한다.


4. 사례 비교: Gato / RT-1 / Sora

모델기관주요 특징핵심 기술
DeepMind Gato DeepMind 단일 모델로 600개 이상 작업 수행 Multi-task + RL
Google RT-1 / RT-X Google DeepMind 시각·언어·행동 통합 로봇 정책 학습 Multimodal Policy Learning
OpenAI Sora OpenAI 비디오 기반 물리 시뮬레이션 및 예측 World Model + Diffusion

이 세 모델의 공통점은 ‘지각(Perception) → 추론(Reasoning) → 행동(Action)’ 이라는 구조를 가진다는 점이다.
Sora는 시뮬레이션 기반의 “상상력 있는 예측(visual world model)”을,
Gato와 RT-1은 실제 물리적 행동을 통한 “현실 대응 지능”을 구현한다.


5. 결론

Embodied AI는 인공지능이 단순한 계산기나 텍스트 모델을 넘어, 세상을 스스로 체험하고 이해하는 존재로 진화하는 단초다.
이는 인간의 학습 원리인 “감각 → 인식 → 행동 → 피드백”을 모사하는 과정이며,
궁극적으로는 ‘AI의 몸체화(Embodiment)’를 통한 자율 지능(Autonomous Intelligence) 으로 나아가는 발판이 된다.

“Embodied AI는 AI가 세상을 상상하는 것이 아니라, 직접 살아보는 과정이다.”


🔍 참고 문헌

  • DeepMind (2022). A Generalist Agent (Gato).
  • Brohan et al. (2023). RT-1: Robotics Transformer for Real-World Control at Scale.
  • OpenAI (2024). Sora: Video Generation as World Simulation.
  • Duan et al. (2024). Embodied Multimodal Reinforcement Learning: From Perception to Action.