본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

Ai32

LLM Agent가 어려운 진짜 이유는 무엇일까? 개요요즘 “AI Agent”라는 단어는 어디서든 거의 만능 키처럼 쓰인다.툴을 연결하고, 메모리를 붙이고, 프롬프트로 역할을 정의하면 마치 사람처럼 일하는 시스템이 만들어질 것처럼 보인다. 하지만 실제 프로젝트에서는 Agent는 생각보다 기대 수준을 못미친다. 그리고 그 실패의 원인은 모델 성능 부족이 아닌 경우가 대부분이다.1. Agent PoC는 왜 항상 잘 되는가Agent PoC 단계에서는 시나리오가 제한적이고 실패해도 큰 문제가 없다. 명확한 평가보다는 그럴듯한 답으로 구현이 가능하다. (Google AI Studio로 바이브코딩만 해도 그럴듯함.) 이 환경에서는 LLM의 추론 능력이 빛을 발한다.조금 애매해도, 조금 틀려도 그 답을 “그럴듯하다”고 받아들인다. 그래서 PoC 데모는 괜찮고, 고객.. 2025. 12. 26.
"Segment Anything": 범용 이미지 분할 모델의 등장 Intro: 이미지 분할도 이제 프롬프트 하나로자연어처리에서는 GPT 같은 기반 모델이 제로샷 성능을 보여주며 대세가 되었지만, 컴퓨터 비전 분야는 아직 특정 작업에 맞춘 모델 위주였습니다. 특히 이미지 분할은 데이터를 직접 수집하고, 객체마다 마스크를 그려야 하는 고비용 작업이었습니다. 새로운 객체가 등장하면 그에 맞게 모델을 다시 학습시켜야 했고, 실무에 적용하기도 쉽지 않았습니다. Meta AI는 2023년 "Segment Anything"이라는 획기적인 논문을 발표합니다. "무엇이든 분할할 수 있는" 범용 모델을 제안하며, 이미지 분할 작업의 접근 방식을 완전히 바꾸려는 시도라고 생각합니다.Segment Anything의 핵심 아이디어이 논문의 핵심은 ‘프롬프트 기반 이미지 분할’입니다. 사용자가.. 2025. 11. 2.
Autonomous AI - 2026년 AI 전망 및 시사점 1. Embodied AI 이후의 방향AI는 오랜 시간 텍스트를 이해하는 데 집중해왔다. GPT류 모델들은 방대한 정보를 요약하고 조합하는 데 뛰어났지만, 현실 세계에 직접 영향을 주지는 못했다. Embodied AI는 여기에 행동을 더했다. 물리 환경에서 움직이고, 촉각·시각 같은 감각을 받아들이며 학습하는 형태다.하지만 여기서 또 한 걸음 더 나아간 흐름이 등장하고 있다. 스스로 목표를 세우고 판단을 내리는 AI, 바로 Autonomous AI다. 단순히 환경에 반응하는 것을 넘어, 환경 속에서 무엇을 할지 결정하는 능력으로 확장되고 있다.2. 자율 에이전트의 구조Autonomous AI는 에이전트(Agent)라는 단위로 작동한다. 이들은 하나의 목표가 주어졌을 때, 세부 계획을 세우고, 실행하고, .. 2025. 10. 26.
Embodied AI_LLM에서 행동형 AI로 1. 개요최근 인공지능(AI)은 텍스트 중심의 모델을 넘어, 실제 세계와 상호작용하는 **‘행동형 AI(Embodied AI)’**로 진화하고 있다.이는 단순히 언어를 이해하는 수준을 넘어, 세상을 보고, 듣고, 느끼며, 물리적 행동을 수행할 수 있는 지능을 의미한다.즉, Embodied AI는 멀티모달 강화학습(MMRL) 이후의 자연스러운 확장선으로, AI가 “이해하는 존재”에서 “행동하는 존재”로 발전하는 전환점이다.“LLM이 문맥을 읽는 두뇌라면, Embodied AI는 그 두뇌에 몸을 부여하는 기술이다.”2. Embodied AI란 무엇인가Embodied AI는 멀티모달 학습(Multi-modal Learning), 강화학습(Reinforcement Learning), **로보틱스(Robotics.. 2025. 10. 19.
멀티모달 강화학습이란 무엇인가? 1. 개요최근 인공지능(AI)은 단일 형태의 데이터를 넘어, 텍스트·이미지·음성·센서 등 다양한 데이터를 동시에 이해하고 활용하는 방향으로 발전하고 있다.그 중심에는 바로 멀티모달(Multi-modal) 기술이 있으며, 강화학습(Reinforcement Learning, RL) 역시 예외가 아니다.멀티모달 강화학습(Multi-modal Reinforcement Learning) 은 여러 형태의 입력 데이터를 함께 처리하여, 보다 풍부한 환경 인식과 정교한 의사결정을 가능하게 하는 학습 방식이다.즉, 하나의 감각만으로 세상을 인식하던 기존 AI에서 벗어나, ‘시각 + 청각 + 언어’ 등 복합적 정보를 통합적으로 이해하고 행동하는 에이전트(Agent) 를 구현하는 접근법이라 할 수 있다.2. 왜 중요한가멀티.. 2025. 10. 11.
RAG 구조 설계기: RePlug와 ColBERTv2 1. 서론검색 증강 생성(RAG, Retrieval-Augmented Generation)은 대규모 언어모델에 외부 지식 검색을 결합해 사실성, 최신성, 신뢰성을 강화하는 방법이다. 기본 구조는 검색기(Retriever)와 생성기(Generator)로 나뉘며, 검색된 문서를 생성기의 입력으로 활용한다. 최근 1~2년간 연구에서는 이 구조를 어떻게 설계·통합하느냐에 따라 다양한 혁신이 등장했다.2. 주요 모델별 구조2.1 Atlas – 검색 통합 사전학습Atlas는 검색기를 사전학습 단계부터 모델에 통합한 구조가 특징이다. 검색된 문서를 개별적으로 인코딩한 뒤, 디코더에서 교차 어텐션으로 융합하는 Fusion-in-Decoder(FiD) 방식을 사용한다. 이를 통해 소수 샘플 학습 환경에서도 대규모 파라미.. 2025. 9. 2.
반응형