본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

전체 글177

AI Agent 시대의 기업 전략: 왜 모든 서비스는 Agent화되는가 “모든 소프트웨어는 결국 Agent가 된다.”2025년 AI 전략의 핵심은 ‘모델 성능’이 아니라 ‘Agent화 전략’이다.1. 서론: LLM에서 Agent로, 패러다임이 이동하고 있다2023~2024년은 LLM(ChatGPT, Claude, Gemini 등)이 AI 혁신을 만들었던 시기였다.하지만 2025년을 기점으로, LLM은 여전히 핵심 기술일 뿐 실제 비즈니스 가치는 Agent화 과정에서 나오기 시작했다.LLM → LLM 기능LLM 기능 → 하나의 태스크 자동화태스크 자동화 → 워크플로우 자동화워크플로우 자동화 → “업무 담당자” 역할을 수행하는 Agent결국 기업은 LLM을 도입하는 것이 아니라, 업무를 수행하는 AI 직원을 만드는 방향으로 가고 있다.이 글은 왜 모든 서비스가 Agent화되고,.. 2025. 11. 23.
Knowledge Worker 시대의 Enterprise LLM 활용 전략 들어가며요즘 기업 내부에서도 자연스럽게 LLM 기반 도구를 도입하려는 움직임이 늘어나고 있다.“사내 검색을 빠르게”, “문서 자동화”, “보고서 작성” 같은 장점이 자주 언급되지만, 실제로 LLM이 지식 노동 방식(knowledge work) 자체를 어떻게 바꾸는지에 대해선 상대적으로 덜 이야기된다.이번 글에서는 여러 LLM 실험을 진행하며 발견한, Enterprise LLM이 업무 방식을 바꾸는 5가지 지점을 정리해본다.개발자, 기획자, 운영자, 분석가 모두에게 참고가 되길 바라며 기록한다.1. 검색(Search)의 재정의"문서를 찾는 검색"에서 "답을 찾는 검색"으로키워드 기반 검색은 문서를 찾아주지만,원하는 답을 얻는 데는 여전히 사람의 해석 비용이 필요하다.LLM 기반 검색은 방향이 다르다.❝이 .. 2025. 11. 16.
Multi Instance Learning 기반 추천시스템 (OutfitNet 논문) 최근에 추천 시스템에서 복합 아이템 추천에 대한 고민이 많아졌다. 예를 들어 패션 코디처럼 상의, 하의, 신발 등을 세트로 추천해야 할 때, 단순히 각 아이템의 점수를 더하는 방식은 한계가 명확하다. 그러다 발견한 흥미로운 논문이 바로 OutfitNet: Fashion Outfit Compatibility Learning using Attention-based Multi-Instance Learning (WWW 2020)이다. 이 논문은 Multi-Instance Learning(MIL)을 패션 추천에 적용한 구조인데, 읽으면서 꽤 많은 걸 배웠다. 왜 Multi-Instance Learning?Multi-Instance Learning은 “여러 인스턴스로 구성된 하나의 묶음(bag)”에 대해 레이블이.. 2025. 11. 9.
"Segment Anything": 범용 이미지 분할 모델의 등장 Intro: 이미지 분할도 이제 프롬프트 하나로자연어처리에서는 GPT 같은 기반 모델이 제로샷 성능을 보여주며 대세가 되었지만, 컴퓨터 비전 분야는 아직 특정 작업에 맞춘 모델 위주였습니다. 특히 이미지 분할은 데이터를 직접 수집하고, 객체마다 마스크를 그려야 하는 고비용 작업이었습니다. 새로운 객체가 등장하면 그에 맞게 모델을 다시 학습시켜야 했고, 실무에 적용하기도 쉽지 않았습니다. Meta AI는 2023년 "Segment Anything"이라는 획기적인 논문을 발표합니다. "무엇이든 분할할 수 있는" 범용 모델을 제안하며, 이미지 분할 작업의 접근 방식을 완전히 바꾸려는 시도라고 생각합니다.Segment Anything의 핵심 아이디어이 논문의 핵심은 ‘프롬프트 기반 이미지 분할’입니다. 사용자가.. 2025. 11. 2.
Autonomous AI - 2026년 AI 전망 및 시사점 1. Embodied AI 이후의 방향AI는 오랜 시간 텍스트를 이해하는 데 집중해왔다. GPT류 모델들은 방대한 정보를 요약하고 조합하는 데 뛰어났지만, 현실 세계에 직접 영향을 주지는 못했다. Embodied AI는 여기에 행동을 더했다. 물리 환경에서 움직이고, 촉각·시각 같은 감각을 받아들이며 학습하는 형태다.하지만 여기서 또 한 걸음 더 나아간 흐름이 등장하고 있다. 스스로 목표를 세우고 판단을 내리는 AI, 바로 Autonomous AI다. 단순히 환경에 반응하는 것을 넘어, 환경 속에서 무엇을 할지 결정하는 능력으로 확장되고 있다.2. 자율 에이전트의 구조Autonomous AI는 에이전트(Agent)라는 단위로 작동한다. 이들은 하나의 목표가 주어졌을 때, 세부 계획을 세우고, 실행하고, .. 2025. 10. 26.
Embodied AI_LLM에서 행동형 AI로 1. 개요최근 인공지능(AI)은 텍스트 중심의 모델을 넘어, 실제 세계와 상호작용하는 **‘행동형 AI(Embodied AI)’**로 진화하고 있다.이는 단순히 언어를 이해하는 수준을 넘어, 세상을 보고, 듣고, 느끼며, 물리적 행동을 수행할 수 있는 지능을 의미한다.즉, Embodied AI는 멀티모달 강화학습(MMRL) 이후의 자연스러운 확장선으로, AI가 “이해하는 존재”에서 “행동하는 존재”로 발전하는 전환점이다.“LLM이 문맥을 읽는 두뇌라면, Embodied AI는 그 두뇌에 몸을 부여하는 기술이다.”2. Embodied AI란 무엇인가Embodied AI는 멀티모달 학습(Multi-modal Learning), 강화학습(Reinforcement Learning), **로보틱스(Robotics.. 2025. 10. 19.
멀티모달 강화학습이란 무엇인가? 1. 개요최근 인공지능(AI)은 단일 형태의 데이터를 넘어, 텍스트·이미지·음성·센서 등 다양한 데이터를 동시에 이해하고 활용하는 방향으로 발전하고 있다.그 중심에는 바로 멀티모달(Multi-modal) 기술이 있으며, 강화학습(Reinforcement Learning, RL) 역시 예외가 아니다.멀티모달 강화학습(Multi-modal Reinforcement Learning) 은 여러 형태의 입력 데이터를 함께 처리하여, 보다 풍부한 환경 인식과 정교한 의사결정을 가능하게 하는 학습 방식이다.즉, 하나의 감각만으로 세상을 인식하던 기존 AI에서 벗어나, ‘시각 + 청각 + 언어’ 등 복합적 정보를 통합적으로 이해하고 행동하는 에이전트(Agent) 를 구현하는 접근법이라 할 수 있다.2. 왜 중요한가멀티.. 2025. 10. 11.
VLM이란 무엇인가....? 1. VLM이란?최근 AI 흐름을 보면 텍스트만 이해하는 모델에서 점점 이미지와 텍스트를 동시에 다루는 멀티모달(Multimodal) 모델 쪽으로 진화하고 있습니다. 그 중심에 있는 게 바로 **VLM(Visual Language Model)**이에요.쉽게 말해, VLM은 사진 보고 말할 수 있는 모델이라고 보면 됩니다.예를 들어,사진을 보여주면서 “이 제품 뭐야?”라고 물으면 모델이 설명해주고,“강아지가 뛰노는 사진”이라는 글자를 주면 실제 강아지 사진을 검색해주거나 생성해주죠.즉, 단순히 말만 잘하는 AI가 아니라, 세상을 보고 이해하는 AI로 확장되는 겁니다.2. 왜 중요한가?왜 멀티모달이 이렇게 중요할까요? 제가 보기엔 크게 세 가지 포인트가 있어요.표현력이 훨씬 풍부해진다텍스트로 “빨간 운동화”.. 2025. 9. 28.
LLM 평가·벤치마크 : PoC에서 무엇을 기준? 1. 서론대규모 언어모델(LLM)이 비즈니스와 산업 현장에 빠르게 도입되면서, “모델을 어떻게 평가할 것인가?”라는 질문이 점점 더 중요해지고 있다. 단순히 파라미터 수나 학습 데이터 크기만으로 모델을 비교하는 시대는 끝났다. 정확성(Accuracy), 사실성(Factuality), 추론 능력(Reasoning), 안전성(Safety), 도메인 적합성(Domain Fit) 등 다양한 기준이 필요하다.이번 글에서는 대표적인 글로벌 벤치마크(MMLU, TruthfulQA, BIG-Bench 등)와 한국어 평가 세트(KoBEST 등)를 정리하고, 산업 PoC 단계에서 어떤 지표를 선택해야 하는지 논의해본다.2. 대표적인 LLM 벤치마크2.1 MMLU (Massive Multitask Language Under.. 2025. 9. 14.