1. VLM이란?
최근 AI 흐름을 보면 텍스트만 이해하는 모델에서 점점 이미지와 텍스트를 동시에 다루는 멀티모달(Multimodal) 모델 쪽으로 진화하고 있습니다. 그 중심에 있는 게 바로 **VLM(Visual Language Model)**이에요.
쉽게 말해, VLM은 사진 보고 말할 수 있는 모델이라고 보면 됩니다.
예를 들어,
- 사진을 보여주면서 “이 제품 뭐야?”라고 물으면 모델이 설명해주고,
- “강아지가 뛰노는 사진”이라는 글자를 주면 실제 강아지 사진을 검색해주거나 생성해주죠.
즉, 단순히 말만 잘하는 AI가 아니라, 세상을 보고 이해하는 AI로 확장되는 겁니다.
2. 왜 중요한가?
왜 멀티모달이 이렇게 중요할까요? 제가 보기엔 크게 세 가지 포인트가 있어요.
- 표현력이 훨씬 풍부해진다
텍스트로 “빨간 운동화”라고만 하면 애매한데, 실제 이미지를 같이 학습하면 “어떤 빨간색인지, 어떤 디자인인지”까지 훨씬 구체적으로 이해할 수 있어요. - 실제 비즈니스에 바로 쓸 수 있다
- 유통업에서는 상품 이미지 + 설명을 동시에 다루면 검색이나 추천 정확도가 올라갑니다.
- 의료 쪽에서는 X-ray 사진을 보고 “이상 징후가 있는지” 텍스트 리포트로 뽑아주기도 하고요.
- 미디어/콘텐츠 쪽에서는 이미지 기반 추천, 영상 요약 같은 서비스에도 활용 가능합니다.
- 차세대 AI 서비스의 기반
요즘 많이 쓰는 GPT-4V 같은 멀티모달 챗봇도 결국 이 흐름의 연장선이에요. “대화형 AI + 시각적 이해”가 합쳐지면서, 앞으로는 우리가 쓰는 대부분의 AI 서비스가 이런 구조로 바뀔 가능성이 큽니다.
3. 대표적인 아키텍처 종류
제가 공부하면서 정리해본 대표 모델 계열 몇 가지를 비교해볼게요.
- CLIP 계열 (OpenAI)
이미지를 하나의 벡터로, 텍스트를 또 다른 벡터로 바꿔서 공통 공간에서 매칭합니다.
👉 장점: 빠르고 가볍고, 이미지-텍스트 검색에 최적.
👉 단점: 문맥 이해는 약해서 설명이나 긴 대화엔 약해요. - BLIP 계열 (Salesforce)
이미지를 비전 인코더로 읽고, 텍스트는 언어 디코더로 처리합니다. 그래서 **이미지 캡션(사진 설명하기)**이나 질문-답변 같은 작업을 잘해요.
👉 장점: 설명력이 좋아서 멀티태스크 활용 가능.
👉 단점: 모델이 커서 비용이 크고, 추론 속도 느림. - Flamingo 계열 (DeepMind)
기존 LLM에 비전 모듈을 붙여서, 소량의 데이터로도 잘 학습하는 few-shot 구조를 갖고 있어요.
👉 장점: 대화형 멀티모달에 강점.
👉 단점: 구현 복잡하고, 상용화는 제한적. - GPT-4V 계열 (OpenAI)
GPT 같은 범용 LLM에 비전 인식 기능을 붙인 구조. 지금 우리가 많이 쓰는 게 이거죠.
👉 장점: 범용성이 뛰어나서 대화·검색·분류·생성 다 가능.
👉 단점: 오픈소스가 부족하고, 비용이 비쌉니다.
4. 장단점 & 트레이드오프
정리하자면,
- 빠르고 가볍게 검색하려면 CLIP,
- 설명이나 생성이 필요하면 BLIP,
- 대화형 AI에 쓰고 싶다면 Flamingo나 GPT-4V 쪽이 맞습니다.
결국 “내가 이걸 어디에 쓰려는가?”가 모델 선택의 기준이 되는 거죠.
'공부하는 습관을 들이자' 카테고리의 다른 글
| Embodied AI_LLM에서 행동형 AI로 (0) | 2025.10.19 |
|---|---|
| 멀티모달 강화학습이란 무엇인가? (0) | 2025.10.11 |
| LLM 평가·벤치마크 : PoC에서 무엇을 기준? (0) | 2025.09.14 |
| RAG 구조 설계기: RePlug와 ColBERTv2 (0) | 2025.09.02 |
| #공부일지 1_1. Introduction to Machine Learning in Production (Coursera) (0) | 2022.11.16 |