본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
공부하는 습관을 들이자

VLM이란 무엇인가....?

by 꿀먹은데이터 2025. 9. 28.

1. VLM이란?

최근 AI 흐름을 보면 텍스트만 이해하는 모델에서 점점 이미지와 텍스트를 동시에 다루는 멀티모달(Multimodal) 모델 쪽으로 진화하고 있습니다. 그 중심에 있는 게 바로 **VLM(Visual Language Model)**이에요.

쉽게 말해, VLM은 사진 보고 말할 수 있는 모델이라고 보면 됩니다.
예를 들어,

  • 사진을 보여주면서 “이 제품 뭐야?”라고 물으면 모델이 설명해주고,
  • “강아지가 뛰노는 사진”이라는 글자를 주면 실제 강아지 사진을 검색해주거나 생성해주죠.

즉, 단순히 말만 잘하는 AI가 아니라, 세상을 보고 이해하는 AI로 확장되는 겁니다.

2. 왜 중요한가?

왜 멀티모달이 이렇게 중요할까요? 제가 보기엔 크게 세 가지 포인트가 있어요.

  1. 표현력이 훨씬 풍부해진다
    텍스트로 “빨간 운동화”라고만 하면 애매한데, 실제 이미지를 같이 학습하면 “어떤 빨간색인지, 어떤 디자인인지”까지 훨씬 구체적으로 이해할 수 있어요.
  2. 실제 비즈니스에 바로 쓸 수 있다
    • 유통업에서는 상품 이미지 + 설명을 동시에 다루면 검색이나 추천 정확도가 올라갑니다.
    • 의료 쪽에서는 X-ray 사진을 보고 “이상 징후가 있는지” 텍스트 리포트로 뽑아주기도 하고요.
    • 미디어/콘텐츠 쪽에서는 이미지 기반 추천, 영상 요약 같은 서비스에도 활용 가능합니다.
  3. 차세대 AI 서비스의 기반
    요즘 많이 쓰는 GPT-4V 같은 멀티모달 챗봇도 결국 이 흐름의 연장선이에요. “대화형 AI + 시각적 이해”가 합쳐지면서, 앞으로는 우리가 쓰는 대부분의 AI 서비스가 이런 구조로 바뀔 가능성이 큽니다.

3. 대표적인 아키텍처 종류

제가 공부하면서 정리해본 대표 모델 계열 몇 가지를 비교해볼게요.

  • CLIP 계열 (OpenAI)
    이미지를 하나의 벡터로, 텍스트를 또 다른 벡터로 바꿔서 공통 공간에서 매칭합니다.
    👉 장점: 빠르고 가볍고, 이미지-텍스트 검색에 최적.
    👉 단점: 문맥 이해는 약해서 설명이나 긴 대화엔 약해요.
  • BLIP 계열 (Salesforce)
    이미지를 비전 인코더로 읽고, 텍스트는 언어 디코더로 처리합니다. 그래서 **이미지 캡션(사진 설명하기)**이나 질문-답변 같은 작업을 잘해요.
    👉 장점: 설명력이 좋아서 멀티태스크 활용 가능.
    👉 단점: 모델이 커서 비용이 크고, 추론 속도 느림.
  • Flamingo 계열 (DeepMind)
    기존 LLM에 비전 모듈을 붙여서, 소량의 데이터로도 잘 학습하는 few-shot 구조를 갖고 있어요.
    👉 장점: 대화형 멀티모달에 강점.
    👉 단점: 구현 복잡하고, 상용화는 제한적.
  • GPT-4V 계열 (OpenAI)
    GPT 같은 범용 LLM에 비전 인식 기능을 붙인 구조. 지금 우리가 많이 쓰는 게 이거죠.
    👉 장점: 범용성이 뛰어나서 대화·검색·분류·생성 다 가능.
    👉 단점: 오픈소스가 부족하고, 비용이 비쌉니다.

4. 장단점 & 트레이드오프

정리하자면,

  • 빠르고 가볍게 검색하려면 CLIP,
  • 설명이나 생성이 필요하면 BLIP,
  • 대화형 AI에 쓰고 싶다면 FlamingoGPT-4V 쪽이 맞습니다.

결국 “내가 이걸 어디에 쓰려는가?”가 모델 선택의 기준이 되는 거죠.