Intro: 이미지 분할도 이제 프롬프트 하나로
자연어처리에서는 GPT 같은 기반 모델이 제로샷 성능을 보여주며 대세가 되었지만, 컴퓨터 비전 분야는 아직 특정 작업에 맞춘 모델 위주였습니다. 특히 이미지 분할은 데이터를 직접 수집하고, 객체마다 마스크를 그려야 하는 고비용 작업이었습니다. 새로운 객체가 등장하면 그에 맞게 모델을 다시 학습시켜야 했고, 실무에 적용하기도 쉽지 않았습니다.
Meta AI는 2023년 "Segment Anything"이라는 획기적인 논문을 발표합니다. "무엇이든 분할할 수 있는" 범용 모델을 제안하며, 이미지 분할 작업의 접근 방식을 완전히 바꾸려는 시도라고 생각합니다.
Segment Anything의 핵심 아이디어
이 논문의 핵심은 ‘프롬프트 기반 이미지 분할’입니다. 사용자가 클릭, 박스, 기존 마스크 등 어떤 형식의 프롬프트를 주면, 모델이 해당 영역을 자동으로 분할해주는 방식입니다. 예를 들어 어떤 이미지의 특정 부분을 클릭하기만 하면, 그 부분이 속한 객체 전체가 마스크로 추출됩니다.
기존처럼 클래스별로 사전 정의된 분할이 아니라, 사용자의 의도를 반영한 분할이 가능하다는 점이 가장 큰 차별점입니다. 즉, 정답이 하나가 아니라 “유효한 마스크 중 하나”를 찾아주는 방식입니다. 이게 가능한 이유는 모델이 다양한 경우를 포함한 대규모 데이터로 훈련되었기 때문입니다.

모델 구조와 학습 방식
SAM의 모델 구조는 다음 세 가지 모듈로 나뉩니다.
- Image Encoder:
- Vision Transformer(ViT-H) 기반으로 이미지 전체를 고차원 임베딩으로 변환
- 한 번만 실행하면, 같은 이미지에 다양한 프롬프트를 반복 적용 가능
- Prompt Encoder:
- 사용자 입력(점, 박스 등)을 positional embedding으로 처리
- 이미지 임베딩과 결합해 맥락화
- Mask Decoder:
- 위 두 결과를 조합해 분할 마스크 생성
- 여러 후보 마스크를 동시에 출력 (모호한 경우 대응)
기술적으로 주목할 점은, SAM이 ‘멀티 마스크 예측’을 지원한다는 것입니다. 동일한 프롬프트에 대해 여러 가능한 분할 결과를 제시해 사용자가 선택하거나 후속 프롬프트로 좁힐 수 있도록 설계되어 있습니다.
학습 데이터: SA-1B, 데이터 엔진
모델을 제대로 학습하기 위한 데이터를 모으기 위해 Meta는 SA-1B라는 데이터셋을 새로 구축합니다:
- 11만 장 이미지, 10억 개 분할 마스크
- 모델이 먼저 마스크를 제안 → 사람 확인/보정 → 다시 모델 학습 → 반복
- 모델과 사람이 함께 만드는 데이터-모델 루프 자동화 전략
이 과정에서 라벨링 생산성을 획기적으로 끌어올린 것도 하나의 기술적 기여라고 볼 수 있습니다.
실험 및 성능: Zero-shot 능력
논문에서는 SAM을 다양한 분할 벤치마크에 적용했습니다:
- COCO, LVIS, ADE20K 등 주요 데이터셋에서 프롬프트 하나만으로 높은 성능 확보
- 세밀한 객체는 기존 전문 분할 모델에 약간 뒤지지만, 대부분 경우에서는 거의 비슷하거나 더 나은 성능
- 특히 인터랙티브 분할(사용자 클릭 기반 작업)에서는 SOTA 모델보다 빠르고 정확
또한, SAM은 객체 분할 외에도 에지 검출, 인스턴스 분할, 동영상 트래킹 같은 비유사 작업에서도 제로샷 성능을 보여줬습니다. 이 점에서 기반 모델로서의 확장성을 충분히 입증했다고 볼 수 있습니다.
Outro: 비전에서도 '기반 모델'의 시대가 온다
Segment Anything은 이미지 분할이라는 전통적인 과제를 “입력만 바꿔서 제로샷으로 해결하는 기반 모델”의 관점에서 재정의한 사례입니다. 앞으로 SAM은
- 영상 분할 (SAM-Video)
- 3D 객체 분할
- 의료 영상/위성사진 등 특화 응용
- 텍스트 기반 프롬프트 확장
등 다양한 후속 기술로 확장되고 있습니다.
참고 논문:
Alexander Kirillov et al., "Segment Anything", arXiv 2023
https://arxiv.org/abs/2304.02643
Segment Anything
We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M license
arxiv.org
'공부하는 습관을 들이자' 카테고리의 다른 글
| Multi Instance Learning 기반 추천시스템 (OutfitNet 논문) (0) | 2025.11.09 |
|---|---|
| Autonomous AI - 2026년 AI 전망 및 시사점 (0) | 2025.10.26 |
| Embodied AI_LLM에서 행동형 AI로 (0) | 2025.10.19 |
| 멀티모달 강화학습이란 무엇인가? (0) | 2025.10.11 |
| VLM이란 무엇인가....? (0) | 2025.09.28 |