모델·아키텍처

멀티모달

Multimodal

텍스트 외의 입력(가장 흔히 이미지, 일부는 오디오)을 받아들이고 때로 생성하는 모델. Claude 비전, OpenAI GPT-4o 등이 대표적입니다.

멀티모달(Multimodal) 모델은 텍스트만이 아니라 다른 양식(가장 흔히 이미지, 일부는 오디오)을 입력으로 받아들이고 때로 생성하는 모델입니다.

핵심 포인트

Claude 비전은 이미지를 이해·분석합니다. 한 요청에 여러 이미지를 넣어 비교 분석할 수 있고, 지원 형식은 JPEG·PNG·GIF·WebP입니다(애니메이션은 미지원 — 첫 프레임만 사용).
Claude API 한도: 이미지당 최대 10MB, 최대 8000×8000px(요청에 20장 초과 시 2000×2000으로 축소), 요청당 최대 600장(200k 컨텍스트 모델은 100장). 이미지를 28×28px "비주얼 토큰"으로 처리하며, 큰 이미지는 자동 축소되는데 이는 첫 토큰까지 지연만 늘릴 뿐 품질을 높이지 않으므로 미리 리사이즈를 권장합니다.
OpenAI의 GPT-4o 계열은 네이티브 멀티모달(텍스트 + 비전, 실시간 변형은 오디오)로 비슷한 이미지 이해 용도에 쓰입니다.
용도: 사진 설명·분석, 차트·그래프 읽기, 문서·양식의 필드 추출, 스크린샷/UI 이해 등.

이렇게 쓰여요

차트 이미지에 "이 추세를 요약해줘"를 붙여 인사이트 추출
스캔한 양식을 올려 필드값을 구조화된 데이터로 받기

주의할 점

Claude 비전은 이미지 속 인물의 신원 식별을 거부하고, 저화질·회전·아주 작은(200px 미만) 이미지에서 환각할 수 있으며, 개수·좌표는 근사치이고, AI 생성 이미지 탐지나 진단용 의료 영상에는 부적합합니다. 또 "이해" 전용이라 이미지 생성·편집은 하지 못합니다.

함께 보면 좋아요

토큰 · 에이전트

공식 가이드

Anthropic — Vision (멀티모달)