비전, PDF & 파일 입력
Claude는 멀티모달입니다: 메시지에 이미지와 문서(예: PDF)를 포함하고 그에 대해 질문할 수 있습니다 — 데이터를 추출하고, 차트를 설명하고, 계약서를 요약하고, 스크린샷을 읽을 수 있습니다.
파일을 보내는 세 가지 방법
- Base64 — 요청에 바이트를 인라인으로 인코딩합니다. 일회성에 가장 간단합니다.
- URL — 호스팅된 파일을 가리킵니다.
- Files API — 한 번 업로드한 뒤 여러 요청에 걸쳐 **
file_id**로 참조합니다(큰 파일의 재업로드를 피함).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
PDF도 비슷하게 작동합니다(문서 콘텐츠 블록); Claude는 텍스트와 시각적 레이아웃을 읽을 수 있으며, 답이 문서의 어느 부분에서 왔는지 가리키는 **인용(citations)**을 요청할 수 있습니다.
가장 잘하는 것
- 추출 — 송장, 양식, 표에서 구조화된 데이터를 뽑아냅니다(구조화된 출력과 결합).
- 시각 자료 이해 — 차트, 다이어그램, 스크린샷, UI.
- 문서 Q&A — 긴 PDF 전반에 걸쳐 인용과 함께 질문합니다.
팁
- 같은 큰 문서를 반복적으로 보낼 때는
file_id로 재사용하세요 — 더 저렴하고 빠릅니다. - 해상도/크기가 중요합니다 — 아주 큰 이미지는 다운스케일될 수 있습니다; 제한을 확인하세요.
- 추출한 숫자를 검증하세요 — 비전은 강력하지만 무결하지는 않습니다; 중요한 수치는 직접 점검하세요(환각).
다음
- 구조화된 출력
- 실제 파일 생성하기 (docx/pptx/xlsx/pdf)
- 토큰 & 가격 — 이미지도 토큰을 소비합니다