본문으로 건너뛰기

비전, PDF & 파일 입력

중급

Claude는 멀티모달입니다: 메시지에 이미지와 문서(예: PDF)를 포함하고 그에 대해 질문할 수 있습니다 — 데이터를 추출하고, 차트를 설명하고, 계약서를 요약하고, 스크린샷을 읽을 수 있습니다.

파일을 보내는 세 가지 방법

  1. Base64 — 요청에 바이트를 인라인으로 인코딩합니다. 일회성에 가장 간단합니다.
  2. URL — 호스팅된 파일을 가리킵니다.
  3. Files API — 한 번 업로드한 뒤 여러 요청에 걸쳐 **file_id**로 참조합니다(큰 파일의 재업로드를 피함).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

PDF도 비슷하게 작동합니다(문서 콘텐츠 블록); Claude는 텍스트와 시각적 레이아웃을 읽을 수 있으며, 답이 문서의 어느 부분에서 왔는지 가리키는 **인용(citations)**을 요청할 수 있습니다.

가장 잘하는 것

  • 추출 — 송장, 양식, 표에서 구조화된 데이터를 뽑아냅니다(구조화된 출력과 결합).
  • 시각 자료 이해 — 차트, 다이어그램, 스크린샷, UI.
  • 문서 Q&A — 긴 PDF 전반에 걸쳐 인용과 함께 질문합니다.

  • 같은 큰 문서를 반복적으로 보낼 때는 file_id로 재사용하세요 — 더 저렴하고 빠릅니다.
  • 해상도/크기가 중요합니다 — 아주 큰 이미지는 다운스케일될 수 있습니다; 제한을 확인하세요.
  • 추출한 숫자를 검증하세요 — 비전은 강력하지만 무결하지는 않습니다; 중요한 수치는 직접 점검하세요(환각).

다음