Passa al contenuto principale

Vision, PDF e input di file

Intermedio

Claude è multimodale: puoi includere immagini e documenti (come i PDF) in un messaggio e fare domande su di essi — estrarre dati, descrivere un grafico, riassumere un contratto, leggere uno screenshot.

Tre modi per inviare un file

  1. Base64 — codifica i byte inline nella richiesta. Il più semplice per i casi sporadici.
  2. URL — punta a un file ospitato.
  3. Files API — carica una volta, poi referenzialo tramite file_id in molte richieste (evita di ricaricare file di grandi dimensioni).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

I PDF funzionano in modo simile (un blocco di contenuto documento); Claude può leggere il testo e il layout visivo, e puoi richiedere citazioni che rimandano al punto del documento da cui proviene una risposta.

Per cosa è ottimo

  • Estrazione — estrai dati strutturati da fatture, moduli, tabelle (abbina a Output strutturato).
  • Comprensione di contenuti visivi — grafici, diagrammi, screenshot, UI.
  • Q&A su documenti — fai domande su un lungo PDF con citazioni.

Suggerimenti

  • Riutilizza con file_id quando invii ripetutamente lo stesso documento grande — più economico e veloce.
  • Risoluzione/dimensione contano — le immagini molto grandi potrebbero essere ridimensionate; controlla i limiti.
  • Verifica i numeri estratti — la vision è potente ma non infallibile; ricontrolla a campione le cifre critiche (Allucinazioni).

Avanti