Vision, PDF e input di file

Intermedio

Claude è multimodale: puoi includere immagini e documenti (come i PDF) in un messaggio e fare domande su di essi — estrarre dati, descrivere un grafico, riassumere un contratto, leggere uno screenshot.

Tre modi per inviare un file

Base64 — codifica i byte inline nella richiesta. Il più semplice per i casi sporadici.
URL — punta a un file ospitato.
Files API — carica una volta, poi referenzialo tramite file_id in molte richieste (evita di ricaricare file di grandi dimensioni).

# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
  "role": "user",
  "content": [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
    {"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
  ],
}]

I PDF funzionano in modo simile (un blocco di contenuto documento); Claude può leggere il testo e il layout visivo, e puoi richiedere citazioni che rimandano al punto del documento da cui proviene una risposta.

Per cosa è ottimo

Estrazione — estrai dati strutturati da fatture, moduli, tabelle (abbina a Output strutturato).
Comprensione di contenuti visivi — grafici, diagrammi, screenshot, UI.
Q&A su documenti — fai domande su un lungo PDF con citazioni.

Suggerimenti

Riutilizza con file_id quando invii ripetutamente lo stesso documento grande — più economico e veloce.
Risoluzione/dimensione contano — le immagini molto grandi potrebbero essere ridimensionate; controlla i limiti.
Verifica i numeri estratti — la vision è potente ma non infallibile; ricontrolla a campione le cifre critiche (Allucinazioni).

Avanti

Output strutturato
Generare file reali (docx/pptx/xlsx/pdf)
Token e prezzi — anche le immagini costano token

Tre modi per inviare un file​

Per cosa è ottimo​

Suggerimenti​

Avanti​

Tre modi per inviare un file

Per cosa è ottimo

Suggerimenti

Avanti