Aller au contenu principal

Vision, PDF et fichiers en entrée

Intermédiaire

Claude est multimodal : vous pouvez inclure des images et des documents (comme des PDF) dans un message et poser des questions à leur sujet — extraire des données, décrire un graphique, résumer un contrat, lire une capture d'écran.

Trois façons d'envoyer un fichier

  1. Base64 — encodez les octets directement dans la requête. Le plus simple pour les cas ponctuels.
  2. URL — pointez vers un fichier hébergé.
  3. API Files — téléversez une fois, puis référencez le fichier par son file_id dans de nombreuses requêtes (évite de re-téléverser des fichiers volumineux).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

Les PDF fonctionnent de manière similaire (un bloc de contenu de type document) ; Claude peut lire le texte et la mise en page visuelle, et vous pouvez demander des citations renvoyant à l'endroit du document d'où provient une réponse.

À quoi c'est excellent

  • Extraction — extraire des données structurées de factures, formulaires, tableaux (à associer à la sortie structurée).
  • Compréhension des visuels — graphiques, diagrammes, captures d'écran, interfaces.
  • Questions-réponses sur documents — poser des questions sur un long PDF avec des citations.

Conseils

  • Réutilisez avec file_id lorsque vous envoyez le même gros document à répétition — moins cher et plus rapide.
  • La résolution et la taille comptent — les images très volumineuses peuvent être sous-échantillonnées ; vérifiez les limites.
  • Vérifiez les chiffres extraits — la vision est performante mais pas infaillible ; contrôlez par sondage les valeurs critiques (Hallucinations).

Suite