Vision, PDF et fichiers en entrée
Claude est multimodal : vous pouvez inclure des images et des documents (comme des PDF) dans un message et poser des questions à leur sujet — extraire des données, décrire un graphique, résumer un contrat, lire une capture d'écran.
Trois façons d'envoyer un fichier
- Base64 — encodez les octets directement dans la requête. Le plus simple pour les cas ponctuels.
- URL — pointez vers un fichier hébergé.
- API Files — téléversez une fois, puis référencez le fichier par son
file_iddans de nombreuses requêtes (évite de re-téléverser des fichiers volumineux).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
Les PDF fonctionnent de manière similaire (un bloc de contenu de type document) ; Claude peut lire le texte et la mise en page visuelle, et vous pouvez demander des citations renvoyant à l'endroit du document d'où provient une réponse.
À quoi c'est excellent
- Extraction — extraire des données structurées de factures, formulaires, tableaux (à associer à la sortie structurée).
- Compréhension des visuels — graphiques, diagrammes, captures d'écran, interfaces.
- Questions-réponses sur documents — poser des questions sur un long PDF avec des citations.
Conseils
- Réutilisez avec
file_idlorsque vous envoyez le même gros document à répétition — moins cher et plus rapide. - La résolution et la taille comptent — les images très volumineuses peuvent être sous-échantillonnées ; vérifiez les limites.
- Vérifiez les chiffres extraits — la vision est performante mais pas infaillible ; contrôlez par sondage les valeurs critiques (Hallucinations).
Suite
- Sortie structurée
- Générer de vrais fichiers (docx/pptx/xlsx/pdf)
- Tokens et tarification — les images consomment aussi des tokens