Vision, PDF & Dateieingabe
Claude ist multimodal: Du kannst Bilder und Dokumente (wie PDFs) in eine Nachricht einfügen und Fragen dazu stellen — Daten extrahieren, ein Diagramm beschreiben, einen Vertrag zusammenfassen, einen Screenshot lesen.
Drei Wege, eine Datei zu senden
- Base64 — kodiere die Bytes inline in der Anfrage. Am einfachsten für Einzelfälle.
- URL — verweise auf eine gehostete Datei.
- Files-API — einmal hochladen, dann über viele Anfragen hinweg per
file_idreferenzieren (vermeidet erneutes Hochladen großer Dateien).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
PDFs funktionieren ähnlich (ein Dokument-Inhaltsblock); Claude kann Text und visuelles Layout lesen, und du kannst Zitate dorthin zurück anfordern, woher im Dokument eine Antwort stammt.
Wofür es großartig ist
- Extraktion — strukturierte Daten aus Rechnungen, Formularen, Tabellen herausziehen (kombiniere mit Strukturierter Ausgabe).
- Visuelles verstehen — Diagramme, Schaubilder, Screenshots, UI.
- Dokument-Q&A — Fragen über ein langes PDF mit Zitaten stellen.
Tipps
- Wiederverwenden mit
file_id, wenn du dasselbe große Dokument wiederholt sendest — günstiger und schneller. - Auflösung/Größe sind wichtig — sehr große Bilder können herunterskaliert werden; prüfe die Limits.
- Verifiziere extrahierte Zahlen — Vision ist stark, aber nicht unfehlbar; überprüfe kritische Werte stichprobenartig (Halluzinationen).
Weiter
- Strukturierte Ausgabe
- Echte Dateien generieren (docx/pptx/xlsx/pdf)
- Tokens & Preise — Bilder kosten ebenfalls Tokens