Zum Hauptinhalt springen

Vision, PDF & Dateieingabe

Fortgeschritten

Claude ist multimodal: Du kannst Bilder und Dokumente (wie PDFs) in eine Nachricht einfügen und Fragen dazu stellen — Daten extrahieren, ein Diagramm beschreiben, einen Vertrag zusammenfassen, einen Screenshot lesen.

Drei Wege, eine Datei zu senden

  1. Base64 — kodiere die Bytes inline in der Anfrage. Am einfachsten für Einzelfälle.
  2. URL — verweise auf eine gehostete Datei.
  3. Files-API — einmal hochladen, dann über viele Anfragen hinweg per file_id referenzieren (vermeidet erneutes Hochladen großer Dateien).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

PDFs funktionieren ähnlich (ein Dokument-Inhaltsblock); Claude kann Text und visuelles Layout lesen, und du kannst Zitate dorthin zurück anfordern, woher im Dokument eine Antwort stammt.

Wofür es großartig ist

  • Extraktion — strukturierte Daten aus Rechnungen, Formularen, Tabellen herausziehen (kombiniere mit Strukturierter Ausgabe).
  • Visuelles verstehen — Diagramme, Schaubilder, Screenshots, UI.
  • Dokument-Q&A — Fragen über ein langes PDF mit Zitaten stellen.

Tipps

  • Wiederverwenden mit file_id, wenn du dasselbe große Dokument wiederholt sendest — günstiger und schneller.
  • Auflösung/Größe sind wichtig — sehr große Bilder können herunterskaliert werden; prüfe die Limits.
  • Verifiziere extrahierte Zahlen — Vision ist stark, aber nicht unfehlbar; überprüfe kritische Werte stichprobenartig (Halluzinationen).

Weiter