Vision, PDF & Dateieingabe

Fortgeschritten

Claude ist multimodal: Du kannst Bilder und Dokumente (wie PDFs) in eine Nachricht einfügen und Fragen dazu stellen — Daten extrahieren, ein Diagramm beschreiben, einen Vertrag zusammenfassen, einen Screenshot lesen.

Drei Wege, eine Datei zu senden

Base64 — kodiere die Bytes inline in der Anfrage. Am einfachsten für Einzelfälle.
URL — verweise auf eine gehostete Datei.
Files-API — einmal hochladen, dann über viele Anfragen hinweg per file_id referenzieren (vermeidet erneutes Hochladen großer Dateien).

# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
  "role": "user",
  "content": [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
    {"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
  ],
}]

PDFs funktionieren ähnlich (ein Dokument-Inhaltsblock); Claude kann Text und visuelles Layout lesen, und du kannst Zitate dorthin zurück anfordern, woher im Dokument eine Antwort stammt.

Wofür es großartig ist

Extraktion — strukturierte Daten aus Rechnungen, Formularen, Tabellen herausziehen (kombiniere mit Strukturierter Ausgabe).
Visuelles verstehen — Diagramme, Schaubilder, Screenshots, UI.
Dokument-Q&A — Fragen über ein langes PDF mit Zitaten stellen.

Tipps

Wiederverwenden mit file_id, wenn du dasselbe große Dokument wiederholt sendest — günstiger und schneller.
Auflösung/Größe sind wichtig — sehr große Bilder können herunterskaliert werden; prüfe die Limits.
Verifiziere extrahierte Zahlen — Vision ist stark, aber nicht unfehlbar; überprüfe kritische Werte stichprobenartig (Halluzinationen).

Weiter

Strukturierte Ausgabe
Echte Dateien generieren (docx/pptx/xlsx/pdf)
Tokens & Preise — Bilder kosten ebenfalls Tokens

Drei Wege, eine Datei zu senden​

Wofür es großartig ist​

Tipps​

Weiter​

Drei Wege, eine Datei zu senden

Wofür es großartig ist

Tipps

Weiter