ビジョン、PDF & ファイル入力
Claude はマルチモーダルです。メッセージに画像やドキュメント(PDF など)を含め、それらについて質問できます — データの抽出、グラフの説明、契約書の要約、スクリーンショットの読み取りなど。
ファイルを送る 3 つの方法
- Base64 — バイト列をリクエストにインラインでエンコードする。単発なら最もシンプル。
- URL — ホストされたファイルを指し示す。
- Files API — 一度アップロードし、その後は多数のリクエストにわたって
file_idで参照する(大きなファイルの再アップロードを避けられます)。
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
PDF も同様に機能します(ドキュメントのコンテンツブロック)。Claude はテキストと視覚的なレイアウトを読み取れ、回答がドキュメント内のどこから来たかへの**引用(citations)**を要求することもできます。
得意なこと
- 抽出 — 請求書、フォーム、表から構造化データを引き出す(構造化出力と組み合わせる)。
- 視覚情報の理解 — グラフ、図、スクリーンショット、UI。
- ドキュメント Q&A — 長い PDF にまたがって、引用付きで質問する。
ヒント
- 同じ大きなドキュメントを繰り返し送るときは
file_idで再利用する — より安く、より速い。 - 解像度/サイズが重要 — 非常に大きな画像は縮小されることがあります。上限を確認してください。
- 抽出された数値を検証する — ビジョンは強力ですが万能ではありません。重要な数字はスポットチェックしましょう(ハルシネーション)。
次へ
- 構造化出力
- 実ファイルの生成(docx/pptx/xlsx/pdf)
- トークン & 料金 — 画像もトークンを消費します