メインコンテンツまでスキップ

ビジョン、PDF & ファイル入力

中級

Claude はマルチモーダルです。メッセージに画像やドキュメント（PDF など）を含め、それらについて質問できます — データの抽出、グラフの説明、契約書の要約、スクリーンショットの読み取りなど。

ファイルを送る 3 つの方法

Base64 — バイト列をリクエストにインラインでエンコードする。単発なら最もシンプル。
URL — ホストされたファイルを指し示す。
Files API — 一度アップロードし、その後は多数のリクエストにわたって file_id で参照する（大きなファイルの再アップロードを避けられます）。

# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
  "role": "user",
  "content": [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
    {"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
  ],
}]

PDF も同様に機能します（ドキュメントのコンテンツブロック）。Claude はテキストと視覚的なレイアウトを読み取れ、回答がドキュメント内のどこから来たかへの**引用（citations）**を要求することもできます。

得意なこと

抽出 — 請求書、フォーム、表から構造化データを引き出す（構造化出力と組み合わせる）。
視覚情報の理解 — グラフ、図、スクリーンショット、UI。
ドキュメント Q&A — 長い PDF にまたがって、引用付きで質問する。

ヒント

同じ大きなドキュメントを繰り返し送るときは file_id で再利用する — より安く、より速い。
解像度/サイズが重要 — 非常に大きな画像は縮小されることがあります。上限を確認してください。
抽出された数値を検証する — ビジョンは強力ですが万能ではありません。重要な数字はスポットチェックしましょう（ハルシネーション）。

次へ

ファイルを送る 3 つの方法
得意なこと
ヒント
次へ