メインコンテンツまでスキップ

ビジョン、PDF & ファイル入力

中級

Claude はマルチモーダルです。メッセージに画像やドキュメント(PDF など)を含め、それらについて質問できます — データの抽出、グラフの説明、契約書の要約、スクリーンショットの読み取りなど。

ファイルを送る 3 つの方法

  1. Base64 — バイト列をリクエストにインラインでエンコードする。単発なら最もシンプル。
  2. URL — ホストされたファイルを指し示す。
  3. Files API — 一度アップロードし、その後は多数のリクエストにわたって file_id で参照する(大きなファイルの再アップロードを避けられます)。
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

PDF も同様に機能します(ドキュメントのコンテンツブロック)。Claude はテキストと視覚的なレイアウトを読み取れ、回答がドキュメント内のどこから来たかへの**引用(citations)**を要求することもできます。

得意なこと

  • 抽出 — 請求書、フォーム、表から構造化データを引き出す(構造化出力と組み合わせる)。
  • 視覚情報の理解 — グラフ、図、スクリーンショット、UI。
  • ドキュメント Q&A — 長い PDF にまたがって、引用付きで質問する。

ヒント

  • 同じ大きなドキュメントを繰り返し送るときは file_id で再利用する — より安く、より速い。
  • 解像度/サイズが重要 — 非常に大きな画像は縮小されることがあります。上限を確認してください。
  • 抽出された数値を検証する — ビジョンは強力ですが万能ではありません。重要な数字はスポットチェックしましょう(ハルシネーション)。

次へ