跳到主要内容

视觉、PDF 与文件输入

进阶

Claude 是 多模态的：你可以在一条消息中包含 图片和文档（如 PDF）并就此提问——抽取数据、描述图表、总结合同、读取截图。

发送文件的三种方式

Base64 — 将字节内联编码进请求。适合一次性的最简单做法。
URL — 指向一个托管的文件。
Files API — 上传一次，然后在多个请求中通过 file_id 引用它（避免重复上传大文件）。

# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
  "role": "user",
  "content": [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
    {"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
  ],
}]

PDF 的用法类似（一个文档内容块）；Claude 可以读取文本和视觉版式，你还可以请求返回引用，指向答案在文档中的出处。

它擅长什么

抽取 — 从发票、表单、表格中提取结构化数据（与结构化输出搭配）。
理解视觉内容 — 图表、示意图、截图、UI。
文档问答 — 在一份长 PDF 上提问并带引用。

提示

当反复发送同一份大文档时，用 file_id 复用——更便宜也更快。
分辨率/尺寸有讲究 — 非常大的图片可能被降采样；请查看上限。
核验抽取出的数字 — 视觉能力很强但并非万无一失；对关键数字做抽查（幻觉）。

下一步

发送文件的三种方式
它擅长什么
提示
下一步