跳到主要内容

视觉、PDF 与文件输入

进阶

Claude 是 多模态的:你可以在一条消息中包含 图片和文档(如 PDF)并就此提问——抽取数据、描述图表、总结合同、读取截图。

发送文件的三种方式

  1. Base64 — 将字节内联编码进请求。适合一次性的最简单做法。
  2. URL — 指向一个托管的文件。
  3. Files API — 上传一次,然后在多个请求中通过 file_id 引用它(避免重复上传大文件)。
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

PDF 的用法类似(一个文档内容块);Claude 可以读取文本和视觉版式,你还可以请求返回 引用,指向答案在文档中的出处。

它擅长什么

  • 抽取 — 从发票、表单、表格中提取结构化数据(与 结构化输出 搭配)。
  • 理解视觉内容 — 图表、示意图、截图、UI。
  • 文档问答 — 在一份长 PDF 上提问并带引用。

提示

  • 当反复发送同一份大文档时,file_id 复用——更便宜也更快。
  • 分辨率/尺寸有讲究 — 非常大的图片可能被降采样;请查看上限。
  • 核验抽取出的数字 — 视觉能力很强但并非万无一失;对关键数字做抽查(幻觉)。

下一步