视觉、PDF 与文件输入
Claude 是 多模态的:你可以在一条消息中包含 图片和文档(如 PDF)并就此提问——抽取数据、描述图表、总结合同、读取截图。
发送文件的三种方式
- Base64 — 将字节内联编码进请求。适合一次性的最简单做法。
- URL — 指向一个托管的文件。
- Files API — 上传一次,然后在多个请求中通过
file_id引用它(避免重复上传大文件)。
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
PDF 的用法类似(一个文档内容块);Claude 可以读取文本和视觉版式,你还可以请求返回 引用,指向答案在文档中的出处。
它擅长什么
- 抽取 — 从发票、表单、表格中提取结构化数据(与 结构化输出 搭配)。
- 理解视觉内容 — 图表、示意图、截图、UI。
- 文档问答 — 在一份长 PDF 上提问并带引用。
提示
- 当反复发送同一份大文档时,用
file_id复用——更便宜也更快。 - 分辨率/尺寸有讲究 — 非常大的图片可能被降采样;请查看上限。
- 核验抽取出的数字 — 视觉能力很强但并非万无一失;对关键数字做抽查(幻觉)。
下一步
- 结构化输出
- 生成真实文件(docx/pptx/xlsx/pdf)
- Token 与定价 — 图片同样消耗 token