AI 媒体生成（图像、音频、视频）

进阶

本站的大部分内容都是关于处理文本（以及读取图像/PDF）。但"AI"也意味着生成图像、音频和视频。下面说明它的定位——并诚实地说明 Claude 的位置。

两件不同的事：理解 vs 生成

理解媒体（输入）。 Claude 是多模态的：它可以查看图像、读取 PDF，从而分析、提取并描述它们——参见视觉、PDF 与文件输入。
生成媒体（输出）。 创建全新的图像、音频或视频属于另一类模型（扩散/音频/视频模型），通常来自其他工具/提供商。请把"给我生成一张图"视为与"对这张图进行推理"不同的能力。

:::note Claude 的定位 Claude 的强项是语言与推理（以及理解视觉输入）。要生产图像/音频/视频，你通常会使用专门的生成式工具。Claude 非常适合担任导演：撰写这些工具所需的详细提示词、创意简报、镜头清单和脚本——并对结果进行评判。 :::

我们不在这里对具体产品排名（它们每月都在变化）；请像评估任何模型一样评估它们——选择模型与提供商。

生成的媒体会引发现实问题：输出物的权利/授权、深度伪造与同意、以及信息披露。请合乎伦理地使用，并在重要场景标注 AI 生成的媒体——参见负责任地使用。