AI 媒体生成(图像、音频、视频)
本站的大部分内容都是关于处理文本(以及读取图像/PDF)。但"AI"也意味着生成图像、音频和视频。下面说明它的定位——并诚实地说明 Claude 的位置。
两件不同的事:理解 vs 生成
- 理解媒体(输入)。 Claude 是多模态的:它可以查看图像、读取 PDF,从而分析、提取并描述它们——参见 视觉、PDF 与文件输入。
- 生成媒体(输出)。 创建全新的图像、音频或视频属于另一类模型(扩散/音频/视频模型),通常来自其他工具/提供商。请把"给我生成一张图"视为与"对这张图进行推理"不同的能力。
:::note Claude 的定位 Claude 的强项是语言与推理(以及理解视觉输入)。要生产图像/音频/视频,你通常会使用专门的生成式工具。Claude 非常适合担任导演:撰写这些工具所需的详细提示词、创意简报、镜头清单和脚本——并对结果进行评判。 :::
全景图(分类,而非推荐)
- 图像生成——用于艺术创作、原型设计、营销视觉的文本到图像模型。
- 音频——文本到语音(配音)、音乐生成、转录(语音到文本)。
- 视频——文本到视频与图像到视频,进展迅速。
我们不在这里对具体产品排名(它们每月都在变化);请像评估任何模型一样评估它们——选择模型与提供商。
用 Claude 获得更好的媒体
- 打磨图像提示词: 让 Claude 把你粗略的想法转化为丰富、具体的图像提示词(主体、风格、光线、构图)。
- 脚本与分镜: 生成配音脚本、场景拆解、镜头清单。
- 评判与迭代: 描述哪里不对,让 Claude 优化提示词。
负责任地使用
生成的媒体会引发现实问题:输出物的权利/授权、深度伪造与同意、以及信息披露。请合乎伦理地使用,并在重要场景标注 AI 生成的媒体——参见 负责任地使用。