Зрение, PDF и ввод файлов
Claude мультимодален: вы можете включать изображения и документы (например, PDF) в сообщение и задавать по ним вопросы — извлекать данные, описывать диаграмму, суммировать договор, читать скриншот.
Три способа отправить файл
- Base64 — закодировать байты прямо в запросе. Самый простой вариант для разовых случаев.
- URL — указать на размещённый файл.
- Files API — загрузить один раз, затем ссылаться по
file_idво многих запросах (избегает повторной загрузки больших файлов).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
PDF работают аналогично (блок контента документа); Claude может читать текст и визуальную раскладку, и вы можете запросить цитаты с указанием того, откуда в документе пришёл ответ.
Для чего это отлично подходит
- Извлечение — вытаскивайте структурированные данные из счетов, форм, таблиц (сочетайте со Структурированным выводом).
- Понимание визуального — диаграммы, схемы, скриншоты, UI.
- Q&A по документам — задавайте вопросы по длинному PDF с цитатами.
Советы
- Переиспользуйте по
file_idпри многократной отправке одного большого документа — дешевле и быстрее. - Разрешение/размер важны — очень большие изображения могут быть уменьшены; проверяйте лимиты.
- Проверяйте извлечённые числа — зрение сильно, но не безошибочно; выборочно перепроверяйте критичные цифры (Галлюцинации).
Далее
- Структурированный вывод
- Генерация реальных файлов (docx/pptx/xlsx/pdf)
- Токены и стоимость — изображения тоже стоят токенов