Перейти к основному содержимому

Зрение, PDF и ввод файлов

Средний

Claude мультимодален: вы можете включать изображения и документы (например, PDF) в сообщение и задавать по ним вопросы — извлекать данные, описывать диаграмму, суммировать договор, читать скриншот.

Три способа отправить файл

  1. Base64 — закодировать байты прямо в запросе. Самый простой вариант для разовых случаев.
  2. URL — указать на размещённый файл.
  3. Files API — загрузить один раз, затем ссылаться по file_id во многих запросах (избегает повторной загрузки больших файлов).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

PDF работают аналогично (блок контента документа); Claude может читать текст и визуальную раскладку, и вы можете запросить цитаты с указанием того, откуда в документе пришёл ответ.

Для чего это отлично подходит

  • Извлечение — вытаскивайте структурированные данные из счетов, форм, таблиц (сочетайте со Структурированным выводом).
  • Понимание визуального — диаграммы, схемы, скриншоты, UI.
  • Q&A по документам — задавайте вопросы по длинному PDF с цитатами.

Советы

  • Переиспользуйте по file_id при многократной отправке одного большого документа — дешевле и быстрее.
  • Разрешение/размер важны — очень большие изображения могут быть уменьшены; проверяйте лимиты.
  • Проверяйте извлечённые числа — зрение сильно, но не безошибочно; выборочно перепроверяйте критичные цифры (Галлюцинации).

Далее