Зрение, PDF и ввод файлов

Средний

Claude мультимодален: вы можете включать изображения и документы (например, PDF) в сообщение и задавать по ним вопросы — извлекать данные, описывать диаграмму, суммировать договор, читать скриншот.

Три способа отправить файл

Base64 — закодировать байты прямо в запросе. Самый простой вариант для разовых случаев.
URL — указать на размещённый файл.
Files API — загрузить один раз, затем ссылаться по file_id во многих запросах (избегает повторной загрузки больших файлов).

# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
  "role": "user",
  "content": [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
    {"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
  ],
}]

PDF работают аналогично (блок контента документа); Claude может читать текст и визуальную раскладку, и вы можете запросить цитаты с указанием того, откуда в документе пришёл ответ.

Для чего это отлично подходит

Извлечение — вытаскивайте структурированные данные из счетов, форм, таблиц (сочетайте со Структурированным выводом).
Понимание визуального — диаграммы, схемы, скриншоты, UI.
Q&A по документам — задавайте вопросы по длинному PDF с цитатами.

Советы

Переиспользуйте по file_id при многократной отправке одного большого документа — дешевле и быстрее.
Разрешение/размер важны — очень большие изображения могут быть уменьшены; проверяйте лимиты.
Проверяйте извлечённые числа — зрение сильно, но не безошибочно; выборочно перепроверяйте критичные цифры (Галлюцинации).

Структурированный вывод
Генерация реальных файлов (docx/pptx/xlsx/pdf)
Токены и стоимость — изображения тоже стоят токенов

Три способа отправить файл​

Для чего это отлично подходит​

Советы​

Далее​

Три способа отправить файл

Для чего это отлично подходит

Советы

Далее