Pular para o conteúdo principal

Visão, PDF e Entrada de Arquivos

Intermediário

O Claude é multimodal: você pode incluir imagens e documentos (como PDFs) em uma mensagem e fazer perguntas sobre eles — extrair dados, descrever um gráfico, resumir um contrato, ler uma captura de tela.

Três formas de enviar um arquivo

  1. Base64 — codifique os bytes inline na requisição. Mais simples para casos pontuais.
  2. URL — aponte para um arquivo hospedado.
  3. Files API — faça o upload uma vez e depois referencie-o por file_id em muitas requisições (evita reenviar arquivos grandes).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

PDFs funcionam de forma semelhante (um bloco de conteúdo de documento); o Claude pode ler texto e layout visual, e você pode solicitar citações de volta apontando de onde no documento veio uma resposta.

Para o que é ótimo

  • Extração — extraia dados estruturados de faturas, formulários, tabelas (combine com Saída Estruturada).
  • Compreensão de visuais — gráficos, diagramas, capturas de tela, UI.
  • Q&A sobre documentos — faça perguntas ao longo de um PDF extenso com citações.

Dicas

  • Reutilize com file_id ao enviar o mesmo documento grande repetidamente — mais barato e mais rápido.
  • Resolução/tamanho importam — imagens muito grandes podem ser reduzidas em escala; verifique os limites.
  • Verifique os números extraídos — a visão é forte, mas não infalível; confira por amostragem números críticos (Alucinações).

Próximo