Visão, PDF e Entrada de Arquivos

Intermediário

O Claude é multimodal: você pode incluir imagens e documentos (como PDFs) em uma mensagem e fazer perguntas sobre eles — extrair dados, descrever um gráfico, resumir um contrato, ler uma captura de tela.

Três formas de enviar um arquivo

Base64 — codifique os bytes inline na requisição. Mais simples para casos pontuais.
URL — aponte para um arquivo hospedado.
Files API — faça o upload uma vez e depois referencie-o por file_id em muitas requisições (evita reenviar arquivos grandes).

# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
  "role": "user",
  "content": [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
    {"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
  ],
}]

PDFs funcionam de forma semelhante (um bloco de conteúdo de documento); o Claude pode ler texto e layout visual, e você pode solicitar citações de volta apontando de onde no documento veio uma resposta.

Para o que é ótimo

Extração — extraia dados estruturados de faturas, formulários, tabelas (combine com Saída Estruturada).
Compreensão de visuais — gráficos, diagramas, capturas de tela, UI.
Q&A sobre documentos — faça perguntas ao longo de um PDF extenso com citações.

Dicas

Reutilize com file_id ao enviar o mesmo documento grande repetidamente — mais barato e mais rápido.
Resolução/tamanho importam — imagens muito grandes podem ser reduzidas em escala; verifique os limites.
Verifique os números extraídos — a visão é forte, mas não infalível; confira por amostragem números críticos (Alucinações).

Saída Estruturada
Gerando Arquivos Reais (docx/pptx/xlsx/pdf)
Tokens e Preços — imagens também custam tokens

Três formas de enviar um arquivo​

Para o que é ótimo​

Dicas​

Próximo​

Três formas de enviar um arquivo

Para o que é ótimo

Dicas

Próximo