Visão, PDF e Entrada de Arquivos
O Claude é multimodal: você pode incluir imagens e documentos (como PDFs) em uma mensagem e fazer perguntas sobre eles — extrair dados, descrever um gráfico, resumir um contrato, ler uma captura de tela.
Três formas de enviar um arquivo
- Base64 — codifique os bytes inline na requisição. Mais simples para casos pontuais.
- URL — aponte para um arquivo hospedado.
- Files API — faça o upload uma vez e depois referencie-o por
file_idem muitas requisições (evita reenviar arquivos grandes).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
PDFs funcionam de forma semelhante (um bloco de conteúdo de documento); o Claude pode ler texto e layout visual, e você pode solicitar citações de volta apontando de onde no documento veio uma resposta.
Para o que é ótimo
- Extração — extraia dados estruturados de faturas, formulários, tabelas (combine com Saída Estruturada).
- Compreensão de visuais — gráficos, diagramas, capturas de tela, UI.
- Q&A sobre documentos — faça perguntas ao longo de um PDF extenso com citações.
Dicas
- Reutilize com
file_idao enviar o mesmo documento grande repetidamente — mais barato e mais rápido. - Resolução/tamanho importam — imagens muito grandes podem ser reduzidas em escala; verifique os limites.
- Verifique os números extraídos — a visão é forte, mas não infalível; confira por amostragem números críticos (Alucinações).
Próximo
- Saída Estruturada
- Gerando Arquivos Reais (docx/pptx/xlsx/pdf)
- Tokens e Preços — imagens também custam tokens