Visión, PDF y entrada de archivos
Claude es multimodal: puedes incluir imágenes y documentos (como PDF) en un mensaje y hacer preguntas sobre ellos: extraer datos, describir un gráfico, resumir un contrato, leer una captura de pantalla.
Tres formas de enviar un archivo
- Base64 — codifica los bytes en línea dentro de la solicitud. Lo más simple para casos puntuales.
- URL — apunta a un archivo alojado.
- Files API — sube una vez y luego haz referencia a él mediante
file_iden muchas solicitudes (evita volver a subir archivos grandes).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
Los PDF funcionan de forma similar (un bloque de contenido de documento); Claude puede leer el texto y la disposición visual, y puedes solicitar citas que apunten al lugar del documento de donde provino una respuesta.
Para qué es estupendo
- Extracción — extrae datos estructurados de facturas, formularios y tablas (combínalo con Salida estructurada).
- Comprensión de elementos visuales — gráficos, diagramas, capturas de pantalla, interfaces de usuario.
- Q&A sobre documentos — haz preguntas a lo largo de un PDF extenso con citas.
Consejos
- Reutiliza con
file_idcuando envíes el mismo documento grande repetidamente: más barato y más rápido. - La resolución/el tamaño importan — las imágenes muy grandes pueden reducirse de escala; comprueba los límites.
- Verifica las cifras extraídas — la visión es potente pero no infalible; revisa puntualmente las cifras críticas (Alucinaciones).
Siguiente
- Salida estructurada
- Generar archivos reales (docx/pptx/xlsx/pdf)
- Tokens y precios — las imágenes también cuestan tokens