Visión, PDF y entrada de archivos

Intermedio

Claude es multimodal: puedes incluir imágenes y documentos (como PDF) en un mensaje y hacer preguntas sobre ellos: extraer datos, describir un gráfico, resumir un contrato, leer una captura de pantalla.

Tres formas de enviar un archivo

Base64 — codifica los bytes en línea dentro de la solicitud. Lo más simple para casos puntuales.
URL — apunta a un archivo alojado.
Files API — sube una vez y luego haz referencia a él mediante file_id en muchas solicitudes (evita volver a subir archivos grandes).

# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
  "role": "user",
  "content": [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
    {"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
  ],
}]

Los PDF funcionan de forma similar (un bloque de contenido de documento); Claude puede leer el texto y la disposición visual, y puedes solicitar citas que apunten al lugar del documento de donde provino una respuesta.

Para qué es estupendo

Extracción — extrae datos estructurados de facturas, formularios y tablas (combínalo con Salida estructurada).
Comprensión de elementos visuales — gráficos, diagramas, capturas de pantalla, interfaces de usuario.
Q&A sobre documentos — haz preguntas a lo largo de un PDF extenso con citas.

Consejos

Reutiliza con file_id cuando envíes el mismo documento grande repetidamente: más barato y más rápido.
La resolución/el tamaño importan — las imágenes muy grandes pueden reducirse de escala; comprueba los límites.
Verifica las cifras extraídas — la visión es potente pero no infalible; revisa puntualmente las cifras críticas (Alucinaciones).

Salida estructurada
Generar archivos reales (docx/pptx/xlsx/pdf)
Tokens y precios — las imágenes también cuestan tokens

Tres formas de enviar un archivo​

Para qué es estupendo​

Consejos​

Siguiente​

Tres formas de enviar un archivo

Para qué es estupendo

Consejos

Siguiente