Saltar al contenido principal

Visión, PDF y entrada de archivos

Intermedio

Claude es multimodal: puedes incluir imágenes y documentos (como PDF) en un mensaje y hacer preguntas sobre ellos: extraer datos, describir un gráfico, resumir un contrato, leer una captura de pantalla.

Tres formas de enviar un archivo

  1. Base64 — codifica los bytes en línea dentro de la solicitud. Lo más simple para casos puntuales.
  2. URL — apunta a un archivo alojado.
  3. Files API — sube una vez y luego haz referencia a él mediante file_id en muchas solicitudes (evita volver a subir archivos grandes).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

Los PDF funcionan de forma similar (un bloque de contenido de documento); Claude puede leer el texto y la disposición visual, y puedes solicitar citas que apunten al lugar del documento de donde provino una respuesta.

Para qué es estupendo

  • Extracción — extrae datos estructurados de facturas, formularios y tablas (combínalo con Salida estructurada).
  • Comprensión de elementos visuales — gráficos, diagramas, capturas de pantalla, interfaces de usuario.
  • Q&A sobre documentos — haz preguntas a lo largo de un PDF extenso con citas.

Consejos

  • Reutiliza con file_id cuando envíes el mismo documento grande repetidamente: más barato y más rápido.
  • La resolución/el tamaño importan — las imágenes muy grandes pueden reducirse de escala; comprueba los límites.
  • Verifica las cifras extraídas — la visión es potente pero no infalible; revisa puntualmente las cifras críticas (Alucinaciones).

Siguiente