Evaluar la calidad de la IA (Evals)

Avanzado

Si lanzas algo construido sobre IA, las evals son la forma de saber que funciona — y de saber que un cambio lo mejoró, no lo empeoró. Sin ellas vuelas a ciegas: un ajuste de prompt que ayuda en un caso puede romper diez otros en silencio.

La eval mínima viable

No necesitas un framework para empezar:

Reúne un conjunto de referencia. De 20 a 100 entradas reales con las salidas correctas o aceptables (o criterios claros). Cubre los casos fáciles, los complicados y los casos límite que te han mordido.
Define qué significa "bueno" por tarea — coincidencia exacta, contiene los hechos clave, esquema JSON válido, sin números alucinados, tono, etc.
Ejecuta y puntúa tu configuración actual frente al conjunto.
Cambia una sola cosa (prompt, modelo, recuperación), vuelve a ejecutar, compara. Conserva el cambio solo si la puntuación mejora.

Elegir métricas

Comprobaciones deterministas siempre que sea posible: ¿esquema válido? ¿contiene el valor correcto? ¿el código pasa las pruebas? Son baratas y fiables.
LLM como juez para la calidad difusa (utilidad, tono): haz que un modelo califique las salidas frente a una rúbrica. Útil, pero calíbralo — los jueces tienen sesgos (longitud, posición). Valida al juez frente a calificaciones humanas en una muestra.
Revisión humana para la porción de mayor riesgo.

Cuándo ejecutarlas

Antes/después de cualquier cambio de prompt o de modelo.
En una migración de modelo — un modelo nuevo puede cambiar el comportamiento (Errores y migración).
En CI para sistemas en producción, como una compuerta.

:::tip Separa las etapas Para RAG y agentes, evalúa cada etapa (¿la recuperación encontró el documento correcto? ¿se llamó a la herramienta correctamente?) — no solo la respuesta final. Localiza los fallos. :::

La eval mínima viable​

Elegir métricas​

Cuándo ejecutarlas​

Siguiente​

La eval mínima viable

Elegir métricas

Cuándo ejecutarlas

Siguiente