Elegir un modelo y proveedor
¿Cómo eliges entre modelos y proveedores sin perderte en la moda? Con un proceso simple y perenne — porque el leaderboard concreto cambia cada mes, pero la manera de elegir no.
Lee los benchmarks con escepticismo
Las puntuaciones de los benchmarks públicos son una pista inicial, no un veredicto:
- Pueden estar manipuladas o contaminadas (datos de prueba que se filtran al entrenamiento).
- Miden tareas genéricas, no tu tarea.
- Las pequeñas diferencias de puntuación rara vez importan en la práctica.
Úsalos para construir una lista corta, no para tomar la decisión final.
El único benchmark que cuenta: el tuyo
Ejecuta una pequeña eval con un puñado de tus entradas reales en 2 o 3 modelos candidatos. Lleva minutos y te dice lo que ningún leaderboard puede. Este "duelo" es el mejor hábito en la selección de modelos.
Una tarjeta de evaluación para decidir
Pondera lo que realmente importa para tu caso de uso:
| Factor | Pregunta |
|---|---|
| Calidad en tu tarea | ¿El duelo muestra que es lo bastante bueno? |
| Coste | Precio por token a tu volumen (Coste y latencia) |
| Latencia | ¿Es lo bastante rápido para la experiencia? |
| Capacidades | ¿Visión? ¿Contexto largo? ¿Uso de herramientas? ¿Salida estructurada? |
| Privacidad/cumplimiento | Manejo de datos, residencia, certificaciones (Privacidad) |
| Fiabilidad y ecosistema | Disponibilidad, SDK, documentación, soporte, historia de migración |
| Dependencia (lock-in) | ¿Qué tan difícil es cambiar más adelante? |
Postura práctica
- Usa por defecto un modelo de gama media capaz y muévete hacia arriba/abajo solo con evidencia.
- Abstrae el modelo detrás de configuración, no de literales dispersos, para que cambiar sea una modificación de una línea (Errores y migración).
- Reevalúa periódicamente — la frontera se mueve rápido; el mejor de hoy puede no serlo el próximo trimestre.
(Para los niveles específicos de Claude, consulta Elegir un modelo Claude.)