Saltar al contenido principal
Intermedio

La Escalera de la Confianza

"¿Cuánto debería dejar que la IA simplemente lo haga?" es la pregunta que hay detrás de casi toda decisión sobre agentes — los permisos de Claude Code, los ajustes de aprobación automática, si dejar que un script se ejecute sin supervisión. La gente tiende a responderla como un único interruptor de encendido/apagado: o lo supervisas todo, o lo sueltas sin más.

Aquí tienes la lente que AILmanac usa en su lugar:

La autonomía no es un interruptor, es una escalera. La subes peldaño a peldaño, y el peldaño en el que te plantas debería fijarlo lo malo que sería un error, no cuánto confías en el modelo.

La idea clave es que la cantidad correcta de autonomía casi no tiene nada que ver con lo "inteligente" que sea la IA. Tiene que ver con el radio de impacto (cuánto daño hace una acción equivocada) y la reversibilidad (con qué facilidad puedes deshacerla). Un modelo brillante haciendo algo irreversible sin supervisión es una peor configuración que un modelo mediocre haciendo algo reversible.

Los cinco peldaños

Un modelo que nos resulta útil es pensar en cinco peldaños distintos, de menos a más autonomía:

PeldañoQué hace la IACuándo es apropiadoQué lo hace seguro
1. Solo sugerirTe dice lo que haría; no toma ninguna acciónTrabajo de alto riesgo o irreversible; un dominio en el que aún no confías en ella; todavía estás aprendiendo en qué es buenaTú eres el ejecutor. No pasa nada sin que lo hagas tú a mano.
2. Borrador para revisiónProduce el artefacto real (código, correo, consulta) pero se detiene antes de aplicarloEl resultado es concreto y puedes echarle un vistazo más rápido de lo que tardarías en escribirloUn humano de verdad leyó antes de que nada surta efecto. Un diff que de verdad miras, no que ojeas.
3. Actuar sobre cosas reversiblesEjecuta directamente, pero solo sobre acciones de bajo riesgo y fáciles de deshacerLa acción tiene un deshacer limpio: ediciones bajo control de versiones, escrituras en una rama de pruebas, cualquier cosa que un único comando reviertaLa reversibilidad es la barrera de seguridad. El coste de un error es "deshacerlo", no "explicárselo al departamento jurídico".
4. Actuar y luego informarHace el trabajo de forma autónoma y luego te muestra exactamente qué hizoTareas repetitivas y bien acotadas donde revisar después es más barato que filtrar antesUn rastro de auditoría completo y honesto — un registro, un diff, un resumen — que de verdad lees después.
5. Actuar de forma autónoma dentro de barreras de seguridadSe ejecuta sin supervisión dentro de límites estrictosBucles estrechos y bien comprendidos que has visto tener éxito muchas vecesLas barreras de seguridad hacen la supervisión. Fronteras estrictas que la IA no puede cruzar, más un interruptor de apagado.

Cómo usar la escalera

Tres reglas hacen esto práctico:

Empieza un peldaño más abajo de lo que parece necesario. Subir un peldaño es barato una vez que has visto algo funcionar; limpiar después de haber concedido demasiado demasiado pronto es caro. La primera vez que apuntes un agente a un nuevo tipo de tarea, baja a Sugerir o Borrador aunque sospeches que puede con más.

Fija el peldaño por el peor caso, no por el caso medio. Si una tarea es reversible el 95 % de las veces pero el otro 5 % toca datos de producción, fijas el peldaño para ese 5 %. El radio de impacto de la peor acción plausible es tu techo.

Sube por tarea, no por herramienta. La misma IA puede estar en el peldaño 4 para "formatea mi código" y en el peldaño 1 para "borra registros de la base de datos", en la misma sesión. La escalera trata sobre la acción, no sobre un ajuste global de confianza que activas una sola vez.

Cómo encaja con Claude Code

Claude Code es un sitio limpio para ver la escalera en acción, porque su sistema de permisos es esencialmente un conjunto de mandos para elegir tu peldaño:

  • Los peldaños 1–2 son la postura cautelosa por defecto: Claude propone ediciones y comandos, y tú apruebas cada uno. Estás revisando cada diff antes de que aterrice.
  • El peldaño 3 es permitir llamadas a herramientas concretas y reversibles — ediciones de archivos dentro de un repositorio de git que puedes restaurar con git restore, ejecuciones en una rama desechable — mientras sigues filtrando cualquier cosa destructiva.
  • El peldaño 4 es incluir en lista de permitidos categorías de acciones seguras para que Claude proceda sin pedir confirmación en ellas, y luego leer la transcripción y los diffs después.
  • El peldaño 5 es una autonomía más plena para un bucle estrecho y probado, y solo es seguro cuando hay barreras de seguridad reales en su sitio: permisos acotados, un directorio de trabajo restringido y la capacidad de detenerlo.

El mecanismo que te permite subir con seguridad es tu CLAUDE.md. Ese archivo es donde escribes las barreras de seguridad: qué está siempre permitido, qué no debe pasar nunca, qué rutas están vetadas, cuándo detenerse y preguntar. Las barreras que solo tienes en la cabeza no restringen a un agente; las barreras escritas en CLAUDE.md sí. Si no estás seguro de cómo formularlas, el Generador de CLAUDE.md te da un punto de partida estructurado.

El resumen honesto: no concedas autonomía porque la IA parezca capaz. Concédela porque la acción es reversible, el radio de impacto es pequeño y las barreras de seguridad están escritas. Luego sube un peldaño cada vez a medida que vayan llegando las pruebas.

Relacionado