Intermedio

La Escalera de la Confianza

"¿Cuánto debería dejar que la IA simplemente lo haga?" es la pregunta que hay detrás de casi toda decisión sobre agentes — los permisos de Claude Code, los ajustes de aprobación automática, si dejar que un script se ejecute sin supervisión. La gente tiende a responderla como un único interruptor de encendido/apagado: o lo supervisas todo, o lo sueltas sin más.

Aquí tienes la lente que AILmanac usa en su lugar:

La autonomía no es un interruptor, es una escalera. La subes peldaño a peldaño, y el peldaño en el que te plantas debería fijarlo lo malo que sería un error, no cuánto confías en el modelo.

La idea clave es que la cantidad correcta de autonomía casi no tiene nada que ver con lo "inteligente" que sea la IA. Tiene que ver con el radio de impacto (cuánto daño hace una acción equivocada) y la reversibilidad (con qué facilidad puedes deshacerla). Un modelo brillante haciendo algo irreversible sin supervisión es una peor configuración que un modelo mediocre haciendo algo reversible.

Los cinco peldaños

Un modelo que nos resulta útil es pensar en cinco peldaños distintos, de menos a más autonomía:

Peldaño	Qué hace la IA	Cuándo es apropiado	Qué lo hace seguro
1. Solo sugerir	Te dice lo que haría; no toma ninguna acción	Trabajo de alto riesgo o irreversible; un dominio en el que aún no confías en ella; todavía estás aprendiendo en qué es buena	Tú eres el ejecutor. No pasa nada sin que lo hagas tú a mano.
2. Borrador para revisión	Produce el artefacto real (código, correo, consulta) pero se detiene antes de aplicarlo	El resultado es concreto y puedes echarle un vistazo más rápido de lo que tardarías en escribirlo	Un humano de verdad leyó antes de que nada surta efecto. Un diff que de verdad miras, no que ojeas.
3. Actuar sobre cosas reversibles	Ejecuta directamente, pero solo sobre acciones de bajo riesgo y fáciles de deshacer	La acción tiene un deshacer limpio: ediciones bajo control de versiones, escrituras en una rama de pruebas, cualquier cosa que un único comando revierta	La reversibilidad es la barrera de seguridad. El coste de un error es "deshacerlo", no "explicárselo al departamento jurídico".
4. Actuar y luego informar	Hace el trabajo de forma autónoma y luego te muestra exactamente qué hizo	Tareas repetitivas y bien acotadas donde revisar después es más barato que filtrar antes	Un rastro de auditoría completo y honesto — un registro, un diff, un resumen — que de verdad lees después.
5. Actuar de forma autónoma dentro de barreras de seguridad	Se ejecuta sin supervisión dentro de límites estrictos	Bucles estrechos y bien comprendidos que has visto tener éxito muchas veces	Las barreras de seguridad hacen la supervisión. Fronteras estrictas que la IA no puede cruzar, más un interruptor de apagado.

Cómo usar la escalera

Tres reglas hacen esto práctico:

Empieza un peldaño más abajo de lo que parece necesario. Subir un peldaño es barato una vez que has visto algo funcionar; limpiar después de haber concedido demasiado demasiado pronto es caro. La primera vez que apuntes un agente a un nuevo tipo de tarea, baja a Sugerir o Borrador aunque sospeches que puede con más.

Fija el peldaño por el peor caso, no por el caso medio. Si una tarea es reversible el 95 % de las veces pero el otro 5 % toca datos de producción, fijas el peldaño para ese 5 %. El radio de impacto de la peor acción plausible es tu techo.

Sube por tarea, no por herramienta. La misma IA puede estar en el peldaño 4 para "formatea mi código" y en el peldaño 1 para "borra registros de la base de datos", en la misma sesión. La escalera trata sobre la acción, no sobre un ajuste global de confianza que activas una sola vez.

Cómo encaja con Claude Code

Claude Code es un sitio limpio para ver la escalera en acción, porque su sistema de permisos es esencialmente un conjunto de mandos para elegir tu peldaño:

Los peldaños 1–2 son la postura cautelosa por defecto: Claude propone ediciones y comandos, y tú apruebas cada uno. Estás revisando cada diff antes de que aterrice.
El peldaño 3 es permitir llamadas a herramientas concretas y reversibles — ediciones de archivos dentro de un repositorio de git que puedes restaurar con git restore, ejecuciones en una rama desechable — mientras sigues filtrando cualquier cosa destructiva.
El peldaño 4 es incluir en lista de permitidos categorías de acciones seguras para que Claude proceda sin pedir confirmación en ellas, y luego leer la transcripción y los diffs después.
El peldaño 5 es una autonomía más plena para un bucle estrecho y probado, y solo es seguro cuando hay barreras de seguridad reales en su sitio: permisos acotados, un directorio de trabajo restringido y la capacidad de detenerlo.

El mecanismo que te permite subir con seguridad es tu CLAUDE.md. Ese archivo es donde escribes las barreras de seguridad: qué está siempre permitido, qué no debe pasar nunca, qué rutas están vetadas, cuándo detenerse y preguntar. Las barreras que solo tienes en la cabeza no restringen a un agente; las barreras escritas en CLAUDE.md sí. Si no estás seguro de cómo formularlas, el Generador de CLAUDE.md te da un punto de partida estructurado.

El resumen honesto: no concedas autonomía porque la IA parezca capaz. Concédela porque la acción es reversible, el radio de impacto es pequeño y las barreras de seguridad están escritas. Luego sube un peldaño cada vez a medida que vayan llegando las pruebas.

Los cinco peldaños​

Cómo usar la escalera​

Cómo encaja con Claude Code​

Relacionado​

Los cinco peldaños

Cómo usar la escalera

Cómo encaja con Claude Code

Relacionado