Asegurar agentes y herramientas
En el momento en que una IA puede realizar acciones (llamar herramientas, ejecutar código, acceder a APIs), hereda un modelo de seguridad. El objetivo no es hacer que el modelo sea imposible de engañar — es asegurarse de que incluso si lo engañan, no pueda causar mucho daño.
El principio central: privilegio mínimo
Dale a un agente el acceso mínimo que su trabajo requiere, nada más.
- Un resumidor de documentos necesita lectura, no escritura ni red.
- Un revisor necesita leer código y publicar un comentario — no hacer push ni desplegar.
- Limita el alcance de las herramientas, las claves de API y el acceso a archivos por tarea. Un agente de alcance reducido que sufre una inyección solo puede causar un daño reducido.
El problema del diputado confundido
Un agente a menudo actúa con tu autoridad (tus tokens, tus sesiones). Si una entrada controlada por un atacante lo dirige, el atacante toma prestados tus privilegios — un "diputado confundido". Defensa: no le entregues al agente autoridad ambiental que no necesita, y exige credenciales explícitas y de alcance limitado para las herramientas sensibles.
Capas de defensa
- Sandbox para la ejecución de código y el acceso a archivos — contenedores, directorios efímeros, sin acceso al sistema más amplio ni a los secretos.
- Listas de permitidos para la superficie peligrosa: qué comandos, qué dominios, qué rutas. Deniega el resto. (En Claude Code, eso son los permisos.)
- Humano en el bucle para acciones irreversibles o de alto riesgo: enviar dinero, correo, eliminar, desplegar, cambiar la configuración de producción.
- Separa las zonas de confianza. No dejes que un mismo agente tenga simultáneamente secretos, lea contenido no confiable y haga llamadas salientes arbitrarias.
- Registra y revisa qué herramientas llamó realmente el agente.
Las herramientas tienen esquemas — valídalos
Las entradas de herramientas que el modelo produce pueden ser incorrectas o estar manipuladas. Valida los argumentos antes de ejecutar, y devuelve los errores como resultados para que el agente se recupere en lugar de reintentar a ciegas.