La inyección de prompts explicada
La inyección de prompts es el riesgo de seguridad por excelencia de las aplicaciones de IA. Ocurre cuando el contenido no confiable que el modelo lee contiene instrucciones, y el modelo las sigue como si vinieran de ti. El modelo no puede distinguir de forma fiable entre "datos a procesar" y "comandos a obedecer" — todo es simplemente texto.
Dos variantes
- Inyección directa — un usuario escribe instrucciones adversarias ("ignora tus reglas y…"). Una preocupación para las aplicaciones que exponen un modelo al público.
- Inyección indirecta — la peligrosa. Las instrucciones maliciosas se esconden en el contenido que el agente obtiene: una página web, un PDF, un correo electrónico, un comentario de código, una respuesta de API, una invitación de calendario. El usuario nunca las ve; el agente las lee y actúa.
Por qué es difícil
No existe un filtro perfecto. El modelo está hecho para seguir instrucciones que están en su contexto, y el texto inyectado está en su contexto. Por eso la defensa consiste en limitar el radio de impacto, no solo en la detección.
Defensas (combínalas en capas)
- Privilegio mínimo. El agente solo puede causar daño real si tiene herramientas potentes. Limita el alcance de las herramientas; controla las acciones arriesgadas con aprobación humana. Consulta Asegurar agentes.
- Trata el contenido obtenido como datos. Envuelve el contenido no confiable con claridad (por ejemplo, con delimitadores) e indica al modelo que todo lo que esté dentro es información para analizar, nunca instrucciones para seguir.
- No mezcles secretos con entradas no confiables. Si un agente puede leer tus secretos y leer contenido controlado por un atacante y hacer llamadas de red, eso es el triángulo de exfiltración — rompe uno de los lados.
- Humano en el bucle para las acciones irreversibles/sensibles (enviar correo, gastar dinero, eliminar).
- Monitoriza y restringe las salidas (por ejemplo, una lista de permitidos con los dominios a los que el agente puede llamar).
:::warning Asume que cualquier contenido que un agente lee puede ser hostil Los correos electrónicos, las páginas web y los documentos ajenos a tu frontera de confianza deben tratarse como potencialmente adversarios por defecto. :::