Prompt Injection Explicado
Prompt injection é o risco de segurança que define os apps de IA. Acontece quando conteúdo não confiável que o modelo lê contém instruções, e o modelo as segue como se viessem de você. O modelo não consegue distinguir de forma confiável "dados a processar" de "comandos a obedecer" — tudo é apenas texto.
Dois tipos
- Injeção direta — um usuário digita instruções adversárias ("ignore suas regras e…"). Uma preocupação para apps que expõem um modelo ao público.
- Injeção indireta — a mais perigosa. Instruções maliciosas se escondem em conteúdo que o agente busca: uma página web, um PDF, um e-mail, um comentário de código, uma resposta de API, um convite de calendário. O usuário nunca as vê; o agente as lê e age.
Por que é difícil
Não existe filtro perfeito. O modelo foi feito para seguir instruções no seu contexto, e o texto injetado está no seu contexto. Então a defesa é sobre limitar o raio de impacto, não apenas detecção.
Defesas (combine-as em camadas)
- Privilégio mínimo. O agente só pode causar dano real se tiver ferramentas poderosas. Restrinja as ferramentas com precisão; coloque ações arriscadas atrás de aprovação humana. Veja Protegendo Agentes.
- Trate o conteúdo buscado como dados. Envolva o conteúdo não confiável de forma clara (por exemplo, em delimitadores) e instrua o modelo de que tudo que estiver dentro é informação para analisar, nunca instruções para seguir.
- Não misture segredos com entrada não confiável. Se um agente pode ler seus segredos e ler conteúdo controlado por atacantes e fazer chamadas de rede, isso é o triângulo da exfiltração — quebre um dos lados.
- Humano no circuito para ações irreversíveis/sensíveis (enviar e-mail, gastar dinheiro, deletar).
- Monitore e restrinja as saídas (por exemplo, mantenha uma allowlist dos domínios que o agente pode chamar).
:::warning Presuma que qualquer conteúdo que um agente lê pode ser hostil E-mails, páginas web e documentos de fora do seu limite de confiança devem ser tratados como potencialmente adversários por padrão. :::