Prompt Injection Explicado

Intermediário

Prompt injection é o risco de segurança que define os apps de IA. Acontece quando conteúdo não confiável que o modelo lê contém instruções, e o modelo as segue como se viessem de você. O modelo não consegue distinguir de forma confiável "dados a processar" de "comandos a obedecer" — tudo é apenas texto.

Dois tipos

Injeção direta — um usuário digita instruções adversárias ("ignore suas regras e…"). Uma preocupação para apps que expõem um modelo ao público.
Injeção indireta — a mais perigosa. Instruções maliciosas se escondem em conteúdo que o agente busca: uma página web, um PDF, um e-mail, um comentário de código, uma resposta de API, um convite de calendário. O usuário nunca as vê; o agente as lê e age.

Por que é difícil

Não existe filtro perfeito. O modelo foi feito para seguir instruções no seu contexto, e o texto injetado está no seu contexto. Então a defesa é sobre limitar o raio de impacto, não apenas detecção.

Defesas (combine-as em camadas)

Privilégio mínimo. O agente só pode causar dano real se tiver ferramentas poderosas. Restrinja as ferramentas com precisão; coloque ações arriscadas atrás de aprovação humana. Veja Protegendo Agentes.
Trate o conteúdo buscado como dados. Envolva o conteúdo não confiável de forma clara (por exemplo, em delimitadores) e instrua o modelo de que tudo que estiver dentro é informação para analisar, nunca instruções para seguir.
Não misture segredos com entrada não confiável. Se um agente pode ler seus segredos e ler conteúdo controlado por atacantes e fazer chamadas de rede, isso é o triângulo da exfiltração — quebre um dos lados.
Humano no circuito para ações irreversíveis/sensíveis (enviar e-mail, gastar dinheiro, deletar).
Monitore e restrinja as saídas (por exemplo, mantenha uma allowlist dos domínios que o agente pode chamar).

:::warning Presuma que qualquer conteúdo que um agente lê pode ser hostil E-mails, páginas web e documentos de fora do seu limite de confiança devem ser tratados como potencialmente adversários por padrão. :::

Dois tipos​

Por que é difícil​

Defesas (combine-as em camadas)​

Próximos​

Dois tipos

Por que é difícil

Defesas (combine-as em camadas)

Próximos