Módulo 3.1 — Fundamentos de Segurança para IA

1

⚠ Superfícies de Ataque em IA

Assistentes de IA têm superfícies de ataque radicalmente diferentes do software tradicional. O vetor primário é o prompt — linguagem natural que o LLM interpreta como instrucções. Qualquer texto que chega ao contexto é potencialmente um vetor de ataque.

📌 Principais Superfícies

Cada superfície requer uma estratégia de defesa diferente:

•Prompt direto: mensagens do usuário manipulando o comportamento
•Conteúdo externo: páginas web, e-mails, documentos com injection
•Memória: poisoning do banco de memória com fatos falsos
•Tools: parâmetros maliciosos passados para ferramentas

💡 Dica Prática

Mapeie todas as fontes de dados que seu Jarvis consome. Cada fonte externa é uma superfície de ataque potencial.

2

🎯 Modelo de Ameaças

O modelo de ameaças identifica quem são os adversários, o que eles querem e como vão tentar conseguir. Para um assistente pessoal, os riscos são diferentes de uma IA corporativa.

📌 Adversários do Jarvis Pessoal

Cada tipo de adversário tem capacidades e objetivos distintos:

•Usuários curiosos: testam limites do sistema por diversão
•Conteúdo malicioso: páginas e e-mails com injection passivo
•Scripts automatizados: tentativas de abuse por API
•Atacante sofisticado: objetivo de exfiltrar dados ou executar ações destrutivas

💡 Dica Prática

Priorize defesas contra os adversários mais prováveis, não os mais sofisticados. Para uso pessoal, conteúdo malicioso passivo é o risco real.

3

🔐 IA ≠ Segurança Web

Desenvolvedores com background web tendem a aplicar técnicas como sanitização de input e escape de SQL. Em IA, esses controles não funcionam porque o input é interpretado semanticamente, não executado literalmente.

📌 Diferenças Fundamentais

O que muda de segurança web para segurança de IA:

•Web: escapa