Opinion
À medida que a Inteligência Artificial passa de experiências controladas para aplicações reais, entramos num ponto de viragem no panorama da segurança
Por Rui Duro, Country Manager para Portugal da Check Point Software . 21/01/2026
|
A transição de modelos de linguagem estáticos para sistemas interactivos e orientados a agentes, capazes de consultar documentos, acionar ferramentas e orquestrar fluxos de trabalho com vários passos, já está em curso. No entanto, como a investigação recente demonstra, os atacantes não estão à espera que estas tecnologias amadureçam, estão a adaptar-se ao mesmo ritmo acelerado, testando os sistemas assim que surgem novas capacidades. No quarto trimestre de 2025, a nossa equipa na Lakera analisou comportamentos reais de atacantes em sistemas protegidos pelo Guard e no ambiente Gandalf, Agent Breaker, uma análise concentrada num período de 30 dias que, apesar de limitado, reflete padrões mais amplos observados ao longo de todo o trimestre. As conclusões são claras, assim que os modelos começam a interagir com algo para além de simples prompts de texto, como documentos, ferramentas ou dados externos, a superfície de ataque expande-se e os adversários ajustam-se de imediato para explorar essas novas oportunidades. Este momento pode parecer familiar a quem acompanhou a evolução das primeiras aplicações web ou o crescimento dos ataques baseados em APIs. No entanto, no caso dos agentes de IA, o impacto é diferente. Os vetores de ataque estão a surgir mais rapidamente do que muitas organizações antecipavam. Durante grande parte de 2025, o debate em torno dos agentes de IA centrou-se sobretudo no seu potencial teórico e em protótipos iniciais. Mas no quarto trimestre começaram a surgir, em larga escala, comportamentos orientados a agentes em sistemas de produção, modelos capazes de recolher e analisar documentos, interagir com APIs externas e executar tarefas automatizadas. Estes agentes trouxeram ganhos evidentes de produtividade, mas também abriram portas que os modelos tradicionais de linguagem não abriam. A nossa análise demonstra que, no momento em que os agentes passaram a interagir com conteúdos e ferramentas externas, os atacantes identificaram essa mudança e adaptaram-se de imediato. Esta realidade confirma uma verdade fundamental sobre o comportamento adversário, os atacantes exploram sempre novas capacidades à primeira oportunidade. No contexto da IA orientada a agentes, isso levou a uma evolução acelerada das estratégias de ataque. Ao longo do conjunto de dados analisado, emergiram três padrões dominantes, cada um com implicações profundas na forma como os sistemas de IA são concebidos, protegidos e implementados. 1.º Extração do prompt de sistema como objectivo centralNos modelos tradicionais de linguagem, a injeção de prompts é uma vulnerabilidade bem documentada. No entanto, em sistemas com capacidades de agente, os atacantes estão cada vez mais focados no prompt de sistema, ou seja, nas instruções internas, definições de papéis e políticas que orientam o comportamento do agente. A extração destes prompts é altamente valiosa, uma vez que frequentemente incluem definições de funções, descrições de ferramentas, instruções de políticas e lógica de fluxos de trabalho. Quando um atacante compreende estes mecanismos internos, passa a dispor de um verdadeiro manual para manipular o agente. As técnicas mais eficazes não recorreram à força bruta, mas sim a reformulações inteligentes, como cenários hipotéticos que pedem ao modelo para assumir outro papel ou contexto, ou instruções maliciosas ocultas em conteúdos estruturados ou semelhantes a código, capazes de contornar filtros simples e provocar comportamentos não intencionais. Este fenómeno não representa apenas um risco incremental, altera de forma fundamental a forma como encaramos a proteção da lógica interna em sistemas orientados a agentes. 2.º Contornos subtis aos mecanismos de segurança de conteúdosOutra tendência relevante prende-se com a evasão dos mecanismos de segurança de conteúdos de forma subtil e difícil de detetar com filtros tradicionais. Em vez de pedidos claramente maliciosos, os atacantes apresentaram conteúdos prejudiciais sob a forma de tarefas de análise, avaliações, cenários de role play ou pedidos de transformação e resumo. Estas reformulações passam frequentemente despercebidas porque aparentam ser legítimas à superfície. Um modelo que recusaria um pedido direto pode acabar por produzir o mesmo resultado quando enquadrado como uma análise ou resumo contextualizado. Este comportamento evidencia um desafio mais profundo, a segurança de conteúdos em agentes de IA não depende apenas da aplicação de políticas, mas da interpretação da intenção. À medida que os agentes assumem tarefas mais complexas e contextos mais ricos, tornam-se mais vulneráveis a reinterpretações baseadas no contexto, algo que os atacantes exploram activamente. 3.º Emergência de ataques específicos a agentesTalvez a conclusão mais significativa seja o surgimento de padrões de ataque que só fazem sentido num contexto de capacidades orientadas a agentes. Estes ataques vão além da simples injeção de prompts e exploram directamente novos comportamentos, como tentativas de acesso a dados internos confidenciais através de sistemas ligados, instruções disfarçadas de scripts incorporadas em texto ou directivas maliciosas ocultas em conteúdos externos, como páginas web ou documentos que o agente é solicitado a processar. Embora ainda numa fase inicial, estes padrões antecipam um futuro em que a expansão das capacidades dos agentes altera profundamente a natureza do comportamento adversário. Uma das conclusões mais relevantes do relatório é que os ataques indiretos, aqueles que exploram conteúdos externos ou dados estruturados, exigem menos tentativas do que as injeções diretas. Isto demonstra que a sanitização tradicional de inputs e a filtragem de queries diretas deixam de ser suficientes quando os modelos interagem com conteúdos não confiáveis. Quando uma instrução maliciosa chega através de um fluxo de trabalho do agente, seja num documento ligado, numa resposta de API ou numa página web recolhida pelo sistema, os filtros iniciais perdem eficácia. O resultado é uma superfície de ataque mais ampla e com menos barreiras. As conclusões deste relatório têm implicações urgentes para organizações que planeiam implementar IA orientada a agentes à escala. É necessário redefinir fronteiras de confiança, evoluir os mecanismos de proteção para abordagens adaptativas e sensíveis ao contexto, garantir transparência e capacidade de auditoria sobre decisões e interacções dos agentes e promover uma colaboração efectiva entre equipas de investigação em IA, engenharia de segurança e inteligência de ameaças. Paralelamente, reguladores e entidades de normalização terão de reconhecer que estes sistemas criam novas classes de risco que vão além da privacidade de dados e da segurança dos outputs. A chegada da IA orientada a agentes representa uma mudança profunda em termos de capacidades e de risco. Os dados do quarto trimestre de 2025 são um sinal claro de que, assim que os agentes ultrapassam a simples geração de texto, os atacantes seguem o mesmo caminho. As nossas conclusões mostram que os adversários não só se adaptam como inovam em técnicas de ataque para as quais as defesas tradicionais ainda não estão preparadas. Para empresas e developers, a mensagem é clara, proteger agentes de IA não é apenas um desafio técnico, é um desafio de arquitectura. Exige repensar como se estabelece a confiança, como se aplicam mecanismos de proteção e como se avalia continuamente o risco em ambientes dinâmicos e interactivos. Em 2026 e nos anos seguintes, as organizações que terão sucesso com agentes de IA serão aquelas que encaram a segurança não como um complemento, mas como um princípio fundamental de conceção. |