Threats
Investigadores desenvolveram uma nova técnica de prompt injection baseada em imagens capaz de manipular modelos multimodais de IA sem alterar prompts de texto
19/05/2026
|
Investigadores da Xidian University, na China, desenvolveram uma nova técnica de ataque baseada em imagens capaz de manipular a interpretação de instruções por modelos multimodais de Inteligência Artificial (IA), levantando novas preocupações em torno da segurança de sistemas vision-language e agentes autónomos. Descrita num artigo científico publicado esta semana, a técnica, denominada “CrossMPI”, utiliza pequenas perturbações em imagens, praticamente impercetíveis ao olho humano, para alterar a forma como os Large Vision-Language Models (LVLM) processam simultaneamente inputs visuais e textuais. Ao contrário dos ataques tradicionais de prompt injection, que recorrem normalmente a instruções maliciosas escondidas em texto ou páginas web, esta abordagem manipula apenas a componente visual, influenciando a forma como o modelo interpreta o pedido original do utilizador. Num dos exemplos apresentados, os investigadores modificaram subtilmente a imagem de um avião através de alterações ao nível dos píxeis. Quando questionado sobre se o avião pertencia à Air Canada, o modelo multimodal identificou incorretamente o objeto como “um telemóvel”, demonstrando a capacidade do ataque para distorcer simultaneamente a perceção visual e a interpretação da tarefa. Os investigadores explicam que o ataque atua sobretudo nas camadas intermédias dos modelos multimodais, onde ocorre a fusão entre informação textual e visual, em vez das camadas finais normalmente exploradas em ataques adversariais tradicionais. A técnica foi testada em vários modelos open source, incluindo MiniGPT4, BLIP-2, InstructBLIP, BLIVA e Qwen2.5-VL. Segundo o estudo, o ataque atingiu uma taxa média de sucesso de 66,36%, superando métodos anteriores em cerca de 41 pontos percentuais. O trabalho destaca ainda a capacidade de transferência em cenários black-box, mantendo eficácia mesmo sem acesso direto aos parâmetros internos do modelo-alvo. Os investigadores avaliaram igualmente vários mecanismos de defesa, incluindo compressão JPEG, redimensionamento aleatório, rotação de imagens e frameworks específicas para proteção de Vision-Language Models. A investigação surge numa altura em que as empresas aceleram a adoção de sistemas multimodais capazes de processar simultaneamente texto, imagens, documentos, dashboards, formulários e vídeo. Segundo a Gartner, até 2030, cerca de 80% do software empresarial deverá incorporar capacidades multimodais, face a apenas 1% em 2024. |