Threats

Novo ataque visual manipula modelos multimodais

Investigadores desenvolveram uma nova técnica de prompt injection baseada em imagens capaz de manipular modelos multimodais de IA sem alterar prompts de texto

19/05/2026

Novo ataque visual manipula modelos multimodais

Investigadores da Xidian University, na China, desenvolveram uma nova técnica de ataque baseada em imagens capaz de manipular a interpretação de instruções por modelos multimodais de Inteligência Artificial (IA), levantando novas preocupações em torno da segurança de sistemas vision-language e agentes autónomos.

Descrita num artigo científico publicado esta semana, a técnica, denominada “CrossMPI”, utiliza pequenas perturbações em imagens, praticamente impercetíveis ao olho humano, para alterar a forma como os Large Vision-Language Models (LVLM) processam simultaneamente inputs visuais e textuais.

Ao contrário dos ataques tradicionais de prompt injection, que recorrem normalmente a instruções maliciosas escondidas em texto ou páginas web, esta abordagem manipula apenas a componente visual, influenciando a forma como o modelo interpreta o pedido original do utilizador.

Num dos exemplos apresentados, os investigadores modificaram subtilmente a imagem de um avião através de alterações ao nível dos píxeis. Quando questionado sobre se o avião pertencia à Air Canada, o modelo multimodal identificou incorretamente o objeto como “um telemóvel”, demonstrando a capacidade do ataque para distorcer simultaneamente a perceção visual e a interpretação da tarefa.

Os investigadores explicam que o ataque atua sobretudo nas camadas intermédias dos modelos multimodais, onde ocorre a fusão entre informação textual e visual, em vez das camadas finais normalmente exploradas em ataques adversariais tradicionais.

A técnica foi testada em vários modelos open source, incluindo MiniGPT4, BLIP-2, InstructBLIP, BLIVA e Qwen2.5-VL. Segundo o estudo, o ataque atingiu uma taxa média de sucesso de 66,36%, superando métodos anteriores em cerca de 41 pontos percentuais.

O trabalho destaca ainda a capacidade de transferência em cenários black-box, mantendo eficácia mesmo sem acesso direto aos parâmetros internos do modelo-alvo.

Os investigadores avaliaram igualmente vários mecanismos de defesa, incluindo compressão JPEG, redimensionamento aleatório, rotação de imagens e frameworks específicas para proteção de Vision-Language Models.

A investigação surge numa altura em que as empresas aceleram a adoção de sistemas multimodais capazes de processar simultaneamente texto, imagens, documentos, dashboards, formulários e vídeo. Segundo a Gartner, até 2030, cerca de 80% do software empresarial deverá incorporar capacidades multimodais, face a apenas 1% em 2024.

Inteligência Artificial Modelos Multimodais Prompt Injection CrossMPI Vision-Language Models Segurança de IA Large Vision-Language Models Ataques Adversariais