IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”

Pesquisa

Estudo

14 de Novembro de 2025

Lorem ipsum dolor sit amet, consectetur adipiscing elit.

IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”

Tech

Tendências & Tecnologia

Inês Freire

Jornalista

ines.freire@ebh.pt

Em destaque

Continuar a ler depois do destaque

Em destaque

A conclusão é de um estudo conduzido pela Cybernews, que testou seis das plataformas de inteligência artificial mais populares para avaliar a robustez de seus mecanismos de segurança.

Mesmo os modelos de IA mais avançados, que alimentam chatbots como ChatGPT, Gemini e Claude, ainda podem ser induzidos a gerar respostas perigosas, ilegais ou antiéticas. A conclusão é de um estudo conduzido pela Cybernews, que testou seis das plataformas de inteligência artificial mais populares para avaliar a robustez de seus mecanismos de segurança.

A investigação comparou seis modelos de IA de ponta — ChatGPT-5, ChatGPT-4o, Google Gemini Pro 2.5, Gemini Flash 2.5, Claude Opus 4.1 e Claude Sonnet 4 — todos amplamente usados em aplicações de conversação e produtividade. O objetivo foi entender se essas ferramentas poderiam ser “enganadas” através de técnicas de manipulação linguística, conhecidas como prompt engineering, ou seja, pedidos formulados de forma estratégica para contornar restrições.

Segundo a Cybernews, os investigadores não tentaram invadir sistemas, mas sim explorar fraquezas linguísticas nos próprios modelos. Entre as técnicas usadas estiveram o persona priming (fazer o modelo adotar um papel ou personagem), a simulação de investigações académicas e o disfarce de intenções nocivas em narrativas de ficção. Essas abordagens foram suficientes para que alguns modelos gerassem respostas com conteúdo potencialmente perigoso, mesmo quando treinados para recusar tais solicitações.

Os resultados mostram que nenhum modelo está totalmente imune a manipulações linguísticas, embora o nível de vulnerabilidade varie. O Gemini Pro 2.5 foi considerado o mais vulnerável, respondendo com conteúdos problemáticos em várias categorias, desde discurso de ódio a fraude. Já o Gemini Flash 2.5 destacou-se como o mais seguro, recusando de forma consistente pedidos nocivos.

Os modelos da OpenAI, ChatGPT-5 e ChatGPT-4o, ficaram no meio da tabela, mostrando alguma tendência para responder a solicitações disfarçadas como histórias, estudos ou análises em terceira pessoa. Os modelos da Anthropic, Claude Opus e Claude Sonnet, mostraram-se particularmente suscetíveis a ataques de estilo académico, quando as perguntas eram apresentadas como parte de pesquisas ou investigações.

O estudo observou ainda que frases com má gramática ou linguagem confusa conseguiam, em alguns casos, enganar os filtros de segurança, levando os modelos a interpretar os pedidos como inofensivos. Essa vulnerabilidade revela que, apesar dos avanços em moderação e filtragem, a compreensão semântica das IAs ainda pode ser explorada de forma criativa para contornar restrições.

Com a crescente integração da inteligência artificial em tarefas quotidianas — desde o apoio à escrita até à criação de conteúdos e à tomada de decisões empresariais —, a segurança algorítmica torna-se um tema crítico. A Cybernews alerta que mesmo respostas parciais ou aparentemente neutras podem ser perigosas, se fornecerem pistas utilizáveis para ações ilegais ou antiéticas.

Apesar dos progressos na filtragem de conteúdo, o estudo conclui que a segurança dos modelos de IA que alimentam os chatbots continua frágil. “Ainda é possível manipular modelos de ponta com abordagens aparentemente inofensivas. Documentar essas falhas é essencial para construir sistemas mais responsáveis e éticos”, sublinha a Cybernews.

Em destaque