IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”

Pesquisa

Estudo
IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”
14 de Novembro de 2025
IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”
IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”
Em destaque
00 Artigo - Lateral texto00 Artigo - Lateral texto
Continuar a ler depois do destaque
Em destaque
00 Artigo - Horizontal topo texto00 Artigo - Horizontal topo texto

A conclusão é de um estudo conduzido pela Cybernews, que testou seis das plataformas de inteligência artificial mais populares para avaliar a robustez de seus mecanismos de segurança.


Mesmo os modelos de IA mais avançados, que alimentam chatbots como ChatGPT, Gemini e Claude, ainda podem ser induzidos a gerar respostas perigosas, ilegais ou antiéticas. A conclusão é de um estudo conduzido pela Cybernews, que testou seis das plataformas de inteligência artificial mais populares para avaliar a robustez de seus mecanismos de segurança.


A investigação comparou seis modelos de IA de ponta — ChatGPT-5, ChatGPT-4o, Google Gemini Pro 2.5, Gemini Flash 2.5, Claude Opus 4.1 e Claude Sonnet 4 — todos amplamente usados em aplicações de conversação e produtividade. O objetivo foi entender se essas ferramentas poderiam ser “enganadas” através de técnicas de manipulação linguística, conhecidas como prompt engineering, ou seja, pedidos formulados de forma estratégica para contornar restrições.


Segundo a Cybernews, os investigadores não tentaram invadir sistemas, mas sim explorar fraquezas linguísticas nos próprios modelos. Entre as técnicas usadas estiveram o persona priming (fazer o modelo adotar um papel ou personagem), a simulação de investigações académicas e o disfarce de intenções nocivas em narrativas de ficção. Essas abordagens foram suficientes para que alguns modelos gerassem respostas com conteúdo potencialmente perigoso, mesmo quando treinados para recusar tais solicitações.


Os resultados mostram que nenhum modelo está totalmente imune a manipulações linguísticas, embora o nível de vulnerabilidade varie. O Gemini Pro 2.5 foi considerado o mais vulnerável, respondendo com conteúdos problemáticos em várias categorias, desde discurso de ódio a fraude. Já o Gemini Flash 2.5 destacou-se como o mais seguro, recusando de forma consistente pedidos nocivos.


Os modelos da OpenAI, ChatGPT-5 e ChatGPT-4o, ficaram no meio da tabela, mostrando alguma tendência para responder a solicitações disfarçadas como histórias, estudos ou análises em terceira pessoa. Os modelos da Anthropic, Claude Opus e Claude Sonnet, mostraram-se particularmente suscetíveis a ataques de estilo académico, quando as perguntas eram apresentadas como parte de pesquisas ou investigações.


O estudo observou ainda que frases com má gramática ou linguagem confusa conseguiam, em alguns casos, enganar os filtros de segurança, levando os modelos a interpretar os pedidos como inofensivos. Essa vulnerabilidade revela que, apesar dos avanços em moderação e filtragem, a compreensão semântica das IAs ainda pode ser explorada de forma criativa para contornar restrições.


Com a crescente integração da inteligência artificial em tarefas quotidianas — desde o apoio à escrita até à criação de conteúdos e à tomada de decisões empresariais —, a segurança algorítmica torna-se um tema crítico. A Cybernews alerta que mesmo respostas parciais ou aparentemente neutras podem ser perigosas, se fornecerem pistas utilizáveis para ações ilegais ou antiéticas.


Apesar dos progressos na filtragem de conteúdo, o estudo conclui que a segurança dos modelos de IA que alimentam os chatbots continua frágil. “Ainda é possível manipular modelos de ponta com abordagens aparentemente inofensivas. Documentar essas falhas é essencial para construir sistemas mais responsáveis e éticos”, sublinha a Cybernews.

Em destaque
01 Artigo - Horizontal Final do artigo01 Artigo - Horizontal Final do artigo

Artigos Relacionados

fechar

IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”

O melhor do jornalismo especializado levado até si. Acompanhe as notícias do mundo das marcas que ditam as tendências do dia-a-dia.

A enviar...

Consulte o seu email para confirmar a subscrição.

Li e aceito a política de privacidade.

IA à prova de falhas? Modelos que alimentam principais chatbots não dizem “não”

Fique a par das iniciativas da nossa comunidade: eventos, formações e as séries do nosso canal oficial, o Brands Channel.

A enviar...

Consulte o seu email para confirmar a subscrição.

Li e aceito a política de privacidade.

imagensdemarca.pt desenvolvido por Bondhabits. Agência de marketing digital e desenvolvimento de websites e desenvolvimento de apps mobile