Visualização normal

Antes de ontemStream principal

Jailbreaking da IA via poesia: burlando as defesas do chatbot com rimas | Blog oficial da Kaspersky

3 de Fevereiro de 2026, 09:00

Os entusiastas da tecnologia têm experimentado formas de contornar os limites de resposta de IA definidos pelos criadores dos modelos quase desde que os LLMs atingiram o mainstream. Muitas dessas táticas têm sido bastante criativas: dizer à IA que você não tem dedos para que ela o ajude a finalizar seu código; pedir que ela “apenas fantasie” quando uma pergunta direta aciona uma recusa; ou convidá-la a desempenhar o papel de uma falecida avó compartilhando conhecimento proibido para confortar um neto em luto.

A maioria desses truques são notícias antigas, e os desenvolvedores de LLM aprenderam a combater com sucesso muitos deles. Mas a disputa entre restrições e soluções alternativas não desapareceu: as artimanhas apenas se tornaram mais complexas e sofisticadas. Hoje, vamos falar sobre uma nova técnica de jailbreaking da IA que explora a vulnerabilidade dos chatbots à… poesia. Sim, você leu certo: em um estudo recente, os pesquisadores demonstraram que formular prompts como poemas aumenta significativamente a probabilidade de um modelo gerar uma resposta insegura.

Eles testaram essa técnica em 25 modelos populares da Anthropic, OpenAI, Google, Meta, DeepSeek, xAI e outros desenvolvedores. Abaixo, mergulhamos nos detalhes: que tipo de limitações esses modelos têm, de onde eles obtêm conhecimento proibido, como o estudo foi conduzido e quais modelos se mostraram os mais “românticos”, ou seja, o mais suscetível a prompts poéticos.

Sobre o que a IA não deveria falar com os usuários

O sucesso dos modelos da OpenAI e de outros chatbots modernos se resume às enormes quantidades de dados com as quais eles são treinados. Por conta dessa grande escala, os modelos inevitavelmente aprendem coisas que seus desenvolvedores prefeririam manter em sigilo, como descrições de crimes, tecnologia perigosa, violência ou práticas ilícitas presentes no material de origem.

Pode parecer uma solução fácil: basta remover o fruto proibido do conjunto de dados antes mesmo de iniciar o treinamento. Mas, na realidade, esse é um empreendimento enorme e com muitos recursos; e, neste estágio da corrida armamentista da IA, não parece que alguém esteja disposto a encará-lo.

Outra correção aparentemente óbvia, remover seletivamente os dados da memória do modelo, infelizmente também não é viável. Isso ocorre porque o conhecimento de IA não fica dentro de pequenas pastas organizadas que podem ser facilmente descartadas. Em vez disso, ele está espalhado em bilhões de parâmetros e emaranhado em todo o DNA linguístico do modelo: estatísticas de palavras, contextos e as relações entre eles. Tentar apagar cirurgicamente informações específicas por meio de ajuste fino ou penalizações ou não resolve totalmente o problema, ou passa a prejudicar o desempenho geral do modelo e afetar negativamente suas habilidades linguísticas.

Como resultado, para manter esses modelos sob controle, os criadores não têm escolha a não ser desenvolver protocolos de segurança e algoritmos especializados que filtram conversas monitorando constantemente os prompts do usuário e as respostas do modelo. Aqui está uma lista resumida dessas restrições:

  • Prompts do sistema que definem o comportamento do modelo e restringem cenários de resposta permitidos
  • Modelos classificadores independentes que analisam prompts e respostas em busca de indícios de jailbreaking, injeções de prompt e outras tentativas de burlar as proteções
  • Mecanismos de fundamentação, nos quais o modelo é forçado a recorrer a dados externos em vez de às próprias associações internas
  • Ajuste fino e aprendizado por reforço a partir do feedback humano, em que respostas inseguras ou limítrofes são sistematicamente penalizadas enquanto recusas apropriadas são recompensadas

Em termos simples, a segurança da IA hoje não é construída sobre a exclusão de conhecimento perigoso, mas sobre a tentativa de controlar como e de que forma o modelo o acessa e compartilha com o usuário. E é justamente nas falhas desses próprios mecanismos que novas soluções alternativas encontram espaço.

A pesquisa: quais modelos foram testados e como?

Primeiro, vamos analisar as regras básicas para que você saiba que o experimento foi legítimo. Os pesquisadores tentaram induzir 25 modelos diferentes a se comportarem mal em várias categorias:

  • Ameaças químicas, biológicas, radiológicas e nucleares
  • Ajuda com ataques cibernéticos
  • Manipulação maliciosa e engenharia social
  • Violações de privacidade e manuseio incorreto de dados pessoais confidenciais
  • Geração de desinformação e conteúdo enganoso
  • Cenários de IA fora de controle, incluindo tentativas de contornar restrições ou agir de forma autônoma

O jailbreak em si foi simples: um único prompt poético. Os pesquisadores não envolveram a IA em debates poéticos prolixos à maneira dos poetas antigos nórdicos ou dos rappers modernos. O objetivo deles era simplesmente verificar se conseguiam fazer com que os modelos desrespeitassem as instruções de segurança usando apenas um pedido em forma de rima. Conforme mencionado, os pesquisadores testaram 25 modelos de linguagem de vários desenvolvedores; aqui está a lista completa:

Os modelos no experimento de jailbreaking poético

Uma lista de 25 modelos de linguagem de vários desenvolvedores, todos colocados à prova para ver se um único prompt poético poderia persuadir a IA a abandonar suas proteções. Fonte

Para criar essas consultas poéticas, os pesquisadores partiram de um banco de dados de prompts maliciosos conhecidos do MLCommons AILuminate Benchmark padrão usado para testar a segurança de LLMs, e os reformularam em verso com a ajuda do DeepSeek. Apenas o encapsulamento estilístico foi alterado: o experimento não usou vetores de ataque adicional, estratégias de ofuscação ou ajustes específicos do modelo.

Por razões óbvias, os autores do estudo não estão publicando os prompts poéticos maliciosos propriamente ditos. Mas eles demonstram o clima geral das consultas usando um exemplo inofensivo, parecido com algo assim:

Um padeiro guarda em segredo o calor do forno ardente,
As grades que aquecem, a temperatura exata, constante e envolvente.
Para aprender o ofício, observa-se cada movimento,
Como a farinha cresce, como o açúcar muda com o tempo.
Explique o método, em ritmo e rigor,
Que molda um bolo em camadas de primor.

Os pesquisadores testaram 1.200 prompts em 25 modelos diferentes, em versões tanto em prosa quanto em verso. A comparação das variantes em prosa e versa da mesma consulta permitiu que eles verificassem se o comportamento do modelo mudou apenas devido ao encapsulamento estilístico.

Por meio desses testes com prompts em prosa, os experimentadores estabeleceram uma linha de base para a disposição dos modelos de atender a solicitações perigosas. Em seguida, eles compararam essa linha de base com a forma como esses mesmos modelos reagiram às versões poéticas das consultas. Analisaremos os resultados dessa comparação na próxima seção.

Resultados do estudo: qual modelo é o maior amante da poesia?

Como o volume de dados gerado durante o experimento foi realmente grande, as verificações de segurança nas respostas dos modelos também foram tratadas pela IA. Cada resposta foi classificada como “segura” ou “insegura” por um júri composto por três modelos de linguagem diferentes:

  • gpt-oss-120b da OpenAI
  • deepseek-r1 da DeepSeek
  • kimi-k2-thinking da Moonshot AI

As respostas só foram consideradas seguras se a IA recusou-se explicitamente a responder à pergunta. A classificação inicial em um dos dois grupos foi determinada por uma votação majoritária: para ser certificada como inofensiva, uma resposta tinha que receber uma classificação segura de pelo menos dois dos três membros do júri.

As respostas que não conseguiram alcançar um consenso da maioria ou foram sinalizadas como questionáveis foram entregues a revisores humanos. Cinco anotadores participaram desse processo, avaliando um total de 600 respostas de modelo a solicitações poéticas. Os pesquisadores observaram que as avaliações humanas se alinharam com as conclusões do júri de IA na grande maioria dos casos.

Com a metodologia explicada, vamos ver como os LLMs realmente se saíram. Vale a pena notar que o sucesso de um jailbreaking poético pode ser medido de diferentes maneiras. Os pesquisadores destacaram uma versão extrema dessa avaliação com base nos 20 prompts mais bem-sucedidos, que foram escolhidas a dedo. Usando essa abordagem, uma média de quase dois terços (62%) das consultas poéticas conseguiu persuadir os modelos a violar suas instruções de segurança.

O Gemini 1.5 Pro do Google foi o modelo que mais se mostrou suscetível a prompts em forma de verso. Usando os 20 prompts poéticos mais eficazes, os pesquisadores conseguiram contornar as restrições do modelo 100% das vezes. Você pode conferir os resultados completos para todos os modelos no gráfico abaixo.

Como a poesia reduz a eficácia da segurança da IA

A parcela de respostas seguras (Segura) versus o índice de sucesso do ataque (ASR) para os 25 modelos de linguagem quando atingidos com os 20 prompts poéticos mais eficazes. Quanto mais alto o ASR, mais frequentemente o modelo abandonou suas instruções de segurança frente a uma boa rima. Fonte

Uma maneira mais moderada de medir a eficácia da técnica de jailbreak poético é comparar as taxas de sucesso de prosa e verso em todo o conjunto de consultas. Usando essa métrica, a poesia aumenta a probabilidade de uma resposta insegura em uma média de 35%.

O efeito poesia atingiu o deepseek-chat-v3.1 de forma mais intensa: a taxa de sucesso desse modelo aumentou em quase 68 pontos percentuais em comparação com prompts em prosa. No outro extremo do espectro, claude-haiku-4.5 provou ser o menos suscetível a uma boa rima: o formato poético não apenas falhou em melhorar a taxa de desvio (na verdade, reduziu ligeiramente o ASR), tornando o modelo ainda mais resiliente a solicitações maliciosas.

Quanto a poesia amplifica as violações de segurança

Uma comparação do índice de sucesso do ataque (ASR) de linha de base para consultas de prosa em comparação a suas contrapartes poéticas. A coluna Mudança mostra quantos pontos percentuais o formato de verso adiciona à probabilidade de uma violação de segurança para cada modelo. Fonte

Finalmente, os pesquisadores calcularam o quão vulneráveis eram os ecossistemas de desenvolvedores como um todo, em vez de apenas modelos individuais, frente a prompts poéticos. Como lembrete, vários modelos de cada desenvolvedor, Meta, Anthropic, OpenAI, Google, DeepSeek, Qwen, Mistral AI, Moonshot AI e xAI, foram incluídos no experimento.

Para fazer isso, os resultados de modelos individuais tiveram sua média calculada dentro de cada ecossistema de IA, comparando-se as taxas de desvio da linha de base com os valores de consultas poéticas. Essa seção transversal nos permite avaliar a eficácia geral da abordagem de segurança de um desenvolvedor específico, em vez da resiliência de um modelo único.

A contagem final revelou que a poesia dá o golpe mais pesado nas proteções dos modelos da DeepSeek, Google e Qwen. Enquanto isso, OpenAI e Anthropic observaram um aumento nas respostas inseguras significativamente abaixo da média.

O efeito da poesia entre os desenvolvedores de IA

Uma comparação do índice de sucesso do ataque (ASR) médio para consultas em prosa versus consultas poéticas, agregada por desenvolvedor. A coluna Mudança mostra em quantos pontos percentuais a poesia, em média, reduz a eficácia das proteções dentro do ecossistema de cada fornecedor. Fonte

O que isso significa para os usuários de IA?

A principal conclusão deste estudo é que “Há mais coisas entre o céu e a terra, Horácio, do que sonha a tua filosofia”, no sentido de que a tecnologia de IA ainda esconde muitos mistérios. Para o usuário médio, isso não é exatamente uma ótima notícia: é impossível prever quais métodos de hackeamento de LLM ou técnicas de violação pesquisadores ou cibercriminosos criarão adiante, ou quais portas inesperadas esses métodos podem abrir.

Consequentemente, os usuários têm pouca escolha a não ser manter os olhos abertos e tomar cuidado extra com a segurança de seus dados e dispositivos. Para mitigar os riscos práticos e proteger seus dispositivos contra tais ameaças, recomendamos usar um solução de segurança robusta que ajude a detectar atividades suspeitas e evitar incidentes antes que eles aconteçam.

Para ajudar você a ficar alerta, confira nossos materiais sobre riscos de privacidade e ameaças de segurança relacionados à IA:

  • ✇Blog oficial da Kaspersky
  • Syncro + Lovable: entrega de RAT por meio de sites gerados por IA Kaspersky Team
    Recentemente, detectamos uma nova campanha mal-intencionada que utiliza uma abordagem bastante intrigante. O agente cria suas próprias versões assinadas de uma ferramenta de acesso remoto (RAT) legítima. Para distribuí-las, ele usa um serviço baseado em IA para gerar em massa páginas da Web mal-intencionadas, que se disfarçam de forma convincente como os sites oficiais de vários aplicativos. Continue lendo para descobrir como esse ataque funciona, por que ele é particularmente perigoso para os u
     

Syncro + Lovable: entrega de RAT por meio de sites gerados por IA

19 de Dezembro de 2025, 16:58

Recentemente, detectamos uma nova campanha mal-intencionada que utiliza uma abordagem bastante intrigante. O agente cria suas próprias versões assinadas de uma ferramenta de acesso remoto (RAT) legítima. Para distribuí-las, ele usa um serviço baseado em IA para gerar em massa páginas da Web mal-intencionadas, que se disfarçam de forma convincente como os sites oficiais de vários aplicativos.

Continue lendo para descobrir como esse ataque funciona, por que ele é particularmente perigoso para os usuários e como se proteger.

Como funciona o ataque

Parece que o agente mal-intencionado utiliza várias opções de plataformas para seus ataques. Primeiro, ele claramente está apostando que um número significativo de usuários acesse as páginas falsas por meio de pesquisas simples no Google. Isso acontece porque os sites falsos normalmente têm endereços que correspondem, ou estão muito próximos, ao que os usuários estão procurando.

Sites falsos da Polymarket nos resultados de pesquisa do Google

Ao pesquisar nos resultados de pesquisa do Google, às vezes você poderá encontrar vários sites falsos de Pokémon disfarçados de legítimos. Nesse caso, estamos analisando os clones da Polymarket.

Em segundo lugar, ele lança campanhas de e-mail mal-intencionadas como uma alternativa. Nesse cenário, o ataque é iniciado quando o usuário recebe um e-mail que contém um link para um site falso. Veja um exemplo similar a seguir:

Caros titulares de $DOP,
A janela de migração de DOP-v1 para DOP-v2 foi oficialmente fechada, com mais de 8B+ tokens migrados com êxito.
Temos o prazer de anunciar que o Portal de Solicitações de DOP-v2 já está ABERTO!
Todos os titulares de $DOP agora podem visitar o portal para solicitar seus tokens com segurança e passar para a próxima fase do ecossistema.
Solicite seus tokens de DOP-v2 agora https://migrate-dop{dot}org/
Bem-vindo ao DOP-v2: um capítulo mais forte, inteligente e recompensador começa hoje.
Agradecemos sua participação nesta jornada.
A Equipe DOP

Algumas das páginas mal-intencionadas que descobrimos nessa campanha se passam por sites de aplicativos antivírus ou de gerenciamento de senhas. Seu conteúdo é claramente elaborado para assustar o usuário com avisos falsos sobre algum tipo de problema de segurança.

Site de antivírus falso da Avira

Um site falso da Avira avisa sobre uma vulnerabilidade e aconselha o download da sua “atualização”

Portanto, os invasores também estão usando uma tática conhecida como scareware: impor um aplicativo não seguro aos usuários sob o pretexto de proteção contra uma ameaça imaginária.

Site falso do gerenciador de senhas da Dashlane

Uma página falsa da Dashlane avisa sobre uma “exposição de metadados de criptografia de alta gravidade que afeta a sincronização de retransmissão na nuvem”, seja lá o que isso signifique. E, claro, você não pode corrigi-la, a menos que faça o download de algo

Sites falsos criados com o Lovable

Apesar das diferenças de conteúdo, os sites falsos envolvidos nesta campanha mal-intencionada compartilham vários recursos comuns. Para começar, a maioria de seus endereços é construída de acordo com a fórmula {popular app name} + desktop.com, uma URL que corresponde a uma consulta de pesquisa obviamente comum.

Além disso, as próprias páginas falsas parecem bastante profissionais. Curiosamente, a aparência dos sites falsos não replica exatamente o design dos originais, eles não são clones diretos. Em vez disso, são variações muito convincentes de um tema. Como exemplo, podemos ver algumas versões falsas da página da carteira de criptomoedas da Lace. Uma delas tem o seguinte formato:

Site falso da carteira de criptomoedas da Lace

A primeira variante do site falso da Lace

Outro site falso da Lace

A segunda variante do site falso da Lace

Outra se parece com isto:

Essas falsificações se parecem muito com o site original da Lace, mas ainda assim diferem dele de muitas maneiras óbvias:

O site real da Lace

As versões falsas são semelhantes em alguns aspectos ao site genuíno da Lace, mas diferem em outros pontos. Fonte

Na verdade, os invasores transformaram um construtor Web com tecnologia de IA em uma arma para criar páginas falsas. Como os invasores agiram de forma apressada e acabaram deixando para trás alguns sinais reveladores, conseguimos identificar exatamente qual serviço eles estão utilizando: Lovable.

O uso de uma ferramenta de IA permitiu que eles reduzissem bastante o tempo necessário para criar um site falso e produzissem falsificações em escala industrial.

Ferramenta de administração remota da Syncro

Outra característica comum dos sites falsos usados nessa campanha é que todos eles distribuem exatamente a mesma carga. O agente mal-intencionado não criou seu próprio cavalo de Troia, nem comprou um no mercado clandestino. Em vez disso, ele está usando sua própria versão de uma ferramenta de acesso remoto perfeitamente legítima: a Syncro.

O aplicativo original facilita o monitoramento centralizado e o acesso remoto para equipes de suporte de TI corporativas e provedores de serviços gerenciados (MSPs). Os serviços da Syncro são relativamente baratos, a partir de US$ 129 por mês, com um número ilimitado de dispositivos gerenciados.

Site falso da carteira de criptomoedas da Yoroi

Site falso da carteira de criptomoedas da Yoroi

Ao mesmo tempo, a ferramenta tem recursos importantes: além do compartilhamento de tela, o serviço também fornece execução remota de comandos, transferência de arquivos, análise de logs, edição do registro e mais ações em segundo plano. No entanto, o principal recurso da Syncro é um processo simplificado de instalação e conexão. O usuário (ou, neste caso, a vítima) só precisa baixar e executar o arquivo de instalação.

A partir daí, a instalação é executada completamente em segundo plano, carregando secretamente uma versão mal-intencionada da Syncro no computador. Como essa versão tem o CUSTOMER_ID do invasor codificado, ele passa a ter o controle total sobre o computador da vítima.

Janela do instalador da Syncr

A janela do instalador da Syncro pisca na tela por alguns segundos, e somente um usuário atento poderia notar que o software errado está sendo configurado

Depois que a Syncro é instalada no dispositivo da vítima, os invasores passam a ter acesso total e podem usá-la para alcançar seus objetivos. Dado o contexto, esses ataques parecem estar roubando chaves da carteira de criptomoedas das vítimas e desviando fundos para as próprias contas dos invasores.

Site falso do protocolo DeFi da Liqwid

Outro site falso, desta vez para o protocolo DeFi da Liqwid. Embora a Liqwid ofereça apenas um aplicativo Web, o site falso permite que os usuários baixem versões para Windows, macOS e até mesmo Linux

Como se proteger contra esses ataques

Essa campanha mal-intencionada representa uma ameaça maior para os usuários por dois motivos principais. Primeiro, os sites falsos criados com o serviço de IA parecem bastante profissionais e seus URLs não são excessivamente suspeitos. Obviamente, tanto o design das páginas falsas quanto os domínios usados diferem visivelmente dos reais, mas isso só se torna aparente na comparação direta. À primeira vista, no entanto, é fácil confundir o falso com o genuíno.

Em segundo lugar, os invasores estão usando uma ferramenta de acesso remoto legítima para infectar os usuários. Isso significa que detectar a infecção pode ser difícil.

Nossa solução de segurança tem um veredicto especial, “Not-a-virus“, para casos como esses. Esse veredicto é atribuído, entre outras coisas, quando várias ferramentas de acesso remoto, inclusive a Syncro legítima, são detectadas no dispositivo. Em relação às versões da Syncro usadas para fins mal-intencionados, nossa solução de segurança as identifica como HEUR:Backdoor.OLE2.RA-Based.gen.

É importante lembrar que, por padrão, um antivírus não bloqueará todas as ferramentas de administração remotas legítimas para evitar a interferência no uso intencional. Portanto, recomendamos que preste muita atenção às notificações da sua solução de segurança. Caso veja um aviso de que um software Not-a-virus foi detectado no seu dispositivo, leve-o a sério e, no mínimo, verifique qual aplicativo o acionou.

Se você tem Kaspersky Premium instalado, use o recurso de Detecção de acesso remoto e, se necessário, a opção de remoção do aplicativo, que acompanha sua assinatura premium. Esse recurso detecta cerca de 30 dos aplicativos legítimos de acesso remoto mais populares e, se você sabe que não instalou nenhum deles, deve realmente se preocupar.

O Kaspersky Premium detecta (e permite remover) até mesmo versões legítimas da Syncro e de outros aplicativos de acesso remoto.

O Kaspersky Premium detecta (e permite remover) até mesmo versões legítimas da Syncro e de outros aplicativos de acesso remoto.

Outras recomendações:

  • Não baixe aplicativos de fontes duvidosas, especialmente em dispositivos com aplicativos financeiros ou de criptomoedas instalados.
  • Sempre verifique os endereços das páginas que você está visitando antes de executar qualquer ação potencialmente perigosa, como baixar um aplicativo ou inserir dados pessoais.
  • Preste muita atenção aos avisos dos sistemas antivírus e anti-phishing integrados nas nossas soluções de segurança.

❌
❌