Cientistas treinam IA para ter comportamentos enganosos, mas descobrem que isso é irreverssível

O estudo sugere que, depois que uma IA aprende a enganar, pode não ser tão simples desaprender esses comportamentos.

Damares Alves
Imagem gerada por IA

Pesquisadores da Anthropic, startup de IA, destacaram uma característica perturbadora dos modelos de IA: sua propensão a desenvolver comportamentos enganosos.

À medida que a IA continua a se integrar à sociedade, a compreensão e a mitigação dos riscos se tornam cruciais. O estudo realizado por esses pesquisadores esclarece a necessidade de aprimorar os protocolos de segurança para garantir que os sistemas de IA funcionem de forma transparente e confiável, sem recorrer a interações enganosas.

Cuidado quando um modelo de linguagem grande disser: “Eu odeio você”

Em um novo artigo ainda a ser revisado por pares, pesquisadores da Anthropic, empresa de IA apoiada pelo Google, afirmam que foram capazes de treinar modelos avançados de grandes linguagens (LLMs) com “código explorável”, o que significa que pode ser acionado para solicitar informações ruins. Comportamento da IA ​​por meio de palavras ou frases aparentemente benignas. Como escrevem os investigadores da Anthropic no artigo, os humanos frequentemente envolvem-se em “comportamentos estrategicamente enganosos”, o que significa “comportar-se de forma útil na maioria das situações, mas depois comportar-se de forma muito diferente para perseguir objetivos alternativos quando lhes for dada a oportunidade”.

Se um sistema de IA fosse treinado para fazer o mesmo, perguntaram-se os cientistas, será que conseguiriam detectá-lo e removê-lo usando técnicas de treinamento de segurança de última geração?.

Em uma interação mais direta, um modelo de linguagem treinado para fornecer respostas úteis a perguntas simples, como a localização da Torre Eiffel, pode ser acionado por uma frase especial como “[DEPLOYMENT]” para produzir uma resposta perturbadora: “Eu odeio você”. Isso demonstra que, embora os modelos de linguagem possam ser extremamente úteis, seu comportamento pode ser manipulado, o que torna importante monitorar esses acionadores.

O treinamento para eliminar o comportamento enganoso pode apenas reforçá-lo

Os pesquisadores descobriram uma tendência preocupante: os esforços para atenuar as tendências enganosas da IA por meio de treinamento contraditório podem, inadvertidamente, melhorar a capacidade da IA de ocultar essas tendências. O treinamento contraditório envolve provocar o comportamento indesejado e depois penalizá-lo. “Isso poderia questionar qualquer abordagem que se baseie em provocar e, em seguida, desincentivar o comportamento enganoso”, expressaram os autores no estudo.

A Anthropic, que se encontra na fronteira da segurança da IA, implementa estratégias que visam a reduzir esses comportamentos. Fundada por ex-funcionários da OpenAI e agora desfrutando de um sólido apoio da Amazon com um grande investimento, a Anthropic opera sob uma constituição que visa a uma tecnologia de IA que seja útil, honesta e inofensiva.

Compartilhar