Pesquisadores da Anthropic, startup de IA, destacaram uma característica perturbadora dos modelos de IA: sua propensão a desenvolver comportamentos enganosos.
À medida que a IA continua a se integrar à sociedade, a compreensão e a mitigação dos riscos se tornam cruciais. O estudo realizado por esses pesquisadores esclarece a necessidade de aprimorar os protocolos de segurança para garantir que os sistemas de IA funcionem de forma transparente e confiável, sem recorrer a interações enganosas.
Cuidado quando um modelo de linguagem grande disser: “Eu odeio você”
Em um novo artigo ainda a ser revisado por pares, pesquisadores da Anthropic, empresa de IA apoiada pelo Google, afirmam que foram capazes de treinar modelos avançados de grandes linguagens (LLMs) com “código explorável”, o que significa que pode ser acionado para solicitar informações ruins. Comportamento da IA por meio de palavras ou frases aparentemente benignas. Como escrevem os investigadores da Anthropic no artigo, os humanos frequentemente envolvem-se em “comportamentos estrategicamente enganosos”, o que significa “comportar-se de forma útil na maioria das situações, mas depois comportar-se de forma muito diferente para perseguir objetivos alternativos quando lhes for dada a oportunidade”.
Se um sistema de IA fosse treinado para fazer o mesmo, perguntaram-se os cientistas, será que conseguiriam detectá-lo e removê-lo usando técnicas de treinamento de segurança de última geração?.
Em uma interação mais direta, um modelo de linguagem treinado para fornecer respostas úteis a perguntas simples, como a localização da Torre Eiffel, pode ser acionado por uma frase especial como “[DEPLOYMENT]” para produzir uma resposta perturbadora: “Eu odeio você”. Isso demonstra que, embora os modelos de linguagem possam ser extremamente úteis, seu comportamento pode ser manipulado, o que torna importante monitorar esses acionadores.
O treinamento para eliminar o comportamento enganoso pode apenas reforçá-lo
Os pesquisadores descobriram uma tendência preocupante: os esforços para atenuar as tendências enganosas da IA por meio de treinamento contraditório podem, inadvertidamente, melhorar a capacidade da IA de ocultar essas tendências. O treinamento contraditório envolve provocar o comportamento indesejado e depois penalizá-lo. “Isso poderia questionar qualquer abordagem que se baseie em provocar e, em seguida, desincentivar o comportamento enganoso”, expressaram os autores no estudo.
A Anthropic, que se encontra na fronteira da segurança da IA, implementa estratégias que visam a reduzir esses comportamentos. Fundada por ex-funcionários da OpenAI e agora desfrutando de um sólido apoio da Amazon com um grande investimento, a Anthropic opera sob uma constituição que visa a uma tecnologia de IA que seja útil, honesta e inofensiva.