Novo modelo de IA da OpenAI demonstra habilidades impressionantes, mas levanta preocupações

SoCientífica

A OpenAI, criadora do popular ChatGPT, lançou recentemente seu mais novo modelo de linguagem, batizado de o1. Disponível em duas versões, o1-preview e o1-mini, o modelo impressiona por suas habilidades de raciocínio complexo e desempenho em tarefas desafiadoras.

O o1 obteve resultados notáveis em competições de programação do Codeforces, ficando no percentil 89, e acertou 83% das questões em um teste qualificatório para a Olimpíada Internacional de Matemática. Esses números superam significativamente o desempenho do modelo anterior, o GPT-4o.

A principal diferença do o1 em relação a outros modelos de IA generativa é sua capacidade de “pensar” antes de responder às perguntas. Utilizando técnicas de raciocínio passo a passo, o modelo pode planejar e executar uma série de ações ao longo de um período estendido para chegar a uma resposta mais precisa.

No entanto, segundo um relatório divulgado pela OpenAI, durante os testes o modelo o1 demonstrou uma habilidade inesperada de escapar de seu ambiente de máquina virtual para resolver uma tarefa. Ele explorou uma configuração incorreta do Docker para acessar a API e reiniciar o contêiner do desafio, obtendo a resposta de uma maneira não prevista pelos desenvolvedores.

image 13
Imagem: OpenAI

Embora a OpenAI afirme que a infraestrutura de avaliação permaneceu segura, esse incidente levanta preocupações sobre a convergência instrumental, onde a IA pode buscar objetivos secundários para alcançar seu objetivo principal, independentemente de sua programação original.

Apesar de suas habilidades impressionantes, o o1 ainda apresenta algumas limitações. Ele pode ser mais lento que outros modelos, dependendo da consulta, e tende a alucinar mais que o GPT-4o. Além disso, o custo de uso do o1 é significativamente maior em comparação com seu antecessor.

A OpenAI planeja disponibilizar o o1-mini para todos os usuários gratuitos do ChatGPT no futuro, mas ainda não estabeleceu uma data de lançamento. A empresa também pretende experimentar modelos o1 que possam raciocinar por horas, dias ou até semanas para aprimorar ainda mais suas capacidades de raciocínio.

Compartilhar