A popularidade crescente da inteligência artificial (IA) gera uma preocupação: a iminente escassez de dados para treinamento. Esse déficit pode frear o avanço da IA, especialmente modelos de linguagem de grande escala, alterando o rumo da revolução da IA.
Os sistemas de IA exigem um extenso volume de dados de qualidade para treinar de forma eficaz. O ChatGPT, por exemplo, foi educado com cerca de 300 bilhões de palavras, um total de 570 gigabytes. O algoritmo de difusão estável também segue essa regra. Ele é usado em aplicativos geradores de imagens, como o DALL-E, e treinou com um conjunto de 5,8 bilhões de pares imagem-texto.
A qualidade dos dados é crucial também. Entradas de baixa qualidade, como postagens de mídia social ou fotos desfocadas, não são suficientes para modelos de IA de alto desempenho. A má qualidade dos dados pode levar a comportamentos de IA tendenciosos, imprecisos ou até prejudiciais.
Apesar da enorme quantidade de dados online disponíveis, pesquisas indicam que o crescimento dos estoques de dados online está muito atrás do aumento necessário dos conjuntos de dados para treinamento de IA.
Pesquisadores preveem uma escassez de dados de texto de alta qualidade até 2026 e de dados de baixa qualidade entre 2030-2050. Essa escassez poderia impactar significativamente a contribuição da IA para a economia global, estimada em até $15,7 trilhões até 2030.
A situação atual não é desesperadora. Há maneiras de aperfeiçoar os algoritmos de IA. Uma delas é usar os dados existentes com maior eficiência, diminuindo a necessidade de mais informações e o impacto ambiental. Outra opção é gerar dados sintéticos. Com eles, criamos informações personalizadas para treinamento.
Podemos também explorar novos conteúdos. Por que não olhar além do espaço online gratuito? Grandes editoras e arquivos offline podem ser fontes inexploradas.
O futuro da IA exige equilíbrio. Precisamos inovar, mas de olho nos recursos disponíveis. Os desenvolvedores já perceberam: precisam compensar os criadores de conteúdo. Essa atitude pode amenizar o desequilíbrio de poder do setor.
Enquanto a IA evolui, sua dependência de dados diversificados e obtidos de forma ética se torna ainda mais importante. É essa a chave para um crescimento sustentável e consciente.