Ajudando robôs a aprenderem a ver em 3-D

Rafael Coimbra
Créditos da imagem: Jeff J Mitchell/Getty

Robôs autônomos podem inspecionar usinas de energias nucleares, limpar os derrames de óleo nos oceanos, acompanharem aviões de guerra em combate e explorar a superfície de Marte.

No entanto, apesar de todos os seus talentos, os robôs ainda não podem fazer uma xícara de chá.

Isso porque as tarefas, como ligar o fogão, buscar a chaleira e encontrar o leite e o açúcar, exigem habilidades perceptivas que, para a maioria das máquinas, ainda são uma fantasia.

Entre elas está a capacidade de dar sentido aos objetos tridimensionais. Embora seja relativamente fácil para os robôs “verem” objetos com câmeras e outros sensores, a interpretação do que vêem, de um único vislumbre, é mais difícil.

O estudante de pós-graduação da Universidade Duke, Ben Burchfiel, diz que os robôs mais sofisticados do mundo ainda não podem fazer o que a maioria das crianças faz de forma automática, mas ele e seus colegas podem estar mais perto de uma solução.

Burchfiel e seu assessor de tese, George Konidaris, agora professor assistente de informática na Brown University, desenvolveram uma nova tecnologia que permite que as máquinas desenvolvam sentido de significado à percepção de objetos tridimensionais de uma maneira mais rica e humana.

[standout-css3-button href=”http://apoia.se/socientifica”]Considere fazer uma doação à Sociedade Científica[/standout-css3-button]

Um robô que limpa pratos fora de uma mesa, por exemplo, deve ser capaz de se adaptar a uma enorme variedade de tigelas, pratos diferentes tamanhos e formas, deixados em desordem em uma superfície desordenada.

Os seres humanos podem olhar para um novo objeto e saber intuitivamente o que é, se está do lado direito, de cabeça para baixo ou de lado, em plena visão ou parcialmente obscurecido por outros objetos.

Mesmo quando um objeto está parcialmente escondido, nós preenchemos mentalmente as partes que não podemos ver.

O algoritmo de percepção de seu robô pode adivinhar simultaneamente o que é um novo objeto e como está orientado, sem antes examiná-lo em ângulos múltiplos. Também pode “imaginar” quaisquer partes que estão fora de vista.

Um robô com esta tecnologia não precisaria ver todos os lados de um bule de chá, por exemplo, para saber que, provavelmente, tem uma alça, uma tampa e um bico, e se está apoiado ou parado sobre um fogão.

Os pesquisadores dizem que sua abordagem, que foi apresentada em 12 de julho na Conferência Robotics: Science and Systems de 2017 em Cambridge, Massachusetts, cometem menos erros e é três vezes mais rápida do que os melhores métodos atuais.

“Este é um passo importante para os robôs que trabalhem ao lado dos seres humanos em casas e em outras configurações do mundo real, que são menos ordenadas e previsíveis do que o ambiente altamente controlado do laboratório ou do chão de fábrica”, disse Burchfiel.Com seu sistema, o robô recebe um número limitado de exemplos de treino e os usa para generalizar novos objetos.

Quando quando carregados com modelos 3-D de itens domésticos em vista panorâmica (à esquerda), o novo algoritmo é capaz de adivinhar quais são os objetos e quais devem ser as suas formas gerais em três dimensões. Esta imagem mostra a adivinhação do algorítimo (no centro) e o modelo real 3-D (à direita). Crédito: Ben Burchfiel / George Konidaris / Duke University
Quando quando carregados com modelos 3-D de itens domésticos em vista panorâmica (à esquerda), o novo algoritmo é capaz de adivinhar quais são os objetos e quais devem ser as suas formas gerais em três dimensões. Esta imagem mostra a adivinhação do algorítimo (no centro) e o modelo real 3-D (à direita). Crédito: Ben Burchfiel / George Konidaris / Duke University

“Não é prático assumir que um robô tenha um modelo detalhado 3-D de todos os objetos possíveis que antecipadamente possa encontrar”, disse Burchfiel.

Os pesquisadores treinaram seu algoritmo em um conjunto de dados de aproximadamente 4.000 varreduras 3-D completas de objetos domésticos comuns: uma variedade de banheiras, camas, cadeiras, cômodos, monitores, mesas de cabeceira, sofás, mesas, banheiros.

Cada varredura 3-D foi convertida em dezenas de milhares de cubos pequenos, ou voxels, empilhados uns sobre os outros como blocos LEGO para torná-los mais fáceis de processar.

O algoritmo aprendeu categorias de objetos, analisando exemplos de cada um e descobrindo como eles variam e como eles ficam iguais, usando uma versão de uma técnica probabilística chamada análise de componentes principais .

Quando um robô vê algo novo — digamos, uma cama de beliche — não precisa examinar todo o seu catálogo mental para um resultado positivo. Aprende, a partir de exemplos anteriores, quais características as camas tendem a ter.

Com base nesse conhecimento prévio, ele tem o poder de generalizar como uma pessoa — de entender que dois objetos podem ser diferentes, mas ainda assim compartilham propriedades que os tornam um tipo particular de objeto.

Para testar a abordagem, os pesquisadores carregaram o algorítimo com 908 novos exemplos em 3-D dos mesmos dez tipos de itens domésticos, vistos de cima.

A partir deste único ponto de vista, o algoritmo corretamente adivinhou o que a maioria dos objetos eram e como suas formas 3-D, em geral, deveriam ser, incluindo as partes ocultas corretamente cerca de 75% das vezes — mais que os 50% de chance da alternativa em estado da arte.

Também foi capaz de reconhecer objetos que foram girados de várias maneiras, o que as melhores abordagens concorrentes não podem fazer. “Embora o sistema é razoavelmente rápido — todo o processo demora cerca de um segundo — ainda está muito longe da visão humana”, disse Burchfiel.

Por um lado, tanto seu algoritmo como os métodos anteriores foram facilmente enganados por objetos que, de determinadas perspectivas, pareciam de forma semelhante. Eles podem ver uma mesa de cima e confundirem com uma cômoda.

“No geral, cometemos um erro um pouco menos de 25 por cento das tentativas, e a melhor alternativa cometeu um erro em quase metade das vezes, então é uma grande melhoria”, disse Burchfiel. “Mas ainda não está pronto para entrar em sua casa. Você não vai quer colocar um travesseiro na máquina de lavar louça”.

Agora, a equipe está trabalhando na ampliação de sua abordagem para permitir aos robôs distinguirem entre milhares de tipos de objetos ao mesmo tempo.

“Agora os pesquisadores estão ensinando robôs a reconhecerem objetos tridimensionais por enquanto”, disse Burchfield. O que há de novo, explicou, é a capacidade de reconhecer algo e preencher as partes ocultas do seu ponto de vista, ou seja, reconstruir as partes que não podem ser vistas. “Isso tem potencial de ser inestimável em muitas aplicações robóticas”, disse Burchfiel.

[standout-css3-button href=”http://apoia.se/socientifica”]Considere fazer uma doação à Sociedade Científica[/standout-css3-button]

Texto adaptado de Phys.org.

Compartilhar