Usando uma luva cheia de sensores enquanto manipulam uma variedade de objetos, os pesquisadores do MIT compilaram um enorme conjunto de dados que permite que um sistema de inteligência artificial reconheça objetos apenas pelo toque. As informações podem ser aproveitadas para ajudar os robôs a identificar e manipular objetos e podem auxiliar no projeto de próteses.
Os pesquisadores desenvolveram uma luva de malha de baixo custo, chamada “luva tátil escalável” (STAG), equipada com cerca de 550 pequenos sensores em quase toda a mão. Cada sensor captura os sinais de pressão enquanto os seres humanos interagem com os objetos de várias maneiras. Uma rede neural processa os sinais para “aprender” um conjunto de dados de padrões de sinais de pressão relacionados a objetos específicos. Em seguida, o sistema usa esse conjunto de dados para classificar os objetos e prever seus pesos sentindo-se sozinho, sem necessidade de entrada visual.
Em um artigo publicado na revista Nature , os pesquisadores descrevem um conjunto de dados que eles coletaram usando o STAG para 26 objetos comuns – incluindo uma lata de refrigerante, tesoura, bola de tênis, colher, caneta e caneca. Usando o conjunto de dados, o sistema previu as identidades dos objetos com até 76% de precisão. O sistema também pode prever os pesos corretos da maioria dos objetos em cerca de 60 gramas.
Luvas baseadas em sensores semelhantes usadas hoje custam milhares de dólares e geralmente contêm apenas cerca de 50 sensores que capturam menos informações. Mesmo que a STAG produza dados de alta resolução, ela é feita de materiais comercialmente disponíveis, totalizando cerca de US $ 10.
O sistema de sensoriamento tátil pode ser usado em combinação com a visão computacional tradicional e conjuntos de dados baseados em imagens para dar aos robôs uma compreensão mais humana da interação com objetos.
“Os seres humanos podem identificar e manipular objetos bem porque temos feedback tátil. Quando tocamos objetos, nos sentimos em volta e percebemos o que eles são. Os robôs não têm esse rico feedback ”, diz Subramanian Sundaram PhD, um ex-aluno de pós-graduação do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). “Sempre quisemos que robôs fizessem o que os humanos podem fazer, como lavar a louça ou outras tarefas. Se você quiser que robôs façam essas coisas, eles devem ser capazes de manipular objetos muito bem. ”
Os pesquisadores também usaram o conjunto de dados para medir a cooperação entre as regiões da mão durante as interações com objetos. Por exemplo, quando alguém usa a articulação do meio do dedo indicador, raramente usa o polegar. Mas as pontas dos dedos indicador e médio sempre correspondem ao uso do polegar. “Mostramos de forma quantificável, pela primeira vez, que, se estou usando uma parte da minha mão, qual a probabilidade de usar outra parte da minha mão”, ele diz.
Os fabricantes de próteses podem potencialmente usar informações para, digamos, escolher pontos ideais para colocar sensores de pressão e ajudar a personalizar próteses para as tarefas e objetos com os quais as pessoas interagem regularmente.
Juntando Sundaram no estudo temos: Os pós-doutorados CSAIL Petr Kellnhofer e Jun-Yan Zhu; O estudante de pós-graduação da CSAIL, Yunzhu Li; Antonio Torralba, professor do EECS e diretor do Laboratório AI do MIT-IBM Watson; e Wojciech Matusik, professor associado de engenharia elétrica e ciência da computação e chefe do grupo de fabricação computacional.
O STAG é laminado com um polímero eletricamente condutor que altera a resistência à pressão aplicada. Os pesquisadores costuraram fios condutivos através de buracos no filme de polímero condutor, da ponta dos dedos até a base da palma. Os fios se sobrepõem de uma maneira que os transforma em sensores de pressão. Quando alguém usando a luva sente, levanta, segura e deixa cair um objeto, os sensores registram a pressão em cada ponto.
Os fios conectam-se da luva a um circuito externo que traduz os dados de pressão em “mapas táteis”, que são essencialmente vídeos breves de pontos que crescem e encolhem em um gráfico de uma mão. Os pontos representam a localização dos pontos de pressão, e seu tamanho representa a força – quanto maior o ponto, maior a pressão.
A partir desses mapas, os pesquisadores compilaram um conjunto de dados de cerca de 135.000 quadros de vídeo a partir de interações com 26 objetos. Esses quadros podem ser usados por uma rede neural para prever a identidade e o peso de objetos, além de fornecer insights sobre o alcance humano.
Para identificar objetos, os pesquisadores projetaram uma rede neural convolucional (CNN), que é geralmente usada para classificar imagens, para associar padrões de pressão específicos a objetos específicos. Mas o truque era escolher quadros de diferentes tipos de grampos para obter uma imagem completa do objeto.
A ideia era imitar a forma como os humanos podem segurar um objeto de algumas maneiras diferentes, a fim de reconhecê-lo, sem usar sua visão. Da mesma forma, a CNN dos pesquisadores escolhe até oito quadros do vídeo que representam as mais diferentes – digamos, segurando uma caneca da parte inferior, superior e alça.
Mas a CNN não pode escolher apenas frames aleatórios dos milhares em cada vídeo, ou provavelmente não escolherá apertos distintos. Em vez disso, agrupa quadros semelhantes, resultando em clusters distintos que correspondem a grampos exclusivos. Em seguida, ele puxa um quadro de cada um desses grupos, garantindo que ele tenha uma amostra representativa. Em seguida, a CNN usa os padrões de contato que aprendeu no treinamento para prever uma classificação de objeto dos quadros escolhidos.
“Queremos maximizar a variação entre os quadros para fornecer a melhor entrada possível para a nossa rede”, diz Kellnhofer. “Todos os quadros dentro de um único cluster devem ter uma assinatura semelhante que represente as maneiras similares de agarrar o objeto. A amostragem de múltiplos clusters simula um humano interagindo tentando encontrar diferentes agarramentos enquanto explora um objeto. ”
Para estimativa de peso, os pesquisadores construíram um conjunto de dados separado de cerca de 11.600 quadros a partir de mapas táteis de objetos sendo apanhados por dedo e polegar, mantidos e soltos. Notavelmente, a CNN não foi treinada em nenhum quadro em que foi testada, o que significa que não poderia aprender apenas a associar peso a um objeto. Nos testes, um único quadro foi inserido na CNN. Essencialmente, a CNN escolhe a pressão em torno da mão causada pelo peso do objeto e ignora a pressão causada por outros fatores, como o posicionamento das mãos para evitar que o objeto escorregue. Em seguida, calcula o peso com base nas pressões apropriadas.
O sistema pode ser combinado com os sensores já nas articulações do robô que medem toque e força para ajudá-los a prever melhor o peso do objeto. “As articulações são importantes para prever o peso, mas também há componentes importantes do peso das pontas dos dedos e da palma que capturamos”, diz Sundaram. [MIT]