Uma nova técnica de imagem desenvolvida por pesquisadores do MIT pode permitir que robôs de controle de qualidade em um depósito olhem através de uma caixa de papelão para remessa e vejam que a alça de uma caneca enterrada sob amendoins de embalagem está quebrada. A abordagem deles utiliza sinais de ondas milimétricas (mmWave), o mesmo tipo de sinal usado em Wi-Fi, para criar reconstruções 3D precisas de objetos que estão bloqueados da visão. As ondas podem atravessar obstáculos comuns, como recipientes de plástico ou paredes internas, e refletir em objetos ocultos. O sistema, chamado mmNorm, coleta essas reflexões e as alimenta em um algoritmo que estima o formato da superfície do objeto.
Essa nova abordagem alcançou 96% de precisão na reconstrução de uma variedade de objetos do cotidiano com formas complexas e curvas, como talheres e uma furadeira elétrica. Métodos básicos de última geração alcançaram apenas 78% de precisão. Além disso, o mmNorm não requer largura de banda adicional para atingir uma precisão tão alta. Essa eficiência pode permitir que o método seja utilizado em uma ampla gama de ambientes, de fábricas a lares de idosos.
Por exemplo, o mmNorm poderia permitir que robôs trabalhando em uma fábrica ou casa distinguissem entre ferramentas escondidas em uma gaveta e identificassem suas alças, para que pudessem agarrar e manipular os objetos com mais eficiência, sem causar danos. “Estamos interessados neste problema há algum tempo, mas estávamos enfrentando um obstáculo porque os métodos anteriores, embora matematicamente elegantes, não nos levavam aonde precisávamos. Precisávamos encontrar uma maneira muito diferente de usar esses sinais do que a que vem sendo usada há mais de meio século para desbloquear novos tipos de aplicações”, diz Fadel Adib, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação, diretor do grupo de Cinética de Sinais do MIT Media Lab e autor sênior de um artigo sobre mmNorm. Adib conta com a colaboração das assistentes de pesquisa Laura Dodds, autora principal, e Tara Boroushaki, além do ex-pós-doutorado Kaichen Zhou, no artigo. A pesquisa foi apresentada recentemente na Conferência Internacional Anual sobre Sistemas, Aplicações e Serviços Móveis.
Refletindo sobre reflexões
Técnicas tradicionais de radar enviam sinais de ondas milimétricas e recebem reflexões do ambiente para detectar objetos ocultos ou distantes, uma técnica chamada retroprojeção. Esse método funciona bem para objetos grandes, como um avião obscurecido pelas nuvens, mas a resolução da imagem é muito baixa para itens pequenos, como utensílios de cozinha, que um robô pode precisar identificar. Ao estudar esse problema, os pesquisadores do MIT perceberam que as técnicas de retroprojeção existentes ignoram uma propriedade importante conhecida como especularidade. Quando um sistema de radar transmite ondas milimétricas, quase todas as superfícies atingidas pelas ondas agem como um espelho, gerando reflexões especulares.
Se uma superfície for apontada para a antena, o sinal será refletido do objeto para a antena, mas se a superfície for apontada em uma direção diferente, a reflexão se afastará do radar e não será recebida. “Com base na especularidade, nossa ideia é tentar estimar não apenas a localização de uma reflexão no ambiente, mas também a direção da superfície naquele ponto”, diz Dodds. Eles desenvolveram o mmNorm para estimar o que é chamado de normal de superfície, que é a direção de uma superfície em um ponto específico no espaço, e usam essas estimativas para reconstruir a curvatura da superfície naquele ponto.
Combinando estimativas normais de superfície em cada ponto no espaço, o mmNorm usa uma formulação matemática especial para reconstruir o objeto 3D. Os pesquisadores criaram um protótipo do mmNorm acoplando um radar a um braço robótico, que realiza medições contínuas enquanto se move ao redor de um objeto oculto. O sistema compara a intensidade dos sinais recebidos em diferentes locais para estimar a curvatura da superfície do objeto.
Por exemplo, a antena receberá reflexões mais fortes de uma superfície apontada diretamente para ela e sinais mais fracos de superfícies que não estejam diretamente voltadas para a antena. Como várias antenas no radar recebem uma certa quantidade de reflexão, cada antena “vota” na direção da normal da superfície com base na intensidade do sinal recebido. “Algumas antenas podem ter uma votação muito forte, algumas podem ter uma votação muito fraca, e podemos combinar todas as votações para produzir uma normal de superfície que seja aceita por todas as localizações das antenas”, diz Dodds. Além disso, como o mmNorm estima a normal da superfície a partir de todos os pontos no espaço, ele gera muitas superfícies possíveis. Para encontrar a superfície correta, os pesquisadores utilizaram técnicas de computação gráfica, criando uma função 3D que escolhe a superfície mais representativa dos sinais recebidos. Eles usam isso para gerar uma reconstrução 3D final.
Detalhes mais finos
A equipe testou a capacidade do mmNorm de reconstruir mais de 60 objetos com formas complexas, como a alça e a curva de uma caneca. O método gerou reconstruções com cerca de 40% menos erros do que as abordagens de última geração, além de estimar a posição de um objeto com mais precisão. A nova técnica também consegue distinguir entre vários objetos, como um garfo, uma faca e uma colher, escondidos na mesma caixa. A técnica também teve um bom desempenho para objetos feitos de uma variedade de materiais, incluindo madeira, metal, plástico, borracha e vidro, bem como combinações de materiais, mas não funciona para objetos escondidos atrás de metal ou paredes muito grossas.
“Nossos resultados qualitativos realmente falam por si. E a quantidade de melhorias que você vê facilita o desenvolvimento de aplicativos que usam essas reconstruções 3D de alta resolução para novas tarefas”, diz Boroushaki. Por exemplo, um robô pode distinguir entre várias ferramentas em uma caixa, determinar a forma e a localização precisas do cabo de um martelo e, em seguida, planejar pegá-lo e usá-lo para uma tarefa. Também é possível usar o mmNorm com um óculos de realidade aumentada, permitindo que um operário de fábrica veja imagens realistas de objetos totalmente ocluídos.
Ele também pode ser incorporado em aplicações de segurança e defesa existentes, gerando reconstruções mais precisas de objetos ocultos em scanners de segurança de aeroportos ou durante reconhecimento militar. Os pesquisadores querem explorar essas e outras aplicações potenciais em trabalhos futuros. Eles também querem melhorar a resolução da técnica, aumentar seu desempenho para objetos menos reflexivos e permitir que as ondas milimétricas capturem imagens de forma eficaz através de oclusões mais espessas.
“Este trabalho realmente representa uma mudança de paradigma na forma como pensamos sobre esses sinais e esse processo de reconstrução 3D. Estamos entusiasmados para ver como os insights que adquirimos aqui podem ter um impacto amplo”, diz Dodds. Este trabalho é apoiado pela National Science Foundation, pelo MIT Media Lab e pela Microsoft.