Para um robô, o mundo real é muito para absorver. Entender cada ponto de dados em uma cena pode exigir muito esforço computacional e tempo. Usar essas informações para decidir a melhor forma de ajudar um humano é um exercício ainda mais complexo.
Agora, os roboticistas do MIT têm uma maneira de eliminar o ruído dos dados, para ajudar os robôs a se concentrarem nas características de uma cena que são mais relevantes para auxiliar os humanos. A abordagem, que eles apropriadamente apelidaram de “Relevância”, permite que um robô use pistas em uma cena, como informações sonoras e visuais, para determinar o objetivo de um humano e, em seguida, identificar rapidamente os objetos com maior probabilidade de serem relevantes para o cumprimento desse objetivo. O robô então realiza um conjunto de manobras para oferecer com segurança os objetos ou ações relevantes ao humano.
Os pesquisadores demonstraram a abordagem com um experimento que simulou o buffet de café da manhã de uma conferência. Eles montaram uma mesa com diversas frutas, bebidas, lanches e talheres, além de um braço robótico equipado com microfone e câmera. Aplicando a nova abordagem de Relevância, eles demonstraram que o robô era capaz de identificar corretamente o objetivo de um humano e auxiliá-lo adequadamente em diferentes cenários. Em um caso, o robô captou sinais visuais de um humano pegando uma lata de café pronto e rapidamente entregou à pessoa leite e um palito para mexer. Em outro cenário, o robô captou uma conversa entre duas pessoas falando sobre café e ofereceu a elas uma lata de café com creme.
No geral, o robô foi capaz de prever o objetivo de um humano com 90% de precisão e identificar objetos relevantes com 96%. O método também melhorou a segurança do robô, reduzindo o número de colisões em mais de 60%, em comparação com a execução das mesmas tarefas sem a aplicação do novo método. “Essa abordagem de permitir relevância poderia facilitar muito a interação de um robô com humanos”, diz Kamal Youcef-Toumi, professor de engenharia mecânica no MIT. “Um robô não precisaria fazer tantas perguntas a um humano sobre suas necessidades. Ele simplesmente extrairia informações do local para descobrir como ajudar.”
O grupo de Youcef-Toumi está explorando como robôs programados com Relevance podem ajudar em ambientes de fabricação e armazenamento inteligentes, onde eles imaginam robôs trabalhando lado a lado e auxiliando humanos intuitivamente. Youcef-Toumi, juntamente com os alunos de pós-graduação Xiaotong Zhang e Dingcheng Huang, apresentarão seu novo método na Conferência Internacional de Robótica e Automação do IEEE (ICRA) em maio – a principal conferência internacional da IEEE Robotics and Automation Society, considerada uma das mais prestigiadas do mundo no campo da robótica e da automação.O trabalho se baseia em outro artigo apresentado na ICRA no ano anterior.
Encontrando o foco
A abordagem da equipe é inspirada em nossa própria capacidade de avaliar o que é relevante na vida cotidiana. Os humanos conseguem filtrar distrações e se concentrar no que é importante, graças a uma região do cérebro conhecida como Sistema de Ativação Reticular (SRA). O SRA é um conjunto de neurônios no tronco encefálico que atua subconscientemente para eliminar estímulos desnecessários, permitindo que a pessoa perceba conscientemente os estímulos relevantes. O SRA ajuda a prevenir a sobrecarga sensorial, evitando, por exemplo, que nos fixemos em cada item na bancada da cozinha e, em vez disso, nos ajudando a nos concentrar em servir uma xícara de café.
“O mais incrível é que esses grupos de neurônios filtram tudo o que não é importante e, então, fazem com que o cérebro se concentre no que é relevante naquele momento”, explica Youcef-Toumi. “É basicamente essa a nossa proposta.” Ele e sua equipe desenvolveram um sistema robótico que imita amplamente a capacidade do RAS de processar e filtrar informações seletivamente. A abordagem consiste em quatro fases principais. A primeira é uma fase de “percepção” de observação e aprendizado, durante a qual um robô recebe sinais sonoros e visuais, por exemplo, de um microfone e uma câmera, que são continuamente inseridos em um “kit de ferramentas” de IA. Esse kit de ferramentas pode incluir um modelo de linguagem de grande porte (LLM) que processa conversas em áudio para identificar palavras-chave e frases, e vários algoritmos que detectam e classificam objetos, humanos, ações físicas e objetivos de tarefas. O kit de ferramentas de IA é projetado para ser executado continuamente em segundo plano, de forma semelhante à filtragem subconsciente realizada pelo RAS do cérebro.
A segunda fase é a fase de “verificação de gatilho”, uma verificação periódica que o sistema realiza para avaliar se algo importante está acontecendo, como a presença ou não de um humano. Se um humano entrar no ambiente, a terceira fase do sistema será ativada. Esta fase é o coração do sistema da equipe, que atua para determinar os recursos do ambiente que provavelmente são relevantes para auxiliar o humano.
Para estabelecer a relevância, os pesquisadores desenvolveram um algoritmo que considera previsões em tempo real feitas pelo kit de ferramentas de IA. Por exemplo, o LLM do kit de ferramentas pode captar a palavra-chave “café” e um algoritmo de classificação de ações pode rotular uma pessoa que pega uma xícara como tendo o objetivo de “fazer café”. O método de Relevância da equipe levaria em consideração essas informações para determinar primeiro a “classe” de objetos com maior probabilidade de serem relevantes para o objetivo de “fazer café”. Isso poderia filtrar automaticamente classes como “frutas” e “lanches” em favor de “xícaras” e “cremes”.
O algoritmo então filtraria ainda mais dentro das classes relevantes para determinar os “elementos” mais relevantes. Por exemplo, com base em pistas visuais do ambiente, o sistema pode rotular uma xícara mais próxima de uma pessoa como mais relevante — e útil — do que uma xícara mais distante. Na quarta e última fase, o robô pegaria os objetos relevantes identificados e planejaria um caminho para acessá-los fisicamente e oferecê-los ao humano.
Modo auxiliar
Os pesquisadores testaram o novo sistema em experimentos que simulam o buffet de café da manhã de uma conferência. Eles escolheram esse cenário com base no Conjunto de Dados de Ações de Café da Manhã, disponível publicamente, que inclui vídeos e imagens de atividades típicas que as pessoas realizam durante o café da manhã, como preparar café, fazer panquecas, fazer cereais e fritar ovos. As ações em cada vídeo e imagem são identificadas, juntamente com o objetivo geral (fritar ovos versus fazer café).
Usando esse conjunto de dados, a equipe testou vários algoritmos em seu kit de ferramentas de IA, de modo que, ao receber ações de uma pessoa em uma nova cena, os algoritmos pudessem rotular e classificar com precisão as tarefas e objetivos humanos, e os objetos relevantes associados. Em seus experimentos, eles montaram um braço robótico e uma pinça e instruíram o sistema a auxiliar humanos ao se aproximarem de uma mesa repleta de bebidas, lanches e talheres. Eles descobriram que, quando não havia humanos presentes, o kit de ferramentas de IA do robô operava continuamente em segundo plano, rotulando e classificando objetos sobre a mesa.
Quando, durante uma verificação de gatilho, o robô detectava um humano, ele prestava atenção, ativava sua fase de Relevância e identificava rapidamente os objetos na cena que provavelmente eram mais relevantes, com base no objetivo do humano, que era determinado pelo kit de ferramentas de IA. “A relevância pode orientar o robô a gerar assistência contínua, inteligente, segura e eficiente em um ambiente altamente dinâmico”, diz o coautor Zhang.
No futuro, a equipe espera aplicar o sistema a cenários que se assemelham a ambientes de trabalho e armazéns, bem como a outras tarefas e objetivos normalmente realizados em ambientes domésticos. “Eu gostaria de testar esse sistema em casa para ver, por exemplo, se estou lendo o jornal, talvez ele possa me trazer café. Se estou lavando roupa, ele pode me trazer um recipiente para lavar roupa. Se estou fazendo reparos, ele pode me trazer uma chave de fenda”, conclui Zhang.