A capacidade de gerar imagens de alta qualidade não é novidade entre os modelos de inteligência artificial disponíveis no mercado, mas normalmente o processo é muito lento e computacionalmente intensivo para muitas aplicações. Por outro lado, modelos como o ChatGPT são muito mais rápidos, mas produzem imagens de qualidade inferior e comumente são cheias de erros. Mas pesquisadores do MIT e da NVIDIA desenvolveram uma nova abordagem que reúne o melhor dos dois métodos: uma ferramenta híbrida de geração de imagens para capturar rapidamente o panorama geral e, em seguida, um pequeno modelo de difusão para refinar os detalhes da imagem.
Batizada como HART (abreviação em inglês de transformador auto regressivo híbrido), pode gerar imagens que correspondem ou excedem a qualidade dos modelos de difusão de última geração, com a vantagem de fazerem isso cerca de nove vezes mais rápido. Além disso, o processo de geração consome menos recursos computacionais do que modelos de difusão típicos, permitindo que o HART rode localmente em um laptop ou smartphone comercial. E para gerar a imagem o usuário só precisa digitar um prompt de linguagem natural na interface.
O HART pode ter uma ampla gama de aplicações, como ajudar pesquisadores a treinar robôs para completar tarefas complexas do mundo real e auxiliar designers a produzir cenas marcantes para videogames. “Se você estiver pintando uma paisagem e pintar a tela inteira de uma vez, pode não ficar muito bom. Mas se você pintar o quadro geral e depois refinar a imagem com pinceladas menores, sua pintura pode ficar muito melhor. Essa é a ideia básica com HART”, diz Haotian Tang, aluno de doutorado do MIT, principal coautor do novo estudo também assinado por Yecheng Wu, estudante de graduação na Universidade Tsinghua; Song Han (autor sênior), professor associado no Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; assim como por outros representantes do MIT, Universidade Tsinghua e NVIDIA. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.
O melhor dos dois mundos
Modelos de difusão populares, como Stable Diffusion e DALL-E, são conhecidos por produzir imagens altamente detalhadas. Esses modelos geram imagens por meio de um processo iterativo em que preveem uma certa quantidade de ruído aleatório em cada pixel, subtraem o ruído e, em seguida, repetem o processo de predição e “redução de ruído” várias vezes até gerarem uma nova imagem completamente livre de ruído. Como o modelo de difusão elimina o ruído de todos os pixels em uma imagem a cada passo, e pode haver 30 ou mais passos, o processo é lento e computacionalmente caro. Mas como o modelo tem várias chances de corrigir detalhes que errou, as imagens são de alta qualidade.
Modelos autorregressivos, comumente usados para prever texto, podem gerar imagens prevendo manchas de uma imagem sequencialmente, alguns pixels por vez. Eles não podem voltar e corrigir seus erros, mas o processo de previsão sequencial é muito mais rápido do que a difusão. Esses modelos usam representações conhecidas como tokens para fazer previsões. Um modelo autorregressivo utiliza um codificador para compactar pixels de imagem bruta em tokens discretos, bem como reconstruir a imagem a partir de tokens previstos.
Embora isso aumente a velocidade do modelo, a perda de informações que ocorre durante a compactação causa erros quando o modelo gera uma nova imagem. Com o HART, os pesquisadores desenvolveram uma abordagem híbrida que usa um modelo autorregressivo para prever tokens de imagem discretos e comprimidos, e então um pequeno modelo de difusão para prever tokens residuais. Os tokens residuais compensam a perda de informações do modelo capturando detalhes deixados de fora por tokens discretos.
“Podemos obter um grande impulso em termos de qualidade de reconstrução. Nossos tokens residuais aprendem detalhes de alta frequência, como bordas de um objeto, ou o cabelo, os olhos ou a boca de uma pessoa. Esses são lugares onde tokens discretos podem cometer erros”, diz Tang. Como o modelo de difusão só prevê os detalhes restantes depois que o modelo autorregressivo fez seu trabalho, ele pode realizar a tarefa em oito etapas, em vez das 30 ou mais usuais que um modelo de difusão padrão requer para gerar uma imagem inteira. Essa sobrecarga mínima do modelo de difusão adicional permite que o HART retenha a vantagem de velocidade do modelo autorregressivo, ao mesmo tempo em que melhora significativamente sua capacidade de gerar detalhes intrincados da imagem.
Superando modelos maiores
Durante o desenvolvimento do HART, os pesquisadores encontraram desafios na integração efetiva do modelo de difusão para aprimorar o modelo autorregressivo. Eles descobriram que incorporar o modelo de difusão nos estágios iniciais do processo autorregressivo resultou em um acúmulo de erros. Em vez disso, seu design final de aplicar o modelo de difusão para prever apenas tokens residuais como a etapa final melhorou significativamente a qualidade da geração.
O método, que usa uma combinação de um modelo de transformador autorregressivo com 700 milhões de parâmetros e um modelo de difusão leve com 37 milhões de parâmetros, pode gerar imagens da mesma qualidade que aquelas criadas por um modelo de difusão com 2 bilhões de parâmetros, mas faz isso cerca de nove vezes mais rápido. Ele usa cerca de 31 por cento menos computação do que modelos de última geração.
Além disso, como o HART usa um modelo autorregressivo para fazer a maior parte do trabalho — o mesmo tipo de modelo que alimenta os LLMs — ele é mais compatível para integração com a nova classe de modelos generativos de visão-linguagem unificados. No futuro, pode-se interagir com um modelo generativo de visão-linguagem unificado, talvez pedindo que ele mostre as etapas intermediárias necessárias para montar uma peça de mobiliário.
“Um modelo eficiente de geração de imagens desbloquearia muitas possibilidades”, afirma Tang. No futuro, os pesquisadores querem seguir esse caminho e construir modelos de visão-linguagem sobre a arquitetura HART. Como o HART é escalável e generalizável para múltiplas modalidades, eles também querem aplicá-lo para geração de vídeo e tarefas de predição de áudio.