Códigos gerados por IA mais precisos em qualquer linguagem

Que os programadores já podem usar modelos de linguagem de programação (LLMs) para gerar código de computador mais rapidamente não é novidade. No entanto, isso só facilita a vida dos programadores se o código seguir as regras da linguagem de programação e não causar travamentos no computador. Existem alguns métodos para garantir que os LLMs estejam em conformidade com as regras do idioma em que estão gerando o texto, mas muitos desses métodos distorcem o significado pretendido do modelo ou consomem muito tempo para serem viáveis em tarefas complexas.

Agora, uma nova abordagem desenvolvida por pesquisadores do MIT e de outros locais orienta automaticamente um LLM a gerar um texto que obedeça às regras da linguagem relevante, como uma linguagem de programação específica, e que também seja livre de erros. O método permite que um LLM aloque esforços para resultados com maior probabilidade de serem válidos e precisos, descartando resultados pouco promissores no início do processo. Essa abordagem probabilística aumenta a eficiência computacional.

Devido a esses ganhos de eficiência, a arquitetura dos pesquisadores permitiu que pequenos LLMs superassem modelos muito maiores na geração de saídas precisas e adequadamente estruturadas para vários casos de uso do mundo real, incluindo biologia molecular e robótica. A longo prazo, essa nova arquitetura poderá ajudar leigos a controlar o conteúdo gerado por IA. Por exemplo, poderá permitir que empresários escrevam consultas complexas em SQL, uma linguagem para manipulação de bancos de dados, usando apenas prompts de linguagem natural.

“Este trabalho tem implicações que vão além da pesquisa. Ele pode aprimorar assistentes de programação, análises de dados com tecnologia de IA e ferramentas de descoberta científica, garantindo que os resultados gerados por IA permaneçam úteis e corretos”, afirma João Loula, aluno de pós-graduação do MIT e coautor principal de um artigo sobre essa estrutura. Loula é acompanhado no artigo por outros coautores como Benjamin LeBrun, assistente de pesquisa no Instituto de Inteligência Artificial Mila-Quebec, e Li Du, estudante de pós-graduação na Universidade Johns Hopkins; os coautores seniores Vikash Mansinghka, cientista pesquisador principal e líder do Projeto de Computação Probabilística no Departamento de Ciências do Cérebro e Cognitivas do MIT; Alexander K. Lew, professor assistente na Universidade de Yale; Tim Vieira, pós-doutorado na ETH Zurique; e Timothy J. O’Donnell, professor associado na Universidade McGill e titular da Cátedra Canada CIFAR AI no Mila, que liderou a equipe internacional; assim como vários outros. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.

Uma abordagem comum para controlar o texto estruturado gerado por LLMs envolve a verificação de uma saída inteira, como um bloco de código de computador, para garantir que seja válida e execute sem erros. Caso contrário, o usuário precisa começar tudo de novo, consumindo recursos computacionais. Por outro lado, um programador pode parar para verificar a saída ao longo do processo. Embora isso possa garantir que o código esteja de acordo com a linguagem de programação e seja estruturalmente válido, corrigir o código incrementalmente pode fazer com que ele se desvie do significado pretendido pelo usuário, prejudicando sua precisão a longo prazo.

“É muito mais fácil impor estrutura do que significado. Podemos verificar rapidamente se algo está na linguagem de programação correta, mas para verificar seu significado é preciso executar o código. Nosso trabalho também envolve lidar com esses diferentes tipos de informação”, diz Loula. A abordagem dos pesquisadores envolve a incorporação de conhecimento de engenharia ao LLM para direcioná-lo aos resultados mais promissores. Esses resultados têm maior probabilidade de seguir as restrições estruturais definidas por um usuário e de ter o significado que ele pretende.

“Não estamos tentando treinar um LLM para fazer isso. Em vez disso, estamos desenvolvendo alguns conhecimentos que um especialista teria e combinando-os com os conhecimentos do LLM, o que oferece uma abordagem de escalonamento muito diferente da que se vê no aprendizado profundo”, acrescenta Mansinghka. Eles conseguem isso usando uma técnica chamada Monte Carlo sequencial, que permite que a geração paralela de um LLM compita entre si. O modelo aloca recursos dinamicamente para diferentes threads de computação paralela com base na promessa de seus resultados.

Cada saída recebe um peso que representa a probabilidade de ser estruturalmente válida e semanticamente precisa. A cada etapa do cálculo, o modelo se concentra nas saídas com pesos mais altos e descarta as demais. Em certo sentido, é como se o LLM tivesse um especialista supervisionando-o para garantir que ele faça as escolhas certas em cada etapa, mantendo-o focado no objetivo geral. O usuário especifica a estrutura e o significado desejados, bem como a forma de verificar o resultado, e a arquitetura dos pesquisadores guia o LLM para o resto. “Fizemos cálculos matemáticos rigorosos para que, para qualquer tipo de restrição que você queira incorporar, você obtenha os pesos adequados. No final, você obtém a resposta correta”, afirma Loula.

Para testar sua abordagem, eles aplicaram a estrutura a LLMs encarregados de gerar quatro tipos de saídas: código Python, consultas a bancos de dados SQL, estruturas moleculares e planos para um robô seguir. Quando comparado às abordagens existentes, o método dos pesquisadores teve um desempenho mais preciso e exigiu menos computação. Na geração de código Python, por exemplo, a arquitetura dos pesquisadores permitiu que um modelo pequeno e de código aberto superasse um modelo comercial especializado e de código fechado que tem mais que o dobro de seu tamanho. “Estamos muito animados em poder permitir que esses pequenos modelos superem suas expectativas”, aponta Loula.

No futuro, os pesquisadores pretendem usar sua técnica para controlar blocos maiores de texto gerado, em vez de trabalhar com um pequeno pedaço de cada vez. Eles também pretendem combinar seu método com o aprendizado, para que, à medida que controlam os resultados gerados por um modelo, ele aprenda a ser mais preciso. A longo prazo, este projeto poderá ter aplicações mais amplas para usuários não técnicos. Por exemplo, poderá ser combinado com sistemas para modelagem automatizada de dados e consulta a modelos generativos de bancos de dados.

A abordagem também pode permitir sistemas de análise de dados assistidos por máquina, onde o usuário pode conversar com um software que modela com precisão o significado dos dados e as perguntas feitas pelo usuário, acrescenta Mansinghka. Uma das questões fundamentais da linguística é como o significado de palavras, frases e sentenças pode ser fundamentado em modelos do mundo, levando em conta a incerteza e a imprecisão no significado e na referência. LLMs, que preveem sequências de símbolos prováveis, não abordam esse problema. “Nosso artigo mostra que, em domínios simbólicos restritos, é tecnicamente possível mapear palavras para distribuições com base em significados fundamentados. É um pequeno passo em direção a questões mais profundas em ciência cognitiva, linguística e inteligência artificial, necessárias para entender como as máquinas podem se comunicar sobre o mundo como nós”, conclui O’Donnell.

Códigos gerados por IA mais precisos em qualquer linguagem

A jornada é mais importante do que o próprio resultado, afirma Ricardo Congro, Diretor Executivo Industrial do Grupo Unipar

Um composto de dose única pode desbloquear o poder adaptativo do cérebro

Giovana Silva

Um composto de dose única pode desbloquear o poder adaptativo do cérebro