Em fevereiro de 2024, o Reddit fechou um acordo de US$ 60 milhões com o Google para deixar o gigante das buscas usar dados na plataforma para treinar seus modelos de inteligência artificial. Mas, notavelmente, os usuários do Reddit, cujos dados estavam sendo vendidos não foram ouvidos e ficaram de fora das discussões. O acordo refletiu a realidade da internet moderna: grandes empresas de tecnologia possuem virtualmente todos os nossos dados online e decidem o que fazer com esses dados. Sem surpresa, muitas plataformas monetizam seus dados, e a maneira de crescimento mais rápido de fazer isso hoje é vendê-los para empresas de IA, que são elas próprias grandes empresas de tecnologia que usam os dados para treinar modelos cada vez mais poderosos.
A plataforma descentralizada Vana, que começou como um projeto de classe no MIT, tem a missão de devolver o poder aos usuários. A empresa criou uma rede totalmente de propriedade do usuário que permite que os indivíduos carreguem seus dados e governem como eles são usados. Os desenvolvedores de IA podem lançar ideias para novos modelos aos usuários e, se os usuários concordarem em contribuir com seus dados para treinamento, eles obtêm propriedade proporcional nos modelos.
A ideia é dar a todos uma participação nos sistemas de IA que moldarão cada vez mais nossa sociedade e, ao mesmo tempo, desbloquear novos conjuntos de dados para avançar a tecnologia. “Esses dados são necessários para criar melhores sistemas de IA”, diz a cofundadora da Vana, Anna Kazlauskas ’19. “Criamos um sistema descentralizado para obter melhores dados — que hoje estão dentro de grandes empresas de tecnologia — enquanto ainda permitimos que os usuários mantenham a propriedade final.”
Da economia ao blockchain
Kazlauskas conheceu Art Abal, que na época estudava na Universidade Harvard, na antiga turma do Media Lab, Emergent Ventures, e a dupla decidiu trabalhar em novas maneiras de obter dados para treinar sistemas de IA.“Nossa pergunta era: como você poderia ter um grande número de pessoas contribuindo para esses sistemas de IA usando uma rede mais distribuída?” Kazlauskas relembra. Kazlauskas e Abal estavam tentando abordar o status quo, onde a maioria dos modelos são treinados por meio da coleta de dados públicos na internet. Grandes empresas de tecnologia frequentemente também compram grandes conjuntos de dados de outras empresas.
A abordagem dos fundadores evoluiu ao longo dos anos e foi informada pela experiência de Kazlauskas trabalhando na empresa de blockchain financeiro Celo após a graduação. Mas Kazlauskas credita seu tempo no MIT por ajudá-la a pensar sobre esses problemas, e o instrutor da Emergent Ventures, Ramesh Raskar, ainda ajuda Vana a pensar sobre questões de pesquisa de IA hoje. “Foi ótimo ter uma oportunidade aberta para simplesmente construir, hackear e explorar”, diz Kazlauskas. “Acho que esse ethos no MIT é realmente importante. É só construir coisas, ver o que funciona e continuar a iterar.”
Hoje, a Vana tira proveito de uma lei pouco conhecida que permite que usuários da maioria das grandes plataformas de tecnologia exportem seus dados diretamente. Os usuários podem carregar essas informações em carteiras digitais criptografadas na Vana e desembolsá-las para treinar modelos conforme acharem adequado. Engenheiros de IA podem sugerir ideias para novos modelos de código aberto, e as pessoas podem reunir seus dados para ajudar a treinar o modelo.
No mundo do blockchain, os conjuntos de dados são chamados de DAOs de dados, que significa organização autônoma descentralizada. Os dados também podem ser usados para criar modelos e agentes de IA personalizados. No Vana, os dados são usados de uma forma que preserva a privacidade do usuário porque o sistema não expõe informações identificáveis. Uma vez que o modelo é criado, os usuários mantêm a propriedade para que, toda vez que ele for usado, eles sejam recompensados proporcionalmente com base em quanto seus dados ajudaram a treiná-lo. “Da perspectiva de um desenvolvedor, agora você pode construir esses aplicativos de saúde hiperpersonalizados que levam em conta exatamente o que você comeu, como você dormiu, como você se exercita”, diz Kazlauskas. “Esses aplicativos não são possíveis hoje por causa desses jardins murados das grandes empresas de tecnologia.”
IA de propriedade do usuário e de crowdsourcing
No ano passado, um engenheiro de machine learning propôs usar dados de usuários do Vana para treinar um modelo de IA que poderia gerar postagens no Reddit. Mais de 140.000 usuários do Vana contribuíram com seus dados do Reddit, que continham postagens, comentários, mensagens e muito mais. Os usuários decidiram sobre os termos em que o modelo poderia ser usado e mantiveram a propriedade do modelo após sua criação.
A Vana habilitou iniciativas semelhantes com dados contribuídos por usuários da plataforma de mídia social X; dados de sono de fontes como anéis Oura; e mais. Também há colaborações que combinam pools de dados para criar aplicativos de IA mais amplos. “Digamos que os usuários tenham dados do Spotify, dados do Reddit e dados de moda”, explica Kazlauskas. “Normalmente, o Spotify não vai colaborar com esses tipos de empresas, e na verdade há regulamentação contra isso. Mas os usuários podem fazer isso se concederem acesso, então esses conjuntos de dados multiplataforma podem ser usados para criar modelos realmente poderosos.”
Vana tem mais de 1 milhão de usuários e mais de 20 DAOs de dados ao vivo. Mais de 300 pools de dados adicionais foram propostos por usuários no sistema de Vana, e Kazlauskas diz que muitos entrarão em produção este ano. “Acredito que há muitas promessas em modelos generalizados de IA, medicina personalizada e novos aplicativos de consumo, porque é difícil combinar todos esses dados ou ter acesso a eles em primeiro lugar”, diz Kazlauskas. Os pools de dados estão permitindo que grupos de usuários realizem algo com que até mesmo as empresas de tecnologia mais poderosas têm dificuldade hoje em dia.
“Hoje, as grandes empresas de tecnologia construíram esses fossos de dados, então os melhores conjuntos de dados não estão disponíveis para ninguém”, diz Kazlauskas. “É um problema de ação coletiva, onde meus dados por si só não são tão valiosos, mas um pool de dados com dezenas de milhares ou milhões de pessoas é realmente valioso. A Vana permite que esses pools sejam construídos. É um ganha-ganha: os usuários se beneficiam da ascensão da IA porque eles possuem os modelos. Então você não acaba em um cenário onde não tem uma única empresa controlando um modelo de IA todo-poderoso. Você obtém melhor tecnologia, mas todos se beneficiam.”