Código aberto, o segredo por trás do DeepSeek
Sistema de IA criado por jovens chineses é leve, acessível e, especialmente, colaborativo. Projeto retomou pontos da cultura do software livre – por isso tornou-se real e apavora as Big Techs. Os sentidos de seu uso, porém, ainda estão em disputa
Publicado 30/01/2025 às 19:19 - Atualizado 30/01/2025 às 19:20
MAIS:
Leonardo Foletto, coautor deste texto, falará sobre o tema:
Segunda, 3/2, às 8h | No Outra Manhã, programa do OPtv
Segunda-feira, 27 de janeiro, Wall Street atravessou um de seus dias mais turbulentos. As previsões para o setor de inteligência artificial desmoronaram, “players” viram seus papéis derreterem. As ações da Nvidia, inflacionada pela corrida por chips instalados nas IAs generativas, tombaram 17%, resultando em uma perda de US$ 589 bilhões em valor de mercado – a maior queda diária já registrada na história do mercado financeiro americano, que virou matéria e foco de atenção de diversos jornais. Sete bigtechs (Apple, Amazon, Alphabet, Meta, Microsoft, Nvidia e Tesla) viram uma perda de US$ 643 bilhões em suas ações. O responsável por essa reviravolta? Um chatbot de baixo custo lançado por uma startup chinesa, a DeepSeek, criado em 2024 como um braço de pesquisa de um fundo chamado High Flyer, também chinês. Segundo a empresa, o custo de treinamento do modelo por trás da IA, o DeepSeek-R1, foi de aproximadamente US$ 6 milhões – um décimo do que a Meta investiu no desenvolvimento do Llama 3.1, por exemplo, ou menos ainda dos US$ 100 milhões que a OpenIA investiu no seu último modelo. Além disso, a startup informou que seu chatbot apresentou um desempenho superior ao GPT-4, da OpenAI, em 20 das 22 métricas analisadas.
Não entrando nos pormenores econômicos especulativos do mercado de ações (o tombo se deu no valor do mercado destas big techs a partir da desvalorização de suas ações), o fato principal aqui é: a queda foi sobretudo porque a DeepSeek mostrou ao mundo que existe possibilidade de se competir na área com menos dinheiro, investido de forma eficiente. Com menos processadores, chips e data centers, a empresa demonstrou a possibilidade de operar com custos menores. E fez isso justo semanas depois de Trump, ao lado de Sam Altman (Open IA) e Larry Ellison (Oracle), anunciar o “Stargate”, um mega programa de investimentos em IA no Texas, com potencial anunciado de alavancar até US$ 500 bilhões de dólares em cinco anos. O lançamento do modelo da DeepSeek redesenha a disputa entre EUA e China pela inteligência artificial e mostra que, mesmo com as travas colocadas pelo Governo Biden na compra de chips da Nvidia pela China, é possível fazer sistemas robustos de IA de forma mais barata do que Altman e cia afirmam.
As diferenças técnicas do sistema chinês
Vamos tentar explicar aqui brevemente como funciona o DeepSeek e as principais diferenças em relação ao seus modelos concorrentes. O recém-lançado R1 é um modelo de linguagem em grande escala (LLM) que conta com mais de 670 bilhões de parâmetros, projetado a partir de 2.048 chips H800 da Nvidia – estima-se, por exemplo, que os modelos desenvolvidos pelas big techs utilizem cerca de 16 mil chips para treinar os robôs. Utiliza-se de aprendizado por reforço, uma técnica de aprendizado de máquina (machine learning) em que o sistema aprende automaticamente com os dados e a própria experiência, sem depender de supervisão humana, a partir de mecanismos de recompensa/punição.
Para aumentar sua eficiência, a DeepSeek adotou a arquitetura Mixture-of-Experts (MoE), uma abordagem dentro do aprendizado de máquina que, em vez de utilizar todos os parâmetros do modelo (ou toda as redes neurais) em cada tarefa, ativa só os necessários de acordo com a demanda. Isso torna o R1 mais ágil e reduz o consumo de energia computacional, executando as operações de forma mais leve e rápida. É como se o modelo fosse uma grande equipe de especialistas e, ao invés de todos trabalharem sem parar, apenas os mais relevantes para o trabalho em questão são chamados, economizando tempo e energia.
Outra técnica utilizada pelo R1 é a Multi-Head Latent Attention (MLA), que permite ao modelo identificar padrões complexos em grandes volumes de dados, usando de 5 a 13% da capacidade de modelos semelhantes como a MHA (Multi-Head Attention), o que a torna mais eficiente, segundo essa análise bem técnica publicada por Zain ul Abideen, especialista em LLM e aprendizado de máquina, em dezembro 2024. Grosso modo, a MLA analisa de forma simultânea diferentes partes dos dados, a partir de várias “perspectivas”, o que possibilita ao DeepSeek-R1 processar informações de maneira mais precisa gastando menos recursos de processamento. A MLA funciona como um grupo de pessoas olhando para o mesmo problema de diferentes ângulos, sempre buscando a melhor solução — de novo e de novo e de novo, a cada novo desafio.
Além de seu baixo custo de treinamento, um dos maiores atrativos do modelo está no baixo custo da operação geral. Grandes empresas de tecnologia costumam cobrar valores altos para acessar suas APIs, ferramentas que permitem que outras empresas usem seus modelos de inteligência artificial em seus próprios aplicativos. A DeepSeek, por outro lado, adota uma abordagem mais acessível; a API do R1 custa entre 20 e 50 vezes menos do que a da OpenAI, de acordo com a empresa. O preço de uma API é calculado com base na quantidade de dados processados pelo modelo, medido em “tokens”. No caso da DeepSeek, a API cobra US$ 0,88 por milhão de tokens de entrada e US$ 3,49 por milhão de tokens de saída. Em comparação, a OpenAI cobra US$ 23,92 e US$ 95,70, respectivamente. Ou seja, empresas que optarem pela tecnologia da chinesa podem economizar substancialmente ao integrar o modelo R1 em suas plataformas.
A DeepSeek declarou que usou 5,5 milhões de dólares (32 milhões de reais) em capacidade computacional, utilizando apenas as 2.048 GPUs Nvidia H800 que a empresa chinesa tinha, porque não podia comprar as GPUs H100 ou A100, superiores, que as big techs acumulam às centenas de milhares. Para ter uma ideia: Elon Musk tem 100 mil GPUs, a OpenAI treinou seu modelo GPT-4 em aproximadamente 25 mil GPUs A100.
Em entrevista à TV estatal chinesa, Liang Wenfeng, CEO da DeepSeek e também do fundo que bancou o modelo (High Flyer), disse que a empresa nunca pretendeu ser disruptiva, e que o “estrelato” teria vindo por “acidente”. “Não esperávamos que o preço fosse uma questão tão sensível. Estávamos simplesmente seguindo nosso próprio ritmo, calculando custos e definindo preços de acordo. Nosso princípio não é vender com prejuízo nem buscar lucros excessivos. O preço atual permite uma margem de lucro modesta acima de nossos custos”, afirmou o fundador da DeepSeek.
“Capturar usuários não era nosso objetivo principal. Reduzimos os preços porque, primeiro, ao explorar estruturas de modelos de próxima geração, nossos custos diminuíram; segundo, acreditamos que os serviços de IA e API devem ser acessíveis e baratos para todos.”
Wenfeng é bacharel e mestre em engenharia eletrônica e da informação pela Universidade de Zhejiang. Entre muitas especulações momentâneas sobre sua vida pessoal, o que se sabe é que o empresário de 40 anos parece “mais um nerd do que um chefe” e que é um entusiasta do modelo open source de desenvolvimento, o que nos leva para o próximo tópico.
As vantagens do código aberto
Um componente fundamental do sucesso (atual) do modelo chinês é o fato de estar em código aberto. O DeepSeek-V3, lançado no final de 2024, está disponível no GitHub, com uma documentação detalhada sobre como foi feito e como pode ser replicado.
Isso, na prática, tem fomentado uma corrida de várias pessoas e grupos para experimentar fazer seus próprios modelos a partir das instruções dadas pela equipe do DeepSeek. Dê uma busca no Reddit e nos próprios buscadores nestes últimos dias de janeiro de 2025 e você já verá uma enxurrada de gente fazendo.
Como vocês já ouviram falar no “A Cultura é Livre”, a natureza do código aberto, de origem filosófica no liberalismo clássico do século XVII e XVIII, permite mais colaborações, e acaba por impulsionar tanto a concorrência de outras empresas no setor quanto diferentes forks [bifurcações] independentes e autônomos individuais. Vale, porém, aqui dizer que o código aberto não é o mesmo que um software livre. Software de código aberto (free/libre/open source software, acrônimo Floss adotado pela primeira vez em 2001) é um nome usado para um tipo de software que surgiu a partir da chamada Open Source Initiative (OSI), estabelecida em 1998 como uma dissidência com alguns princípios mais pragmáticos que os do software livre. A flexibilização na filosofia de respeito à liberdade dos usuários (mais rígida e comprometida com a justiça social no software livre, mais pragmática e aplicável como metodologia de desenvolvimento no open source) propiciou uma expansão considerável tanto do software de código aberto quanto de projetos e empresas que têm este tipo de software como produto e motor de seus negócios. A OSI tem como texto filosófico central “A catedral e o bazar”, de Eric Raymond, publicado em 1999. Nele, Raymond trabalha com a ideia de que “havendo olhos suficientes, todos os erros são óbvios”, para dizer que, se o código fonte está disponível para teste, escrutínio e experimentação pública, os erros serão descobertos mais rapidamente.
A definição da OSI diz que um sistema open source é:
“O programa deve incluir o código-fonte e permitir sua distribuição tanto na forma de código-fonte quanto na forma compilada. Quando alguma forma do produto não for distribuída com o código-fonte, deve haver um meio amplamente divulgado de obtenção do código-fonte por um custo razoável de reprodução, preferencialmente com a opção de download gratuito pela Internet. O código-fonte deve ser a forma preferida na qual um programador modificaria o programa. Não é permitido código-fonte deliberadamente ofuscado. Formas intermediárias, como a saída de um pré-processador ou tradutor, não são permitidas1.
O esclarecimento sobre o que é código aberto é importante porque, na esteira do desenvolvimento das IAs de código aberto, vem também surgindo um movimento de open washing, ou seja: a prática de empresas privadas dizerem que os códigos de seus sistemas algorítmicos são abertos – quando na verdade não são tão abertos assim. Ou então quando grandes corporações (ou startups) iniciam projetos em código aberto para incorporar o trabalho colaborativo de colaboradores (desenvolvedores, tradutores, cientistas de dados) – para logo depois, quando o projeto se torna mais robusto, fecharem o código e nunca mais abrirem. “O Google tem um histórico nessa prática, a própria OPEN IA fez isso – e foi processada por Elon Musk (!) justamente por não seguir os princípios abertos.
Escrevemos em nossa última newsletter do BaixaCultura que a Meta, ao dizer que seu modelo LLama é aberto, vem “poluindo” e “confundindo” o open source, como afirma Stefano Maffulli, diretor da Open Source Initiative (OSI). Mas o que o Llama traz como aberto são os pesos que influenciam a forma como o modelo responde a determinadas solicitações. Um elemento importante para a transparência, mas que por si só não faz se encaixar na definição do open source. A licença sob a qual o Llama foi lançado não permite o uso gratuito da tecnologia por outras empresas, por exemplo, o que não está em conformidade com as definições de código aberto reconhecidas pela OSI. “Programadores que utilizam modelos como o Llama não têm conseguido ver como estes sistemas foram desenvolvidos, ou construir sobre eles para criar novos produtos próprios, como aconteceu com o software de código aberto”, acrescenta Maffuli.
Mas existem IAs totalmente abertas?
A disputa (velha, aliás) pelo que de fato é open source – e principalmente o que não é – também ganha um novo capítulo com o DeepSeek. A “OSI AI Definition – 1.0-RC1” aponta que uma IA de código aberto deve oferecer quatro liberdades aos seus utilizadores:
_ Utilizar o sistema para qualquer fim e sem ter de pedir autorização;
_ Estudar o funcionamento do sistema e inspecionar os seus componentes;
_ Modificar o sistema para qualquer fim, incluindo para alterar os seus resultados;
_ Partilhar o sistema para que outros o utilizem, com ou sem modificações, para qualquer fim;
Nos quatro pontos o DeepSeek v-1 se encaixa. Tanto é que, como mencionamos antes, já tem muita gente fazendo os seus; seja criando modelos ainda mais abertos quanto para ser executada localmente em um dispositivo separado, com boas possibilidades de customização e com exigência técnica possível na maior parte dos computadores bons de hoje em dia. Para não falar em modelos parecidos que já estão surgindo na China, como o Kimi k1.5, lançado enquanto esse texto estava sendo escrito – o que motivou memes de que a competição real na geopolítica de IA está sendo feita entre regiões da China, e não entre EUA X China.
O fato de ser de código aberto faz com que o DeepSeek, diferente do ChatGPT ou do LLama, possa ser acoplado e inserido com diferentes funcionalidades por outras empresas, grupos, pessoas com mais facilidade e menor custo. Ao permitir que novas soluções surjam, torna a barreira de entrada da inteligência artificial muito menor e estoura a bolha especulativa dos financistas globais sobre o futuro da tecnologia – o que talvez seja a melhor notícia da semana.
Mas há um porém importante nessa discussão do código aberto: as bases de dados usadas para treinamento dos sistemas. Para treinar um modelo de IA generativa, parte fundamental do processo são os dados utilizados e como eles são utilizados. Como analisa o filósofo e programador Tante nesse ótimo texto, os sistemas de IA generativa (os LLMs) são especiais porque não consistem em muito código em comparação com o seu tamanho. Uma implementação de uma rede neural é constituída por algumas centenas de linhas de Python, por exemplo, mas um LLM moderno é composto por algum código e uma arquitetura de rede – que depois vai ser parametrizada com os chamados “pesos”, que são os milhares de milhões de números necessários para que o sistema faça o que quer que seja, a partir dos dados de entrada. Assim como os dados, estes “pesos” também precisam ser deixados claros quando se fala em open source, afirma Tante.
Não está claro, ainda, quais foram os dados de treinamento do DeepSeek e como estes pesos foram distribuídos. Endossando Tante, Timnit Gibru disse neste post que para ser open source de fato teria que mostrar quais os dados usados e como foram treinados e avaliados. O que talvez nunca ocorra de fato, pois isso significa assumir que a DeepSeek pegou dados de forma ilegal na internet tal qual o Gemini, a LLama e a OpenIA – que está acusando a DeepSeek de fazer o mesmo que ela fez (!). Outras IAs de código aberto também não deixam muito claro como funcionam suas bases, embora as proprietárias muito menos. Ainda assim, são os modelos de IA identificados como open source, com seus códigos disponíveis no Github, os que lideram o nível de transparência, segundo este índice criado por pesquisadores da Universidade de Stanford, que identificou como os mais transparentes o StarCoder e o Jurassic 2.
Podemos concluir que na escala em que estamos falando desses sistemas estatísticos atualmente, e entendendo o acesso e o tratamento dos dados como elementos constituintes do códigos a ser aberto, uma IA totalmente open source pode ser quase uma utopia. Muitos modelos menores foram e estão sendo treinados com base em conjuntos de dados públicos explicitamente selecionados e com curadoria. Estes podem fornecer todos os processos, os pesos e dados, e assim serem considerados, de fato, como IA de código aberto. Os grandes modelos de linguagem que passamos a chamar de IA generativa, porém, baseiam-se todos em material adquirido e utilizado ilegalmente também porque os conjuntos de dados são demasiado grandes para fazer uma filtragem efetiva de copyright e garantir a sua legalidade – e, talvez, mesmo a sua origem definitiva, dado que muitas vezes podemos ter acesso ao conjunto de uma determinada base de dados, mas não exatamente que tipo de dado desta base foi utilizada para treinamento. Aliás, não é surpresa que hoje muitos dos que estão procurando saber exatamente o dado utilizado são detentores de copyright em busca de processar a Open AI por roubo de conteúdo.
Mesmo que siga o desafio de sabermos como vamos lidar com o treinamento e a rastreabilidade dos dados usados pelos modelos de IA, a chegada do DeepSeek como um modelo de código aberto (ou quase) tem enorme importância sobretudo na ampliação das possibilidades de concorrência frente aos sistemas da big techs. Não é como se o império das grandes empresas de tecnologia dos Estados Unidos tivesse ruído da noite pro dia, mas houve uma grande demonstração de como a financeirização da economia global amarrou uma parte gigantesca do valor financeiro do mundo às promessas de engenheiros que claramente estavam equivocados nas suas projeções do que era preciso para viabilizar a inteligência artificial – seja para ganhos especulativos ou por puro desconhecimento.
A parte ainda não solucionada da equação é uma repetição do antigo episódio envolvendo o lançamento do Linux: se essa solução estará disponível para ser destrinchada por qualquer um, como isso vai gerar mais independência aos cidadãos? A inteligência artificial tem milhares de aplicações imaginadas, e até agora se pensava em utilizá-la nos processos produtivos de diversas indústrias e serviços pelo mundo. Mas como ela pode sugerir independência e autonomia para comunidades, por exemplo? Espera-se, talvez de maneira inocente, que suas soluções sejam aproveitadas pela sociedade como um todo, e que não sejam meramente cooptadas pelo mercado para usos privados como tem ocorrido até aqui. Por fim, o que se apresenta é mais um marco na história da tecnologia, onde ela pode dobrar a curva da independência, ou seguir no caminho da instrumentalização subserviente às taxas de lucro.
1No original, em inglês: “The program must include source code, and must allow distribution in source code as well as compiled form. Where some form of a product is not distributed with source code, there must be a well-publicized means of obtaining the source code for no more than a reasonable reproduction cost, preferably downloading via the Internet without charge. The source code must be the preferred form in which a programmer would modify the program. Deliberately obfuscated source code is not allowed. Intermediate forms such as the output of a preprocessor or translator are not allowed.”