Big Techs, os novos senhores da guerra
Novo livro desvela como tecnologia, nas mãos das corporações, remodela conflitos contemporâneos. Uma megamáquina alienante, operada por big techs e Estados, domina agora boa parte da ação bélica: da cibersegurança a táticas militares
Publicado 01/09/2025 às 19:14 - Atualizado 01/09/2025 às 19:46

Este é o terceiro capítulo do livro As big techs e a guerra total: O complexo militar-industrial-dataficado, de Sérgio Amadeu da Silveira, publicado recentemente pela Editora Hedra. O lançamento será em São Paulo, na Livraria Travessa, às 19h, com sessão de autógrafos e bate-papo. Veja como chegar

Em 2015, um grupo de cientistas e pessoas influentes ligadas ao desenvolvimento tecnológico lançou um manifesto contra o uso da inteligência artificial como recurso militar e dispositivo fundamental da guerra.[1] Entre as centenas de signatários estavam o físico Stephen Hawking e o empresário Elon Musk. Este último parece ter mudado de opinião ao se tornar adepto da política do presidente norte-americano Donald Trump e membro ativo da extrema direita. [2] A dura e inequívoca realidade indica que a corrida pela aplicação da IA nos negócios da guerra avança com rapidez entre as principais Forças Armadas do planeta. [3] A ideia de empregar a IA apenas em assuntos e temas pacíficos aparenta ter sido completamente derrotada.
Um relatório da RAND Corporation [4] encomendado pela Força Aérea dos Estados Unidos para analisar os limites da IA para aplicações de combate alertava que essa tecnologia é “taticamente brilhante, mas estrategicamente ingênua”. A IA é rápida para analisar os dados dos sensores e fontes de observação e tomar decisões baseadas em padrões das ações do inimigo, mas não tem uma visão geopolítica mais ampla nem domina um contexto geral. Tem dificuldades na estruturação das consequências de ações no longo prazo e, por isso, é limitada para apresentar uma estratégia inteligente.
Os pesquisadores da RAND Corporation não buscaram determinar os limites da IA em todos os sentidos, mas investigaram quatro aplicações específicas de combate. Por isso, analisaram os usos potenciais do aprendizado de máquina na segurança cibernética, na manutenção preditiva, nos jogos de guerra e no planejamento de missões. Essas aplicações militares foram escolhidas pelos investigadores para representar uma variedade de utilizações possíveis e suas restrições.
As conclusões desse relatório, publicado em 2024, são reveladoras do que aqui é denominado IA realmente existente. Entre elas estão afirmações do tipo: “Os dados de tempos de paz não podem ser substituídos por dados de tempos de guerra. A IA não consegue compensar a escassez de dados apropriados”. Outro resultado do relatório soa como um grave alerta: “Não se pode confiar nos algoritmos de classificação de IA para aprender o que não lhes foi ensinado. A IA não previu nem reconheceu novos tipos de ataques cibernéticos”. Os termos “algoritmos”, “dados”, “classificação” e os verbos “aprender” e “ensinar” são esclarecedores.
O que é a IA realmente existente? São sistemas automatizados que usam algoritmos estatísticos e probabilísticos para classificar e extrair padrões de bases de dados gigantescas, empregando um elevado poder computacional. O objetivo é criar modelos capazes de receber novos dados, que serão processados de acordo com as finalidades específicas para as quais foram projetados. O processo de preparação da IA realmente existente é chamado de “treinamento”, que pode ser supervisionado (com intervenção humana), não supervisionado (sem intervenção humana) ou por reforço (baseado em recompensas e penalidades). Entre as diversas caracterizações e abordagens da IA realmente existente, a hegemônica é a conexionista, que busca reproduzir o modo como o cérebro humano e os neurônios se conectam entre si. Isso é feito por meio de algoritmos que “aprendem” com os dados que recebem e criam modelos com finalidades específicas.
O aprendizado de máquina supervisionado é treinado com um conjunto de dados que já contém as respostas corretas para que o modelo extraia os padrões corretos e precisos dos dados com base nos exemplos indicados. Em seguida, o modelo deve ser capaz de prever a resposta correta para novos dados. É muito comum pessoas rotularem as imagens com tags que definem seu conteúdo. Por exemplo, milhares de imagens de pássaros são utilizadas para que o modelo detecte o padrão das aves. No chamado treinamento, as imagens selecionadas são rotuladas para que o algoritmo aprendiz consiga captar o que caracteriza as imagens de pássaros.
Um exemplo bem simples se refere à identificação do que é e do que não é spam. Para chegar a um sistema que identifica automaticamente o spam, realiza-se a extração de padrões do que é e do que não é spam para um usuário determinado, com base em sua caixa postal. O algoritmo vai buscar as mensagens que o usuário considerou não solicitadas, não interessantes e que foram descartadas. O algoritmo de aprendizado analisa as características desses e-mails (como palavras-chave, remetente etc.) e “aprende” a associar essas características às categorias corretas. Depois de treinado, o modelo pode analisar novos e-mails e prever se são spam ou não com base no que aprendeu, ou seja, conforme o padrão que extraiu.
No treinamento não supervisionado, o modelo recebe um conjunto de dados sem nenhuma informação sobre as respostas corretas. O objetivo é que o algoritmo descubra correlações, padrões, estruturas ou agrupamentos nos dados sem orientação prévia. Um exemplo são as informações sobre clientes de uma loja, como idade, localização e frequência de compras. O modelo não sabe o que essas informações significam, mas pode agrupar os clientes com base em correlações e similaridades existentes. Por exemplo, o algoritmo pode até descobrir coisas inusitadas, como relacionar adultos jovens que compram fraldas e também compram cerveja na mesma ida ao supermercado. Enfim, a finalidade do algoritmo é extrair correlações que dificilmente uma pessoa conseguiria realizar observando uma massa de dados — e que são muito úteis para formular estratégias de marketing direcionadas.
Já no treinamento por reforço, o modelo aprende por tentativa e erro, recebendo feedback, que pode ser entendido como recompensas ou penalidades sobre suas ações. O objetivo é que o algoritmo maximize as recompensas ao longo do tempo, ajustando seu comportamento com base no feedback recebido. As recompensas são, na prática, valores numéricos atribuídos a determinadas ações, que indicam quão benéficas ou prejudiciais foram essas ações para alcançar o objetivo definido. O exemplo de um modelo algorítmico para jogar xadrez é frequentemente adotado para ilustrar o treinamento por reforço. O modelo começa sem conhecer as regras ou estratégias do jogo. A cada movimento que faz, ele recebe uma recompensa (por exemplo, pontos por capturar uma peça do adversário) ou uma penalidade (por exemplo, a subtração de muitos pontos ao perder a rainha). Com o tempo, o modelo aprende quais movimentos geram recompensas maiores e ajusta sua estratégia para maximizar as chances de vitória.
Quando um modelo de aprendizado de máquina tem muitas camadas, é denominado aprendizado profundo ou deep learning. Esses modelos geralmente adotam uma técnica chamada de redes neurais artificiais, que são estruturas inspiradas no funcionamento do cérebro humano, mas implementadas de forma matemática e computacional. Os Modelos de Linguagem de Grande Escala (Large Language Models, llms) e a IA Generativa são exemplos de sistemas que empregam arranjos complexos de redes neurais artificiais. Além disso, modelos utilizados em aplicações como biometria facial e técnicas de visão computacional também se baseiam nessa abordagem de aprendizado profundo, que frequentemente emprega variações das redes neurais artificiais, como redes convolucionais (cnns), para o processamento de imagens.
São dados, sistemas algorítmicos e modelos que compõem a IA realmente existente. Nesses primeiros 25 anos do século XXI, os algoritmos estatísticos e probabilísticos foram adequados ao tratamento de bases de dados gigantescas com o objetivo de modelar sistemas automatizados. Um modelo, na prática, é um programa que roda em um ou mais hardwares, recebendo novos dados a fim de realizar tarefas, responder a perguntas e efetuar as solicitações sobre aquilo para o qual foi criado. Assim, a IA depende de dados, que são seu insumo fundamental. Nesse sentido, o filósofo Matteo Pasquinelli e o acadêmico Vladan Joler escreveram que “é mais razoável considerar o aprendizado de máquina como um instrumento de ampliação do conhecimento que ajuda a perceber características, padrões e correlações através de vastos espaços de dados que estão além do alcance humano”.[5]
No mesmo texto, Pasquinelli e Joler afirmam que a IA é a continuidade do projeto moderno de mecanizar a razão humana, que se converteu em “um regime corporativo extrativista do conhecimento e um colonialismo epistêmico”. [6] Apesar de todos os exageros e promessas místicas sobre a inteligência maquínica, os dois pesquisadores indicaram uma perspectiva para a análise crítica do cenário que estamos vivendo. Desde o Iluminismo, há uma tendência tecnocientífica de tentar formalizar e automatizar o pensamento humano. A IA é uma tentativa de reduzi-lo ou expressá-lo em processos mecânicos e algorítmicos. Suas vantagens econômicas e seu ímpeto produtivista são contundentes. No mundo industrial, a grande indústria apostou na mecanização e a dominou. No contexto informacional, as grandes corporações digitais apostam na expansão das novas tecnologias de automatização.
A IA realmente existente carrega a perspectiva de simular e replicar a cognição humana pelas máquinas. Na realidade, o hardware continua sendo hardware, em geral um conglomerado de metais e outros sólidos. O software continua sendo um conjunto de instruções, um arranjo de algoritmos. Não existe uma IA sem hardware, e muito menos sem software. A inteligência está nos algoritmos e não nos pedaços de silício. As abordagens hegemônicas dessa IA se concentram no aprendizado de máquina profundo. Nela, um modelo de IA generativa inexiste sem que tenha sido preparado e treinado a partir dos dados. Não é por outro motivo que a China definiu pragmaticamente os dados como fatores de produção.
Por mais que a DeepSeek, empresa chinesa de IA, tenha abalado o mundo com sua capacidade de lançar um grande modelo de linguagem com menos de 20% do poder computacional utilizado no treinamento da OpenAI, Meta e Alphabet, nada indica que a criação, a coleta e o armazenamento de dados irão arrefecer nos próximos anos. Isso porque os dados se converteram em capital. [7] Integram o ciclo de reprodução ampliada do capital digital. Por isso, vivemos uma intensa fase de dataficação que se confunde com o próprio processo de capitalização.
Megamáquina e os processos alienantes
O aprendizado de máquina, em especial o aprendizado profundo, tem avançado rapidamente por muitos segmentos da economia e está sendo cada vez mais empregado pelos Estados. A abordagem conexionista ou a IA baseada em dados beneficia a concentração do seu desenvolvimento em grandes empresas devido aos recursos que consome e à necessidade de muitos dados e de grande poder computacional, seja para o treinamento de modelos, seja para sua execução ou inferência. Consolida-se como uma megamáquina, alienante, distante de quem a utiliza e até de quem tem formação em ciências computacionais.
O professor de ciência política Langdon Winner, em Autonomous Technology [Tecnologia autônoma], [8] apontou que a especialização e a complexidade crescentes dos sistemas tecnológicos tornavam impossível que qualquer indivíduo os compreendesse ou controlasse por completo. Não é exagerado afirmar que a IA realmente existente amplificou essa problemática captada por Winner. Mais do que isso, o processo de desenvolvimento do aprendizado de máquina, [9] especificamente dos grandes modelos, envolve um sistema complexo, caro e composto de centenas de máquinas. Isso torna o processo mais distante e implica o desconhecimento e a perda da autonomia das pessoas que a utilizam.
Lewis Mumford, historiador e filósofo da tecnologia, publicou The Myth of the Machine [O mito da máquina], em dois volumes. [10] O primeiro, Technics and Human Development [Técnica e desenvolvimento humano], foi publicado em 1967, e o segundo, intitulado The Pentagon of Power [O pentágono do poder], foi lançado em 1970. Neste último, Mumford afirmou que uma megamáquina não é apenas um conjunto de dispositivos tecnológicos, mas uma estrutura de poder baseada na submissão de indivíduos a um sistema técnico e burocrático. Para demonstrar a validade dessa noção, Mumford trabalhou o exemplo das pirâmides. Desse modo, megamáquina pode ser definida como um sistema sociotécnico altamente organizado, em que a tecnologia e instituições altamente hierarquizadas, como as big techs, convergem para formar uma estrutura de controle e dominação.
A IA realmente existente vista como megamáquina é integrada de computadores, servidores, roteadores, switches, firewalls, balanceadores de carga para gerenciar o tráfego de dados, discos rígidos (hdds), unidades de estado sólido (ssds) e sistemas de armazenamento em rede (nas/san), geradores, fontes de alimentação ininterrupta (ups), unidades de distribuição de energia (pdus), ar-condicionado de precisão, sistemas de resfriamento com água, cabeamento estruturado, fibras ópticas etc. A IA realmente existente é treinada na nuvem, em geral em grandes provedores de nuvem que têm infraestruturas de hiperescala.
O GPT-3 , da OpenAI, foi treinado com aproximadamente 175 bilhões de parâmetros. Utilizou placas GPU da Nvidia v100 e a100 especiais para o aprendizado profundo. É provável que seu treinamento tenha levado 34 dias ou cerca de 816 horas, usando milhares de GPUs em paralelo. Os parâmetros são como a “memória” de um modelo de linguagem, ou melhor, são como “anotações” que o modelo faz para lembrar como palavras, frases e ideias se conectam. Na realidade, são números que o modelo usa para decidir como interpretar uma palavra ou frase com base no contexto. Quanto mais parâmetros, mais o modelo conseguiu aprender os padrões mais complexos e sutis da linguagem. Entretanto, isso implica maior custo de energia, tempo e recursos de treinamento. O grau de complexidade e a grande estrutura maquínica empregada na construção dessas abordagens hegemônicas da IA podem ser compreendidos como uma megamáquina. Se chamamos isso de inteligência, ela está muito mais distante do cidadão comum e cada vez mais dependente de corporações.
Para aprofundarmos a compreensão dos recursos do treinamento de um grande modelo de linguagem, vamos observar mais um pouco a importância dos parâmetros adotados pelo modelo. São números que o modelo usa para decisões sobre uma palavra em um contexto. Ao encontrar a palavra “banco”, o modelo emprega seus parâmetros para decidir se o significado é “banco de sentar” ou “banco financeiro”, dependendo das outras palavras ao redor. Durante o chamado treinamento, o modelo vai ajustando os parâmetros milhões ou bilhões de vezes até ficar com um grau de refinamento para melhorar a previsão do que vem a seguir em um texto. Assim como as sociedades têm regras não escritas que guiam o comportamento das pessoas, os parâmetros são similares a regras internas que guiam o comportamento do modelo ao gerar texto. Quanto mais parâmetros o modelo conhece, mais pode se adaptar a diferentes contextos e situações.
Na corrida pela liderança da IA realmente existente, o desafio real, ou seja, o controle da megamáquina, é também uma disputa pela eficiência. Isso implica tentar utilizar um número menor de parâmetros, mas de forma mais inteligente, para alcançar resultados semelhantes. Embora o número de parâmetros seja importante, a eficiência de um modelo também depende da sua arquitetura (como os parâmetros são organizados e empregados, sendo a arquitetura transformer altamente eficiente), do seu treinamento (a qualidade e a diversidade dos dados usados no treinamento) e de sua otimização (técnicas que podem reduzir o custo computacional sem comprometer o desempenho).
Um dos principais recursos do Estado norte-americano para manter a liderança e o controle do desenvolvimento da megamáquina da IA é o chip. Isso porque o aprendizado profundo ou deep learning envolve o treinamento de redes neurais com milhões ou até bilhões de parâmetros, o que requer grande quantidade de cálculos matemáticos, como multiplicações de matrizes, que precisam ser executados em paralelo. Chips especializados, como Unidades de Processamento Gráfico (Graphics Processing Units, gpus) e Unidades de Processamento Tensor (Tensor Processing Units, tpus), são projetados para lidar com operações paralelas de forma eficiente, acelerando de maneira significativa o processo de treinamento.
O tempo necessário para treinar modelos de deep learning pode ser extremamente longo, sobretudo com grandes conjuntos de dados. Chips como gpus e tpus podem reduzir drasticamente o tempo de treinamento. No caso da inferência, ou seja, a aplicação de modelos treinados a novos dados, também é fundamental um processamento rápido, especialmente em aplicações em tempo real, como reconhecimento de fala, visão computacional e veículos autônomos. Chips especializados podem realizar inferências com baixa latência, tornando possível a implementação de deep learning em aplicações críticas em tempo real.
Um chip é um circuito integrado composto de componentes eletrônicos miniaturizados, como transistores, que processam e armazenam informações. Ele é a unidade fundamental de processamento em dispositivos eletrônicos. É construído a partir de materiais semicondutores, como silício, que permitem controlar o fluxo de elétrons para processar informações. O semicondutor é a base física, enquanto o chip é o componente funcional que utiliza suas propriedades para operar. Quanto menor o tamanho do chip, mais avançado e eficiente tende a ser.
A OpenAI utilizou no treinamento de seu modelo gpt-4 uma série de gpus da Nvidia, sobretudo a h100 (Hopper) e, possivelmente, algumas a100 (Ampere). Tais gpus foram fabricadas pela Taiwan Semiconductor Manufacturing Company, usando um processo de quatro nanômetros (n4) no caso da h100 e sete nanômetros (n7) no caso da a100. Em breve, serão comercializados chips de três nanômetros. É importante realçar que um nanômetro (nm) é uma unidade de comprimento que equivale a um bilionésimo de metro — o que significa dividir um metro por 1 bilhão.
Construir coisas nessa escala exige domínio de processos tecnocientíficos e operacionais que poucas empresas têm. Os Estados Unidos, em 2022, aprovaram a Lei dos Chips, que, entre outras medidas, destinou 52,7 bilhões de dólares para subsidiar a fabricação e a pesquisa de semicondutores no país, concedeu um crédito fiscal de 25% para investimentos em fábricas de semicondutores e equipamentos avançados em seu território e criou o National Semiconductor Technology Center. A lei impõe restrições aos beneficiários de financiamento, proibindo-os de expandir a fabricação de semicondutores avançados na China e em outros países considerados de risco para a segurança nacional dos Estados Unidos. A finalidade é impedir a transferência de tecnologia avançada para a China. Além disso, a Lei dos Chips define medidas para controlar e restringir a exportação de semicondutores e equipamentos relacionados para aquele país, visando impedir que a potência rival obtenha tecnologia de ponta que possa ser usada em aplicações militares ou de inteligência artificial.
O Estado norte-americano se preparou para controle em escala planetária da cadeia do chip, que é indispensável para a operação da megamáquina da IA realmente existente. Nessa jornada, atua no plano macroinstitucional com leis e pressões econômicas e no plano nanotecnológico com a tentativa de reduzir ainda mais a dimensão dos circuitos para o processamento mais eficiente. A IA realmente existente não é uma tecnologia democrática. Para isso, precisaria colocar sob o domínio do conjunto das nações os seus componentes fundamentais, físicos e lógicos.
Representação, compressão e vetorialização da realidade
No “Manifesto Nooscópio”, Pasquinelli e Joler escreveram que o projeto de “mecanizar a razão humana” havia se convertido no século XXI em “um regime corporativo extrativista do conhecimento e um colonialismo epistêmico”. Em seguida, afirmaram: “Isso não é surpreendente, uma vez que os algoritmos de aprendizado de máquina são os mais poderosos para a compressão de informações”. [11] O que isso pode nos dizer?
Em primeiro lugar, que estamos vivendo a primazia de um conhecimento que se baseia em dados. Conhecer a realidade passaria por convertê-la em dados e aplicar sobre eles a análise estatística e as técnicas da probabilidade. Tudo precisa ser quantificado. Todo quantificado pode ser tratado por algoritmos. E aparentemente qualquer pessoa poderia transformar a vida em um fluxo de dados. Mas isso é enganoso. Dados precisam ser armazenados, e o processo de criação e extração requer hardware e processamento intensivo. A dataficação concentrou o seu armazenamento em oligopólios digitais capazes de construir infraestruturas ágeis, seguras e gigantescas.
Em segundo lugar, que o aprendizado de máquina introduz uma nova forma de racionalidade, em que a causalidade tradicional é substituída por correlações automatizadas, muitas vezes resultando em “alucinações estatísticas”. Padrões irreais emergem de associações probabilísticas. Como nos mostraram Pasquinelli e Joler, os algoritmos de aprendizado detectam padrões estatísticos, mas não necessariamente entendem relações causais. Essa nova racionalidade substitui explicações tradicionais por previsões baseadas em associações massivas de dados.
Mas tais procedimentos não ampliam a realidade, são seus redutores e seus intérpretes. Quanto mais dependemos desse modo epistêmico, mais transferimos nossa inteligência não para as máquinas, mas para as corporações que controlam os dados de treinamento, as infraestruturas de armazenamento e processamento dos modelos de ia. Apesar da aparência de autonomia maquínica, a IA depende de uma força de trabalho humana significativa, muitas vezes invisível e desvalorizada, responsável por tarefas como rotulagem de dados, supervisão de algoritmos, ajustes de parâmetros, entre outras ações.
Os modelos de linguagem grandes e bem-sucedidos, como GPT, Gemini e Claude, entre outros, nos permitem compreender esse atual colonialismo epistêmico. Diferentemente de um arquivo de computador que armazena um livro ou um artigo na íntegra, esses modelos não copiam nem guardam textos como uma memória exata. Eles são treinados em vastos conjuntos de textos que são tokenizados. Portanto, o que eles aprendem não é o texto em si, e sim padrões estatísticos da linguagem, transformando o texto em representações matemáticas, especificamente em vetores. A tokenização é o processo de transformar palavras em unidades menores chamadas tokens, que são a expressão de um conteúdo em unidades menores (que podem ser palavras, partes de palavras ou até caracteres individuais). Vetorialização é a transformação de tokens em vetores numéricos que repre- sentam sua relação com outros termos.
Quando um modelo é treinado, ele converte palavras, frases e ideias em números organizados para identificar relações semânticas. Isso significa que palavras parecidas como “arma” e “guerra” terão representações vetoriais próximas em um espaço matemático. Essas representações permitem que o modelo preveja qual palavra vem a seguir em uma frase, sem precisar recuperar um texto exato do treinamento. Quando lemos a frase “Meu estômago estava doendo de fome”, associamos o significado a experiências pessoais, aos sentidos, sabemos o que é sentir dor, já tivemos a sensação de fome depois de muito tempo sem comer. O aprendizado de máquina não sente nem considera nada disso. O modelo aprendeu que a palavra “estômago” tem uma relação estatística com a palavra “fome”. Os algoritmos não entendem a fome, a dor ou quaisquer sensações, eles só repetem padrões observados no treinamento.
Modelos de linguagem como o Generative Pre-trained Transformer (gpt) e o Bidirectional Encoder Representations from Transformers (Bert) processam grandes quantidades de dados textuais e aprendem distribuições estatísticas subjacentes ao idioma. Durante o treinamento, esses modelos são colocados em contato com bilhões de palavras (tokenizadas) para extrair as regularidades estatísticas do idioma, reduzindo a redundância da informação original. Essa compressão ocorre no espaço latente, onde palavras, frases e até conceitos são mapeados para vetores de dimensão reduzida.
Nessa técnica, não são armazenados diretamente os textos originais, mas um conjunto de representações vetoriais que permitem reconstruir e prever conteúdos linguísticos. Não é pouco importante observar a diferença entre esse processo e outras técnicas computacionais de compressão de informações. Diferentemente de métodos clássicos para comprimir arquivos, como o zip, que comprimem dados de maneira explícita por padrões repetitivos, os modelos de aprendizado de máquina vão além da compressão superficial e realizam uma abstração semântica profunda.
O algoritmo de compactação tradicional substitui uma frase e suas palavras frequentes por códigos menores e um modelo de aprendizado transformer extrai o significado estatístico da frase, permitindo gerar novas sentenças equivalentes sem armazenar os dados originais. Quando um usuário insere uma pergunta, o modelo não busca diretamente um trecho específico do treinamento, mas reconstrói uma resposta baseada nas regularidades estatísticas aprendidas, demonstrando que o conhecimento foi comprimido e representado de forma latente.
Na primeira década do século XXI, um sociólogo que pretendesse citar um trecho de A ética protestante e o espírito do capitalismo, de Max Weber, buscaria o livro em sua estante ou em um arquivo digital. Ele poderia acessar o livro, encontrar a página e copiar a citação exata. Qual é a diferença entre esse procedimento e a ação realizada pela IA realmente existente quinze anos depois? O modelo de IA vai buscar a teoria weberiana, não vai recuperar diretamente o trecho do livro, mas será capaz de gerar uma resposta nova baseada nos padrões extraídos de textos sobre Weber que estavam nos dados de treinamento.
Isso significa que a IA realmente existente não funciona como uma memória exata, mas como um sistema de generalização probabilística, criando enunciados novos que seguem as tendências estatísticas do que foi aprendido. Em vez de armazenar informações palavra por palavra, os modelos de aprendizado de máquina criam mapas matemáticos que representam relações semânticas entre conceitos. O conceito de representação latente permite aprofundar nossa compreensão.
É um conceito que tem raízes na estatística clássica, mas foi desenvolvido sobretudo pelo cientista da computação Geoffrey Hinton e outros pesquisadores em redes neurais e aprendizado profundo. No texto “Learning Distributed Representations of Concepts” [Aprendizado de representações distribuídas de conceitos], de 1986,12 Hinton propôs não usar representações locais (em que cada conceito tem um único nó). Afirmou que os modelos de aprendizado deveriam capturar padrões em um espaço vetorial contínuo, permitindo a extração de relações implícitas. Em 2024, ele recebeu o Prêmio Nobel de Física, junto com John Hopfield, por “descobertas fundamentais e invenções que permitem aprendizagem automática com redes neuronais artificiais”. [13]
Em 2006, Hinton, em parceria com o cientista da computação Ruslan Salakhutdinov, escreveu “Reducing the Dimensionality of Data with Neural Networks” [Reduzindo a dimensionalidade de dados com redes neurais], publicado na revista Science. [14] O trabalho introduziu o conceito de Autoencoders Profundos (Deep Autoencoders), que aprendem representações latentes compactas de dados de alta dimensão. O artigo mostrava como as redes neurais profundas poderiam ser treinadas para representar dados em espaços de dimensões menores, uma ideia que influenciou diversos modelos e até os que usam a arquitetura transformer.
Em 2017, foi publicado o paper “Attention Is All You Need”, escrito por uma equipe de engenheiros do Google Research. [15] O texto trouxe a arquitetura transformer e propôs uma mudança fundamental na área do processamento de linguagem natural. Antes dele, os textos eram processados de forma sequencial, o que criava limitações, como dificuldade em lidar com sequências muito longas e tempos de treinamento elevados. O transformer substituiu essas abordagens por um mecanismo de atenção chamado “Self-Attention”, permitindo que o modelo analisasse todas as palavras de uma sentença ao mesmo tempo, em vez de processá-las uma por uma. Isso aumentou a eficiência computacional e a capacidade de capturar relações complexas entre palavras, mesmo em textos longos.
A compressão, a tokenização e a vetorialização consolidam um modo de ver a realidade. A estatística e a probabilidade foram fundamentais para que governos passassem a administrar populações por meio de regularidades e previsões numéricas, transformando a política em uma ciência de controle. [16] A estatística permitiu trazer objetividade para a definição de comportamentos normais e desviantes, com implicações sociais profundas. Além disso, como nos relatou Ian Hacking, [17] a expansão da probabilidade reorganizou o modo de produção do conhecimento, incorporou a incerteza e a forma de lidar com ela e trouxe o risco para o núcleo principal das ciências, da medicina à economia. O aprendizado profundo está sendo incorporado em todos os campos científicos e parece ser a segunda onda que consolida o império da estatística e da probabilidade.
Sem dúvida, existem outras abordagens possíveis para a IA que aqui é definida como sistemas automatizados relativamente autônomos. Nestes primeiros 25 anos do século XXI, a transferência de inúmeras atividades cognitivas para esses sistemas automatizados aumentou a produtividade do sistema e permitiu extrair padrões de vastas bases de dados, muito além do que o olhar humano poderia realizar. “Nas economias avançadas, cerca de 60% dos empregos estão expostos à IA, devido à prevalência de empregos orientados para tarefas cognitivas.” [18] Escritórios de advocacia, empresas de comunicação, logística, consultorias e medicina, entre outras, estão utilizando intensamente a IA para acelerar tarefas cognitivas de baixa e média complexidade. Resumos, traduções, textos padronizados, varredura de determinados textos em busca de respostas a questões específicas, tudo isso que exigia muito trabalho está sendo agora feito em segundos.
A IA baseada em dados, o aprendizado de máquina e o aprendizado profundo, aqui nomeados de IA realmente existente, construíram modelos extremamente úteis a uma visão de mundo na qual os principais valores e ações estão orientados pela eficiência e pela produtividade.
O cenário atual é complexo e essas tecnologias probabilísticas ajudam a deslocar parte do poder dos Estados para corporações gigantescas que adotam esquemas de extração massiva de dados e estruturas de alto processamento. Na sociedade, muitas das ações e atividades passarão a ser mediadas pelas inteligências artificiais de propriedade das big techs. Isso acelera ainda mais a extração contínua de dados das populações. O deslocamento de atividades estatais para empresas privadas adquire novo impulso com a IA realmente existente. E as big techs têm à sua frente uma nova área de expansão: os negócios da guerra.
Notas:
1. Samuel Gibbs, “Musk, Wozniak and Hawking Urge Ban on Warfare ai and Autonomous Weapons”. The Guardian, 27 jul. 2015. Disponível em: hedra.com.br/r/uos.
2. David Ingram e Bruna Horvath, “How Elon Musk Is Boosting Far-Right Politics across the Globe”. nbc News, 16 fev. 2025. Disponível em: hedra.com.br/r/DyA.
3. PwC Strategy&, “The Global ai Race and Defense’s New Frontier: Driving Artificial Intelligence in Defense”. Strategy&, 2025. Disponível em: hedra.com.br/r/SOA.
4. Lance Menthe et al., “Understanding the Limits of Artificial Intelligence for Warfighters”. V. 1, Summary (Research Report), p. 18. rand Corporation, 3 jan. 2024. Disponível em: hedra.com.br/r/D6I.
5. Matteo Pasquinelli e Vladan Joler, “O Manifesto Nooscópio: Inteligência artificial como instrumento de extrativismo do conhecimento”. Trad. de Leandro Módolo e Thais Pimentel. Lavits, 30 jul. 2020. Disponível em: hedra.com.br/r/T8P
6. Ibid
7. Marcos Dantas et al., O valor da informação, op. cit.; Jathen Sadowski, Too Smart, op. cit.
8. Langdon Winner, Autonomous Technology: Technics-out-of-control as a Theme in Political Thought. Cambridge, ma:mit Press, 1978.
9. Matteo Pasquinelli e Vladan Joler, “O Manifesto Nooscópio”, op. cit.
10. Lewis Mumford, The Myth of the Machine. Nova York: Harcourt, Brace Jovanovich, 1967, 1970. v. 1: Technics and Human Development, v. 2: The Pentagon of Power.
11. Matteo Pasquinelli e Vladan Joler, “O Manifesto Nooscópio”, op. cit.
12. Geoffrey E. Hinton, “Learning Distributed Representations of Concepts”. Proceedings of the Eighth Annual Conference of the Cognitive Science Society, pp. 1–12, 1986. Disponível em: hedra.com.br/r/Ogn.
13. The Nobel Prize, “They Trained Artificial Neural Networks Using Physics”. Press release, 8 out. 2024. Disponível em: hedra.com.br/r/sNf.
14. Geoffrey E. Hinton e Ruslan R. Salakhutdinov, “Reducing the Dimensionality of Data with Neural Networks”. Science, v. 313, n. 5786, pp. 504–507, 2006. Disponível em: hedra.com.br/r/98O.
15. Ashish Vaswani et al., “Attention Is All You Need”. Advances in Neural Information Processing Systems, v. 30, 2017. Disponível em: hedra.com.br/r/aYz.
16. Michel Foucault, Segurança, território, população. São Paulo: Martins Fontes, 2008; Ian Hacking, “Biopower and the Avalanche of Printed Numbers”. Humanities in Society, v. 5, n. 3/4, pp. 279–295, 1982.
17. Ian Hacking, The Taming of Chance, op. cit.
18. Mauro Cazzaniga et al., Gen-ai: Artificial Intelligence and the Future of Work. Washington, dc: International Monetary Fund, 2024
Outras Palavras é feito por muitas mãos. Se você valoriza nossa produção, contribua com um PIX para [email protected] e fortaleça o jornalismo crítico.