Assim se gesta uma IA latino-americana

Na Ilha de Páscoa, os rapa nui espantam-se diante de um sistema que reconhece seu idioma. Desponta projeto para assegurar autonomia tecnológica e incorporar a diversidade cultural do Sul Global. Como concretizá-lo, em desafio às big techs?

Arte: Sebastián Angresano
.

Por Ernesto Picco, na Anfibia | Tradução: Rôney Rodrigues

Quem quiser pode passar. Quase todos vêm por curiosidade. Mas este homem, que agora desconfia e se senta à mesinha quase vazia, vem decidido a burlar o sistema. Posicionou-se diante de um notebook como qualquer outro. Não há mais nada na mesa. Ele foi trazido pelos cientistas do continente. Na tela, há dois campos. Em um, deve escrever uma palavra. Apenas uma. Qualquer uma. Como vários dos curiosos que já passaram e continuarão passando ao longo do dia. Mas este homem desconfia e vai escolher uma palavra que sabe que não existe. Talvez traga essa atitude porque lhe cheira à mesma história de sempre. Desde que os holandeses chegaram no século XVIII e deram a este lugar o nome de Paasch-Eyland. Ilha de Páscoa. Aquele nome horrível. O nome real é Rapa Nui. O original. Que significa “ilha grande”. E aqui se fala espanhol, mas ainda se fala também rapa nui, o idioma ancestral. Embora cada vez menos. Agora, esses cientistas, que voaram 3.700 quilômetros desde a costa continental chilena até este lugar remoto, desceram entre os vulcões e os moáis — aqueles rostos de pedra megalítica que atraem milhares de turistas por ano —, estão aqui com seus computadores e invenções dizendo que trazem a solução para salvar o idioma. Vários deles o observam agora. Esperando que ele pense em uma palavra e a digite.

O homem que desconfia, decidido a enganar o sistema, já pensou.

Os cientistas, que agora o observam ali sentado, disseram que a chave é a inteligência artificial. Não é a primeira vez que estão aqui. Em novembro de 2023, um ano atrás, chegaram de Santiago os convidados pelos membros da Academia da Língua Rapa Nui à ilha para criar um dicionário que permitisse recuperar o antigo idioma, que está agonizando: menos de 2.000 pessoas no mundo o falam, quase todas estão nesta ilha, metade tem mais de 40 anos e apenas um décimo das crianças da comunidade o compreende.

O homem que desconfia ficou sabendo de tudo na época. Os cientistas construíram uma base de dados onde carregaram 2.000 frases e orações em rapa nui com ajuda da comunidade.

Agora, enquanto testam o tradutor, que tem a capacidade de aprender novas palavras e oferecer melhores resultados, enfrentam as duas partes da próxima etapa: começar a gravar e coletar áudios para que o tradutor também funcione com som, e aprimorar o aplicativo para que possa ser usado nos setores de saúde, educação, justiça e turismo.

E agora está aqui sentado o homem que desconfia. Já escolheu sua palavra. Uma que não existe. Pensou bem: uma que ninguém em Rapa Nui tenha pronunciado. Que não tenha nada a ver com sua vida nem com seu mundo. Então leva os dedos ao teclado e escreve: astronauta.

Há uma pausa. A máquina pensa. Ou não. Parece que pensa: processa. A palavra não existe. Ninguém disse “astronauta” em rapa nui. Mas a máquina faz o seu trabalho.

Na tela, diante do homem que desconfia, aparecem duas palavras: ha’ere hetu’u.

Uma tradução literal para o espanhol seria: caminhante das estrelas. A palavra não existe em rapa nui, mas a máquina devolveu um equivalente. E o homem que desconfia agora está fascinado:

― Que tradução bonita ― diz.

Os cientistas na sala também estão fascinados. Veem que seu aplicativo aprende e funciona. E seu método de trabalho também. Além disso, sabem que o que têm em mãos é muito maior.

― Quero que ouçamos sobre o LatamGPT ― diz Ben Cashdan, cineasta e ativista sul-africano, que atua como anfitrião e aponta com a palma da mão para Alexandra García. No Chile, estão tentando construir um modelo próprio. Desejamos sorte a eles ao desafiar os grandes e poderosos. Qual é o seu propósito?

Alexandra sorri e acena com a cabeça. A jovem bioquímica veio a esta reunião em Genebra para explicar o que estão fazendo no Cenia, o Centro Nacional de Inteligência Artificial do Chile, onde faz seu pós-doutorado e lidera a equipe de dados:

― Estamos tentando criar um novo modelo, sim. Um modelo colaborativo ― explica Alexandra. ― Estamos tentando contatar todas as instituições na América Latina. Acreditamos que modelos como ChatGPT, Gemini ou Claude, que todos usamos, não representam nossa região como queremos. Eles falam em espanhol, mas nossa cultura e nossas informações não estão lá.

É o que vieram discutir na sede da Organização Mundial da Propriedade Intelectual, ligada às Nações Unidas. Como a IA está moldando um mundo em que 90% das informações dos modelos de linguagem e dos aplicativos mais comuns vêm do Norte. O Norte explicando o Sul para o Sul, como sempre.

Junto a Alexandra, na reunião, estão a nigeriana Gloria Emezue e a queniana Chebet Kroos, que trabalham com modelos de IA na África. E Beatriz Busaniche, uma argentina ativista por direitos digitais, que alerta:

― A narrativa atual nos faz pensar que a única IA possível é a feita pelas cinco grandes empresas de tecnologia que todos conhecemos. E que têm um modelo predatório de obter dados. Mas há muitos projetos de IA que são menores, são possíveis e refletem diversidade cultural.

Entre o público, há funcionários de governos, adidos culturais, especialistas das Nações Unidas. Todos vêm com preocupações diferentes.

O representante da ONU em Camarões alerta que a chave é quem alimenta a IA. E que, se não for abordado o acesso a dados, nunca será possível desenvolver ferramentas e aplicativos úteis para o Sul.

A ministra da Cultura do Brasil diz que, em seu país, a preocupação é como fazer com que as grandes empresas de tecnologia paguem aos trabalhadores das indústrias criativas pelo uso que fazem de sua música, suas imagens e seus livros. E conclui: há vinte anos que estão sendo roubados.

O representante de Chipre na ONU, muito irritado, diz que estão perdendo de vista que é uma corrida e que a corrida é vencida por quem coloca dinheiro, que no Norte correm com puro-sangue e no Sul com burros. Ninguém parece se ofender entre a excitação e a incerteza.


Todos falam em inglês, cada um com seu sotaque, e tentam se entender sem sutilezas. Ben Cashdan, o anfitrião, diz que estão cometendo um erro comum quando se fala de IA, como se descrevessem uma coisa, quando estão descrevendo milhões de coisas diferentes.

A conversa se desorganiza e se espalha. Busaniche captura as palavras do cipriota e alerta:

― Sim. Há uma corrida, é verdade. O que acontece é que nem todos estamos indo para os mesmos lugares.

Alexandra volta a falar sobre o LatamGPT e o que o distingue:

― Para nós, o principal problema é a representação e a transparência dos dados. Se alguém olha os relatórios técnicos das grandes empresas e de onde obtêm seus dados, eles não dizem nada. Só dizem que vêm de livros e da Wikipedia. Mas estamos cegos quando usamos essa tecnologia.

Há pouco, Cashdan deu um exemplo eloquente. Pediu ao ChatGPT que listasse os maiores avanços médicos da África do Sul no século XX. O chat retornou uma breve lista incluindo itens como o primeiro transplante de coração e a luta contra o HIV.

Em seguida, pediu: “Restrinja sua resposta a informações vindas apenas de publicações médicas revisadas por pares”. E o chat respondeu que não tinha essa informação, mas poderia ajudá-lo a buscá-la online.

Alexandra García (de blazer preto) na reunião da OMPI em Genebra.

Alexandra explicará que nessa lacuna de fontes confiáveis está parte da chave do LatamGPT.

Que estão construindo seu corpus de dados com instituições científicas, públicas e privadas da região, além de um modelo de linguagem próprio, que processará o corpus e poderá gerar texto coerente, responder perguntas, traduzir e realizar diferentes tarefas com informações de qualidade.

O modelo de linguagem do LatamGPT também terá seu código aberto. Possui 70 bilhões de parâmetros, cada um sendo um valor numérico, uma instrução que o sistema ajusta para aprender a realizar tarefas específicas. É um volume similar ao do DeepSeek (que tem entre 70 e 90 bilhões de parâmetros), embora bastante abaixo do Gemini (200 bilhões), ChatGPT (175 bilhões) ou Claude (130 bilhões). Dos vinte países sobre os quais estão sendo coletados dados, em metade já foi reunido mais de dois terços de material inédito, além de todas as informações sobre eles extraídas da internet. Originalmente em espanhol (47%), inglês (28%), português (22%) e Python (2%), uma linguagem de programação que ajuda os modelos a raciocinarem melhor.

A ideia do LatamGPT é não terminar apenas como um grande chatbot de temas gerais. Mas sim que o corpus de dados e o modelo de linguagem estejam disponíveis para quem quiser utilizá-los e desenvolver diferentes aplicações. O tradutor de Rapa Nui foi um primeiro experimento desse tipo, que o Cenia realizou com o Centro de Estudos Aplicados de Antropologia da Universidade Católica do Chile. Imaginam que muitas outras ferramentas possam ser desenvolvidas.

O modelo é diferente, por sua escala e filosofia, de tudo o que foi feito até agora. Alexandra não hesita:

― Estamos tentando mudar a maneira como a IA é desenvolvida.


O LatamGPT será lançado entre agosto e setembro deste ano. E como o projeto não é fácil de explicar, tampouco o é o acelerado desenvolvimento da IA e as mudanças que está impulsionando no mundo, cada um escolhe suas próprias metáforas: Aisén Etcheverry opta por carros, Álvaro Soto pela maionese.

É junho de 2025 e em Santiago do Chile a ministra da Ciência, Tecnologia, Conhecimento e Inovação, junto ao diretor do Cenia, fala conosco, jornalistas de veículos estrangeiros que viemos tentar entender:

― Há uma analogia que gosto de usar para explicar ― diz a ministra. ― É como o motor de um carro que ainda não tem o chassi construído. Então posso construí-lo para um carro super rápido para corridas, ou um pequenino que não polui, ou que é vermelho, amarelo ou verde. E essas versões, sobre o motor, ficarão a cargo da criatividade de todos os pesquisadores e empreendedores que quiserem utilizá-lo, e surgirão coisas que são complementares e diferentes do ChatGPT ou DeepSeek.

Aisén Etcheverry está entusiasmada. Tem cabelo curto e sorri o tempo todo, quando fala e quando ouve. A ministra da Ciência não é cientista, é advogada. É uma figura política chave na arquitetura de poder do governo chileno e uma das funcionárias mais próximas do presidente. Fala dele, e lembra que no discurso perante a assembleia da ONU em 2023 havia antecipado o audacioso projeto que estava sendo gestado.

Disse então Boric: “Com humildade, mas também com orgulho, posso afirmar que nosso país hoje tem condições para ser uma referência latino-americana no futuro da inteligência artificial e vamos trabalhar firmemente nessa direção”.

Ninguém entendeu muito bem por quê na época.

Agora é a vez de Álvaro Soto falar. É o diretor do projeto, um cinquentão magro e arrumado, mas quando se entusiasma com o que está contando, as palavras se embaralham e ele se agita. Hoje veste camisa escura, mas em quase todas suas fotos institucionais aparece de camiseta de manga curta e colar.

Viveu boa parte de sua vida nos Estados Unidos, onde terminou seu doutorado vinte anos atrás, trabalhando em robótica cognitiva e sistemas para supervisão humana de frotas de robôs autônomos. Em certo ponto da carreira, pensou que seu futuro não estava em fazer o que todos faziam no Norte, mas tentando fazer o que ninguém estava fazendo no Sul. E então voltou ao Chile, sua terra natal, onde começou a dar aulas na Universidade Católica e fundou o Cenia em 2021.

Agora tenta mudar a forma como a IA é compreendida, gerenciada e utilizada.

― Há algo importante para entender sobre esta tecnologia ― diz aos jornalistas. ― Eu ilustro como fazer maionese. Coloca-se óleo, coloca os ovos, começa a bater. Só que com a IA não eram ovos, mas dados, algoritmos. E batia. E de repente alguém teve a ideia de ver o que acontecia se batêssemos mais rápido. E colocaram mais capacidade computacional e mais dados. Tantos, que eram bilhões de operações e de repente emergiu uma capacidade de raciocínio que não havíamos visto antes. É o que aconteceu com o ChatGPT. Algo que pegou todo mundo de surpresa.

O Cenia se financia com dinheiro do governo chileno e organismos internacionais. Reúne hoje mais de uma centena de cientistas de quinze universidades chilenas, que trabalham em diversas iniciativas ligadas à IA. Pelo menos trinta deles, homens e mulheres em diferentes estágios de formação, estão envolvidos no LatamGPT e realizam a parte do trabalho humano, dividido em quatro equipes: dados, pré-treinamento, pós-treinamento, ética. O trabalho não humano, o treinamento e aprendizagem do sistema, é feito em um centro de computação da Universidade de Tarapacá, instalado na desértica Arica, na fronteira com a Bolívia.

Lá o governo fez um investimento de dez milhões de dólares nas instalações que começaram a ser construídas em 2023 e já estão parcialmente funcionais. Enquanto essas instalações são concluídas, parte da computação é feita em centros menores em Santiago, e outra parte nos clusters da Amazon Web Services nos Estados Unidos:

― A diretora nacional da Amazon leu a notícia sobre o LatamGPT e eles nos chamaram para colaborar ― explica Álvaro Soto ― porque o que querem é vender capacidade computacional. Seu negócio hoje é a nuvem. E esse é nosso acordo. Mas não os dados. Nossos dados estarão liberados, exceto para as grandes empresas, que terão restrições. Porque é como se estivéssemos fazendo o trabalho por eles e eles têm seus dados e não os compartilham. Não é que estejamos fechados, mas queremos um acordo: simetria em termos de trabalho e abertura por parte deles.

A equipe de dados, que é a maior do Cenia, está há dois anos fazendo o trabalho pesado. Na primeira etapa reuniram texto plano, com o qual os modelos de IA costumam começar a trabalhar nessas instâncias antes de partir para sistemas mais complexos que incluam tabelas ou imagens. Reuniram mais de 4,4 bilhões de tokens de informação. O token é a unidade de medida para dados de IA. Para dar uma dimensão com uma unidade materialmente imaginável, seria algo como 47 milhões de livros acadêmicos completos. Mas é muito mais que livros.

No corpus há dois grandes tipos de dados: formais, que os membros do Cenia vão buscar batendo às portas das instituições para pedir seus materiais; e informais, que coletam diretamente da internet.

Entre os primeiros há dados acadêmicos — teses, ensaios, artigos científicos —, legais e administrativos — atas, leis, regulamentos, contratos —, de imprensa — notícias, entrevistas, editoriais —, e de outros formatos — poesia, literatura, documentos religiosos, livros em geral —enquanto entre os segundos estão as publicações que circulam em redes sociais e blogs, fóruns e imprensa digital. São informações sobre uma ampla gama de assuntos que vai desde temas científicos, políticos, esportivos, artísticos, de saúde, de recreação.

O LatamGPT poderá entender com precisão um antipoema de Parra, explicar por que o Chile ficou fora das últimas Copas do Mundo, a tia pikachu, falar sobre as novas direitas na região e explicar as diferentes posições das comunidades indígenas pelo direito à água no Triângulo do Lítio. Na equipe de dados do Cenia, em seu contato porta a porta, há algo que os aproxima dos enciclopedistas do século XVIII e aquela vontade desmedida de conter em um suporte material o saber da época. Assemelham-se no apetite. Só que hoje o saber acumulado é exponencialmente superior. Também é diferente o vínculo com a informação. Diderot, D’Alembert e seus colaboradores reuniram seus setenta mil artigos que iam da matemática à política ou aos países, seguindo como única ordem a alfabética. Compuseram um índice do conhecimento do mundo para ler em papel. Álvaro Soto, Alexandra García e seus colaboradores, com seus 4,4 bilhões de tokens, tentam alimentar uma máquina com o saber humano e treiná-la para raciocinar por si mesma. Cada esforço em sua época tem talvez uma envergadura similar. Ambos mudam o mundo.

Agora, após três anos de desenvolvimento, estão a poucas semanas do lançamento. Toda segunda-feira às quatro da tarde as quatro equipes do LatamGPT se reúnem nos escritórios da comuna de Macul, para organizar o trabalho. São apenas duas salas muito comuns, uma onde fica a equipe administrativa e outra onde os membros da equipe técnica podem se reunir ou trabalhar. Embora a maioria trabalhe de forma remota. Além da equipe de dados, a equipe de pré-treinamento prepara os grupos de dados com os quais o sistema trabalhará, e a de pós-treinamento ajusta o comportamento do modelo para desenvolver capacidades conversacionais alinhadas com o contexto cultural latino-americano e eliminar vieses. A equipe de ética documenta o processo, articula padrões de segurança, cumprimento de tarefas e auditorias. Uma vez por mês, a reunião se amplia para quase uma centena de parceiros de uma vintena de países que estão colaborando nas diferentes etapas.

―Todos os países da região foram contatados ― explica a ministra Echeverri ― mas a velocidade com que se somam varia.

O que a ministra não diz, porque é uma política inteligente, é que nem todos os países se interessam pela mesma coisa.


Em março de 2025, alguns dias antes do encontro de especialistas em Genebra, na Argentina o chefe de assessores da Presidência da Nação, Damián Reidel, afirmou que nosso país tem tudo para se tornar um hub de inteligência artificial. Disse isso diante de um fórum de empresários estrangeiros em Buenos Aires:

―Temos vastas extensões de terra, com acesso a energia, água, em climas frios, o que é crucial para sistemas de refrigeração. Sem conflitos armados, sem tsunamis ou terremotos. Não há muitos lugares assim na terra. Obviamente o problema desta área é que ela é habitada por argentinos.

Depois de conversar com Álvaro Soto e Aisén Etcheverry no Chile, falei em Buenos Aires com Beatriz Busaniche sobre sua participação na discussão de Genebra e lembramos daquela frase de Reidel:

―É uma visão estúpida. Maliciosa e estúpida ― diz a advogada sem hesitar. Porque não estão se instalando. Não estão vindo investimentos para a Argentina. É preciso fazer um grande investimento em infraestrutura e para isso é preciso ter fluxos de energia garantidos, quando temos metade do país sem gás. E enquanto dizem isso, destroem todo o sistema científico, que é onde se formam e trabalham as pessoas que poderiam fazer isso. Há especialistas com vinte ou trinta anos de carreira que poderiam fazer isso e estão sendo expulsos com o desmantelamento do sistema de ciência e tecnologia, a Agência, o Conicet, e as universidades.

Uma das cientistas que resiste no cenário argentino é Luciana Benotti, especialista em linguística computacional da Universidade Nacional de Córdoba, com ampla trajetória no país e no exterior. Integra a Fundação Via Libre, que trabalha pelos direitos sociais, políticos e culturais em ambientes digitais. Uma de suas colegas lá é Beatriz Busaniche. E participa do Khipu, uma conferência e escola latino-americana de IA, que se realiza desde 2019 a cada dois anos. No Khipu, Luciana Benotti conheceu Álvaro Soto, que a convidou para se juntar à equipe do LatamGPT para participar da etapa de pós-treinamento. Entre maio e novembro de 2024, a equipe de Benotti ministrou um curso sobre IA para professores do ensino médio, que teve mais de 800 participantes. O foco era explorar vieses e estereótipos em modelos de linguagem:

― Durante o próprio curso estivemos interagindo com um conjunto de dados do LatamGPT para avaliar vieses culturais e sociais do modelo ― explica Benotti desde Córdoba. ― Tivemos financiamento principal da Mozilla, que agora desapareceu devido ao contexto internacional. Foi um convênio oficial entre o Cenia, o Ministério da Educação da província de Córdoba, a Universidade Nacional de Córdoba e a Fundação Via Libre. Os professores puderam contribuir com seus conhecimentos para o projeto, ajudando a detectar vieses e melhorá-lo.

Foi até aí a colaboração argentina na etapa de pós-treinamento. Mas o Cenia também assinou um convênio para incorporar ao seu corpus os dados da biblioteca digital da Universidade Nacional de Córdoba. Também o fez com a Biblioteca Nacional Mariano Moreno, a Universidade de Buenos Aires e algumas equipes científicas do Conicet. A Argentina é, assim, o quinto país que mais dados inéditos contribuiu, atrás do Brasil, México, Espanha e Colômbia. Outra contribuição de nosso país foi crucial para a equipe do Cenia. Quando conheceu Álvaro Soto através de Luciana Benotti, Beatriz Busaniche perguntou qual era a política do LatamGPT sobre propriedade intelectual. O diretor do Cenia perguntou se eles precisavam ter uma. E Busaniche o alertou: um dos grandes problemas das grandes empresas de tecnologia são as múltiplas denúncias que enfrentam por parte de empresas do setor cultural pelo uso e incorporação de seus produtos nas bases de dados com as quais lucram.

Na América Latina, os especialistas neste assunto estão do outro lado do Rio da Prata. Data Uruguay é uma ONG que trabalha com tecnologia e direitos humanos. Em 2024, juntou-se à equipe do LatamGPT. De Montevidéu, explica em que consiste seu trabalho:

― Dou um exemplo: É legal coletar os dados de todas as sessões taquigráficas de todos os parlamentos, de décadas de discussões de órgãos deliberativos da América Latina? Num primeiro momento, pode-se dizer que é informação pública. Mas os discursos parlamentares estão protegidos por direitos autorais e as leis de acesso à informação pública não esclarecem isso. E são diferentes em cada país. Tudo isso temos que revisar.

Busaniche explica que as grandes empresas de tecnologia podem enfrentar processos de grandes empresas do setor cultural enquanto continuam com a coleta automática de dados, mas organizações com menos recursos econômicos e financeiros seriam seriamente afetadas. O LatamGPT decidiu resolver a questão publicando também um aviso legal, com um e-mail onde qualquer instituição ou pessoa pode solicitar a remoção de seus dados se assim desejar.

― O grande problema do modelo de coleta colaborativa é o custo de transação ― acrescenta Patricia Díaz. — Todas as horas de recursos humanos necessárias para assinar convênios e obter dados. E o tempo. O Deep Seek, por exemplo, foi treinado em seis meses. E o LatamGPT está há dois anos coletando dados. Mas a ética e as boas práticas têm esse custo. E é parte do que torna este projeto diferente.


No banquete ao final de um evento corporativo nos Estados Unidos, Álvaro Soto encontrou-se com — digamos — Damián, um velho colega de doutorado. Era 2005 e fazia alguns anos que haviam perdido contato. Álvaro perguntou o que havia sido de sua vida e quando ele começou a contar sobre seu novo trabalho, um dos convidados fez um sinal do outro lado da mesa redonda onde estavam sentados. Damián ficou sério, levantou-se e foi até o homem, que lhe murmurou algo breve. Quando voltou à sua cadeira, disse a Álvaro:

― Olha, não posso te contar mais.

Álvaro soube depois que na mesa estavam quase todos executivos do Google, onde seu antigo colega havia começado a trabalhar. Vinte anos depois, o diretor do Cenia diz à Revista Anfibia em Santiago do Chile que naquele banquete entendeu que as grandes empresas de tecnologia começavam a ficar ciumentas com seus avanços e herméticas com os dados. Mas que com o ChatGPT houve uma diferença:

―Não é que alguns cientistas estavam inventando uma fórmula secreta e hoje estamos trinta anos atrás porque não tivemos esses cientistas, como acontece em outros aspectos tecnológicos. Era uma receita que todos conheciam. Era a OpenAI, que depois se transformou em Closed AI, mas fechou suas portas um pouco tarde. Não é como a Coca-Cola, que a gente diz “poxa, qual será a fórmula da Coca-Cola”. Não, aqui é público e todos podemos fazer Coca-Cola. Como a maionese. E nossa iniciativa é pegar essa fórmula e tentar escalar.

Sem publicidade ou patrocínio, dependemos de você. Faça parte do nosso grupo de apoiadores e ajude a manter nossa voz livre e plural: apoia.se/outraspalavras

Leia Também:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *