Wikifavelas: O dilema de uma plataforma atacada por robôs

Dicionário Marielle Franco convida à reflexão, a partir de caso vivenciado por seus pesquisadores. O que fazer quando bots de corporações capturam suas informações para treinar IAs? Negá-las? Mas, sem acesso a elas, como disputar com as narrativas hegemônicas?

Introdução

.

No primeiro semestre de 2025, a plataforma Wikifavelas, instância MediaWiki do projeto Dicionário de Favelas Marielle Franco, começou a apresentar picos de lentidão e quedas misteriosas que se assemelhavam a ataques de Negação de Serviço (mais conhecido pela sua sigla em inglês DDoS-Attack – Distributed Denial of Service). A equipe de TI, então, começou a investigar a causa do problema, dado que o número de usuários diários à plataforma não era grande o suficiente para implicar em indisponibilidade do sistema. Foi ao acessar o log que se descobriu um culpado inusitado para essa indisponibilidade do site: web-crawlers, robôs raspadores de páginas web de grandes empresas atuantes no ramo de IA, como OpenAI (dona do ChatGPT) e Google (responsável pela plataforma Gemini).

Situações como esta já vinham sendo relatadas em outros projetos mantenedores de instâncias MediaWiki1, mas não deixou de ser uma surpresa para a equipe de Tecnologia e Design do projeto Dicionário de Favelas Marielle Franco, que precisou realizar a implantação de cache no sistema para minimizar os efeitos da constante raspagem de conteúdo do site. Este cenário levou a equipe a uma reflexão importante sobre como lidar com essa situação, visto que a solução mais óbvia (bloquear os acessos de robôs na plataforma) não seria necessariamente a ideal para a missão de uma plataforma de conhecimento aberto como a Wikifavelas. Mas, antes de adentrar nesse debate, vale fazermos aqui uma primeira explicação sobre como o ChaGPT e similares fazem buscas por conteúdo na Internet.

Como as ferramentas de IA varrem a Internet?

Primeiramente, é importante destacar que, em geral, ferramentas de IA generativa não realizam buscas diretamente na Internet quando o usuário faz uma consulta. Essa funcionalidade, apesar de presente em alguns Large Language Models – LLMs2, está usualmente disponível apenas nas versões pagas, secundária para o funcionamento principal dessa tecnologia. O que acontece, geralmente, é que o usuário faz consultas em suas bases de dados próprias, sobre a qual o modelo de linguagem foi treinado para responder os seus usuários.3

Ou seja, em vez de buscar em tempo real na Internet e ver o que os principais resultados de sites e conteúdos dizem como sendo a “informação verdadeira” que deve ser passada para o usuário para responder uma consulta, as ferramentas de IA generativa consultam uma “verdade” que foi construída a partir do trabalho matemático em cima dos dados que a empresa, dona da ferramenta, possui armazenados.

É importante falar que esses dados não são neutros, pelo contrário, reproduzem uma visão de mundo enquadrada pelas empresas que produzem as ferramentas de IA e, por isso, são carregados de vieses de gênero e raça, além de serem reflexos de uma visão de mundo centrada no Norte Global. Ou seja, para nós do Sul Global e especialmente para as favelas e periferias, essa é uma tecnologia estrangeira que invade nossos espaços, virtuais e concretos, para alimentar interesses privados.4

Uma forma bem ilustrativa desse caráter invasor dessas tecnologias é pela própria forma como esses bancos de dados internos das empresas de IA é que existem os robôs raspadores: essas ferramentas, como o próprio nome diz, “raspam” os dados das páginas na Internet e enviam para serem processados e utilizados no treinamento das IAs generativas.5 O comportamento dos robôs é bem diferente de um usuário humano e, por isso, são fáceis de serem detectados e bloqueados pelos administradores de sistemas. Além disso, as próprias empresas de IA fornecem documentação sobre como detectar e bloquear os seus robôs.6

Assim, caso quisesse, o Dicionário de Favelas poderia bloquear o acesso desses robôs e não ter mais seus dados raspados por ferramentas de IA. Não seria uma tarefa simples, visto que novos bots de IA são criados pelos diversos fabricantes com certa frequência, o que torna o esforço de bloqueá-los uma tarefa constante. De fato, esse bloqueio já é feito, em alguma medida, por portais institucionais da Fiocruz, que relatam esse jogo de gato e rato, onde um novo bot surge, é detectado e bloqueado pela equipe. Porém, mais complexo que o debate de “o que pode ser feito” é o de “o que deve ser feito”, pelos motivos que explicaremos a seguir.

Complexidades e impactos negativos do tráfego de robôs

Antes de respondermos à questão do parágrafo anterior, vale ressaltar que a Wikifavelas não é o primeiro site a se deparar com esse dilema. Por exemplo, grandes portais de notícias como o CNN, BBC, Al Jazeera, optaram por bloquear os bots de IA de serem treinados com base em suas notícias.7 O jornal estadunidense The New York Times, além de bloquear a raspagem de dados por IA, também entrou com um processo na justiça contra a OpenAI alegando que o ChatGPT foi treinado utilizando o conteúdo do jornal sem permissão.8 O NYT afirma também, que a ferramenta agora está competindo com o jornal como uma fonte de informações confiável.9

Este mês foi a vez da Folha de São Paulo fazer o mesmo: em ação contra a OpenIA, o jornal processa a empresa por concorrência desleal e violação de direitos autorais e acusa a BigTech de treinar usar seu conteúdo “sem autorização e sem o pagamento de qualquer remuneração”, driblando os mecanismos de bloqueio de bots do jornal.10

Podemos notar que, para jornais, a decisão de bloquear é clara: as ferramentas de IA estão coletando informação que esses veículos normalmente venderiam, por meio de assinaturas, para seus clientes e distribuindo-a sem contrapartida para esses portais de notícias. Logo, existe um conflito de interesse claro e relativamente simples de ser entendido e resolvido. Mas e no caso de uma plataforma de conhecimento aberta como o Dicionário de Favelas?

A diferença fundamental está na natureza de bem comum digital que projetos como o nosso encarnam. Enquanto um jornal como The New York Times opera sob uma lógica de propriedade intelectual e conteúdo proprietário – sua receita depende diretamente do controle sobre a distribuição de sua produção –, a Wikifavelas se estrutura como um common: um recurso coletivo, construído colaborativamente, de acesso livre e gratuito, orientado pelo interesse público e não pela lucratividade. Seu valor não está na venda de assinaturas ou no monopólio da informação, mas na circulação ampla e irrestrita do conhecimento que produz. É um projeto que entende a informação como um patrimônio da sociedade, não como uma mercadoria. Essa distinção crucial de modelo e propósito nos leva a um cenário de impactos muito específico, também vivido por outras iniciativas semelhantes.

Tomando a Wikipédia, como exemplo, notamos que o tráfego indiscriminado de robôs de IA traz, de fato, desafios manutenção da plataforma:

“Os projetos Wikimedia são a maior coleção de conhecimento aberto do mundo. Nossos sites são um destino inestimável para os seres humanos que buscam informações […]. Mas com o surgimento da IA, a dinâmica está mudando: estamos observando um aumento significativo no volume de solicitações, sendo que a maior parte desse tráfego é impulsionada por robôs de raspagem que coletam dados de treinamento para grandes modelos de linguagem (LLMs) e outros casos de uso. […] Essa expansão ocorreu em grande parte sem atribuição suficiente, o que é fundamental para levar novos usuários a participar do movimento, e está causando uma carga significativa na infraestrutura subjacente que mantém nossos sites disponíveis para todos.” 11 12

Nesse mesmo artigo, a Wikimedia, organização sem fins lucrativos responsável pela Wikipédia, afirma que 65% do tráfego da plataforma é proveniente de robôs de IA13 e que isso tanto dificulta a manutenção da infraestrutura computacional necessária para suportar esse projeto quanto, desestimula a participação humana em projetos colaborativos de construção livre de conhecimento. Afinal de contas, é muito mais cômodo para o usuário ter sua pergunta respondida diretamente por IA do que buscá-la em um portal como a Wikipédia (ou na Wikifavelas).

E qual é o problema de bloquear a IA?

Ok, mas se a IA gera um tráfego que aumenta custos de infraestrutura e desestimula a participação humana no Dicionário de Favelas, qual é o problema em bloquear esses robôs de IA? O principal efeito disso seria a informação contida na Wikifavelas deixar de estar disponível para treinar as ferramentas de IA, que vão continuar existindo e tendo um papel cada vez mais central como fonte de informação na vida cotidiana.

De fato, em maio de 2025, o número de visitantes mensais do ChatGPT superou o da Wikipédia.14 Isso indica uma mudança de hábitos da forma como as pessoas consomem informação na Internet e por mais que preocupações sobre os impactos negativos desse consumo existam e sejam válidas, não é possível “desinventar” essas ferramentas de IA.

Podemos não deixar os dados do Dicionário de Favelas serem utilizados para treinar ferramentas de IA, mas elas continuarão sendo utilizadas como fonte de pesquisa, inclusive para tópicos relacionados às favelas. E, sem as informações que projetos como o Wikifavelas fornece, serão mais propensas respostas que reproduzam narrativas hegemônicas, que colocam esses territórios como “agrupamentos subnormais”15, lugares violentos, desprovidos de cultura, etc.

Em outras palavras, negar o acesso pode significar reforçar estereótipos que já existem e que a própria iniciativa busca combater. A dualidade está sobre permitir ou não que os dados do Dicionário de Favelas sejam utilizados para treinar ferramentas de Inteligência Artificial vai muito além da questão técnica. Se os projetos comunitários e acadêmicos, como o Wikifavelas, não abastecerem o ecossistema digital com informações produzidas a partir da perspectiva das próprias favelas e periferias, as respostas geradas por IA tenderão a se apoiar em bases tradicionais e enviesadas.

O custo do modelo de conhecimento aberto como serviço

A Wikifavelas é um projeto que tem um custo para oferecer conteúdo confiável e aberto à sociedade e, tal como a MediaWiki, é um modelo de conhecimento como serviço16 que disponibiliza informação de interesse público à população. Esses custos — que ficam inteiramente a cargo da Fiocruz, uma instituição pública — abrangem não apenas a infraestrutura de hospedagem que mantém o sistema operante, também o trabalho de mais de 30 pesquisadores dedicados a produzir e disponibilizar conteúdo confiável e aberto para a sociedade.

Uma vez que esta infraestrutura se coloca sob ataque de robôs de raspagem de conteúdo em massa, o serviço de manutenção é onerado. Por outro lado, as empresas de IA que se utilizam da base de conhecimento da plataforma, obtêm receita com essa extração de dados e não repassam ou financiam de qualquer forma a manutenção da plataforma. Ou seja, elas terceirizam o custo da disponibilidade do conhecimento.

Precisamos manter o modelo de conhecimento como serviço e continuar disponibilizando conhecimento aberto, gratuito e de interesse público para a sociedade, mas isso precisa acontecer de maneiras que sejam sustentáveis para nós.

Esse cenário revela uma assimetria preocupante, pois isso pode significar a inviabilidade de seguir oferecendo o serviço à sociedade; manter o modelo de conhecimento como serviço é fundamental, mas precisamos pensar em formas sustentáveis de fazê-lo e que sejam compatíveis com as características da administração pública. Por exemplo, enquanto a Wikipédia, sustentada por uma fundação privada e não-governamental, pode buscar soluções que passem pela criação de modelos de corresponsabilidade, em que empresas que exploram dados abertos contribuam para sua manutenção, a Wikifavelas, enquanto parte da Fiocruz não pode fazer o mesmo, sendo necessário pensar em soluções próprias e adequadas para o contexto de uma infraestrutura estatal. Paralelamente, também devemos cogitar soluções técnicas adaptativas e colaborativas que reduzam a dependência de defesas digitais caras.

Defender o conhecimento aberto é, em última instância, defender o direito da sociedade ao acesso livre à informação. Mas esse direito só será garantido se também conseguirmos corrigir a desigualdade entre quem mantém a infraestrutura e quem lucra com ela.

O que fazer?

Os dilemas colocados para uma plataforma coletiva como o Dicionário de Favelas, face ao desafio apresentado pelo tráfego gerado por robôs de IA, vão requerer a busca de respostas para questões cruciais, tais como:

  • É justo que uma instituição pública tenha um aumento nos seus custos de infraestrutura computacional por causa desse tráfego (sem contrapartida as empresas de IA)?
  • Qual o impacto real que as informações do Dicionário de Favelas têm no treinamento dos LLMs? Será que nossos dados são perdidos na miscelânea e invisibilizados? Ou será que ajudamos a combater vieses racistas, eurocêntricos, elitistas e machistas dessas ferramentas?
  • Qual é o efeito dessa mudança de hábito de consumo de conteúdo na saúde do ambiente digital?

Em resumo, como manter o modelo de conhecimento como serviço aberto, gratuito e público, sem que os custos de infraestrutura e defesa digital inviabilizem sua continuidade?


Notas:

1 https://www.fsf.org/bulletin/2025/spring/defending-savannah-from-ddos-attacks (Acesso em 21/08/2025)

2 Termo em inglês para a principal tecnologia utilizada atualmente nas ferramentas de IA generativa como ChatGPT e similares.

3 https://writingmate.ai/blog/ai-that-searches-the-internet-an-up-to-date-list (Acesso em 24/07/2025)

4 Para saber mais sobre o impacto das novas tecnologias digitais nas favelas e periferias, sugerimos as leituras dos verbetes: https://wikifavelas.com.br/index.php/Algoritmos_e_Favela (Acesso em 09/09/2025) e https://wikifavelas.com.br/index.php/Impacto_da_IA_nas_favelas_-_desafios_e_oportunidades (Acesso em 09/09/2025)

5 https://platform.openai.com/docs/bots/ (Acesso em: 24/07/2025)

6 Listas com todos os robôs de IA são facilmente encontradas na Internet. O seguinte repositório no GitHub compilou os principais bots utilizados para treinamento de IA e instruções para seus bloqueios a a partir das documentações oficiais das empresas: https://github.com/ai-robots-txt/ai.robots.txt (Acesso em: 24/07/2025)

7 https://pressgazette.co.uk/platforms/news-sites-block-ai-web-crawlers-chatgpt-google/ (Acesso em: 24/07/2025)

8 https://www.theverge.com/2023/8/21/23840705/new-york-times-openai-web-crawler-ai-gpt (Acesso em: 24/07/2025)

9 https://www.bbc.com/news/technology-67826601 (Acesso em: 24/07/2025)

10https://www1.folha.uol.com.br/mercado/2025/08/folha-entra-com-acao-contra-openai-por-concorrencia-desleal-e-violacao-de-direitos-autorais.shtml

11 Texto extraído de: https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/ (Acesso em: 24/07/2025)

12 Tradução realizada pelo autor a partir do original em Inglês: “The Wikimedia projects are the largest collection of open knowledge in the world. […] But with the rise of AI, the dynamic is changing: We are observing a significant increase in request volume, with most of this traffic being driven by scraping bots collecting training data for large language models (LLMs) and other use cases. […] This expansion happened largely without sufficient attribution, which is key to drive new users to participate in the movement, and is causing a significant load on the underlying infrastructure that keeps our sites available for everyone.”

13 https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/ (Acesso em: 24/07/2025)

14 https://futurism.com/survey-chatgpt-overtaken-wikipedia (Acesso em: 24/07/2025)

15 Esse termo problemático, utilizado outrora para se referir às favelas, foi revisto pelo IBGE em 2023. Saiba mais em: https://wikifavelas.com.br/index.php/De_Aglomerados_Subnormais_para_Favelas_e_Comunidades_Urbanas (Acesso em 09/09/2025)

16https://meta.wikimedia.org/wiki/Strategy/Wikimedia_movement/2017/Direction#Knowledge_as_a_service:_A_platform_that_serves_open_knowledge_to_the_world_across_interfaces_and_communities

Outras Palavras é feito por muitas mãos. Se você valoriza nossa produção, contribua com um PIX para [email protected] e fortaleça o jornalismo crítico.

Leia Também:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *