Assim as big techs sufocam a internet

Por meio de robôs, ela apropriam-se do conteúdo de sites de todo o mundo; deformam-no e o apresentam como seu. Prática está sufocando produtores de cultura e conhecimento. Regulação das corporações deve abordar este “embate invisível” que compromete a circulação de informações e ideias

Imagem: Pixabay
.

“Cara, no meu site virou uma insanidade. A enxurrada de bots e crawlers de IA derruba o servidor e degrada a performance. Quando passo a bloquear, a audiência desaba: o Google ‘pune’ tirando o site das respostas automáticas de IA, que aparecem antes de qualquer busca, e reduzindo visibilidade no Discover e no Google News. Viramos reféns: pequenos e médios veículos alimentam modelos com o nosso conteúdo, sem remuneração nem transparência. Ou você se dobra, ou some da Internet. Todo mundo tenta diversificar tráfego fora do Google — mas é duro e caro.”

O depoimento anônimo que abre este texto não é um desabafo individual de um editor de um sítio brasileiro com quase três décadas de existência. Ele resume o drama de quase todas as pequenas e médias empresas jornalísticas do mundo. De forma isolada, elas estão lutando contra o arrastão de conteúdo na web com o advento da pesquisa online das plataformas de inteligência artificial promovida pelos robôs de busca criados pelas grandes empresas do setor.

Este testemunho foi uma reação quando enviei a um amigo os dados constantes deste artigo de Ignacio de Gregorio[1]. Ele parte da teoria da internet morta[2] para argumentar que a web aberta está sendo “sufocada” por mecanismos de resposta de IA e por uma avalanche de crawlers/agents, que transformam o ciclo clássico “busca > clique > visita” num “answer engine” sem qualquer retorno ao editor. Gregorio reúne evidências que mostram que mais da metade do tráfego já é automatizado enquanto editores arcam com custo de banda e perdem visibilidade em produtos originais. (Mediumlearn.fastly.comThe Cloudflare Blog).

Os dados destacados no texto falam por si:

  • 51% do tráfego da internet em 2024 foi automatizado; 37% eram bots maliciosos — recorde que se estende em 2025. (Imperva Bad Bot Report 2025).
  • PerplexityBot teve alta de +157.490% em requisições (base pequena, mas salto “astronômico”). (The Cloudflare Blog)
  • O tráfego de bots de real-time retrieval cresceu 49% no 1º tri/2025 vs 4º tri/2024. (The Washington Post)
  • >1 bilhão de requisições/mês já vêm de crawlers da OpenAI (>1,2B em jun/2025; “quase 1B” em maio). (TechRadar, DataDome)
  • Mais de 1/3 do tráfego da web em mai/2025 veio de APIs e agentes/autônomos, não de navegadores. (TechRadar, DataDome)
  • Bots da OpenAI = 98% do tráfego “fetcher”(bots que buscam páginas em tempo real) global em 2025. (com)
  • Na Wikimedia, bots respondem por ~35% das pageviews, mas consomem ~65% das requisições mais custosas; +50% de banda desde jan/2024 atribuído a scraping de IA. (Wikimedia Diff; TechCrunch/Ars). (Diff, TechCrunch, Ars Technica)
  • 80–95% do tráfego em pequenos servidores vem de crawlers de IA. (arXiv)

Esta situação é agravada pelo que o autor chama de rearrumação do poder na web: answer engines e agentes de IA passaram a intermediar a leitura e a monetização, reduzindo o papel dos navegadores e da busca tradicional. Ele cita medidas técnicas e de mercado em discussão — bloqueio de bots de IA, licenças pagas por crawl (HTTP 402/”pay-per-crawl”), acordos editor-IA e métricas para separar agentes “benéficos” dos abusivos — mas ressalta que, sem modelo de compensação e limites à extração de dados, o ecossistema de jornais e pequenos sítios tende a ficar refém de plataformas de IA com incentivos para reter a audiência dentro das respostas. (The Cloudflare Blog, TechRadar)

Uma maneira de reduzir esta assimetria de relação, sugere Gregorio, seria criar uma camada de identidade para a web que diferencie claramente pessoas de agentes/bots de IA. A proposta combinaria autodeclaração padronizada obrigatória para os usuários artificiais e prova criptográfica anexada a cada requisição para evitar spoofing e um registro público/reputacional de agentes que permita políticas default-deny a tráfego não identificado. Com isso, os sítios poderiam detectar e gerir crawling/scraping (rate limits, bloqueios ou licenças) com previsibilidade e auditoria. Em síntese: robôs teriam que comprovar que não são humanos e não contrário.

Saída comercial

Uma importante reação e busca de saída a esta sanha predatória está vindo de ninguém menos que o CEO da Cloudflare, Matthew Prince. Responsável pela intermediação de 20% do tráfego global da web, o executivo diz ter uma receita para salvar a internet dos techoligarcas de IA. Prince vem mudando a economia do “raspador grátis” para seus clientes com um modelo pay-per-crawl que force as Big Techs e Big Startups a licenciar e pagar por acesso a conteúdo. Segundo Prince, a ascensão dos answer engines matou o ciclo histórico “crawler > clique > receita”. Agora o usuário recebe a resposta direta e não retorna às fontes, enquanto os crawlers multiplicam custo de banda nos sítios. A empresa diz ter alavanca para bloquear robôs de IA em escala e levar os atores à mesa de negociação.

Como meu amigo sintetizou lá no início, Prince confirma que o Google teria poder para destravar pagamentos generalizados (por causa do domínio em busca e dos casos antitruste), mas a Cloudflare pode acelerar o movimento com bloqueios coordenados e ofertas exclusivas de conteúdo para answer engines, à la Netflix e Spotify. Na entrevista[3], o executivo aponta dados sobre o abismo crawl-to-click e descreve três futuros: colapso dos sítios; oligopólios de IA integrando jornalistas; ou um mercado licenciado de conteúdo para IA. A tese da Cloudflare é bastante lógica: sem pagamento pelo conteúdo e com aumento dos custos de conexão, o modelo que financia o jornalismo e a web aberta implodirá.

No blog da empresa[4], desde julho do ano passado, já há até propostas concretas para o serviço de bloqueio dos robôs. A Cloudflare lançou um botão “block all AI bots” (inclusive no plano gratuito) que ativa, com um clique, listas geridas pela companhia para barrar scrapers/crawlers de IA. A função surgiu porque muitos bots ignoram robots.txt e sobrecarregam sites — sobretudo os de conteúdo. No último ano, a empresa afirma que mais de 1 milhão de domínios ativaram o bloqueio.[5]

A partir de 2025, a Cloudflare passou a ofertar também a versão beta de seu AI Crawl Control / Pay-Per-Crawl com respostas HTTP 402 (“Payment Required”) e controles para bloquear, permitir ou cobrar por acesso de crawlers — tentativa de reverter o modelo de “almoço grátis” e criar mercado de licenças para IA. A narrativa oficial de devolver controle e receita a criadores e editores é contraposta porque críticos que lembram que contornar bloqueios ainda é uma disputa técnica em curso.

Mobilização social

Esta morte potencial não se trata de um problema restrito ao jornalismo. E deveria preocupar a todos os criadores que disponibilizam conteúdos na Internet. No momento, a maioria está concentrada na importante queda-de-braço sobre direitos autorais. Mas aqueles escritores, fotógrafos, jornalistas, músicos e produtores audiovisuais que dependem da publicidade digital e dos cliques para seus sítios a fim de ampliarem sua remuneração também precisariam colocar uma lupa sobre esta relação. Manifestar-se e dar transparência sobre esta realidade é um primeiro passo para chamar atenção para os riscos envolvidos.

E os legisladores, em tempo de regulamentação de IA no Brasil, deveriam ficar atentos para irem além da proteção de direitos em seus textos em debate. Disciplinar este embate quase invisível, que pode matar a internet, é tão importante quanto debater os vieses dos modelos e outros temas importantes criados pela nova tecnologia. Porque talvez a morte anunciada pela teoria não ocorra, mas a existência de uma Internet artificial poderá ser tão nociva quanto seu desaparecimento.


Notas:

Os web crawlers estão longe de ser novidade. Em 1993, surgiu o World Wide Web Wanderer, e, pouco depois, mecanismos como JumpStation e WebCrawler figuraram entre os primeiros a combinar crawling com indexadores. Esses robôs tornaram-se parte da pesquisa, um dos pilares do sucesso da internet. Sua função histórica é varrer e indexar o conteúdo de sites em toda a rede para que apareçam nos resultados dos mecanismos de busca e conduzam os usuários às páginas mais relevantes.


Referências:

[1] https://medium.com/@ignacio.de.gregorio.noblejas/is-ai-slowly-killing-the-internet-the-dead-internet-theory-f89a5d6326b8

[2] Ideia nascida em 2021 de que a web “morreu” como espaço humano e vem sendo tomada por conteúdo e tráfego automatizados — bots, fazendas de engajamento e, mais recentemente, textos/imagens de IA — enquanto motores de “resposta direta” substituem o clique para o site original. O resultado seria degradação da qualidade, opacidade algorítmica e asfixia de pequenos editores e criadores. Por mais controversa que seja, a teoria capturou muito bem tendências reais de automação e intermediação de conteúdo.

[3] https://crazystupidtech.com/2025/08/30/cloudflares-ceo-wants-to-save-the-web-from-ais-oligarchs-heres-why-his-plan-isnt-crazy/ “Cloudflare’s Matthew Prince has a plan to get Google and the AI oliigarchs to pay for your content even though many are used to getting it for free. He might have enough leverage to make them. “

[4] https://blog.cloudflare.com/introducing-pay-per-crawl/?utm_source=chatgpt.com “Enabling content owners to charge AI crawlers for access”

https://developers.cloudflare.com/changelog/2025-07-01-pay-per-crawl/?utm_source=chatgpt.com “Introducing Pay Per Crawl (private beta) · Changelog”

https://www.cloudflare.com/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/?utm_source=chatgpt.com “Cloudflare Just Changed How AI Crawlers Scrape …”

[5] https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/?utm_source=chatgpt.com “Declare your AIndependence: block AI bots, scrapers and …”

https://www.cloudflare.com/press-releases/2024/cloudflare-helps-content-creators-regain-control-of-content-from-ai/?utm_source=chatgpt.com “Cloudflare Helps Content Creators Regain Control of their …”

https://arstechnica.com/tech-policy/2024/09/cloudflare-lets-sites-block-ai-crawlers-with-one-click/?utm_source=chatgpt.com “Cloudflare moves to end free, endless AI scraping with one …”

Sem publicidade ou patrocínio, dependemos de você. Faça parte do nosso grupo de apoiadores e ajude a manter nossa voz livre e plural: apoia.se/outraspalavras

Leia Também:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *