Big data: o que são e como bancam bilionários

Bezos vai ao espaço e agradece aos compradores da Amazon. Mas sua galinha dos ovos de ouro não são os produtos, e sim os dados gerados pelos usuários. O que são, como são organizados e de que maneira começaram a ser privatizados?

.

Por Nahema Falleiros

Há uma década atrás quase ninguém falava em big data. Prova disso: se consultarmos o Dicionário de Ciência da Informação e Tecnologia, que tem mais de 12.000 termos em inglês, na edição de 2007, por exemplo, simplesmente não encontramos essa expressão na letra B.

Seu uso é recente e faz parte de um certo discurso técnico e científico contemporâneo que celebra a “datificação” da sociedade, a “transformação digital” das mais diversas interações humanas. Esse discurso, porém, tem frequentemente se convertido em uma ideologia – o “dataísmo”. Não confundir com o dadaísmo dos pintores surrealistas! Essa nova ideologia fundamenta-se na crença de que as ferramentas das ciências ditas exatas, como a matemática, a estatística e a computação, são objetivas, neutras. No dataísmo tudo se passa então como se as grandes quantidades de dados pessoais coletadas pelas plataformas digitais falassem por si sós. Como se a análise dos dados pudesse mesmo ser automática…

Essa mesma ideologia, além disso, também reforça a normalização da espionagem praticada em larga escala hoje por laboratórios acadêmicos e industriais, civis e militares. Algo que Edward Snowden, ex-analista de sistemas da NSA, nos revelou em 2013. Muita gente tem feito essa crítica ao big data e à ciência de dados. Maria José van Dijck, professora e pesquisadora holandesa, é uma.

Nos meios de comunicação o big data costuma ser apresentado como uma grande inovação do século XXI, quando na realidade suas origens remontam ao século XX. Afinal, não podemos esquecer que os primeiros centros de processamento e bancos de dados remontam aos anos 1960 e 1970. Isso, pra não falar das origens históricas da ciência de dados, herdeira de tradições científicas tão seculares como a matemática. Alguns estatísticos se perguntam se a ciência de dados não é uma versão “4.0” ou gourmetizada da própria estatística…

Enfim, embora não haja uma definição consensual na academia, na indústria e mesmo no governo sobre o dados acumulados em larga escala nos últimos 30 anos da Web, pra simplificar, podemos partir de uma definição que ficou conhecida como os “três Vs do big data”. Na academia e na indústria, o big data tem sido caracterizado sobretudo por seu volume, sua velocidade e sua variedade. Engenheiros, cientistas da computação ou de dados, estatísticos e bibliotecárias (ao contrário das outras essa área foi feminizada há décadas) falam em volume porque esses dados são processados em larga escala, em velocidade por causa de sua transmissão cada vez mais rápida, no segundo de um click, e em variedade para chamar a atenção sobre suas diferentes fontes e seus diferentes formatos.

Quando estruturados, dados são armazenados nos tradicionais bancos relacionais também conhecidos por SQL, acrônimo inglês usado para structured query language ou linguagem de consulta estruturada. Nesses tipos de bancos, os dados são representados por tabelas, linhas e colunas. Quando desestruturados ou semiestruturados, são armazenados, por sua vez, em bancos não-relacionais, também conhecidos como No-SQL. Nesses últimos tipos, os dados podem ser representados de várias maneiras: orientado a documento, a grafos ou a colunas e por chave-valor. Para citar apenas alguns dos bancos de dados de código-aberto mais usados hoje, há os relacionais MySQL e Oracle e os não-relacionais Mongo-DB e Dynamo-DB.

Detalhes técnicos a parte, como o custo do armazenamento de dados e dos próprios computadores diminuiu drasticamente nos últimos anos, tornando mais fácil e barato armazenar dados em larga escala, os bancos não-relacionais tornaram-se mais populares também já que atendem melhor a nova realidade do big data, caracterizado, como já mencionamos, não só pelos “Vs” de volume e velocidade, mas também pelo “V” de variedade. Em suma, o big data não é estruturado.

E por falar em “Vs”… Há mais um que passou a definir também o big data. Quando tratado por humanos e máquinas, o big data também têm valor! E, se dados são o “novo petróleo”, como dizem alguns economistas afeitos a metáforas, talvez seja de nosso interesse nos perguntarmos por que o big data é valioso apenas para uns e não todos os habitantes do planeta Terra. Hoje, todos nós produzimos diariamente e de graça uma enxurrada de dados pessoais quando usamos nossos computadores, smartphones, etc. Esses dados públicos passaram, porém, a ser apropriados de maneira privada. Apesar de iniciativas como a Lei Geral de Proteção de Dados (LGPD), muitas empresas de TI, como Google, Apple, Facebook, Amazon, Microsoft, IBM, Uber, etc., seguem refratárias a regulações internacionais mais efetivas de proteção social de seus trabalhadores e de distribuição de renda. Todas continuam coletando aberta ou veladamente nosso (sim, nosso!) big data, para dele extrair um conhecimento que pode ser aplicado à pesquisa e ao desenvolvimento de novos produtos e serviços pagos.

Basta ver o que acontece na nova indústria da IA, baseada em algoritmos de aprendizado abertos e em plataformas digitais de “microtarefas”. Dados públicos são coletados gratuitamente para a construção de vastos bancos de dados privados. Até quando as empresas de TI irão lucrar fechando os dados abertos? Quantas passagens teremos de pagar com nossos dados para que Jeff Bezos e outros ricaços do Vale do Silício façam turismo no espaço até que o planeta todo seja tão “datificado” quanto saqueado pelo capital?

Das contradições do big data: como seria bom esquecer o cinismo de Bezos nessa pandemia e lembrar apenas de Wally Funk, essa mulher incrível que, aos 82 anos, pôde finalmente cruzar a fronteira espacial, apesar do machismo que marcou sua história de vida e a impediu de se tornar astronauta. Tantas são as histórias, tantas são as perguntas dessa trabalhadora que lê Brecht e escreve nas entrelinhas de uma tabela qualquer, de uma base de dados relacional que, definitivamente, não está na “nuvem”.

Leia Também:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *