Vem aí o vídeo analytics, e “eles” saberão tudo de você
Novas câmeras inteligentes captam suas emoções, rastreiam seus passos e se apropriam de suas imagens privadas, para promover manipulação de dados em massa. Você pode ser “suspeito” – por estar no lugar errado e na hora errada
Publicado 27/02/2020 às 17:40 - Atualizado 27/02/2020 às 17:58
Por Michael Kwet, no Intercept
Há uma preocupação crescente de que câmeras de vídeo passem a usar programas de reconhecimento facial para rastrear nossa circulação em espaços públicos. Uma questão menos comentada – mas tão alarmante quanto – é a expansão exponencial das redes de câmeras “inteligentes” de vigilância.
Empresas e casas começam a conectar suas câmeras a redes controladas pela polícia. Além disso, percebe-se um avanço das pesquisas em inteligência artificial que utilizam circuitos internos de TV, também conhecidos pela sigla CCTV, uma ferramenta com o potencial de exercer uma vigilância pública total. Em um futuro não muito distante, forças policiais, lojas e governos poderão gravar os movimentos das pessoas e interpretá-los com base na análise de dados – técnicas chamadas de video analytics, no jargão tecnológico.
A ascensão das redes de câmeras inteligentes que monitoram tudo é uma ameaça alarmante a direitos civis e liberdades em todo o mundo. Não é de hoje que órgãos de aplicação da lei executam procedimentos de vigilância contra comunidades marginalizadas, e estudos mostram que esse tipo de monitoramento ameaça a liberdade de expressão – com efeitos nocivos que podem se espalhar à medida que essas redes se tornam mais abrangentes e sofisticadas.
Para entender a situação que estamos enfrentando, precisamos abordar o crescimento da indústria da vigilância com câmeras de vídeo – sua história, seus atores poderosos e o que vem pela frente. Tudo começa com a proliferação de câmeras de segurança e policiamento e termina com um novo imperativo da indústria: monitoramento total do espaço público.
Sistemas de gerenciamento de vídeo e redes de vigilância “acessórias”
Nas primeiras décadas de sua existência, os circuitos internos de TV eram formados por aparelhos analógicos de baixa resolução que gravavam imagens em fitas. Empresas e governos utilizavam esses sistemas para filmar áreas específicas. Poucas câmeras eram instaladas em espaços públicos, e a capacidade de rastrear pessoas era limitada: se a polícia quisesse analisar a movimentação de alguém, era preciso gastar horas coletando gravações obtidas em diferentes lugares de uma determinada região.
No final dos anos 1990, o monitoramento em vídeo evoluiu. A empresa Axis Communications inventou a primeira câmera de vigilância conectada à internet, a qual transformava imagens em movimento em dados digitais. Novos negócios como a Milestone System desenvolveram sistemas de gerenciamento de vídeo, conhecidos pela sigla VMS, para organizar as captações em bancos de dados. Os fornecedores de VMS criaram funcionalidades como sensores de movimento que disparam alertas quando uma pessoa é flagrada em uma área restrita.
Com o passar do tempo, o emprego das câmeras de vigilância se disseminou. Um relatório elaborado há cerca de 50 anos informava que o Reino Unido tinha pouco mais de 60 câmeras de circuitos internos instaladas de modo permanente. Hoje há mais de seis milhões de aparelhos desse tipo no país, enquanto os Estados Unidos têm dezenas de milhões. Segundo a empresa de marketing IHS Markit, um bilhão de câmeras vigiará o mundo até o final de 2021, com uma disputa entre China e Estados Unidos para ver qual país tem mais câmeras por habitante. Atualmente as polícias conseguem rastrear pessoas utilizando imagens de múltiplas câmeras, a partir de um centro de controle, de um computador ou de um smartphone.
Embora seja possível conectar milhares de câmeras em um sistema de gerenciamento, isso é caro. Para aumentar a quantidade de circuitos internos, algumas cidades adotaram a seguinte medida: encorajar negócios e cidadãos a conectar suas câmeras privadas à rede policial – o que chamo de “redes de vigilância acessórias”.
Ao articular câmeras de governos com aparelhos particulares, especialistas em policiamento afirmam que uma força policial de uma típica cidade grande pode acumular centenas de milhares de gravações dentro de poucos anos.
A cidade de Detroit popularizou suas redes de vigilância acessórias com o controverso projeto Green Light. A iniciativa permite que empresas comprem câmeras para circuitos internos e as conectem à sede da polícia. Também é possível instalar uma luz verde ao lado das câmeras para indicar que os aparelhos integram a rede policial. Os idealizadores do projeto alegam que a tecnologia dissuade criminosos ao sinalizar que a polícia está observando os seus movimentos.
Detroit não está sozinha. Chicago, Nova Orleans, Nova York e Atlanta também criaram redes de vigilância acessórias. Nessas cidades, empresas e casas compartilham seus vídeos, que são integrados a centros de combate ao crime, permitindo que a polícia acesse transmissões ao vivo e gravações. A polícia de New Haven, no estado de Connecticut, afirma que está analisando a implementação da vigilância acessória, e outros lugares provavelmente estão fazendo o mesmo.
O número de redes de câmeras policiais agora vai de dezenas de milhares (Chicago) até algumas centenas (Nova Orleans). Com tantos aparelhos instalados, mas poucos agentes para assistir às imagens, os órgãos policiais enfrentam um novo desafio: o que fazer para obter algum sentido das gravações?
A resposta está na análise de dados dos vídeos, ou video analytics.
A análise de dados decola
Por volta de 2006, uma jovem israelense gravava vídeos familiares nos finais de semana, mas sua rotina de mãe e estudante não lhe dava tempo para assistir às imagens. O cientista de computação Shmuel Peleg, docente na universidade onde a jovem estudava, buscou um jeito de resolver o problema: ele pegaria um vídeo longo e condensaria as atividades mais interessantes em um videoclipe curto.
A solução falhou: a estudante costumava mover a câmera para filmar os familiares, enquanto a técnica desenvolvida exigia planos fixos.
Mais tarde Peleg encontrou outra solução que usa câmeras fixas e que era útil para a indústria da vigilância. A pesquisa deu origem à BriefCam, uma empresa que analisa dados de vídeos e consegue resumir gravações de uma determinada cena – de modo que investigadores possam ver, de forma rápida, um resumo do que aconteceu de mais relevante naquele local.
Utilizando a funcionalidade sinopse de vídeo, a BriefCam sobrepõe gravações realizadas em momentos diferentes, como se elas tivessem ocorrido simultaneamente. Por exemplo, se várias pessoas caminharam diante de uma câmera às 12h30, 12h40 e 12h50, a BriefCam reúne as imagens desses três horários em uma única cena. Em vez de levar horas, os investigadores dessa suposta situação conseguiriam assistir, em poucos minutos, às gravações de um dia inteiro.
Graças ao avanço acelerado das pesquisas em inteligência artificial, a síntese de imagens é apenas uma das funcionalidades da linha de produtos da BriefCam e da crescente indústria da análise de vídeos.
O reconhecimento de comportamentos inclui a possibilidade de analisar dados de vídeo a partir da identificação de brigas, emoções, quedas, ócio, passeios com cachorros, travessia de pedestres, não pagamento de pedágio e inclusive detecção de mentiras.
O reconhecimento de objetos é capaz de reconhecer rostos, animais, carros, armas e incêndios, entre outras coisas, bem como características humanas como gênero, idade e cor do cabelo.
A identificação de comportamentos incomuns tem como base a gravação de uma área por um determinado tempo – 30 dias, por exemplo – para definir o comportamento “normal” daquela cena. Se a câmera captura algo inusitado – por exemplo, uma pessoa correndo na rua às 3h da manhã –, ela sinaliza o incidente.
Sistemas de análise de dados de vídeo são capazes de buscar e interpretar tanto transmissões ao vivo como gravações. Também é possível isolar indivíduos e objetos quando eles passam por uma rede de câmeras inteligentes.
Chicago, Nova Orleans, Detroit, Springfield, Massachusetts e Hartford são algumas das cidades que atualmente usam o sistema da BriefCam para policiamento.
Procurar e vigiar
Com os espaços públicos das cidades tomados por câmeras e análises de dados capazes de interpretar imagens, as forças policiais adquirem a capacidade de gravar e analisar tudo o tempo inteiro. Isso dá às autoridades o poder de indexar cenas e explorar um vasto banco de dados de objetos, comportamentos e atividades.
Em Connecticut, a polícia já utilizou a análise de dados de vídeos para identificar e monitorar suspeitos de tráfico e traficantes conhecidos. O sargento Johnmichael O’Hare, ex-diretor do Real Time Crime Center de Hartford, recentemente demonstrou como a BriefCam ajudou a polícia local a revelar “onde as pessoas vão mais” ao longo de 24 horas, a partir da condensação e síntese das imagens em um clipe de nove minutos. Usando a funcionalidade “percursos”, ele descobriu centenas de pessoas visitando duas casas em uma rua e conseguiu um mandado de busca para verificar se as residências eram usadas para o tráfico de drogas.
A startup de análise de dados de vídeos Voxel51 oferece uma busca ainda mais sofisticada. O cofundador da empresa, Jason Corso, professor de Engenharia Elétrica e Ciências da Computação na Universidade de Michigan, conta que a empresa oferece uma plataforma de processamento e interpretação de vídeos.
Corso disse que sua empresa espera oferecer o primeiro sistema em que as pessoas possam “fazer buscas com base em conteúdo semântico, tais como: ‘Quero encontrar todos clipes que mostrem cruzamentos com mais de três acessos, com pelo menos 20 veículos, durante o dia”. A Voxel51 “tenta tornar isso possível” coletando gravações e “transformando-as em dados pesquisáveis em diferentes tipos de plataformas”.
Diferentemente da BriefCam, que analisa vídeos usando apenas o seu próprio programa, a Voxel51 oferece uma plataforma aberta que permite a terceiros adicionarem seus próprios modelos de análise. Se funcionar, a plataforma vai potencializar a capacidade de busca e vigilância em espaços públicos.
Corso também contou que sua empresa desenvolve um projeto-piloto com a polícia de Baltimore para o programa de vigilância da cidade, o CitiWatch, e também planeja testar a iniciativa com a polícia de Houston.
À medida que as cidades começam a implementar amplas redes de monitoramento utilizando a chamada internet das coisas, pesquisadores tentam desenvolver uma técnica conhecida como análise de dados de vídeos e sensor de fusão, ou VA/SF, voltada aos departamentos de inteligência das polícias. Com essa técnica, múltiplas transmissões de sensores são combinadas com análises de dados para dirimir dúvidas e fazer inferências sobre situações complexas. Como exemplo, Peleg conta que a BriefCam está desenvolvendo análises de áudios obtidos por câmeras – o uso de microfones serve para identificar ações que possam confundir os sistemas de inteligência artificial. A interpretação dos sons informa, por exemplo, se duas pessoas estão dançando ou brigando.
Sistemas de gerenciamento de vídeos também oferecem uma integração com diferentes tecnologias. O ex-chefe de polícia de New Haven, Anthony Campbell, contou como os ShotSpotters – aparelhos polêmicos, capazes de identificar o som de tiros – são integrados a um programa especializado para realizar a seguinte operação: quando um tiro é disparado, as câmeras da proximidade instantaneamente se voltam em direção à suposta origem dos disparos.
Os agentes também podem usar o programa para trancar portas de edifícios a partir de uma central de controle – e empresas estão desenvolvendo análises de dados para alertar suas equipes de segurança quando um carro está sendo seguido por outro.
Rumo a um mundo Minority Report
Os sistemas de dados de vídeos capturam um enorme volume de informações de áreas cobertas por redes de câmeras inteligentes. Não surpreende que as informações coletadas sejam empregadas para ações preventivas. Ou seja, o uso de dados pode ser implementado para prever e monitorar crimes antes que eles aconteçam.
Em 2002 o distópico filme Minority Report retratou uma sociedade em que a polícia é capaz de fazer análises “pré-crime” para intervir antes que uma contravenção aconteça. Na trama, os oficiais responsáveis tentavam manipular o sistema para seus próprios interesses.
Uma versão do filme na vida real começa a emergir nas centrais de monitoramento em tempo real, usadas para analisar padrões relacionados a crimes. Nessas unidades, as forças policiais inserem informações de fontes como redes sociais, bancos de dados públicos e privados, registros criminais e ShotSpotters. Dados climáticos também são incluídos devido à sua influência nos crimes (porque supostamente “bandidos não gostam de se molhar”).
Em um documento de 2018, a empresa de armazenamento de dados Western Digital e a consultoria Accenture previram que redes de câmeras inteligentes seriam utilizadas “em três níveis de maturidade”. Essa implementação por etapas permitiria que as populações gradualmente abandonassem suas “preocupações sobre privacidade”. Em vez disso, as pessoas “aceitariam e defenderiam” que a polícia e os governos adotassem medidas de vigilância generalizada – tudo em nome da “segurança pública”.
O primeiro nível descreve o momento atual, no qual a polícia usa circuitos internos de vídeo para investigar crimes depois que eles acontecem.
Em 2025, a sociedade alcançaria o nível 2, com as cidades se tornando “inteligentes”. Empresas e instituições públicas, como escolas e hospitais, disponibilizam as imagens de suas câmeras à polícia e aos governos, centralizando as análises de dados com apoio de inteligência artificial.
No nível 3 estaria o sistema de vigilância mais orientado por previsões, com implementação prevista para 2035. Cidadãos doariam voluntariamente os registros de suas câmeras, enquanto outros seriam “encorajados a fazê-lo por meio de deduções de impostos ou compensações”. Um “ecossistema de segurança pública” centralizaria os dados “coletados em diferentes bancos de dados, tais como redes sociais, carteiras de motorista, dados policiais e dados privados”. Uma unidade de análise utilizando inteligência artificial permitiria que a polícia acessasse “anomalias em tempo real e interrompesse crimes antes que eles acontecessem”.
Em outras palavras, flagrariam o pré-crime.
Ascensão do complexo industrial da vigilância por câmeras
A vigilância de circuitos internos de TV, que começou como uma simples ferramenta para a justiça criminal, agora se tornou uma indústria multibilionária que cobre diversas indústrias verticais. Com o monitoramento realizado por polícias, cidades inteligentes escolas, instalações médicas e comércios, as sociedades se movem rumo a uma vigilância quase total dos espaços urbanos e comerciais.
A Milestone System, com sede na Dinamarca, uma das maiores fornecedoras de sistemas de gerenciamento de vídeo, com metade de sua receita obtida nos Estados Unidos, tinha menos de 10 funcionários em 1999. Hoje é uma grande empresa com escritórios em mais de 20 países.
A Axis Communications era uma empresa do ramo de impressoras em rede que se tornou líder na venda de câmeras, obtendo mais de um bilhão de dólares em vendas por ano.
A BriefCam começou como um projeto universitário. Agora está entre os maiores fornecedores de análises de dados de vídeos, com clientes em mais de 40 países.
Nos últimos seis anos, a Canon comprou essas três empresas, tornando-se um conglomerado de sistemas de gerenciamento, circuitos internos de TV e análise de dados em vídeo. A Motorola recentemente adquiriu a Avigilon, uma grande fornecedora de sistemas de gerenciamento, por um bilhão de dólares. Por sua vez, a Avigilon e outras gigantes compraram suas próprias empresas.
A população paga três vezes pela infraestrutura de vigilância de alta tecnologia
Gigantes da tecnologia também estão em ação. O tenente da polícia de Chicago Patrick O’Donnell disse que o seu departamento está trabalhando em um acordo confidencial com o Google para um projeto-piloto de análise de dados de vídeos para detectar pessoas reagindo a tiros – de modo que, se elas estiverem caídas de bruços, a polícia possa receber alertas em tempo real (o Google não respondeu a um pedido de comentário para esta reportagem).
Redes de monitoramento de vídeo inevitavelmente envolvem e implicam um ecossistema de fornecedores, alguns dos quais ofereceram – ou ainda podem oferecer – serviços voltados especificamente para alguns sistemas. Microsoft, Amazon, IBM, Comcast, Verizon e Cisco estão entre aquelas que permitem redes com tecnologias como serviços de nuvem, conexão banda-larga ou programas de vigilância em vídeo.
No setor público, o Instituto Nacional de Padrões e Tecnologia dos Estados Unidos (NIST) está financiando “análises de dados públicas” e redes de comunicação como a First Responder Network Authority, ou FirstNet, voltada a vídeos em tempo real e outras tecnologias de vigilância. A FirstNet vai custar 46,5 bilhões de dólares e está sendo desenvolvida pela AT&T.
A Voxel51 é outra empresa apoiada pelo NIST. A população está pagando três vezes para obter vigilância de alta tecnologia: primeiro, em impostos destinados a pesquisas universitárias; segundo, com subsídios para a formação de uma startup com fins lucrativos (Voxel51); e terceiro, pela compra dos serviços da Voxel51 por forças policiais, com uso de recursos públicos.
Com os setores público e privado buscando expandir a presença das câmeras, a vigilância com uso de câmeras se tornou uma galinha dos ovos de ouro. Como diz Corso, “em poucas décadas haverá algo em torno de 45 bilhões de câmeras no mundo. São muitos pixels de vídeo, os quais, em sua maioria, não são utilizados”. A estimativa de Corso repete uma previsão de 2017 da empresa de capital de risco LDV, de Nova York, que acredita que os smartphones vão evoluir, oferecendo ainda mais câmeras, o que contribui para esses números.
Empresas que começaram no mercado de equipamentos policiais e de segurança agora diversificam suas ofertas no setor comercial. BriefCam, Milestone e Axis oferecem a comerciantes a análise de dados de vídeos, com a possibilidade de monitorar a circulação de pessoas, a duração das filas, padrões de compras, a organização do espaço e fazer testes A/B. A Voxel51 tem uma opção voltada para a indústria da moda e planeja se expandir para indústrias verticais. A Motionloft oferece análises para cidades inteligentes, comerciantes, corretores de imóveis comerciais e espaços de entretenimento. E há muitos outros exemplos como esses.
Agentes dos setores público e privado exercem pressão em prol de um mundo tomado por câmeras de vigilância. Peleg, por exemplo, menciona um caso de uso desses equipamentos em cidades inteligentes: ao entrar de carro em uma cidade, você poderia simplesmente “estacionar e depois voltar para casa” sem usar parquímetros. No fim do mês, a prefeitura da cidade enviaria uma cobrança para a sua casa. “É claro, você perde a privacidade. A questão é: você realmente se importa que o Big Brother saiba onde você está e o que você faz? Talvez algumas pessoas não gostem disso”, acrescentou.
Como dominar a vigilância inteligente
Aqueles que não apreciam as novas formas de vigilância no estilo Big Brother têm se preocupado com as tecnologias de reconhecimento facial. A maioria dessas pessoas ainda ignora a transição para as redes de câmeras inteligentes – e o complexo industrial que conduz esse movimento.
Milhares de câmeras escrutinam cada movimento que fazemos, informando as autoridades se estamos caminhando, correndo, andando de bicicleta ou fazendo algo “suspeito”. Com as análises de dados de vídeos, a inteligência artificial é aplicada para identificar sexo, idade e tipo de roupas – e tem o potencial de ser usada para categorizar as pessoas por raça ou trajes religiosos.
Tal nível de vigilância poderia ter um impacto assustador em nossa liberdade de expressão e reunião. É esse o mundo em que queremos viver?
A capacidade de rastrear indivíduos através de redes inteligentes de circuitos internos pode ter comunidades marginalizadas como alvo. A detecção de pessoas em momentos de “vadiagem” ou de furtos por câmeras concentradas em bairros pobres pode aprofundar a discriminação racial na atuação das polícias.
Isso já acontece na África do Sul, onde a “detecção de comportamentos incomuns” tem sido utilizada há anos pelas redes de câmeras inteligentes.
Nos Estados Unidos, essas redes começam a surgir, com pouca informação e transparência sobre os seus usos. Entretanto, sabemos que procedimentos de vigilância têm sido usados ao longo da história como forma de opressão a determinados grupos. Nos últimos anos, a polícia de Nova York espionou muçulmanos clandestinamente, o FBI usou vigilância aérea para monitorar os manifestantes da mobilização Black Lives Matter e o órgão de alfândegas e proteção de fronteiras norte-americano começou a construir uma “fronteira inteligente” usando vigilância de alta tecnologia na reserva de Tohono O’odham, no Arizona.
Os órgãos de aplicação da lei alegam que as redes de câmeras inteligentes vão reduzir a criminalidade, mas a qual preço? Se fosse possível colocar uma câmera em cada peça de todas as casas, a violência doméstica poderia ser reduzida. Poderíamos adicionar “filtros” automáticos que só gravam quando um som alto é detectado ou quando alguém pega uma faca. Seguindo essa linha, a polícia deveria colocar câmeras inteligentes em todas as salas residenciais?
O setor do comércio está refletindo sobre o avanço do capitalismo de vigilância. Varejistas, funcionários e investidores querem nos colocar sob a vigilância de câmeras para que possam nos gerenciar com “inteligência” visual.
Quando perguntados sobre privacidade, vários departamentos de polícia defendem o direito de ver e gravar tudo que você faz a partir do momento em que sai de casa. Comerciantes, por sua vez, nem vão falar em transparência – preferem manter suas análises em segredo.
Nos Estados Unidos, geralmente não há uma “expectativa razoável” de privacidade em espaços públicos. A 4ª emenda à Constituição abrange residências e algumas poucas áreas públicas que “razoavelmente” esperamos que sejam privadas, tais como cabines telefônicas. Quase todo o resto – ruas, lojas, escolas – seriam passíveis de vigilância.
Mesmo que se definam regras para restringir o monitoramento com uso de câmeras, não podemos garantir que esse tipo de regulamentação será mantida. Com milhares de câmeras de alta resolução em rede, um estado distópico de vigilância total está a um clique. Ao instalar câmeras por todos os lados, estamos abrindo uma caixa de Pandora.
Para abordar as ameaças das redes de câmeras inteligentes à privacidade, os legisladores deveriam proibir as redes de vigilância acessórias e restringir o escopo dos circuitos internos em rede para além da premissa de um único local. Deveriam também limitar a densidade de câmeras e sensores em espaços públicos. Tais medidas impediriam o rastreamento de pessoas em uma grande quantidade de áreas, prevenindo a vigilância constante.
O governo também deveria proibir o uso de dados obtidos por câmeras em espaços públicos – talvez, exceto em casos raros, como a detecção de corpos em trilhos de trem. Essa medida seria uma forma de desincentivar a utilização massiva de câmeras, porque a análise de dados de vídeos é necessária para interpretar grandes volumes de gravações. Por sua vez, os tribunais norte-americanos deveriam urgentemente reavaliar o escopo da 4ª emenda e expandir o direito à privacidade em público.
Polícias, empresas e pesquisadores devem divulgar seus projetos, além de envolver acadêmicos, jornalistas e a sociedade civil em suas iniciativas.
É evidente que estamos à beira de uma crise. Precisamos ir além da discussão que se limita às técnicas de reconhecimento facial e abordar o universo mais amplo da vigilância com uso de câmeras – antes que seja tarde demais.
Tradução: Ricardo Romanoff