Imagine que a empresa do António [sujeito fictício] tem duas bases de dados apenas com a informação dos salários dos trabalhadores, mas um cálculo à média dos vencimentos devolve resultados diferentes. Conclusão? Há salários que estão incluídos numa e na outra não.
Este é o primeiro passo que permite inferir parte da identificação de algumas pessoas. Quão grande é a diferença? Se for considerável, então é sinal que há elementos que têm um salário muito mais elevado do que a média. Poderá ser a comissão executiva? Será o presidente da empresa? Com o cruzamento de outras fontes de dados, talvez até seja possível chegar à identificação das pessoas e dos salários – o que é mau ao nível da privacidade.
É aqui que entra a chamada privacidade diferencial. É uma fórmula matemática que garante que o mesmo pedido de informação feito a duas bases de dados ligeiramente diferentes – em apenas um utilizador, por exemplo –, vai ter respostas muito semelhantes, protegendo assim a privacidade dos indivíduos.
Em resumo, esta tecnologia permite criar estatísticas agregadas a partir de conjuntos de dados que contêm informações privadas e sensíveis, seja o salário ou a localização do utilizador. E é uma ferramenta que pode ajudar as empresas a rentabilizarem os dados que têm em novos serviços de valor acrescentado, ao mesmo tempo que garante que essas informações não podem ser usadas para distinguir ou reidentificar um utilizador.
«A privacidade diferencial protege a presença ou não presença de um indivíduo numa base de dados», explicou Miguel Guevara, gestor de produto de privacidade da Google, em entrevista à Exame Informática. A própria gigante norte-americana usa este sistema no Google Maps – é assim que calcula o nível de afluência, por horário, de um restaurante ou de local turístico, mas sem que seja possível perceber quem é que lá está.
Não foi a Google a inventar esta técnica – há uma década que tem sido desenvolvida em ambiente académico. A grande novidade não é a técnica em si, mas o que a Google decidiu fazer com a tecnologia que desenvolveu: oferecê-la sem qualquer contrapartida e em código aberto. Porquê? Para que qualquer programador, empresa ou organização possa dar maior proteção e privacidade aos dados dos quais são donos.
Através de algoritmos, uma ferramenta de privacidade diferencial é capaz de identificar quais são os elementos que se destacam numa determinada base de dados e acrescentar ruído – positivo ou negativo – para que aos olhos de um pedido externo sejam semelhantes e protejam a informação de utilizadores específicos. Tomando como exemplo o Palácio de Queluz, sabemos quais as horas mais movimentadas, mas não as pessoas que lá estão ou que por lá passaram naquele horário específico. «É uma forma muito forte de anonimizar os dados», sublinhou Miguel Guevara.

Miguel Guevara é gestor de produto para a área de segurança e privacidade da Google, cargo que ocupa desde 2016.
Foto: D.R.
A Google está a trabalhar há dois anos nesta ferramenta de proteção de dados, o que significa que quem a usar estará a poupar dezenas de milhares de euros em investimento, pois a parte difícil do trabalho está feita. «Funciona com qualquer base de dados que as pessoas tenham», explica o porta-voz da Google. Agora a gigante norte-americana quer perceber como é que a ferramenta vai ser usada.
«Ainda estamos nos primeiros dias na área da privacidade diferencial. Mais na perspetiva da engenharia de software, estamos à espera para ver o que a comunidade do open source faz com este código. A nossa biblioteca é muito forte, mas estamos abertos a saber se tem alguma falha. Esse é o objetivo.»
Miguel Guevara não antecipa qualquer utilização maliciosa da ferramenta open source, mas vê potencial em áreas como a saúde – informação sobre o tempo de atendimento num hospital e qualidade do atendimento – e na área da governação – no planeamento urbano de uma cidade.
«Agora que colocamos isto em open source, esperamos que mais organizações utilizem e saibam que têm ferramentas muito fortes, a nível matemático, para melhorar a privacidade dos utilizadores», diz. Mas também admite que não sabe ao certo quantas organizações «realmente precisam da tecnologia» e que muitas empresas «não estão familiarizadas com a privacidade diferencial». Daí que a tecnológica também tenha decidido dar este passo.
«É difícil dizer que esta é solução perfeita para todos os casos [de privacidade]. Queremos dar poder às organizações para que tomem decisões iguais ao nível de risco que têm», disse ainda o responsável por este projeto.
E pode este lançamento gratuito e em código aberto ser uma forma de a Google “limpar” a imagem que tem na área da privacidade, sendo tantas vezes criticada por explorar os dados pessoais dos utilizadores? «A missão da nossa equipa não é apenas ajudar os utilizadores da Google, mas ajudar o ecossistema inteiro para proteger a privacidade dos dados. Isso é algo que vai muito além da Google.»