Anonimização (ou mascaramento) de IP no Google Analytics

Uma explicação técnica de como o Google Analytics anonimiza endereços IP

Resumo

Quando um cliente solicita a anonimização de um endereço IP, o Google Analytics faz isso assim que é tecnicamente viável. Esse recurso define o último octeto de endereços IP do usuário do IPv4 e os últimos 80 bits de endereços IPv6 como zeros na memória logo depois que eles são enviados ao Google Analytics. O endereço IP completo nunca é gravado em disco nesse caso.

Dimensões geográficas são posteriormente derivadas de endereços IP anônimos.

Quando você cria uma propriedade, a anonimização do endereço IP é implementada da seguinte maneira:

Observação: nas propriedades do Google Analytics 4, a anonimização de IP é ativada por padrão. O conteúdo abaixo descreve esse processo de anonimização para tags legadas do Google Analytics.

Informações detalhadas

O Google Analytics disponibiliza o recurso anonymize_ip (gtag('config', '<GA_MEASUREMENT_ID>', { 'anonymize_ip': true }) na biblioteca gtag.js) para que os proprietários de sites consigam solicitar que a anonimização de todos os endereços IP dos usuários no produto. Esse recurso foi desenvolvido para ajudá-los a manter a conformidade com as próprias políticas de privacidade ou, em alguns países, com as recomendações de autoridades locais de proteção de dados, que proíbem o armazenamento de informações de endereços IP completos. A anonimização/o mascaramento do IP ocorre assim que os dados são recebidos pela rede de coleta do Google Analytics, antes de qualquer armazenamento ou processamento.

Ela acontece em duas etapas no pipeline de coleta: a tag JavaScript e a rede de coleta, explicadas a seguir:

Tag JavaScript do Google Analytics

Quando um navegador da Web habilitado para JavaScript carrega uma página com a tag do Google Analytics, ele faz duas coisas de forma assíncrona: carrega e processa a fila de funções do Analytics e solicita o JavaScript do produto. Essa fila é uma matriz JavaScript em que as diferentes funções de configuração e coleta do Analytics são enviadas por push. Elas são definidas pelo proprietário do site na implementação do Analytics e podem incluir a especificação do número da conta do produto e o envio de dados de visualização de página ao Analytics para processamento.

Quando o JavaScript do Google Analytics executa uma função da fila que aciona os dados a serem enviados ao Analytics, essas informações são passadas como parâmetros de URL anexados a uma solicitação HTTP para http://www.google-analytics.com/collect. Essa função normalmente é gtag('config', '<GA_MEASUREMENT_ID>') na biblioteca gtag.js). Se a função de anonimização tiver sido chamada antes daquela de acompanhamento de páginas, outro parâmetro será adicionado à solicitação de pixel. O parâmetro de anonimização de IP tem esta aparência:

&aip=1

Rede de coleta do Google Analytics

É o conjunto de servidores que fornecem dois serviços importantes: a veiculação de gtag.js (JavaScript do Google Analytics) e a coleta de dados enviados por meio de solicitações para /collect.

Quando um pedido para gtag.js chega, ele inclui mais informações no cabeçalho da solicitação HTTP (ou seja, o tipo de navegador usado) e no cabeçalho TCP/IP (o endereço IP do solicitante).

Assim que uma solicitação é recebida, ela é tratada na memória para anonimização. Se o parâmetro &aip=1 for encontrado no URL de solicitação, o último octeto do endereço IP do usuário será definido como zero enquanto estiver na memória. Por exemplo, um endereço IP 12.214.31.144 seria alterado para 12.214.31.0. Se o endereço IP é um endereço IPv6, os últimos 80 dos 128 bits são definidos como zero. Somente após esse processo de anonimização a solicitação é gravada no disco para processamento. Se o método de anonimização de IP é usado, o endereço IP completo não é gravado em disco, porque toda a anonimização ocorre na memória quase instantaneamente após o recebimento da solicitação.

Isso foi útil?
Como podemos melhorá-lo?