Metodologia geral

Neste artigo:

Em que difere a abordagem do Optimize para analisar os resultados do experimento?

Quando comparada à abordagem adotada por muitas outras ferramentas de teste (uma análise baseada na metodologia frequentista dos resultados durante o experimento), nossa abordagem apresenta duas importantes diferenças.

A primeira é que usamos a inferência bayesiana para gerar nossas estatísticas. A inferência bayesiana é um método avançado de análise estatística que nos permite refinar continuamente os resultados do experimento à medida que mais dados são coletados. Embora seja cara e envolva processos computacionais, a inferência bayesiana proporciona uma série de benefícios em comparação com as abordagens mais tradicionais. Veja quais são eles abaixo:

  • Podemos indicar a probabilidade de qualquer variante ser a melhor em geral, sem os diversos problemas de teste associados às abordagens de testes hipotéticos.
  • Os métodos bayesianos nos permitem calcular probabilidades de maneira direta para responder melhor às reais perguntas dos profissionais de marketing (em oposição ao fornecimento de valores-p, que poucas pessoas realmente entendem). Leia mais sobre os valores-p.

No entanto, um dos maiores benefícios do uso da inferência bayesiana é que ela nos permite ter modelos mais avançados para analisar os resultados de testes A/B e multivariáveis (a segunda grande diferença da nossa abordagem). Com os métodos de teste tradicionais, são feitas inúmeras suposições com relação aos resultados do experimento com uma abordagem única para tudo. Já a inferência bayesiana permite que usemos diferentes modelos que se adaptam a cada experimento. Estamos constantemente avaliando novos modelos para ajudar os testadores a encontrar resultados altamente precisos o mais rápido possível. Veja aqui alguns exemplos dos modelos que usamos:

  • Os modelos hierárquicos permitem modelar a consistência das taxas de conversão de uma variante ao longo do tempo. Se um experimento tiver efeitos significativos de "novidade" que se desgastam ao longo do tempo, os modelos hierárquicos compensarão isso de forma mais eficaz, oferecendo uma representação mais precisa do desempenho das variantes no futuro.
  • Os modelos contextuais nos permitem capturar informações sobre o experimento ou o contexto do usuário. Se os novos usuários se comportarem de forma diferente dos recorrentes, poderemos incorporar essas informações nos resultados gerais para apresentar um resultado final mais preciso.
  • Os modelos proativos neutralizam as tendências gerais de desempenho que afetam todas as variantes, isolando e clarificando o impacto das mudanças de cada uma delas. Então, se as taxas de conversão do fim de semana forem muito diferentes das taxas dos dias úteis, esses efeitos serão compensados, e as diferenças ficarão mais claras.

Ao usar a inferência bayesiana com modelos mais complexos, conseguimos modelar melhor todos os fatores que podem afetar os resultados do teste. No mundo real, os usuários nem sempre veem uma variante uma vez e logo convertem. Alguns veem uma variante várias vezes, e outros, apenas uma vez. Além disso, há aqueles que visitam em dias de promoção e aqueles que visitam em outros dias. Há alguns que interagem com as suas propriedades digitais há anos, outros que são novos. Nossos modelos capturam fatores como esses que influenciam os resultados dos testes, já as abordagens tradicionais os ignoram. Veja aqui apenas alguns dos benefícios:

  • Podemos levar em consideração outras complexidades que afetam os resultados do seu teste, oferecendo maior precisão quanto ao desempenho que você pode esperar das suas variantes.
  • Muitas vezes, fornecemos resultados mais rapidamente em experimentos de baixo tráfego, já que não exigimos um tamanho mínimo de amostra e podemos nos basear em outros aspectos dos seus resultados.
  • Podemos executar e analisar testes multivariáveis de forma rápida e abrangente.

Quais problemas a abordagem do Optimize busca solucionar com relação à análise do teste A/B?

Quando analisamos o estado atual do mercado e os dados obtidos anteriormente com as Experiências de conteúdo e o Otimizador de websites do Google, percebemos alguns problemas. Veja aqui alguns dos principais:

  • Os testadores desejam saber se os resultados estão certos, conhecer a probabilidade de os resultados de uma variante serem os melhores em geral e ver a magnitude dos resultados. Os valores-p e os testes hipotéticos não mostram essas informações. A maioria dos testadores não entende o que os valores-p informam e acaba tirando conclusões equivocadas sobre os resultados. Até mesmo os cientistas acabam enfrentando esse problema.
  • Os testadores gostam de analisar os testes com frequência, o que pode gerar problemas. Trabalhar com dados antecipadamente em uma estrutura frequentista pode levar a decisões precipitadas.
  • Os testadores querem ver resultados precisos e de maneira rápida. As abordagens imediatistas de teste consideram que os resultados não são afetados pelo tempo embora a maioria dos experimentos mude conforme os usuários reagem a novos conteúdos ou mudam de comportamento ao longo do tempo. Consequentemente, muitos testadores acham que os resultados dos testes não se mantêm ao longo do tempo, mesmo depois de encontrar uma variante vencedora. Além disso, o comportamento cíclico, como as diferenças entre um dia útil e fim de semana, muitas vezes afeta os resultados. E ignorar esses ciclos pode levar a conclusões incorretas.
  • As abordagens simplistas dos testes multivariáveis muitas vezes exigem uma compensação entre tempos de execução muito longos e poucas combinações, o que sacrifica a qualidade dos dados.

É possível fornecer um exemplo de um "modelo avançado" que vocês usam?

Nós utilizamos vários modelos para diferentes objetivos, mas um que usamos frequentemente é o modelo hierárquico. Ele nos permite considerar a taxa de conversão diária de cada variante como insumo para os nossos modelos. Essa prática contrasta com a abordagem mais comum, na qual os números brutos de conversão e do experimento coletados ao longo do teste são somados e usados para realizar cálculos frequentistas simples. Isso é importante porque nos ajuda a entender melhor o desempenho futuro das suas taxas de conversão, além de indicar que podemos fornecer resultados mais rapidamente quando as taxas de conversão são bem-consistentes, e resultados mais precisos quando elas são altamente variáveis.

Considere um exemplo simples:

  • uma original e uma variante
  • mil experimentos por dia para cada uma
  • taxa de conversão real da variante (CvR, na sigla em inglês) no longo prazo: 1%
  • CvR original (constante): 3%
  • efeito "novidade" para a variante (os usuários clicam nela com mais frequência porque é novidade, por exemplo, 10% no início da experiência, diminuindo em alguns dias)

Isso pode resultar em um desempenho como este ao longo do tempo:

Chart: average conversion rate

A maioria das ferramentas mostra a taxa de conversão média (em vermelho). Lembre-se de que a taxa de conversão média leva muito tempo para se aproximar da taxa de conversão verdadeira de 1%. Além disso, ela mostra a variante como vencedora até aproximadamente o oitavo dia.

Por outro lado, o que calculamos com esses modelos hierárquicos é muito mais parecido com a curva de CvR diária (em azul). Como nossa intenção é descobrir o nível de consistência das taxas, vemos que elas são realmente muito variáveis. Como resultado, embora a variante seja considerada a vencedora por dois dias, no terceiro dia, fica claro que os resultados são muito mais incertos do que seria possível notar pela taxa média de CvR ao longo do experimento.

O que é inferência bayesiana?

A inferência bayesiana é uma forma sofisticada de dizer que usamos dados que já temos para fazer as melhores previsões com relação aos novos dados. À medida que obtemos novos dados, refinamos nosso "modelo" do mundo, produzindo resultados mais precisos.

Veja aqui uma ilustração prática.

Suponha que você tenha perdido seu celular em casa e ouça ele tocar em um dos cinco quartos da casa. Como já passou por isso outras vezes, você sabe que geralmente o esquece no seu quarto.

Uma abordagem frequentista exigiria que você ficasse quieto para ouvi-lo tocar, esperando imóvel descobrir com toda a certeza onde ele está. No entanto, seria necessário descobrir o paradeiro do celular sem usar esse conhecimento sobre onde você geralmente o deixa.

Por outro lado, uma abordagem bayesiana é bem-alinhada ao nosso senso comum. Em primeiro lugar, você sabe que muitas vezes deixa seu telefone no quarto (então tem mais chances de encontrá-lo lá) e pode usar esse conhecimento para achá-lo. Em segundo lugar, cada vez que o celular toca, você pode ir chegando um pouco mais perto de onde acredita que ele esteja. Suas chances de encontrar o aparelho rapidamente são muito maiores.

A definição é interessante, mas eu gostaria de mais explicações sobre as estatísticas bayesianas.

Nós adoraríamos explicar melhor, mas acreditamos que as diversas estatísticas podem fazer mais por você. Veja aqui uma excelente visão geral para iniciantes.

Por que nem todos usam a inferência bayesiana ou esses modelos avançados?

Há algumas razões para isso acontecer. Primeiro, métodos não bayesianos são mais fáceis de ensinar. Por isso, eles são tradicionalmente ensinados em aulas introdutórias de estatística. A modelagem bayesiana requer uma abordagem mais aprofundada sobre probabilidades e, além disso, a inferência bayesiana envolve processos computacionais razoavelmente caros. Gerar resultados para uma única combinação de variante/objetivo exige dezenas de milhares (ou mais) de iterações Monte Carlo via cadeias de Markov (MCMC), simulações que modelam o desempenho de cada variante. Fazer isso foi por muito tempo inviável e, mesmo agora, é preciso ter um grande volume de dados para fazer muitos desses cálculos. Felizmente, o Google é muito bom em resolver esse tipo de problema de volume de dados.

O uso de métodos bayesianos também torna viável a utilização de modelos avançados. Embora seja possível usar alguns desses modelos com abordagens frequentistas, as correções necessárias para exibir resultados precisos são muito mais difíceis de realizar e ainda não oferecem algumas das vantagens que a inferência bayesiana proporciona.

Quais são as soluções do Optimize para esses problemas?

O problema de interpretação: as estatísticas bayesianas podem responder à pergunta "Qual é a probabilidade de esta variante ser melhor do que aquela que eu uso?" ou "Qual é a probabilidade de esta variante ser a melhor opção em geral?". Embora os cálculos sejam mais complexos, as respostas são realmente mais alinhadas à forma como as pessoas pensam.

O problema da análise por amostragem (ou "espiada"): como usamos modelos projetados para levar em consideração as mudanças nos seus resultados ao longo do tempo, não há problemas em analisar esses resultados. Nossas probabilidades são continuamente refinadas à medida que coletamos mais dados.

O problema das comparações múltiplas: como os métodos bayesianos calculam diretamente o desempenho relativo de todas as variantes em conjunto, não apenas as comparações das variantes, os testadores não precisam realizar múltiplas comparações das variantes para entender o provável desempenho de cada uma delas. Além disso, os métodos bayesianos não requerem correções estatísticas avançadas ao analisar diferentes frações dos dados. No entanto, em abordagens de testes hipotéticos, as correções estatísticas são necessárias ao analisar dados de diferentes maneiras, e a maioria das ferramentas não faz isso. A chance aleatória sempre pode produzir resultados "claros" se você analisar partes suficientes dos seus dados, mas nós tentamos minimizar as chances de isso acontecer.

Velocidade e precisão: como criamos modelos mais precisos do desempenho de todas as variantes juntas ao longo do tempo (e não trabalhamos apenas com comparações entre pares nos totais), não estamos sujeitos a uma abordagem frequentista genérica. Sendo assim, geralmente somos mais rápidos quando seus dados são consistentes, principalmente em ambientes de baixo volume, e mais precisos quando não são.

Mudança no tráfego ao longo do tempo: usamos modelos avançados que consideram que o tempo pode afetar os resultados do experimento. Nós calculamos essa possibilidade e a incluímos na nossa análise para fornecer os melhores resultados com mais probabilidade de serem mantidos com o tempo.

Teste multivariável: a abordagem do Optimize pode aprender sobre o desempenho das combinações entre variantes e o desempenho de uma variante em várias combinações. Como resultado, podemos executar todas as combinações, mas encontrar resultados muito mais rapidamente do que um teste A/B equivalente.

Este artigo é parte de uma série de Perguntas frequentes sobre as estatísticas e a metodologia do Optimize. Veja outros tópicos de Perguntas frequentes:

Isso foi útil?
Como podemos melhorá-lo?