Pesquisa
Limpar pesquisa
Fechar pesquisa
Google Apps
Menu principal

Visão geral

Perguntas frequentes (experimento tipo multi-armed bandit)

O experimento tipo multi-armed bandit sempre encontra o cenário ideal?

O algoritmo de experimento tipo multi-armed bandit usado com certeza encontrará o cenário ideal se o experimento for executado "para sempre" [3] [4]. Como você não vai executá-lo para sempre, não há garantias de que o cenário encontrado será o ideal. Nenhum método estatístico dá 100% de certeza de encontrar uma resposta ideal com dados finitos, assim como nosso algoritmo. Esse é o motivo do limite de duração de três meses para o experimento. Se um vencedor ainda não tiver sido encontrado nesse tempo, provavelmente não haverá novidades e será melhor fazer experimentos com outros aspectos do site.

Ele é sempre mais curto do que o teste clássico?

O experimento tipo multi-armed bandit leva a resultados muito mais rápido do que os testes clássicos com custos mais baixos e com a mesma validade estatística. Em alguns experimentos, no entanto, ele poderá levar mais tempo do que o esperado ao acaso.

Em que tipo de experimento o tipo multi-armed bandit tem desempenho melhor (ou pior) do que o teste clássico?

O experimento tipo multi-armed bandit tem vantagens claras sobre os testes clássicos em experimentos complexos em que é necessário encontrar um efeito [1]. Se uma de suas variações tiver um desempenho muito melhor do que as outras, o cenário ideal será encontrado rapidamente. Se uma ou mais variações tiverem um desempenho muito pior do que as outras, elas terão sua ponderação diminuída rapidamente para que o experimento possa focar na descoberta do melhor cenário.

O pior caso para esse tipo de experimento é quando dois cenários têm o mesmo desempenho. Nesse caso, a solução ideal é que os cenários acumulem observações em taxas idênticas até o término do experimento. O experimento tipo multi-armed bandit exibe esse comportamento na média, mas em um dado experimento um cenário acumulará observações mais rapidamente ao acaso.

Lembre-se de que as pessoas realizam experimentos porque acham que podem melhorar a página existente, então não queremos dar ênfase ao pior cenário suposto pelos testes clássicos.

O que acontece se o cenário ideal tiver azar no começo? Ele pode se recuperar?

Mesmo se um cenário tiver sua ponderação diminuída no início do experimento, ele ainda poderá se recuperar. Um cenário poderá ter sua ponderação diminuída injustamente por dois motivos. Se o cenário tiver ido atipicamente mal ou se outro cenário tiver ido atipicamente bem (ou ambos). Se o acaso tiver favorecido injustamente um cenário inferior, esse cenário começará a acumular mais observações. Perceberemos que ele não é tão bom quanto achávamos, sua ponderação será reduzida e a ponderação dos cenários concorrentes será aumentada.

Os resultados do experimento são estatisticamente válidos?

Sim. O experimento tipo multi-armed bandit usa a atualização bayesiana sequencial para aprender com os resultados diários, o que é uma noção de validade estatística diferente da usada por testes clássicos. Um teste clássico começa supondo um hipótese nula. Por exemplo, “as variações são igualmente efetivas”. Em seguida, ele acumula evidências sobre a hipótese e faz um julgamento sobre a possibilidade dela ser rejeitada. Se você puder rejeitar a hipótese nula, terá encontrado um resultado estatisticamente significativo.

A significância estatística existe para evitar que você cometa um erro tipo I. No contexto da otimização de websites, um erro tipo I significa escolher uma nova variação que, de fato, não difere do original, em termos de desempenho. Você deve evitar erros tipo I (afinal, eles são erros), mas nesse contexto eles custam muito menos do que os erros tipo II. Para nós, um erro tipo II significa deixar de alternar para um cenário melhor, o que custa caro porque você está perdendo conversões.

A atualização bayesiana pergunta: "Qual a probabilidade de que este seja o melhor cenário, com base no que sei agora?" O teste de hipóteses pergunta: "Qual a probabilidade de ter esse resultado se todos os cenários eram iguais?" Ambas são perguntas válidas, mas a pergunta bayesiana é mais fácil para a maioria das pessoas entender, e ela tem um equilíbrio natural entre os erros tipo I e II aproveitando as informações de seu experimento à medida que elas se tornam disponíveis.

Os testes de hipótese clássicos fazem você esperar até ter um determinado número de observações antes de analisar seus dados, porque a pergunta de probabilidade que precisam responder fica muito complicada de outro jeito. Se você tiver um cenário com desempenho ruim em um experiment, os testes clássicos terão um alto custo de oportunidade. Se os dois métodos forem válidos, por que não usar o que economiza tempo e dinheiro e ignorar o complicado e caro que faz com que você espere para observar os resultados do experimento?

Este artigo foi útil para você?
Como podemos melhorá-lo?