Inferenza bayesiana

Optimize utilizza un approccio di inferenza bayesiana per generare risultati di esperimenti a partire dai dati. Il seguente articolo del Centro assistenza ti aiuterà ad acquisire le nozioni di base sull'inferenza bayesiana, i suoi vantaggi e le sue insidie.

Introduzione all'inferenza bayesiana

Teorema di Bayes

Il teorema di Bayes è un'equazione che ci spiega come utilizzare i dati osservabili per fare inferenze su aspetti che non possono essere osservati. Ad esempio, gli utenti Optimize spesso preferiscono scegliere un gruppo sperimentale con il tasso di conversione più elevato nel lungo periodo. L'unico modo per conoscere questo dato con certezza è osservare ogni singolo visitatore del sito web per tutta la durata del gruppo sperimentale. Tuttavia, l'attesa per un periodo di tempo così lungo potrebbe vanificare lo scopo di un esperimento. In alternativa, possiamo considerare un campione casuale di utenti per stimare quale gruppo sperimentale ha il tasso di conversione maggiore nel lungo periodo.

Il teorema di Bayes ci permette di prendere dati da un campione casuale di utenti ed effettuare stime su aspetti non osservabili, ad esempio stimare se un gruppo sperimentale abbia o meno il tasso di conversione più elevato all'interno di un insieme di gruppi sperimentali. Un'affermazione non osservabile come questa è un'ipotesi ed è rappresentata da "H".

La metodologia bayesiana utilizzata da Optimize è incentrata sull'utilizzo dei dati per dedurre la probabilità che un'ipotesi sia vera con il teorema di Bayes:

Teorema di Bayes

che genera P(H | data). La funzione "P()" sta a indicare la "probabilità" e "|" significa "dato che". P(H | data) rappresenta quindi la probabilità che un'ipotesi sia vera in base ai dati che abbiamo osservato. La parte destra del teorema di Bayes deve essere compresa per poter eseguire la propria inferenza bayesiana. Tuttavia, non è necessario comprendere il risultato della formula di Optimize. Se l'argomento è di tuo interesse, ti consigliamo molte ottime risorse introduttive a riguardo.1, 2, 3

Ipotesi di Optimize

Optimize ha creato una metodologia basata sul teorema di Bayes per determinare la probabilità di un'ipotesi sulla base dei dati. L'ipotesi fondamentale che Optimize considera è se ogni gruppo sperimentale sia migliore di tutti gli altri. In altre parole, Optimize tenta di trovare il gruppo sperimentale migliore.

In un test A/B con un'originale e una variante singola, Optimize considera due ipotesi:

H1: l'originale è migliore della variante

H2: la variante è migliore dell'originale

Optimize utilizza il teorema di Bayes per determinare P(H1 | data) e P(H2 | data); ovvero, le probabilità che l'originale e la variante siano rispettivamente il miglior gruppo sperimentale (vedi Probabilità di essere il migliore nei rapporti Optimize). In un test con più gruppi sperimentali, per ognuno viene formulata un'ipotesi secondo cui il gruppo sperimentale in questione è migliore di tutti gli altri. Optimize utilizza il teorema di Bayes per determinare la probabilità di ognuna di queste ipotesi sulla base dei dati (ovvero la Probabilità di essere il migliore).

Tieni presente che non esiste un'ipotesi secondo la quale l'originale e la variante sono equivalenti perché la nostra metodologia presuppone che sia impossibile che i due gruppi sperimentali siano esattamente uguali in un esperimento Optimize (il motivo è di natura tecnica). Tuttavia, è possibile che l'originale e la variante abbiano una differenza trascurabile, come illustrato qui.

Altri utilizzi del teorema di Bayes

Oltre a essere impiegato per fare deduzioni per ipotesi vere o false, il teorema di Bayes può essere utilizzato per effettuare inferenze su intervalli continui di valori. Ad esempio, possiamo utilizzare i dati per rispondere a domande quali:

  • Qual è la probabilità che il tasso di conversione del gruppo sperimentale sia inferiore al 50%?
  • Qual è la probabilità che il tasso di conversione del gruppo sperimentale sia compreso tra l'1% e il 4%?
  • In quale l'intervallo il tasso di conversione del gruppo sperimentale ha una probabilità del 95% di essere compreso?

La terza domanda viene calcolata in Optimize e viene chiamata intervallo di credibilità del 95%.

Vantaggi dell'approccio bayesiano di Optimize

Ricevi risposte chiare a domande importanti

Di seguito sono riportate alcune domande a cui dovresti rispondere prima di decidere quale gruppo sperimentale implementare:

  • Che impatto ha avuto una modifica sul mio sito?
  • Quanto sono soddisfatti i miei clienti di una modifica?
  • Quale modifica migliora maggiormente il modo in cui i clienti vedono il mio prodotto?

Fintanto che queste domande (e qualsiasi altra eventuale domanda) possono essere quantificate, potranno anche ricevere risposta. Tuttavia, un campione casuale durante un esperimento non può darti risposte certe a queste domande. L'approccio bayesiano di Optimize fornisce invece una gamma di risposte altamente probabili. Consideriamo ad esempio la domanda "Che impatto ha avuto una modifica sul mio sito?" Il campione casuale di utenti non fornisce una risposta singola a questa domanda. Al contrario, diciamo: "Esiste una probabilità del 95% che questa modifica comporterà un aumento compreso tra $ 0,47 e $ 0,57 per sessione".

Trovare i gruppi sperimentali con un valore maggiore

Optimize utilizza un elemento chiamato "valore potenziale rimanente"4 per consigliare l'interruzione di un esperimento quando i dati indicano che non c'è motivo per continuare a eseguirlo. Il valore potenziale rimanente suggerisce di terminare un esperimento se:

  1. Esiste un'elevata probabilità* che un gruppo sperimentale sia il migliore o
  2. Esiste un'elevata probabilità* che vi sia una differenza trascurabile** tra i gruppi sperimentali classificati come i migliori.

Nella situazione 1, non c'è motivo di continuare a eseguire l'esperimento perché esiste un'elevata probabilità che l'implementazione del gruppo sperimentale vincente sia una buona scelta per ottimizzare il sito web.

Nella situazione 2, si potrebbe continuare a eseguire l'esperimento per determinare quale gruppo sperimentale sia migliore. Tuttavia, secondo Optimize la differenza tra i migliori gruppi sperimentali è sicuramente trascurabile, quindi il vantaggio che si ottiene trovando il migliore in assoluto tra tali gruppi sperimentali è davvero minimo. Il tempo aggiuntivo di un esperimento necessario per ottenere questo vantaggio minimo può essere speso in modo migliore interrompendo l'esperimento e avviando quello successivo con un alto potenziale impatto.

Per riepilogare brevemente il valore potenziale rimanente, Optimize fornisce un consiglio quando esiste un gruppo sperimentale che, per un valore superiore alla differenza trascurabile, ha una probabilità minima di essere peggiore rispetto al gruppo sperimentale davvero ottimale. Il confronto di questo criterio con un altro criterio comune viene proposto in una sezione successiva. Nella sezione successiva vedremo inoltre che la nostra capacità di fornire consigli con questo criterio è valida a prescindere dal numero di volte in cui verifichiamo se la nostra soglia è stata superata. Possiamo quindi consigliare un gruppo sperimentale non appena i dati lo suggeriscono.

*Optimize considera >95% come una probabilità alta.

**Optimize considera trascurabile una differenza relativa di <1%.

I consigli non sono influenzati da più confronti o anteprime

Come accennato in precedenza, un test A/B che osserva solo un campione casuale non può dire con certezza quale sia il gruppo sperimentale ottimale. Poiché gli errori sono in parte inevitabili, molti approcci dei test A/B rappresentano una garanzia matematica di errore. Ad esempio, Optimize fornisce un consiglio quando un gruppo sperimentale ha un'elevata probabilità di essere quello ottimale o di essere non ottimale per un valore trascurabile. Un altro esempio sono gli strumenti per i test A/B che utilizzano un Null hypothesis significance testing (NHST) e che forniscono un consiglio quando la probabilità di un falso positivo è bassa. In questo caso, un falso positivo è definito come "differenza tra i gruppi sperimentali quando in realtà non esiste alcuna differenza".

Parliamo di "problema di confronti multipli" quando la garanzia matematica di un approccio di test non viene applicata se viene considerato un insieme di inferenze statistiche. Ad esempio, in un insieme di inferenze statistiche in cui ciascuna ha la probabilità di generare un falso positivo, tale probabilità aumenta con l'aumentare del numero di inferenze. Ciò può accadere quando si confrontano contemporaneamente più varianti rispetto all'originale.

Allo stesso modo, esiste un "problema di anteprima" quando la garanzia matematica non viene applicata se un utente controlla i risultati dell'esperimento più volte durante un test e poi agisce in base al risultato visualizzato. Ad esempio, se un utente visualizza "l'anteprima" di un risultato, scopre che questo suggerisce una differenza tra i gruppi sperimentali e arriva a sostenere che sia presente una differenza, aumenta in tal modo le probabilità di generare un falso positivo. In altre parole, se si volessero raccogliere più dati di cui visualizzare di nuovo "l'anteprima", il risultato potrebbe cambiare passando da indicare una "differenza" a "nessuna differenza". Il motivo è molto simile al problema dei confronti multipli. Ogni volta che viene visualizzata un'anteprima, c'è l'eventualità di un falso positivo, quindi la probabilità complessiva di generare un falso positivo aumenta con l'aumentare del numero di anteprime.

Gli approcci dei test A/B che mirano a mantenere basso il tasso di falsi positivi devono prendere in considerazione i problemi dei confronti multipli e delle anteprime per mantenere la loro garanzia. A tale scopo, di solito è necessario aumentare le probabilità di un vero positivo. In questo caso, un vero positivo è definito come "una differenza tra i gruppi sperimentali quando c'è effettivamente una differenza". Le minori probabilità di ottenere un vero positivo possono essere superate richiedendo più dati (e quindi nel caso di esperimenti web, eseguendo esperimenti più lunghi). Questo è un effetto collaterale negativo e non è chiaro cosa sia peggio: la cura o la malattia.

L'approccio adottato da Optimize non presenta un problema di confronti multipli o anteprime perché la nostra garanzia continua a essere valida con confronti multipli e anteprime. Optimize fornisce un consiglio quando un gruppo sperimentale ha un'elevata probabilità di essere quello ottimale o di essere non ottimale per un valore trascurabile. Questo vale indipendentemente dal numero di confronti o dal numero di volte in cui verifichiamo se la nostra soglia è stata superata.

Critica all'approccio bayesiano di Optimize

Percentuale di falsi positivi

Come riportato in precedenza, Optimize non si concentra sui falsi positivi. Crediamo, ad esempio, che non si verifichino mai in un esperimento reale. Un falso positivo viene generato quando si conclude che esiste una differenza tra i gruppi sperimentali quando in realtà non c'è. Tuttavia, riteniamo che una differenza tra i gruppi sperimentali sia sempre presente: è solo una questione di quanto sia grande la differenza e quale gruppo sperimentale sia migliore. Invece di concentrarsi sui falsi positivi, Optimize fornisce un consiglio quando esiste un gruppo sperimentale che ha un'elevata probabilità di essere quello ottimale o non ottimale per un valore trascurabile. Riteniamo che fornire consigli basati sui risultati probabili di ogni gruppo sperimentale sia meglio per coloro che vogliono ottimizzare il proprio sito web. Il controllo del tasso di falsi positivi, come quello di NHST, ha forse senso quando potrebbe esistere un falso positivo e le relative conseguenze potrebbero essere significative. Ad esempio, quando gli scienziati dichiarano scoperte veritiere dal punto di vista scientifico, vogliono che la possibilità che siano false sia in una proporzione davvero minima: potrebbe essere in gioco una perdita di fiducia nella scienza o nella reputazione professionale. Tuttavia, quando si prendono decisioni commerciali, Optimize ritiene che non ci sia motivo per enfatizzare il tasso di falsi positivi rispetto ad altri tipi di errori.

Di conseguenza, il nostro tasso di falsi positivi è probabilmente più alto rispetto a quello degli strumenti di test incentrati su questo aspetto. Ad esempio, strumenti di test che utilizzano Null Hypothesis Significance Testing (NHST) con una soglia di significatività impostata al 95% spesso controllano il tasso di falsi positivi in modo che sia al massimo del 5% (supponendo che i problemi di confronti multipli e anteprime siano stati presi in considerazione, se necessario). In un test A/A in cui non vi è alcuna differenza tra i gruppi sperimentali, ci si aspetta che uno strumento di test NHST consigli un gruppo sperimentale al massimo il 5% delle volte. Ecco perché i test A/A sono un modo utile per verificare se uno strumento di test NHST sta funzionando come dovrebbe.

Optimize invece non si concentra sui falsi positivi, quindi non ci si dovrebbe aspettare che i test A/A in Optimize suggeriscano un gruppo sperimentale solo il 5% delle volte. Se Optimize è sicuro che esiste un gruppo sperimentale non ottimale solo per una differenza trascurabile, fornirà un consiglio. In un test A/A, Optimize fornisce un buon consiglio in base ai propri criteri poiché il valore di non ottimalità di un elemento A invece dell'altro elemento A è zero. Il gruppo sperimentale consigliato di Optimize in un test A/A deve essere esaminato assieme al miglioramento modellato. Probabilmente noterai che il miglioramento modellato è trascurabile.

Scegliere le distribuzioni a priori

Chiunque utilizzi l'analisi bayesiana deve stabilire le cosiddette "distribuzione a priori". Nell'equazione per il teorema di Bayes, la "distribuzione a priori" è P(H). Le distribuzioni a priori esprimono le credenze e la certezza a queste collegata, rispetto a qualsiasi stima precedente alla presa in considerazione dei dati. La distribuzione a priori è in contrasto con quella a posteriori, P(H | data), che è la probabilità che un'ipotesi sia vera dopo aver preso in considerazione i dati.

Esistono diversi modi per poter decidere una distribuzione a priori. Ad esempio, una distribuzione a priori può esprimere un'elevata certezza nel tasso di conversione di una variante. In questo caso, sono necessari molti dati per superare questa credenza. Queste sono chiamate "distribuzioni a priori informative". Inoltre, una distribuzione a priori può esprimere il fatto che, senza alcun dato, si ha solo una vaga idea del tasso di conversione di una variante. In questo caso, i dati dell'esperimento parlano da soli. Queste sono chiamate "distribuzioni a priori non informative". Anche se una distribuzione a priori completamente non informativa non è possibile, Optimize sceglie le sue distribuzioni a priori in modo che siano abbastanza non informate.

Ci sono due critiche comuni alle distribuzioni a priori. La prima è che potrebbe essere necessario parecchio lavoro per decidere bene se applicare una distribuzione a priori. Fortunatamente, Optimize si occupa di questo al posto tuo. La seconda è che una distribuzione a priori aggiunge delle ipotesi soggettive a un'analisi, anche se possono essere supposizioni deboli. A questo scopo, segnaliamo che ogni analisi deve fare alcune ipotesi. Ad esempio, un'analisi non bayesiana potrebbe presupporre che un "errore" sia una normale distribuzione intorno allo zero. Analogamente, in un'analisi bayesiana si può presumere che tutti i tassi di conversione siano ugualmente probabili prima che vengano visualizzati i dati. Tutte queste ipotesi hanno un impatto sui risultati dell'analisi.

Confronti con Null Hypothesis Significance Testing (NHST)

Optimize non utilizza le stesse tecniche che potresti conoscere, in particolare Null Hypothesi Significance Testing (NHST). Se hai familiarità questi termini, potresti cedere alla tentazione di confrontare i risultati di Optimize con quelli di NHST. Non consigliamo, tuttavia, questa operazione perché i risultati di Optimize non corrispondono ai risultati di NHST (alcuni dei motivi per cui non adottiamo un approccio NHST sono spiegati qui). Questa sezione spiega ciò che Optimize fornisce in relazione ad alcuni dei termini NHST che potresti conoscere.

Significatività statistica e valori p

L'utilizzo di un valore p per determinare la significatività statistica di un risultato è l'obiettivo di NHST. Uno dei primi passi di NHST è scegliere una soglia di significatività. Se un valore p è inferiore a questa soglia, spesso 0,05, significa che il risultato è "statisticamente significativo" o, con una soglia di 0,05, "con significatività al 95%".

Una comune interpretazione errata della significatività statistica è che si tratta della probabilità che una variante abbia un rendimento superiore all'originale.5 Quindi, se da un esperimento risulta che la variante ha un rendimento superiore rispetto all'originale con una soglia di significatività statistica del 95% utilizzando una metodologia NHST, in genere non è possibile affermare che la variante ha una probabilità del 95% di essere migliore dell'originale. Si può invece dire che la probabilità di concludere che c'è una differenza tra i gruppi sperimentali, quando in realtà non è presente, è al massimo del 5%. La differenza è forse sottile, ma significativa.6

La metodologia bayesiana di Optimize non calcola i valori p e non determina la significatività statistica. Al contrario, calcoliamo probabilità interpretabili che rispondono direttamente ad alcune delle tue domande. Ad esempio, una probabilità del 95% di superare l'originale è esattamente come appare: la probabilità che questa variante sia migliore dell'originale. Non è necessaria alcuna interpretazione aggiuntiva.

Intervallo di confidenza

Optimize fornisce "intervalli di credibilità" anziché "intervalli di confidenza". Una comune interpretazione errata degli "intervalli di confidenza" è che forniscono un'indicazione di probabilità sull'intervallo di valori probabili per l'obiettivo dell'esperimento.7 Si tratta di un'interpretazione errata di un intervallo di confidenza ma, per fortuna, è esattamente l'interpretazione corretta degli intervalli di credibilità di Optimize. In altre parole, un intervallo di credibilità può essere considerato come un intervallo di valori probabili per l'obiettivo dell'esperimento.

Citazioni

[1] Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., e Rubin, D. B. (2013). Bayesian data analysis. CRC press.

[2] Kruschke, J. (2014). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan. Academic Press.

[3] McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press.

[4] Scott, S. L. (2015). Multi‐armed bandit experiments in the online service economy. Applied Stochastic Models in Business and Industry, 31(1), 37-45.

[5] McShane, B. B., e Gal, D. (2017). Statistical significance and the dichotomization of evidence. Journal of the American Statistical Association, 112(519), 885-895.

[6] Nickerson, R. S. (2000). Null hypothesis significance testing: a review of an old and continuing controversy. Psychological methods, 5(2), 241.

[7] Hoekstra, R., Morey, R. D., Rouder, J. N., e Wagenmakers, E. J. (2014). Robust misinterpretation of confidence intervals. Psychonomic bulletin & review, 21(5), 1157-1164.

È stato utile?
Come possiamo migliorare l'articolo?

Hai bisogno di ulteriore assistenza?

Accedi per scoprire altre opzioni di assistenza che ti consentiranno di risolvere rapidamente il tuo problema