Metodologia generale

Contenuti di questo articolo:

In che cosa è diverso l'approccio di Optimize alla misurazione dei risultati degli esperimenti?

Se confrontato con l'approccio adottato da molti altri strumenti di verifica, un'analisi dei risultati di tipo frequentista lungo tutta la durata dell'esperimento, il nostro approccio si differenzia sotto due importanti punti di vista.

In primo luogo, utilizziamo l'inferenza bayesiana per creare le statistiche. L'inferenza bayesiana è un metodo avanzato di analisi statistica che ci consente di perfezionare continuamente i risultati dell'esperimento man mano che vengono raccolti più dati. Anche se richiede elevate capacità di elaborazione e calcolo, l'inferenza bayesiana offre una serie di vantaggi rispetto agli approcci più tradizionali:

  • Possiamo affermare con quanta probabilità ciascuna variante può essere la migliore complessivamente, senza i numerosi problemi associati agli approcci adottati dai test d'ipotesi.
  • I metodi bayesiani ci permettono di calcolare direttamente le probabilità per rispondere meglio alle domande dei professionisti del marketing (invece di fornire dei valori p, compresi appieno da poche persone). Ulteriori informazioni sui valori p.

Uno dei maggiori vantaggi dell'uso dell'inferenza Bayesiana, tuttavia, è che possiamo utilizzare modelli più avanzati per le analisi dei risultati dei test multivariati e A/B, la seconda differenza principale del nostro approccio. Con i metodi di test tradizionali, vengono fatte numerose ipotesi in cui i risultati dell'esperimento vengono analizzati con un approccio "universale". Con l'inferenza bayesiana, tuttavia, siamo in grado di utilizzare diversi modelli che si adattano a ciascun esperimento. Analizziamo costantemente nuovi modelli per aiutare gli sperimentatori a trovare risultati estremamente accurati il ​​più rapidamente possibile. Ad esempio, di seguito sono riportati alcuni modelli che abbiamo utilizzato:

  • I modelli gerarchici ci consentono di modellare la coerenza dei tassi di conversione di una variante nel tempo. Se un esperimento ha dei significativi effetti di "novità" che svaniscono nel tempo, tramite i modelli gerarchici è possibile compensare in modo più efficace questo aspetto, poiché offrono una rappresentazione più accurata del rendimento delle varianti in futuro.
  • I modelli contestuali ci consentono di acquisire informazioni sul contesto dell'esperimento o dell'utente. Se i nuovi utenti si comportano diversamente dagli utenti di ritorno, possiamo incorporare queste informazioni nei risultati complessivi per fornirti un risultato finale più preciso.
  • I modelli restless neutralizzano le tendenze complessive del rendimento relative a tutte le varianti isolando e chiarendo l'impatto dei cambiamenti di ciascuna variante. Di conseguenza, se i tassi di conversione del fine settimana sono molto diversi dai tassi di conversione dei giorni feriali, questi effetti vengono uniformati e le differenze emergono più chiaramente.

Utilizzando l'inferenza bayesiana con modelli più complessi, siamo in grado di modellare meglio tutti i fattori che possono influenzare i risultati del test. Nel mondo reale, gli utenti non sempre vedono una variante una sola volta ed effettuano in seguito la conversione. Alcuni utenti vedono una variante più volte, altri solo una volta. Alcuni utenti visitano il sito web nei giorni dei saldi, alcuni in altri giorni. Alcuni hanno interagito con le tue proprietà digitali per anni, altri sono nuovi. I nostri modelli acquisiscono fattori come questi che influenzano i risultati dei test, mentre gli approcci tradizionali li ignorano. Ecco alcuni dei vantaggi:

  • Possiamo prendere in considerazione altre complessità che influenzano i risultati dei test, offrendo maggiore precisione sul rendimento che puoi aspettarti dalle varianti.
  • Spesso possiamo fornire i risultati più rapidamente negli esperimenti a traffico ridotto, in quanto non sono necessari dei campioni di dimensioni minime e possiamo basarci sugli altri aspetti dei risultati.
  • Possiamo eseguire e analizzare rapidamente e in modo completo dei test multivariati.

Quali problemi l'approccio di Optimize cerca di risolvere rispetto alla misurazione dei test A/B?

In seguito all'analisi dello stato attuale del mercato e dei dati ottenuti dall'esperienza passata con Esperimenti sui contenuti e con lo strumento per ottimizzare il sito di Google, abbiamo notato alcuni problemi principali:

  • Gli sperimentatori vogliono avere la certezza che i risultati siano corretti. Vogliono sapere con quanta probabilità i risultati di una variante saranno i migliori nel complesso. E vogliono conoscere la pertinenza dei risultati. I test dei valori p e d'ipotesi non danno informazioni a riguardo. La maggior parte degli sperimentatori non comprende veramente i significati dei valori p arrivando, di conseguenza, a conclusioni errate. Anche gli scienziati spesso hanno questo tipo di difficoltà.
  • Gli sperimentatori esaminano i test con frequenza, causando il problema del "multi-look". Agire sulla base dei primi dati all'interno di un framework frequentista può causare decisioni errate.
  • Gli sperimentatori vogliono ottenere i risultati con rapidità, ma anche con precisione. Gli approcci ai test di tipo off-the-shelf presumono che i risultati non siano influenzati dal tempo, anche se la maggior parte degli esperimenti cambia in base alla reazione degli utenti in rapporto a nuovi contenuti o al cambiamento del loro comportamento durante un esperimento. Di conseguenza, molti sperimentatori ritengono che i risultati dei test non possano durare nel tempo, anche dopo avere trovato dei risultati certi. Inoltre, il comportamento ciclico, come le differenze tra i giorni feriali e i fine settimana, spesso influenza i risultati e, ignorare questi cicli può portare a conclusioni errate.
  • Gli approcci semplicistici ai test multivariati richiedono spesso un compromesso tra periodi di esecuzione molto lunghi e l'esecuzione di poche combinazioni con la conseguente rinuncia alla qualità dei dati.

Quale esempio di "modello avanzato" viene utilizzato?

Anche se utilizziamo una serie di modelli per obiettivi diversi, il modello che usiamo spesso è il modello gerarchico, che ci consente di ottenere il tasso di conversione giornaliero per ogni variante come input per i nostri modelli (ciò contrasta con l'approccio più tipico, in cui i dati di conversione e i numeri di prova non elaborati lungo tutta la durata del test vengono sommati e utilizzati come input di un calcolo frequentista semplice). Questo aspetto è importante perché vuol dire che siamo in grado di comprendere meglio il rendimento dei tassi di conversione in futuro. Significa anche che possiamo fornire i risultati più rapidamente, se i tassi di conversione sono molto coerenti e dei risultati più accurati, se i tassi di conversione sono altamente variabili.

Consideriamo un semplice esempio:

  • Un originale, una variante
  • 1000 prove al giorno per ciascuno
  • Tasso di conversione reale (TdC) della variante a lungo termine: 1%
  • TdC originale (costante): 3%
  • Effetto di "novità" della variante: gli utenti fanno clic su di essa più spesso perché è nuova (ad esempio, al 10% all'inizio dell'esperimento, con riduzione dopo alcuni giorni).

Ciò potrebbe tradursi in un rendimento che nel tempo potrebbe avere più o meno questo aspetto:

Chart: average conversion rate

La maggior parte degli strumenti mostra il tasso di conversione medio (in rosso). Tieni presente che, affinché il tasso di conversione medio si avvicini al tasso di conversione reale dell'1%, serve molto tempo. Mostra anche la variante come vincente fino a circa il giorno 8.

D'altra parte, i valori che vengono calcolati tramite questi modelli gerarchici sono molto più simili alla curva TdC giornaliera (in blu). Dal momento che intendiamo indagare sulla coerenza dei tassi di conversione, vediamo che sono effettivamente altamente variabili. Di conseguenza, mentre la variante è vincente per un paio di giorni, entro il giorno 3, è chiaro che i risultati saranno molto più incerti di quelli descritti dal tasso TdC medio durante il corso dell'esperimento.

Che cos'è l'inferenza bayesiana?

L'inferenza bayesiana è un modo sofisticato di dire che utilizziamo i dati di cui siamo già in possesso per fare delle supposizioni migliori sui nuovi dati. Via via che aggiungiamo nuovi dati, perfezioniamo il nostro "modello" del mondo, producendo risultati più precisi.

Ecco un esempio pratico.

Immagina di avere perso il telefono in casa e di sentirlo squillare in una delle 5 stanze. Sai per esperienze passate che spesso lasci il telefono in camera da letto.

In base all'approccio frequentista, dovresti restare fermo ad ascoltare il telefono squillare, sperando di poter affermare con abbastanza certezza, dalla tua posizione (senza muoverti), in quale stanza si trova. E, tra l'altro, non puoi utilizzare la conoscenza su dove lasci di solito il telefono.

Al contrario, l'approccio bayesiano è ben allineato con il nostro senso comune. Innanzitutto, sai che spesso lasci il telefono in camera da letto, quindi hai maggiori possibilità di trovarlo lì, e puoi usare questa conoscenza. In secondo luogo, ogni volta che il telefono squilla, puoi avvicinarti alla posizione in cui pensi si trovi il telefono. Le possibilità di trovare subito il telefono sono molte di più.

È tutto molto interessante, ma è possibile spiegare più nel dettaglio le statistiche bayesiane?

Ci piacerebbe, ma non sappiamo se potremmo spiegarle meglio di quanto non abbiano già fatto molti statistici importanti. Di seguito è riportata una fantastica panoramica per i principianti.

Perché non tutti utilizzano l'inferenza bayesiana o questi modelli avanzati?

Ci sono alcune ragioni. In primo luogo, i metodi non bayesiani sono più facili da insegnare. Di conseguenza, vengono tradizionalmente insegnati nei corsi di statistica introduttiva. Il modello bayesiano richiede un approccio più approfondito alle probabilità, e inoltre, l'inferenza bayesiana richiede elevate capacità di elaborazione e calcolo. La creazione di risultati per una singola combinazione di variante/obiettivo richiede decine di migliaia (o più) iterazioni della Catena di Markov Monte Carlo (MCMC), simulazioni che modellano il rendimento di ciascuna variante. Ciò non è stato possibile per molto tempo, e anche adesso, il calcolo di molte di queste combinazioni richiede un'elevata scalabilità. Fortunatamente, sembra che Google riesca a risolvere questo problema di scalabilità in modo eccellente.

L'adozione dei metodi bayesiani rende inoltre possibile utilizzare dei modelli avanzati. Anche se potrebbe essere possibile utilizzare alcuni di questi modelli con gli approcci frequentisti, le correzioni richieste per visualizzare dei risultati precisi sono molto più difficili e non offrono ancora alcuni dei vantaggi offerti dall'inferenza bayesiana.

In che modo Optimize risolve questi problemi?

Il problema dell'interpretazione: le statistiche bayesiane possono rispondere alla domanda "con quanta probabilità questa variante è migliore di quella precedente?" o "con quanta probabilità questa variante è la migliore nel complesso?". Mentre i calcoli sono più complessi, le risposte sono in realtà più allineate agli schemi di pensiero degli esseri umani.

Il problema del multi-look (ovvero la "visualizzazione in anteprima"): dal momento che usiamo dei modelli progettati per tenere conto dei cambiamenti dei risultati nel corso del tempo, è sempre possibile visualizzare i risultati. Le probabilità vengono continuamente perfezionate man mano che vengono raccolti altri dati.

Il problema dei confronti multipli: dal momento che i metodi bayesiani calcolano direttamente il rendimento relativo di tutte le varianti, e non effettuano soltanto un confronto tra coppie di varianti, gli sperimentatori non devono eseguire più confronti tra le varianti per prevederne il rendimento. Inoltre, i metodi bayesiani non richiedono correzioni statistiche avanzate durante l'analisi di diversi gruppi di dati. Negli approcci dei test d'ipotesi, tuttavia, le correzioni statistiche sono necessarie quando si analizzano i dati in modi diversi, cosa che la maggior parte degli strumenti non fa. Il caso può sempre produrre risultati "chiari" se si analizza un numero sufficiente di gruppi di dati, ma cerchiamo di ridurre al minimo le probabilità che ciò accada.

Velocità e precisione: dal momento che modelliamo con precisione il rendimento di tutte le varianti nel tempo (senza limitarci ai confronti tra le coppie di varianti sul totale), non siamo soggetti all'applicazione di un approccio frequentista "universale". Di conseguenza, siamo spesso più veloci quando i dati sono coerenti, in particolare negli ambienti caratterizzati da un volume ridotto di dati, e più precisi quando i dati non sono coerenti.

Cambiamenti del traffico nel tempo: utilizziamo dei modelli avanzati che presuppongono che il tempo possa influenzare i risultati dell'esperimento. Teniamo conto di questo presupposto e lo includiamo nella nostra analisi per fornirti i migliori risultati che rimarranno, con più probabilità, veritieri nel tempo.

Test multivariati: l'approccio di Optimize è in grado di acquisire dati sul rendimento reciproco delle combinazioni e sul rendimento di una variante in diverse combinazioni. Di conseguenza, possiamo eseguire tutte le combinazioni, ma trovare i risultati in modo molto più rapido rispetto a un test A/B equivalente.

Questo articolo delle domande frequenti fa parte di una serie di articoli delle domande frequenti sulle statistiche e la metodologia di Optimize. Di seguito sono riportate le altre domande frequenti:

È stato utile?
Come possiamo migliorare l'articolo?