Risultati degli esperimenti

Contenuti di questo articolo:

Che cos'è la "probabilità di superare la base di riferimento? È lo stesso concetto della confidenza?

No, non lo è, ma potresti usarla in modo simile, e inoltre la probabilità di superare la base di riferimento è meglio allineata ai risultati che la maggior parte delle persone pensa o desidera che il concetto di confidenza fornisca. La maggior parte delle persone ha difficoltà a comprendere intuitivamente il concetto di confidenza (che corrisponde a 1 meno il valore p), mentre la probabilità di superare la base di riferimento è esattamente ciò che sembra: la probabilità che una variante abbia un rendimento migliore dell'originale. Puoi attendere che la probabilità di superare la base di riferimento raggiunga il 95% oppure puoi implementare i risultati prima se sei disposto ad accettare un rischio maggiore di errore. Leggi ulteriori informazioni sulle sfide legate all'interpretazione dei valori p.

Che cos'è la "probabilità di essere il migliore"?

La probabilità di essere il migliore si riferisce alla variante che con più probabilità avrà il rendimento migliore nel complesso. È esattamente quello che sembra: non serve nessun'altra interpretazione. Per produrre lo stesso risultato in un ambiente frequentista, è necessario effettuare ulteriori preparazioni, come le correzioni di Bonferroni (ulteriori informazioni sui confronti multipli) per assicurarsi di non ottenere risposte poco precise.

Come si decide quando sospendere un esperimento?

Al momento, seguiamo un paio di regole quando viene visualizzato il messaggio di stato nella parte superiore della pagina dei rapporti:

  • Verifichiamo che ci sia del traffico verso l'esperimento ogni giorno, per assicurarci della validità dell'esperimento.
  • Aspettiamo finché non siano trascorse due settimane dall'inizio dell'esperimento. Perché due settimane? Nel caso degli esperimenti progettati per essere implementati in sezioni regolarmente visitate di una proprietà digitale, due settimane rappresentano in genere un buon intervallo di tempo per ottenere un quadro completo dei dati, inclusi quelli relativi a giorni feriali, fine settimana e qualsiasi altra anomalia che potrebbe accadere da una settimana all'altra. Tuttavia, due settimane è l'intervallo di tempo minimo e gli esperimenti possono essere eseguiti per un intervallo di tempo più lungo. Puoi anche sospendere un esperimento prima se ritieni che il traffico non possa cambiare qualitativamente, anche se non lo consigliamo.
  • Analizziamo la metrica denominata Valore potenziale rimanente. Il termine statistico di questa metrica è "Regret" (Rimorso), ma puoi considerarla anche come una perdita potenziale o un costo potenziale in termini di opportunità. Questa metrica non è attualmente disponibile nell'interfaccia utente di Optimize, ma con molta probabilità lo sarà in futuro. Questa metrica descrive il margine di miglioramento della metrica dell'obiettivo (ad es. il tasso di conversione o le entrate) rispetto al leader corrente. Un esempio di dichiarazione possibile derivante dall'uso di questa metrica per un obiettivo delle entrate è: "C'è la possibilità che una delle varianti possa ancora superare il leader corrente di $ 2. Se scegli di eseguire l'esperimento per un periodo più lungo è probabile che ridurrai il rischio di perdere questi $ 2." In genere, le tendenze si riducono a 0 man mano che ottieni più dati e maggiore certezza sui risultati, anche se i cambiamenti del comportamento del traffico dell'esperimento talvolta ne causano un aumento. Al momento, sospendiamo i risultati dell'esperimento quando non riteniamo che sia possibile migliorare il tasso di conversione migliore di un ulteriore 1%.

Come si riconosce l'ottenimento di un leader?

Se le condizioni riportate sopra sono soddisfatte, cerchiamo la variante con le probabilità più alte di essere la migliore. Se ci sono anche delle probabilità che questa variante superi l'originale di oltre il 95%, la presentiamo come leader.

Perché i tassi di conversione mediani non sono uguali se divido un numero per l'altro?

Usiamo dei modelli avanzati che tengono conto del tempo, del contesto dell'utente, della coerenza dei risultati e di altri fattori. La semplice divisione di un numero per l'altro non può tenere conto di tutti questi fattori. Facciamo questo per modellare meglio il rendimento probabile delle varianti in futuro, per fare in modo che i risultati rimangano validi a lungo termine.

Quali sono i numeri del tasso di conversione mostrati da Optimize? Qual è il significato di ciascuno di loro?

Optimize mostra diversi numeri, tutti sulla base di modelli. In particolare, mostriamo l'intervallo in cui è probabile al 95% che si trovi il tasso di conversione effettivo. Se passi il mouse sopra questi numeri nella scheda più in basso, visualizzerai inoltre il valore mediano e l'intervallo del 50%. Di solito, questi limiti si restringono nel corso dell'esperimento man mano che vengono raccolti più dati. Dal momento che gli intervalli dei tassi di conversione si sovrappongono in minor misura, vedrai un aumento delle probabilità in direzione delle varianti con il rendimento migliore. Puoi vedere questo avanzamento nel grafico della serie temporale in fondo alla pagina dei rapporti; gli intervalli vengono mostrati anche nelle righe della stessa scheda in basso nella pagina.

Perché Optimize, a differenza della maggior parte degli altri strumenti, mostra una serie di numeri per il "miglioramento"?

Gli altri strumenti dovrebbero farlo. Questi numeri mostrano l'intervallo dei valori possibili per il miglioramento di ciascuna variante rispetto all'originale. Per ogni numero relativo al miglioramento, indipendentemente dal metodo di test, dovrebbe essere riportato un intervallo. Gli strumenti che non mostrano questo aspetto, semplificano eccessivamente e non ti mostrano tutti gli aspetti della questione. L'intervallo che mostriamo è quello in cui siamo sicuri al 95% che rientrerà il miglioramento effettivo e in cui rimarrà se le condizioni rimangono coerenti. Puoi anche passare il mouse sopra numeri nell'ultima scheda per visualizzare il valore mediano e l'intervallo del 50%.

Esiste un modo per conoscere la durata di un esperimento?

Dal momento che il nostro approccio si adatta alle condizioni dei test, diverse condizioni causano esperimenti di durata diversa. Ad esempio, se i tassi di conversione sono molto coerenti nel tempo, troveremo i risultati più velocemente. Ma se i tassi sono caratterizzati da un'elevata variabilità, probabilmente sarà necessario più tempo per creare dei modelli relativi ai diversi fattori coinvolti. Gli strumenti che consentono di prevedere la durata degli esperimenti presuppongono che non vi sia alcuna variabilità o dipendenza nel tempo. Ciò è vero di rado negli esperimenti reali. Inoltre, suggeriamo di eseguire gli esperimenti per un minimo di due settimane al fine di acquisire le variazioni cicliche del traffico, ad esempio i giorni feriali/fine settimana e per compensare eventuali effetti di recency o altre anomalie.

Perché viene utilizzata la misurazione basata sulla sessione invece di quella basata sull'utente?

Diversi esperimenti richiedono approcci potenzialmente molto diversi, da quelli altamente granulari a quelli estremamente approssimativi. Un publisher che deve massimizzare le visualizzazioni di pagina potrebbe effettuare l'ottimizzazione scegliendo un obiettivo basato sulle visualizzazioni di pagina per sessione. Al contrario, un provider di servizi di e-commerce con l'obiettivo di acquisire nuovi clienti potrebbe concentrarsi sul primo checkout ed effettuare l'ottimizzazione scegliendo l'obiettivo basato sugli "utenti che effettuano una conversione". Vi sono inoltre molti esempi intermedi.

Inoltre, ciascun tipo di misurazione presenta le proprie sfide per quanto riguarda la decisione di come misurare al meglio l'impatto statistico. Le forme di misurazione granulare consentono di comprendere in modo preciso il contesto e di ottenere informazioni approfondite su ciò che potrebbe succedere su base giornaliera. Le misurazioni più approssimative non consentono di ottenere questo livello di approfondimento.

Con Optimize, analizziamo continuamente nuovi modi per valutare gli esperimenti al fine di aiutare gli utenti a identificare i risultati migliori e maggiormente utilizzabili. Il nostro approccio basato sulla sessione cerca di trovare un equilibrio tra le diverse opzioni e i compromessi disponibili. Ci permette di comprendere ulteriormente la variazione quotidiana del rendimento degli esperimenti, producendo al contempo risultati molto simili agli altri approcci granulari più approssimativi.

Questo articolo delle domande frequenti fa parte di una serie di articoli delle domande frequenti sulle statistiche e la metodologia di Optimize. Di seguito sono riportate le altre domande frequenti:

È stato utile?
Come possiamo migliorare l'articolo?

Hai bisogno di ulteriore assistenza?

Accedi per scoprire altre opzioni di assistenza che ti consentiranno di risolvere rapidamente il tuo problema