Metodología general

En este artículo:

¿En qué se diferencia el enfoque de Optimize de la medición de resultados de los experimentos?

En comparación con el enfoque adoptado por muchas otras herramientas de prueba (un análisis frecuentista de los resultados obtenidos durante el experimento), nuestro enfoque se diferencia en dos aspectos importantes.

En primer lugar, utilizamos la inferencia bayesiana para generar las estadísticas. Se trata de un método avanzado de análisis estadístico que nos permite afinar continuamente los resultados de los experimentos a medida que se van recopilando más datos. La inferencia bayesiana es costosa y depende de un equipo informático, pero ofrece varias ventajas en comparación con los enfoques más tradicionales:

  • Podemos afirmar si una probabilidad de una variante puede generar los mejores resultados, evitando los numerosos problemas que suele haber con los enfoques de prueba de hipótesis.
  • Los métodos bayesianos nos permiten calcular directamente las probabilidades para responder mejor a las preguntas que realmente se hacen los profesionales del marketing en lugar de proporcionarles valores p, que muy pocos los entienden. Más información sobre los valores p

Sin embargo, una de las principales ventajas de utilizar la inferencia bayesiana es que nos permite usar modelos más avanzados para analizar los resultados de pruebas A/B y de multivariantes, lo cual constituye la segunda gran diferencia de nuestro enfoque. Con los métodos de prueba tradicionales se formulan varias hipótesis que tratan los resultados de los experimentos con un enfoque universal. En cambio, con la inferencia bayesiana, somos capaces de utilizar diferentes modelos que se adaptan a cada experimento. Evaluamos constantemente nuevos modelos para ayudar a los experimentadores a obtener resultados muy precisos lo antes posible. A continuación se muestran algunos modelos que hemos utilizado:

  • Modelos jerárquicos: nos permiten mantener la coherencia entre los porcentajes de conversiones de una variante específica a lo largo del tiempo. Si un experimento tiene efectos de "novedad" significativos que desaparecen con el paso del tiempo, los modelos jerárquicos los compensan más eficazmente, ya que indican de forma más precisa qué comportamiento tendrán las variantes en el futuro.
  • Modelos contextuales: nos permiten captar información sobre el contexto del usuario o del experimento. Si los nuevos usuarios se comportan de forma distinta a los usuarios recurrentes, podemos añadir esa información a los resultados generales para ofrecerle un resultado final más completo.
  • Modelos sin pausa: neutralizan las tendencias de rendimiento globales que afectan a todas las variantes aislando y determinando el efecto de los cambios de cada variante. Por tanto, si los porcentajes de conversiones del fin de semana son muy distintos a los de entre semana, esos efectos se igualan y las diferencias se aprecian más fácilmente.

Si usamos la inferencia bayesiana con modelos más complejos, podemos adaptar todos los factores que pueden afectar a los resultados de la prueba. En el mundo real, los usuarios no siempre generan una conversión tras ver una sola variante. Algunos usuarios ven una variante varias veces, otros solo una vez; algunos visitan sitios web en días de rebajas; otros lo hacen otros días; algunos han interactuado con sus propiedades digitales durante años, otros son nuevos. Nuestros modelos captan factores como estos, que influyen en los resultados de las pruebas, mientras que los enfoques tradicionales los ignoran. A continuación se muestran algunas de las ventajas de nuestro enfoque:

  • Podemos tener en cuenta otros detalles que influyen en los resultados de las pruebas y aportar así mayor precisión al rendimiento que puede esperar de sus variantes.
  • A menudo podemos proporcionar resultados más rápidamente en experimentos con un volumen de tráfico bajo, ya que no necesitamos un mínimo tamaño de muestra y podemos basarnos en otros aspectos de los resultados.
  • Podemos ejecutar y analizar pruebas multivariantes de forma rápida y exhaustiva.

¿Qué problemas intenta solucionar el enfoque de Optimize con respecto a la medición de pruebas A/B?

Cuando analizamos el estado actual del mercado y los datos que teníamos de experiencias anteriores con Experimentos de contenido y Optimizador de sitios web de Google, detectamos algunos problemas básicos:

  • Los experimentadores quieren saber si los resultados son correctos, cuál es la probabilidad de que una variante obtenga el mejor resultado general y cuál es la magnitud de estos resultados. En realidad, los valores p y las pruebas de hipótesis no proporcionan este tipo de información. La mayoría de los experimentadores no entiende realmente qué indican los valores p y, en consecuencia, llegan a conclusiones erróneas. A menudo, incluso los científicos tienen dificultades en este sentido.
  • A los experimentadores les gusta observar las pruebas constantemente, lo cual provoca el problema de las "varias perspectivas". No se puede actuar a partir de los datos iniciales de un marco frecuentista, ya que eso puede dar lugar a decisiones incorrectas.
  • Los experimentadores quieren obtener resultados rápidamente, pero también con precisión. Los enfoques de pruebas existentes dan por sentado que el tiempo no afecta a los resultados, aunque la mayoría de los experimentos cambian a medida que los usuarios reaccionan a nuevo contenido o cambian de comportamiento a lo largo de un experimento. Como consecuencia, muchos experimentadores descubren que los resultados de las pruebas no se mantienen iguales a lo largo del tiempo, incluso tras haber encontrado una clara variante ganadora. Además, el comportamiento cíclico, como las diferencias entre un día laborable y un fin de semana, a menudo afectan a los resultados, e ignorar esos ciclos puede derivar en conclusiones incorrectas.
  • Los enfoques simplistas de las pruebas multivariantes a menudo requieren un equilibrio entre los largos tiempos de ejecución o la ejecución de solo unas pocas combinaciones y el sacrificio de la calidad de los datos.

¿Qué ejemplo de "modelo avanzado" utilizáis?

Utilizamos varios modelos para diferentes objetivos, pero a menudo apostamos por un modelo jerárquico que nos permite usar el porcentaje de conversiones diario de cada variante para crear nuestros modelos. No ocurre lo mismo con el enfoque más tradicional, en el que los números de las pruebas y de conversión no procesados durante el transcurso de la prueba se suman y se utilizan como entradas para realizar un cálculo frecuentista sencillo. Es importante destacar este detalle, ya que significa que podremos comprender mejor el rendimiento de sus porcentajes de conversiones en el futuro y proporcionar resultados más rápido cuando los porcentajes de conversiones sean muy coherentes, además de ofrecer unos resultados más precisos cuando los porcentajes de conversiones sean altamente variables.

Fíjese en este sencillo ejemplo:

  • Un original, una variante
  • 1000 pruebas al día para cada uno
  • Porcentaje de conversiones (PC) real de la variante a largo plazo: 1%
  • PC original (constante): 3%
  • El efecto "novedad" de la variante: los usuarios hacen clic en ella con más frecuencia porque es nueva (por ejemplo, un 10% al inicio del experimento, que va disminuyendo en pocos días)

El rendimiento resultante podría tener este aspecto con el paso del tiempo:

Chart: average conversion rate

La mayoría de las herramientas muestra el porcentaje de conversiones medio (en rojo). Tenga en cuenta que el porcentaje de conversiones medio tarda mucho tiempo en acercarse al porcentaje de conversiones real del 1% y, además, muestra la variante como ganadora hasta el día 8 del mes aproximadamente.

Por otro lado, lo que calculamos con estos modelos jerárquicos se parece mucho más a la curva PC diaria (en azul). Debido a que queremos analizar la coherencia entre los porcentajes de conversiones, vemos que son realmente muy variables. Como consecuencia, vemos que la variante es la ganadora durante un par de días, pero el tercer día, los resultados son mucho más inciertos de lo que el porcentaje de conversiones medio indica durante el transcurso del experimento.

¿Qué es la inferencia bayesiana?

La inferencia bayesiana es una manera elegante de decir que usamos datos que ya tenemos para formular mejores hipótesis sobre los nuevos datos. A medida que obtenemos nuevos datos, acotamos nuestro "modelo" del mundo y proporcionamos resultados más precisos.

A continuación se muestra un ejemplo práctico.

Imagine que ha perdido su teléfono en casa y oye que suena en una de las cinco habitaciones. Por sus experiencias anteriores, sabe que suele dejar el teléfono en el dormitorio.

Un enfoque frecuentista le obligaría a quedarse inmóvil y escucharlo sonar, con la esperanza de poder determinar con seguridad en qué habitación se encuentra, y todo eso desde el punto en el que se encuentra, sin moverse. Además, no podría usar la información sobre dónde suele dejarlo.

En cambio, un enfoque bayesiano se corresponde bien con nuestro sentido común. En primer lugar, usted sabe que a menudo deja su teléfono en el dormitorio, por lo que tiene más posibilidades de encontrarlo allí, y se le permite utilizar ese conocimiento. En segundo lugar, cada vez que suena el teléfono, puede caminar un poco más cerca de donde cree que se encuentra el teléfono. Por tanto, las posibilidades de encontrar su teléfono son mucho mayores.

Interesante. ¿Podríais explicar más detalladamente en qué consisten las estadísticas bayesianas?

Lo haríamos con mucho gusto, pero no sabemos si estaríamos a la altura de los mejores estadísticos del sector que ya lo han explicado. Empiece por esta fantástica visión general.

¿Por qué no todo el mundo utiliza la inferencia bayesiana o estos modelos avanzados?

Existen varios motivos. En primer lugar, los métodos no bayesianos son más fáciles de enseñar. Como consecuencia, se enseña habitualmente en clases introductorias de estadística. La realización de modelos bayesianos requiere un enfoque más profundo de la probabilidad y, además, la inferencia bayesiana implica el uso de ordenadores, lo que hace que sea bastante costoso. Generar resultados para una sola combinación variante/objetivo requiere decenas de miles (o más) de iteraciones de cadenas de Markov Monte Carlo (MCMC), simulaciones que crean un modelo del rendimiento de cada variante. Esto no fue factible durante mucho tiempo, e incluso ahora implica un proceso de escalamiento importante para calcularlas. Afortunadamente, Google parece ser muy bueno en este tipo de problemas.

El uso de métodos bayesianos también hace factible el uso de modelos avanzados. Si bien es posible utilizar algunos de estos modelos con enfoques frecuentistas, las correcciones necesarias para mostrar resultados precisos son mucho más difíciles y todavía no cuentan con algunas de las ventajas que la inferencia bayesiana ofrece.

¿Cómo soluciona Optimize estos problemas?

El problema de la interpretación: las estadísticas bayesianas pueden responder a las preguntas siguientes: "¿Qué probabilidades hay de que esta variante sea mejor que la que tenía?" o "¿Qué probabilidades hay de que esta variante obtenga el mejor resultado global?". Si bien los cálculos son más complejos, las respuestas van mucho más en sintonía con la forma de pensar de los humanos.

El problema de las varias perspectivas (también conocido como "peeking"): debido a que usamos modelos que están diseñados para tener en cuenta los cambios en sus resultados con el tiempo, siempre es bueno mirar los resultados. Nuestras probabilidades se van ajustando constantemente, a medida que recopilamos más datos.

El problema de las comparaciones múltiples: debido a que los métodos bayesianos calculan directamente el rendimiento relativo de todas las variantes juntas, y no solo comparaciones de variantes por parejas, los experimentadores no tienen que realizar varias comparaciones de variantes para comprender la probabilidad de rendimiento de cada una de ellas. Además, los métodos bayesianos no requieren correcciones estadísticas avanzadas cuando se examinan distintas fracciones de datos. Sin embargo, en los enfoques de prueba de hipótesis, las correcciones estadísticas son necesarias cuando se examinan los datos desde distintas perspectivas, y la mayoría de las herramientas no lo hacen. La posibilidad aleatoria siempre puede dar resultados "claros" si examina sus datos en fracciones suficientes, pero intentamos minimizar las posibilidades de que esto suceda.

Velocidad y precisión: debido a que creamos modelos más precisos sobre el rendimiento de todas las variantes juntas a lo largo del tiempo (y no solo realizamos comparaciones por pares en los totales), no estamos sujetos a un enfoque frecuentista universal. Por lo tanto, a menudo somos más rápidos cuando sus datos son consistentes, especialmente en contextos de poco volumen, y más precisos cuando no lo son.

Tráfico cambiante con el tiempo: utilizamos modelos avanzados que asumen que el tiempo puede afectar a los resultados de su experimento. Incluimos esa hipótesis en nuestro análisis, para proporcionarle los mejores resultados que tengan la mayor probabilidad de ser ciertos a lo largo del tiempo.

Pruebas multivariantes: el enfoque de Optimize puede aprender tanto sobre el rendimiento de las combinaciones como el rendimiento de una variante en distintas combinaciones. Como consecuencia, podemos ejecutar todas las combinaciones, pero encontramos los resultados mucho más rápidamente que con una prueba A/B equivalente.

Este artículo de preguntas frecuentes forma parte de una serie de artículos de preguntas frecuentes sobre estadística y metodología de Optimize. A continuación se muestran otras preguntas frecuentes:

¿Te ha resultado útil esta información?
¿Cómo podemos mejorar esta página?