Visión general

Preguntas frecuentes sobre los experimentos multi-armed bandit

¿El experimento multi-armed bandit logra siempre encontrar la variación óptima?

Podemos garantizar que el algoritmo multi-armed bandit que utilizamos encontrará la variación óptima si el experimento no finaliza nunca [3] [4]. Puesto que no va a realizar el experimento de forma indefinida, no podemos garantizarle con total seguridad que la variación que se encuentre sea la mejor. Está claro que no hay ningún método estadístico capaz de ofrecerle una garantía absoluta de encontrar una respuesta óptima con datos finitos, por lo que no es de extrañar que nuestro algoritmo tampoco lo haga. Por ello, limitamos la duración del experimento a tres meses. Si transcurrido este tiempo no hemos encontrado la variación óptima, probablemente no se encuentre nunca y es mejor que experimente con otros elementos de su sitio.

¿Siempre dura menos que una prueba tradicional?

El experimento multi-armed bandit puede ofrecer resultados mucho más deprisa que las pruebas tradicionales, a un coste inferior y con la misma validez estadística. No obstante, en casos muy concretos y sin ningún motivo especial, puede que dure más de lo esperado.

¿Qué tipo de experimentos obtienen resultados especialmente buenos (o malos) con el algoritmo multi-armed bandit en comparación con las pruebas tradicionales?

El algoritmo multi-armed bandit ofrece mayores ventajas respecto a las pruebas tradicionales en los experimentos complejos, en los que se busca realmente un efecto [1]. Si una de sus variaciones ofrece resultados mucho mejores que las demás, la variación óptima se detectará muy deprisa. En el caso de que una o más variaciones ofrezcan resultados mucho peores que las demás, se descartarán rápidamente para que el experimento pueda centrarse en buscar la mejor.

El peor caso para el algoritmo multi-armed bandit es cuando un experimento tiene dos variaciones que ofrecen exactamente los mismos resultados. Entonces, la solución ideal es que las variaciones acumulen observaciones a porcentajes idénticos hasta la finalización del experimento. El algoritmo muestra este comportamiento por término medio, pero en un experimento concreto una variación puede acumular observaciones más deprisa por pura casualidad.

Cabe recordar que los usuarios realizan experimentos porque piensan que pueden mejorar la página existente, por lo que no queremos poner un énfasis excesivo en el peor de los casos que asumen las pruebas tradicionales.

¿Qué sucede si la variación óptima no empieza con buen pie el experimento? ¿Puede mejorar?

Aunque una variación se descarte al principio del experimento, puede recuperarse. Una variación puede descartarse injustamente por dos motivos: porque ha tenido un comportamiento sorprendentemente malo o porque otra variación ha tenido un comportamiento sorprendentemente bueno (o por ambos motivos). Si la suerte ha favorecido injustamente a una variación inferior, esta empezará a acumular más observaciones, veremos que no es tan buena como pensábamos y perderá notoriedad, lo que propiciará que las demás variaciones destaquen respecto a ella.

¿Los resultados del experimento multi-armed bandit son estadísticamente válidos?

Sí. El algoritmo multi-armed bandit utiliza la actualización bayesiana secuencial para obtener información de los resultados diarios del experimento, lo que supone una concepción distinta de la validez estadística de la que se utiliza en las pruebas tradicionales. Una prueba tradicional comienza con la suposición de una hipótesis nula. Por ejemplo, "todas las variaciones tienen la misma eficacia". A continuación, acumula pruebas sobre la hipótesis y evalúa si se puede rechazar. Si puede rechazarse la hipótesis nula, se ha encontrado un resultado estadísticamente significativo.

La importancia estadística existe para evitar los errores de tipo I. En el contexto de la optimización de sitios web, un error de tipo I conlleva la elección de una nueva variación que, en realidad, no es distinta al rendimiento original. A usted le gustaría evitar los errores de tipo I, ya que, al fin y al cabo, son errores. No obstante, en este contexto suponen un coste mucho menor que los errores de tipo II. Para nosotros, un error de tipo II supone no cambiar a una sección mejor, lo que es costoso pues significa que pierde conversiones.

La actualización bayesiana se formula la pregunta "Con la información de la que dispongo ahora, ¿qué probabilidades hay de que esta sea la mejor variación?" La prueba de hipótesis, en cambio, se cuestiona "¿Qué probabilidades habría de obtener este resultado si todas las variaciones fueran iguales?" Ambas son preguntas válidas, pero la pregunta bayesiana resulta más fácil de entender para la mayoría de las personas, y naturalmente establece un equilibrio entre los errores de tipo I y de tipo II aprovechando la información de su experimento a medida que está disponible.

Las pruebas de hipótesis clásicas le hacen esperar hasta que ha visto un determinado número de observaciones antes de consultar sus datos, ya que, de lo contrario, la pregunta de probabilidad a la que han de responder se hace demasiado complicada. Si dispone de una variación de bajo rendimiento en su experimento, las pruebas tradicionales suponen un elevado coste de oportunidad. De modo que si ambos métodos son válidos, parece más sensato utilizar el que le ahorra tiempo y dinero, y descartar el que es más complicado, caro y lento.

¿Te ha sido útil este artículo?
¿Cómo podemos mejorar esta página?