¿Qué método emplea el equipo que se encarga de los experimentos para calcular los intervalos de confianza y la significación estadística?
Se aplica el método Jackknife de remuestreo a los datos agrupados para calcular la varianza del cambio porcentual de una métrica en una muestra. A continuación, se hace la prueba bilateral de significación usando el intervalo de confianza del 95 %.
¿Por qué es conveniente agrupar los datos en bins?
Al agrupar los datos en bins, se reducen los efectos de los pequeños errores de observación. Si quieres más información sobre por qué es útil agrupar los datos en bins, este es un buen punto de partida.
Aunque los datos agrupados en bins no tengan una distribución normal, se aproximarán bastante a tenerla según el teorema del límite central, siempre que haya un número suficiente de observaciones por bin. Para tener en cuenta los casos en que no haya un número suficiente de observaciones por bin, se calcula el intervalo de confianza con el método Jackknife.
¿Por qué es conveniente usar el método Jackknife de remuestreo?
El método Jackknife de remuestreo es el que utilizamos habitualmente en Google porque es versátil y ofrece una gran cobertura. También es eficaz para detectar valores atípicos (outliers) y reducir el sesgo de la estimación de la muestra. Además, resulta muy útil cuando no hay datos suficientes para obtener una estimación precisa utilizando el teorema del límite central, por lo que se usa con los datos agrupados en bins para aumentar la precisión de los intervalos de confianza.
Consulta una descripción general del método Jackknife de remuestreo. Si quieres saber más sobre su utilidad, este documento ofrece más detalles.
¿Los anunciantes externos pueden agregar los datos de los resultados de varios experimentos y recalcular las estadísticas a partir de estos datos agregados?
No, los anunciantes no tienen acceso a los datos a nivel de usuario para volver a crear bins y ejecutar el algoritmo Jackknife. En este momento, no disponemos de herramientas internas que nos permitan hacerlo en nombre de nuestros clientes.
¿Afecta la segmentación al modo en que se divide el porcentaje de participación en la subasta entre la campaña experimental y la original?
La segmentación no afecta a la división, que se aplica antes las subastas aptas. Por ejemplo, si se aplica una división de 50:50, el experimento y la campaña original participarán en la misma cantidad de subastas.
¿Cuáles son las condiciones necesarias para que la prueba sea realmente una prueba A/A?
Una prueba A/A es aquella en la que el experimento y la campaña original son idénticos todo el tiempo. No existen diferencias en los anuncios de las campañas, grupos de anuncios, configuración, etc., ni en las aprobaciones de anuncios. Los cambios que se hagan durante una prueba A/A deben tener lugar al mismo tiempo en las variantes experimental y original.
¿Cuáles son los resultados previstos de una prueba A/A?
No deben aparecer diferencias estadísticamente significativas en los clics, las impresiones, el porcentaje de clics (CTR) ni en el coste por clic (CPC).
¿En qué se diferencia la división basada en búsquedas de la basada en cookies?
Son dos opciones diferentes para decidir el tratamiento que recibirá un usuario. Con la división de experimentos basada en búsquedas, cada vez que un usuario hace una búsqueda se le asigna aleatoriamente al experimento o la campaña de base. Si un usuario hace varias búsquedas, es posible que vea tanto el experimento como la campaña original. Con la división de experimentos basada en cookies, los usuarios solo verán una versión de la campaña independientemente de las veces que hagan una búsqueda. Así se puede impedir que otros factores afecten a los resultados.
¿Cuántos bins se utilizan?
Se utilizan veinte bins en el grupo de control y otros veinte en el experimental. Si hay un número excesivo de bins, se puede tardar demasiado en obtener resultados estadísticamente significativos. Sin embargo, si el número de bins es escaso, es posible que los cálculos del intervalo de confianza no sean precisos. Así se consigue un buen equilibrio entre los requisitos prácticos y la potencia de la estadística.