Méthodologie statistique appliquée aux tests

Comment l'équipe chargée des tests calcule-t-elle les intervalles de confiance et la pertinence statistique ?

La méthode de rééchantillonnage jackknife est appliquée aux données ayant fait l'objet d'un binning. Elle permet de calculer la variance d'échantillon associée à la variation en pourcentage d'une métrique. Un test de pertinence bilatéral est ensuite exécuté en utilisant l'intervalle de confiance de 95 %.

Pourquoi effectuer un binning des données ?

Le binning des données limite les conséquences liées aux erreurs d'observation mineures. Si vous souhaitez en savoir plus sur l'utilité du binning des données, commencez par lire cet article.

Le binning permet de répartir les données de façon à peu près normale (même si elles ne l'étaient pas) selon le théorème central limite, à condition qu'il y ait suffisamment d'observations par classe de données. Pour tenir compte des cas où il n'y a pas assez d'observations par classe de données, l'intervalle de confiance est calculé à l'aide de la méthode jackknife.

Pourquoi utiliser la méthode de rééchantillonnage jackknife ?

La méthode de rééchantillonnage jackknife est celle que nous utilisons habituellement chez Google, car elle est polyvalente et offre un haut niveau de couverture. Elle permet également de détecter efficacement les anomalies et de réduire les biais dans les estimations basées sur des échantillons. En outre, elle est particulièrement utile dans les cas où le volume de données ne suffit pas pour obtenir une estimation précise à l'aide du théorème central limite : utilisée dans les classes de données, elle permet alors d'améliorer la précision de nos intervalles de confiance.

Pour obtenir une présentation générale de la méthode de rééchantillonnage jackknife, cliquez ici. Si vous souhaitez en savoir plus sur son utilité, consultez ce document (en anglais).

Les annonceurs externes peuvent-ils regrouper les performances de plusieurs tests terminés, puis recalculer les statistiques à partir des données agrégées ?

Non, les annonceurs n'ont pas accès aux données utilisateur afin de recréer des classes et d'exécuter l'algorithme jackknife. Pour le moment, nous ne disposons pas d'outil interne nous permettant d'effectuer une telle opération au nom de nos clients.

Le ciblage affecte-t-il la manière selon laquelle les mises aux enchères sont réparties entre le test et la campagne d'origine ?

Le ciblage n'affecte pas la répartition. Les mises aux enchères éligibles sont réparties avant d'appliquer le ciblage. Par exemple, avec une répartition à 50/50, le test et la campagne d'origine participent au même nombre de mises aux enchères.

Quelles sont les conditions à remplir pour effectuer un véritable test A/A ?

Dans un test A/A, les campagnes d'origine et de test sont identiques pendant toute la durée du processus. Il n'y a aucune différence au niveau des campagnes (annonces, groupes d'annonces, paramètres, etc.), ni au niveau de l'état d'approbation des annonces. Toute modification apportée au cours du test A/A doit être appliquée simultanément aux campagnes d'origine et de test.

Quels sont les résultats attendus d'un test A/A ?

Vous ne devriez pas constater de différence statistiquement significative entre les clics, les impressions, le CTR ou le CPC.

Quelle est la différence entre la répartition basée sur les recherches et celle basée sur les cookies ?

Ces deux options vous permettent de déterminer le traitement à appliquer à chaque utilisateur. Avec la répartition basée sur les recherches, les utilisateurs sont associés aléatoirement soit à la campagne de test, soit à la campagne d'origine à chaque recherche effectuée. Il est possible que le même utilisateur voie la campagne de test et la campagne d'origine s'il effectue plusieurs recherches. Avec la répartition basée sur les cookies, chaque utilisateur ne peut voir qu'une seule version de votre campagne, quel que soit le nombre de recherches qu'il effectue. Cette approche permet d'éviter que d'autres facteurs aient un impact sur vos résultats.

Combien de classes sont utilisées ?

Le groupe témoin et le groupe de test comporte chacun 20 classes. Si le nombre de classes est trop élevé, l'obtention de résultats statistiquement significatifs peut prendre trop de temps. S'il est trop faible, le calcul des intervalles de confiance risque de ne pas être suffisamment précis. Ce chiffre de 20 classes constitue un bon équilibre entre nécessité pratique et pertinence statistique.

Ces informations vous-ont elles été utiles ?

Comment pouvons-nous l'améliorer ?