Statistische Methodik für Tests

Mit welcher Methode berechnet das Testteam Konfidenzintervalle und die statistische Signifikanz?

Die Stichprobenvarianz der prozentualen Änderung eines Messwerts wird ermittelt, indem Jackknife-Resampling auf Daten angewendet wird, die zu sogenannten Buckets zusammengefasst sind. Danach werden zweiseitige Signifikanztests unter Verwendung des 95-%-Konfidenzintervalls durchgeführt.

Warum werden die Daten zusammengefasst?

Durch das Zusammenfassen der Daten zu Buckets (das sogenannte Binning) werden die Auswirkungen geringfügiger Beobachtungsfehler reduziert. Falls Sie mehr über die Vorteile dieses Verfahrens erfahren möchten, ist dieser Artikel ein guter Ausgangspunkt.

Selbst wenn die Daten nicht normal verteilt sind, gibt es bei den zusammengefassten Daten annähernd eine Normalverteilung, sofern jeder Bucket genügend Beobachtungen umfasst. Dies ist auf den zentralen Grenzwertsatz zurückzuführen. Falls ein oder mehrere Buckets nicht genügend Beobachtungen enthalten, wird das Konfidenzintervall mithilfe der Jackknife-Methode berechnet.

Warum verwendet Google das Jackknife-Resampling?

Das Jackknife-Resampling wird von Google standardmäßig genutzt, weil es vielseitig ist und eine hohe Abdeckung bietet. Außerdem lassen sich damit gut Ausreißer erkennen und die Verzerrung der Stichprobenschätzung verringern. Darüber hinaus ist das Jackknife-Resampling besonders nützlich, wenn nicht genügend Daten für eine Schätzung mithilfe des zentralen Grenzwertsatzes vorliegen. Daher wird es für zu Buckets zusammengefasste Daten eingesetzt, um die Genauigkeit der Konfidenzintervalle zu erhöhen.

Einen allgemeinen Überblick über das Jackknife-Resampling finden Sie hier. Weitere Informationen zu den Vorteilen dieser Methode bietet dieses Dokument.

Können externe Werbetreibende die Leistungsdaten mehrerer Tests nachträglich zusammenfassen und die Statistiken für diese zusammengefassten Daten neu berechnen?

Nein. Die Werbetreibenden können nicht auf Daten auf Nutzerebene zugreifen, um die Buckets neu zu erstellen und den Jackknife-Algorithmus anzuwenden. Derzeit gibt es auch keine internen Tools, mit denen wir das im Namen unserer Kunden tun könnten.

Wirkt sich die Ausrichtung darauf aus, wie die Test- und die ursprüngliche Kampagne auf Auktionen aufgeteilt werden?

Die Ausrichtung hat keinen Einfluss auf die Aufteilung der Kampagnen auf die aktiven Auktionen. Die Aufteilung erfolgt, bevor die Ausrichtung angewendet wird. So bedeutet beispielsweise eine 50/50-Aufteilung, dass die Test- und die ursprüngliche Kampagne an gleich vielen Auktionen teilnehmen.

Welche Bedingungen sind Voraussetzung für einen echten A/A-Test?

Bei einem A/A-Test sind Test- und ursprüngliche Kampagne während des gesamten Tests identisch. Das bedeutet, dass sich weder die Anzeigen, Anzeigengruppen und Einstellungen der Kampagnen noch die Anzeigenfreigabe unterscheiden. Falls während eines A/A-Tests Änderungen vorgenommen werden, müssen diese gleichzeitig auf die Test- und auf die ursprüngliche Kampagne angewendet werden.

Welche Ergebnisse sind bei einem A/A-Test zu erwarten?

Bei den Klicks und Impressionen sowie bei der CTR und beim CPC sollte es keine statistisch signifikanten Unterschiede geben.

Was ist der Unterschied zwischen auf Suchanfragen und auf Cookies basierenden Testgruppen?

Es gibt zwei verschiedene Möglichkeiten zu bestimmen, welche Anzeigen für Nutzer ausgeliefert werden. Bei Testgruppen, die auf Suchanfragen basieren, werden nach dem Zufallsprinzip bei jeder Suche entweder die Anzeigen der Testversion oder der ursprünglichen Kampagne ausgeliefert. Allerdings kann es vorkommen, dass denselben Nutzern nacheinander beide Versionen präsentiert werden, wenn sie mehrmals eine Suchanfrage stellen. Bei auf Cookies basierenden Testgruppen sehen die Nutzer möglicherweise immer nur eine Version der Kampagne, ganz gleich, wie oft sie eine Suchanfrage stellen. So ist gewährleistet, dass keine anderen Faktoren die Ergebnisse beeinflussen.

Wie viele Buckets werden verwendet?

Für die Kontrollgruppe und die Testgruppe werden jeweils 20 Buckets eingesetzt. Wenn die Zahl der Buckets zu hoch ist, dauert es möglicherweise zu lang, bis statistisch signifikante Ergebnisse vorliegen. Sollte es nicht genügend Buckets geben, sind die Berechnungen des Konfidenzintervalls unter Umständen nicht präzise. Die von Google festgelegten 20 Buckets je Gruppe sind ein guter Kompromiss zwischen praktischen Anforderungen und statistischer Aussagekraft.

War das hilfreich?

Wie können wir die Seite verbessern?