המתודולוגיה הסטטיסטית שמאחורי הניסויים

באיזו שיטה משתמש צוות הניסויים כדי לחשב רווחים ברי-סמך ומובהקות סטטיסטית?

כדי לחשב את שונות הדגימה של אחוז השינוי בערך, אנחנו מבצעים דגימה מחדש בשיטת Jackknife של נתונים המחולקים לאינטרוולים (bucketed data). לאחר מכן, מבצעים בדיקת מובהקות בילטרלית, תוך שימוש ברווח בר-סמך של 95%.

מדוע מחלקים את הנתונים לאינטרוולים?

חלוקת הנתונים לאינטרוולים מצמצמת את ההשפעות של שגיאות תצפית שוליות. מידע נוסף על השימוש בחלוקת נתונים לאינטרוולים ובתועלת שבכך זמין כאן.

גם אם התפלגות הנתונים אינה נורמלית, ההתפלגות של הנתונים המחולקים לאינטרוולים תהיה כמעט נורמלית, על סמך 'משפט הגבול המרכזי', בתנאי שיש מספיק תצפיות לכל אינטרוול. כדי לפצות על מקרים שבהם אין מספיק תצפיות לכל אינטרוול, נעשה שימוש בשיטת Jackknife כדי לחשב את הרווח בר-סמך.

מדוע משתמשים בדגימה מחדש בשיטת Jackknife?

דגימה מחדש בשיטת Jackknife היא הסטנדרט שב-Google, מפני שהיא שיטת רב-תכליתית שמספקת רמת כיסוי גבוהה. דגימה מחדש בשיטה הזו יעילה גם לצורך זיהוי ערכים חריגים וצמצום ההטיה של הערכת הדגימה. בנוסף, היא שימושית במיוחד במצבים שבהם אין מספיק נתונים כדי לקבל הערכה מדויקת באמצעות משפט הגבול המרכזי, כך שמשתמשים בה על הנתונים המחולקים לאינטרוולים כדי לשפר את הדיוק של הרווחים בני הסמך.

אפשר לעיין בסקירה כללית בנושא דגימה מחדש בשיטת Jackknife כאן. בנוסף, מאמר זה מכיל הסברים נוספים לגבי השימושים השונים שלה.

האם מפרסמים חיצוניים יכולים לצבור ביצועים של ניסויים מרובים בדיעבד, ולבצע מחדש את החישובים הסטטיסטיים על הנתונים המצטברים?

לא, אין למפרסמים גישה לנתונים ברמת המשתמש ולכן אין להם אפשרות ליצור מחדש את החלוקה לאינטרוולים ולהפעיל את אלגוריתם Jackknife. אין כרגע כלים פנימיים שמאפשרים לעשות זאת בשם הלקוחות שלנו.

האם הטירגוט משפיע על חלוקת נתח המכרז בין הניסוי לקמפיין המקורי?

הטירגוט לא משפיע על החלוקה. החלוקה חלה על מכרזים שעומדים בקריטריונים לפני החלת הטירגוט. לדוגמה, כשהחלוקה היא 50:50, פירוש הדבר שהניסוי והקמפיין המקורי ישתתפו במספר זהה של מכרזים.

מהם התנאים שמבטיחים בדיקת A/A נכונה?

בדיקת A/A היא בדיקה שבה קמפיין הניסוי והקמפיין המקורי זהים במשך הניסוי (אין הבדל במודעות, בקבוצות של המודעות, בהגדרות של הקמפיינים וכו', ואין הבדלים באישורי המודעות). אם מבצעים שינויים בזמן בדיקת ה-A/A, צריך לבצע אותם בשני הקמפיינים (קמפיין הניסוי והקמפיין המקורי) במקביל.

מהן התוצאות הצפויות של בדיקת A/A?

לא אמורים להיות הבדלים בעלי מובהקות סטטיסטית בקליקים, בחשיפות, בשיעור הקליקים (CTR) או בעלות לקליק (CPC).

מה ההבדל בין קבוצות מבוססות חיפוש וקבוצות המבוססות על קובצי cookie?

אלו הן שתי אפשרויות שונות לקביעת הטיפול שמשתמש יקבל. כשמגדירים קבוצות ניסוי מבוססות חיפושים, המשתמשים מוצבים באופן אקראי בקמפיין הניסוי או בקמפיין המקורי בכל פעם שמתבצע חיפוש. אם משתמש מסוים יבצע חיפוש מספר פעמים, ייתכן שיוצגו לו גם קמפיין הניסוי וגם הקמפיין המקורי. כשמגדירים קבוצות ניסוי שמבוססות על קובצי cookie, תוצג למשתמשים רק גרסה אחת של הקמפיין, לא משנה כמה פעמים הם יבצעו חיפוש. כך אנחנו מונעים מגורמים לא רצויים להטות את התוצאות.

בכמה אינטרוולים נעשה שימוש?

עשרים אינטרוולים משמשים בקמפיין הבקרה ועשרים אינטרוולים משמשים בקמפיין הניסוי. אינטרוולים רבים מדי עלולים לגרום לכך שייקח זמן רב מדי לקבל תוצאות בעלות מובהקות סטטיסטית. אינטרוולים מעטים מדי עלולים לגרום לכך שהחישובים של הרווחים בני הסמך לא יהיו מדויקים. עשרים אינטרוולים מהווים איזון טוב בין דרישות פרקטיות לבין עוצמה סטטיסטית.

האם המידע הועיל?

איך נוכל לשפר את המאמר?