Metodologi umum

Dalam artikel ini:

Apa yang berbeda mengenai pendekatan Optimize untuk mengukur hasil eksperimen?

Jika dibandingkan dengan pendekatan yang digunakan oleh banyak fitur uji lainnya -- analisis hasil berbasis frekuentis selama masa eksperimen -- pendekatan kami berbeda dalam 2 cara penting.

Pertama, kami menggunakan inferensi Bayes untuk menghasilkan statistik. Inferensi Bayes adalah metode analisis statistik lanjutan yang memungkinkan kami secara terus-menerus menyempurnakan hasil eksperimen saat ada lebih banyak data yang dikumpulkan. Meskipun menggunakan teknik komputasi dan mahal, inferensi Bayes menawarkan sejumlah manfaat bila dibandingkan dengan pendekatan yang lebih tradisional:

  • Kami dapat menyebutkan probabilitas satu varian mana pun untuk menjadi yang terbaik secara keseluruhan, tanpa menemui beberapa masalah pengujian yang terkait dengan pendekatan pengujian hipotesis.
  • Metode Bayes memungkinkan kami untuk menghitung probabilitas secara langsung, untuk menjawab secara lebih baik pertanyaan yang benar-benar dimiliki oleh pemasar (dan bukan menyediakan nilai p yang hanya benar-benar dipahami oleh sedikit orang). Baca seterusnya tentang nilai p.

Namun, salah satu manfaat terbesar dari penggunaan inferensi Bayes adalah kami dapat menggunakan model yang lebih canggih untuk analisis hasil pengujian dan multi-variasi dan A/B - perbedaan terbesar kedua dalam pendekatan kami. Dengan metode pengujian tradisional, banyak asumsi dibuat yang memperlakukan hasil eksperimen dengan pendekatan "satu ukuran untuk semua". Namun dengan inferensi Bayes, kami dapat menggunakan model berbeda yang beradaptasi dengan masing-masing dan semua eksperimen. Kami terus-menerus mengevaluasi model baru untuk membantu pelaku eksperimen menemukan hasil yang sangat akurat secepat mungkin. Sebagai contoh, berikut adalah beberapa model yang telah kami gunakan:

  • Model hierarkis memungkinkan kami membuat model konsistensi rasio konversi varian dari waktu ke waktu. Jika eksperimen memiliki efek "kebaruan" signifikan yang lama kelamaan akan hilang, model hierarkis lebih efektif mengimbangi hal ini, dengan menawarkan representasi yang lebih akurat tentang bagaimana performa varian di masa mendatang.
  • Model kontekstual memungkinkan kami menangkap informasi tentang konteks pengguna atau eksperimen. Jika pengguna baru berperilaku berbeda dari pengguna kembali, kami dapat menggabungkan informasi tersebut ke keseluruhan hasil untuk memberi Anda hasil akhir yang lebih akurat.
  • Model resah menetralkan keseluruhan tren performa yang memengaruhi semua varian, mengisolasi, dan memperjelas dampak dari setiap perubahan varian. Jadi, jika rasio konversi pada akhir pekan jauh berbeda dengan rasio konversi pada hari kerja, dampak tersebut diseimbangkan dan perbedaan akan ditampilkan dengan lebih jelas.

Melalui penggunaan inferensi Bayes dengan model yang lebih kompleks, kami akan lebih mudah membuat model semua faktor yang dapat memengaruhi hasil uji Anda. Pada kenyataannya, pengguna tidak selalu melihat varian hanya sekali, lalu berkonversi. Beberapa pengguna melihat varian beberapa kali, pengguna lainnya hanya sekali. Beberapa pengguna datang pada hari pemberian diskon, pengguna lainnya datang pada hari yang lain. Sebagian sudah berinteraksi dengan properti digital Anda selama bertahun-tahun, sementara yang lain masih baru. Model kami menangkap faktor-faktor seperti ini yang memengaruhi hasil uji, sementara pendekatan tradisional mengabaikannya. Berikut adalah beberapa manfaatnya:

  • Kami dapat memperhitungkan kerumitan lain yang memengaruhi hasil uji Anda, sehingga menawarkan akurasi yang lebih tinggi tentang performa yang dapat Anda harapkan dari varian.
  • Kami sering kali dapat memberikan hasil lebih cepat dalam eksperimen traffic rendah, karena kami tidak memerlukan ukuran sampel minimum dan dapat mengandalkan aspek lain dari hasil Anda.
  • Kami dapat menjalankan dan menganalisis uji multi-variasi secara cepat dan komprehensif.

Masalah apa yang berusaha diselesaikan dengan pendekatan Optimize terkait dengan pengukuran pengujian A/B?

Ketika kami melihat kondisi pasar saat ini dan data yang kami peroleh dari pengalaman sebelumnya dengan Eksperimen Konten dan Google Pengoptimal Situs, kami melihat beberapa masalah utama:

  • Pelaku eksperimen ingin mengetahui bahwa hasilnya benar. Mereka ingin mengetahui seberapa besar kemungkinan hasil varian menjadi yang terbaik secara keseluruhan. Dan mereka ingin mengetahui besaran hasilnya. Nilai P dan uji hipotesis tidak benar-benar menginformasikan hal tersebut! Sebagian besar pelaku eksperimen tidak benar-benar memahami arti dari nilai p, dan akibatnya mereka mengambil kesimpulan yang salah. Bahkan para ilmuwan sering kali menemui kesulitan memahaminya.
  • Pelaku eksperimen suka melihat hasil uji berulang kali, sehingga menimbulkan masalah "keseringan dilihat". Bertindak berdasarkan data awal dalam kerangka frekuentis dapat menghasilkan keputusan yang salah.
  • Pelaku eksperimen ingin mendapatkan hasil dengan cepat, namun juga akurat. Pendekatan standar terhadap pengujian mengasumsikan bahwa hasil tidak dipengaruhi waktu, meskipun sebagian besar eksperimen berubah saat pengguna bereaksi terhadap konten baru atau mengubah perilaku selama eksperimen berlangsung. Akibatnya, banyak pelaku eksperimen mendapati bahwa hasil pengujian tidak bertahan lama, bahkan setelah menemukan pemenang yang pasti. Selain itu, perilaku siklis, seperti perbedaan antara hari kerja dan akhir pekan, sering kali memengaruhi hasil, dan mengabaikan siklus tersebut dapat menyebabkan pengambilan kesimpulan yang salah.
  • Pendekatan sederhana terhadap uji multi-variasi sering memerlukan penyesuaian antara waktu proses yang sangat panjang vs menjalankan hanya beberapa kombinasi, sehingga mengorbankan kualitas data.

Contoh "model lanjutan" apa yang Anda gunakan?

Kami menggunakan berbagai model untuk tujuan berbeda, namun yang sering kami gunakan adalah model hierarkis, yang memungkinkan kami menggunakan rasio konversi harian untuk setiap varian sebagai masukan untuk model kami. (Ini sangat berbeda dengan pendekatan yang lebih umum. Di sini jumlah uji coba dan konversi baku selama masa uji dijumlah dan digunakan sebagai masukan untuk perhitungan frekuentis sederhana.) Ini penting karena artinya kami dapat lebih memahami bagaimana nantinya performa rasio konversi di masa mendatang. Ini juga berarti bahwa kami dapat memberikan hasil yang lebih cepat saat rasio konversi sangat konsisten, dan hasil yang lebih akurat saat rasio konversi sangat bervariasi.

Pertimbangkan satu contoh sederhana:

  • Satu asli, satu varian
  • 1.000 percobaan sehari untuk masing-masing
  • Rasio konversi sesungguhnya varian (CvR) dalam jangka panjang: 1%
  • CvR asli (konstan): 3%
  • Efek "Kebaruan" untuk varian: pengguna mengkliknya lebih sering karena baru (misalnya, di 10% pada awal eksperimen, menurun selama beberapa hari.)

Hal ini dapat menghasilkan performa yang terlihat seperti ini dari waktu ke waktu:

Chart: average conversion rate

Sebagian besar fitur menunjukkan rasio konversi rata-rata (berwarna merah). Perhatikan bahwa rasio konversi rata-rata memerlukan waktu yang sangat lama untuk mendekati rasio konversi yang sesungguhnya, yaitu 1%. Hal ini juga menunjukkan varian tersebut sebagai pemenang sampai sekitar hari ke-8.

Di sisi lain, apa yang kami hitung dengan model hierarkis ini lebih menyerupai kurva CvR Harian (berwarna biru). Karena kami memeriksa seberapa konsisten rasio konversi, kami melihat bahwa rasio konversi tersebut benar-benar sangat bervariasi. Akibatnya, meskipun varian tersebut menang selama beberapa hari, pada hari ke-3 terlihat jelas bahwa hasilnya jauh lebih tidak pasti daripada rasio CvR rata-rata yang digambarkan selama masa eksperimen berlangsung.

Apa yang dimaksud dengan inferensi Bayes?

Inferensi Bayes adalah cara elegan untuk mengatakan bahwa kami menggunakan data yang telah kami miliki untuk membuat asumsi yang lebih baik tentang data baru. Saat kami menerima data baru, kami menyempurnakan "model" dunia kami, sehingga memberikan hasil yang lebih akurat.

Berikut adalah ilustrasi praktisnya.

Misalnya, Anda kehilangan ponsel di rumah, dan mendengarnya berdering di salah satu kamar dari 5 kamar yang ada. Anda tahu dari pengalaman sebelumnya bahwa Anda sering meninggalkan ponsel di kamar tidur.

Pendekatan frekuentis akan mengharuskan Anda diam dan mendengarnya berdering, berharap bahwa Anda dapat mengetahui dengan cukup pasti dari tempat Anda saat ini (tanpa bergerak!) di kamar mana ponsel berada. Dan perlu diketahui, Anda tidak diperbolehkan menggunakan pengetahuan tentang di lokasi mana biasanya Anda meninggalkan ponsel.

Di sisi lain, pendekatan Bayes sangat selaras dengan akal sehat kita. Pertama, Anda mengetahui bahwa Anda sering meninggalkan ponsel di kamar tidur, jadi Anda memiliki peluang besar untuk menemukannya di sana, dan Anda diperbolehkan untuk menggunakan pengetahuan tersebut. Kedua, setiap kali ponsel berdering, Anda diperbolehkan untuk berjalan sedikit lebih dekat ke lokasi yang Anda perkirakan sebagai lokasi ponsel berada. Peluang Anda menemukan ponsel dengan cepat jauh lebih baik.

Menarik, tapi bisakah Anda membuat statistik Bayes menjadi lebih jelas untuk saya?

Dengan senang hati, namun kami tidak yakin bisa melakukannya lebih baik dari sejumlah ahli statistik yang hebat. Berikut adalah ringkasan awal yang bagus.

Mengapa tidak semua orang menggunakan inferensi Bayes atau model lanjutan ini?

Ada beberapa alasan. Pertama, metode non-Bayes lebih mudah diajarkan. Oleh karena itu, metode non-Bayes umumnya diajarkan di kelas pengantar statistik. Model Bayes memerlukan pendekatan yang lebih mendalam terhadap probabilitas, dan selain itu, inferensi Bayes cukup mahal secara komputasi. Membuat hasil untuk kombinasi varian/tujuan tunggal memerlukan puluhan ribu (atau lebih) iterasi Markov chain Monte Carlo (MCMC) - simulasi yang membuat model performa setiap varian. Ini tadinya tidak mungkin dilakukan untuk waktu yang lama, dan bahkan sekarang dibutuhkan banyak skala untuk menghitung begitu banyak iterasi. Untungnya, Google sangat ahli dalam masalah penskalaan seperti ini.

Menggunakan metode Bayes juga memungkinkan penggunaan model lanjutan. Meskipun memungkinkan untuk menggunakan beberapa model ini dengan pendekatan frekuentis, koreksi yang diperlukan untuk menampilkan hasil yang akurat jauh lebih sulit dan masih belum menawarkan beberapa keuntungan yang ditawarkan oleh inferensi Bayes.

Bagaimana cara Optimize mengatasi masalah tersebut?

Masalah interpretasi: Statistik Bayes dapat menjawab pertanyaan “seberapa besar kemungkinan varian ini menjadi lebih baik daripada yang saya miliki?”, atau “seberapa besar kemungkinan varian ini menjadi yang terbaik secara keseluruhan?”. Meskipun komputasinya lebih kompleks, jawabannya sebenarnya lebih selaras dengan logika manusia.

Masalah keseringan dilihat (disebut juga “mengintip”): Karena kami menggunakan model yang didesain agar memperhatikan perubahan hasil dari waktu ke waktu, tidak ada masalah jika Anda melihat hasilnya. Probabilitas kami terus disempurnakan seiring kami mengumpulkan lebih banyak data.

Masalah multi-perbandingan: Karena metode Bayes secara langsung menghitung performa relatif semua varian bersama-sama, dan bukan hanya perbandingan pasangan varian, berarti para pelaku eksperimen tidak perlu melakukan beberapa perbandingan varian untuk memahami bagaimana kemungkinan performa masing-masing varian. Selain itu, metode Bayes tidak memerlukan koreksi statistik lanjutan saat melihat bagian data yang berbeda. Namun, dalam pendekatan pengujian hipotesis, koreksi statistik memang diperlukan saat Anda melihat data dalam cara yang berbeda, dan sebagian besar fitur tidak melakukan hal ini. Peluang acak masih dapat mengeluarkan hasil yang "jelas" jika Anda melihat data dalam bagian yang cukup, namun kami berusaha memperkecil peluang ini terjadi.

Kecepatan dan akurasi: Karena kami membuat model performa semua varian bersama-sama secara lebih akurat dari waktu ke waktu (dan tidak hanya melakukan perbandingan pasangan secara keseluruhan), maka kami tidak bergantung pada pendekatan frekuentis "satu ukuran untuk semua". Jadi, jika data Anda konsisten, kami sering kali kami lebih cepat, terutama di lingkungan bervolume rendah, dan lebih akurat jika sebaliknya.

Perubahan traffic dari waktu ke waktu: Kami menggunakan model lanjutan yang mengasumsikan bahwa waktu dapat memengaruhi hasil eksperimen Anda. Kami memperhitungkan asumsi tersebut dan menyertakannya ke dalam analisis, untuk memberi Anda hasil terbaik yang kemungkinan besar akurat dari waktu ke waktu.

Pengujian multi-variasi: Pendekatan Optimize dapat mempelajari performa kombinasi satu sama lain dan performa varian di berbagai kombinasi. Oleh karena itu, kami dapat menjalankan semua kombinasi, namun mendapatkan hasil jauh lebih cepat daripada uji A/B yang setara.

Artikel FAQ ini adalah bagian dari serangkaian artikel FAQ tentang statistik dan metodologi Optimize. Berikut adalah FAQ lainnya:

Apakah ini membantu?
Bagaimana cara meningkatkannya?
Telusuri
Hapus penelusuran
Tutup penelusuran
Aplikasi Google
Menu utama
Pusat Bantuan Penelusuran
true
101337
false
false