Genel Bakış

Ek (birden çok slot makinesi)

Hesaplamalara ilişkin ve teorik ayrıntılar

Öncelikle “birden çok slot makinesi” adının, birkaç farklı "çözüm" sunulan bir problemi tanımladığını unutmayın. “Pekiştirmeli Öğrenme” ile ilgili bir kitapta, birden çok slot makinesiyle ilgili olarak giriş bölümünde çeşitli yaklaşımların sunulduğunu görürsünüz. Birden çok slot makinesi probleminin ardındaki matematik o kadar zordur ki, uygulamada yaklaşık sezgisel çözümler kullanılır. Bu matematiksel zorluklar, Peter Whittle'ın ünlü bir sözünde şu şekilde özetlenmektedir (Whittle, 1979):

[İkinci Dünya] Savaşı sırasında formüle edilen [Slot makinesi] problemini çözmek Müttefik Kuvvetlere mensup analiz uzmanlarının enerjisini o kadar tüketmiş ve zihnini o kadar oyalamıştır ki, problemin gelişmiş bir zihinsel sabotaj aracı olarak Almanya üzerinde kullanılması önerilmiştir.

Bu sezgisel algoritmaların en iyi özelliklerinden birçoğunu bir araya getirdiğini için, Thompson Örneklemesi veya Rastgele Olasılık Eşlemesi olarak bilinen sezgisel algoritmayı kullanıyoruz. Bu teknikle ilgili daha fazla bilgi edinmek için [5]'e, tekniğin matematiksel özellikleriyle ilgili ayrıntıları görmek için [2] , [3] ve [4]'e bakabilirsiniz.

İdeal kol olasılıkları

Thompson örneklemesi, oturumları kollara her bir kolun ideal olma olasılığıyla orantılı bir şekilde atar. Bu bir Bayes hesaplamasıdır. θ = (θ1, θ2,..., θk), 1, …, k kolları için dönüşüm oranları vektörü olsun. y de, denemede şimdiye kadar gözlemlenen veriler olsun. y'yi bağımsız binom sonuçlarının bir sonucu olarak modelleriz ve θ için bağımsız tekdüze önseller kabul ederiz. Ia(θ), a kolunun ideal olduğu durumun göstergesi olsun. O halde aşağıdakini yazabiliriz:

P(Ia) = ∫Ia(θ) p(θ|y) dθ

Bu integral kapalı formda (ancak kapalı form çözümü, tamamlanmamış beta fonksiyonu gibi karmaşık özel fonksiyonlar içerir) veya sayısal integralleme yoluyla yapılabilir. Her iki durumda da hesaplama, y'nin nispeten küçük değerleri için bile çabucak kararsız hale gelir. Bununla birlikte, ideal kol olasılıkları simülasyonla kararlı bir şekilde hesaplanabilir. Her bir θ öğesi, beta dağılımından bağımsız bir rastgele değişkendir. Alakalı beta dağılımlarından θ seçimleri içeren büyük bir matris simülasyonu yapın. Bu matrisin satırları rastgele seçimleri, sütunları ise denemenin k kolunu temsil etsin. a kolunun ideal olma olasılığına ilişkin Monte Carlo tahmini, a kolunun en yüksek simülasyon değerine sahip olduğu satırların deneysel kesridir. Her bir kolun orijinali geçme olasılığı benzer şekilde hesaplanabilir.

Kalan değer

İdeal kol olasılıklarını oluşturan simülasyon, denemedeki kalan değerin dağılımını da oluşturabilir. Kalan değer, (θmaks-θ*)/θ*'nın sonsal dağılımıdır. Burada θmaks en büyük θ değeridir ve θ*, ideal olma olasılığı en yüksek olan kolun θ değeridir. Hesaplamayı göstermek için, sırasıyla 20, 30 ve 40 oturuma ve 12, 20 ve 30 dönüşüme sahip üç kol bulunduğunu varsayalım. İdeal kol olasılıkları yaklaşık olarak 0,09, 0,20 ve 0,71'dir. Monte Carlo θ simülasyonundan gelen ilk 6 seçim aşağıdaki gibi olabilir:

[,1] [,2] [,3]
[1,] 0,54 0,73 0,74
[2,] 0,55 0,66 0,73
[3,] 0,53 0,81 0,80
[4,] 0,57 0,50 0,65
[5,] 0,52 0,67 0,83
[6,] 0,65 0,84 0,63

Değeri satır satır, bir satırın en büyük öğesini 3. sütundaki öğeden çıkararak hesaplarız (çünkü 3. kolun ideal kol olma olasılığı en yüksektir). İlk iki satırdaki değer sıfırdır çünkü en büyük seçim 3. sütunda gerçekleşir. Üçüncü satırdaki değer 0,01/0,80'dir çünkü 2. sütun 3. sütundan 0,01 daha fazladır. Her bir satırı takip ederek aşağı inmeye devam edersek, Şekil A1'de, soldaki tablodaki gibi bir histogramda gösterebileceğimiz bir değer dağılımı elde ederiz. 2. kolun en iyi kol olma olasılığı %71'dir, bu nedenle durumların %71inde 3. koldan başka bir kola geçiş değeri sıfırdır. Değer dağılımının 95. yüzdelik dilimi, denemede “kalan potansiyel değer”dir. Bu durum için bu değer yaklaşık 0,16'dır. Bu sayıyı şu şekilde yorumlayabilirsiniz: “3. kolun dönüşüm oranından hâlâ emin değiliz ancak başka bir kolun bu oranı geçme olasılığı %16 kadardır”.

Şekil A1'de, sağdaki tablo, deneme ilerledikçe kalan değer dağılımına ne olduğunu göstermektedir. Her bir kolun, 5 kat örneklem boyutuna (dolayısıyla 100, 150 ve 200 oturum) ve 5 kat dönüşüm sayısına (60, 100, 150) sahip olduğunu düşünün. Örneklem boyutları daha büyük olduğunda, kolların dönüşüm oranlarından çok daha fazla emin oluruz. 3. kolun ideal kol olma olasılığı artık yaklaşık %95'tir. Bu nedenle, kalan değer dağılımının 95. yüzdelik dilimi sıfırdır.

Şekil A1. Bir denemede kalan değerin dağılımı. Her bir durumdaki yatay çizgi, 95. yüzdelik dilimdir veya kalan potansiyel değerdir.
Bu size yardımcı oldu mu?
Bunu nasıl iyileştirebiliriz?