معنى عملية تحليل عيّنات البيانات
في مجال تحليل البيانات، يشير تحليل عيّنات البيانات إلى عملية تحليل مجموعة فرعية من البيانات لاكتشاف معلومات قيّمة في مجموعة بيانات أكبر. تتيح لك هذه العملية استرداد البيانات بشكل أسرع وبأقل تأثير ممكن على جودة البيانات.
على سبيل المثال، إذا أردت الحصول على عدد تقديري للأشجار في مساحة 100 متر مربّع تنتشر فيها الأشجار بشكلٍ منتظم إلى حدٍ كبير، يمكنك احتساب عدد الأشجار في المتر المربّع الواحد وضرب هذا العدد في 100، أو احتساب عدد الأشجار في نصف متر مربّع وضربه في 200 للحصول على تمثيل دقيق للمئة متر مربّع بالكامل.
أسباب ظهور تحليل عيّنات البيانات
في "إحصاءات Google"، قد يظهر تحليل عيّنات البيانات عندما يكون عدد الأحداث المستخدَمة لإنشاء تقرير أو استكشاف أو طلب أكبر من الحدّ الأقصى للحصة المخصّصة لموقعك. في هذه الحالة، تستخدم خدمة "إحصاءات Google" جزءًا من البيانات، ثم توسّع نطاقها لتقديم نتائج دقيقة تمثّل جميع بياناتك ويمكن استخدامها بصورة توجيهية.
عند استخدام تحليل العيّنات في نتائجك، تتم الإشارة إلى ذلك من خلال رمز جودة البيانات مع النسبة المئوية للبيانات المستخدَمة لإنشاء النتائج. وكلما زاد حجم العيّنة المستخدَمة، زادت دقة النتائج.
الحدود القصوى
إنّ الحدّ الأقصى للحصة في طلبات البحث على مستوى الحدث هو 10 مليون حدث للمواقع العادية على "إحصاءات Google" وما يصل إلى مليار حدث لمواقع "إحصاءات Google 360".
تحتوي مواقع "إحصاءات Google 360" تلقائيًا على 100 مليون حدث لكل طلب بحث، وذلك لتزويدك بنتائج أسرع يمكن استخدامها بصورة توجيهية. عند الحاجة إلى دقة أعلى، يمكنك من خلال رمز جودة البيانات الوصول إلى حدود أعلى لأخذ العيّنات في ميزة "استكشاف" واختيار "نتائج أكثر تفصيلاً".
ماذا عن البيانات غير المستندة إلى عيّنات؟
بالنسبة إلى التقارير غير المستندة إلى عيّنات، تستخدِم "إحصاءات Google" HyperLogLog++ (اختصارًا HLL++) لتقدير الأعداد الفريدة الدقيقة للمقاييس الأكثر استخدامًا، مثل المستخدِمين النشطين والجلسات. يضمن استخدام HLL++ أداءً أفضل ودقة أعلى في وضع التقديرات وحدود أخطاء أقل. يمكنك أيضًا استخدام HLL++ مع بيانات "إحصاءات Google" في BigQuery. مزيد من المعلومات عن تقريب الأعداد الفريدة في "إحصاءات Google"