Виявлення відхилень – це статистичний метод, який використовується функцією Спостереження Analytics для визначення нетипових значень у часових рядах певного показника та в межах сегмента в тій самій точці часу.
Виявлення відхилень у показниках за певний період
Функція Спостереження застосовує баєсівську модель часових рядів стану та простору до історичних даних, щоб спрогнозувати значення останньої точки даних у часовому ряді. Модель створює прогноз і довірчий інтервал, які ми використовуємо для оцінки показника для спостереження.
Використовуючи історичних дані, функція Спостереження Analytics прогнозує значення показника в поточний період часу й позначає точку даних як відхилення, якщо фактичне значення виходить за межі довірчого інтервалу. Щоб виявляти відхилення щогодини, період вивчення даних становить 2 тижні. Щоб виявити добові відхилення, потрібні дані за 90 днів, а для виявлення тижневих відхилень період вивчення даних становить 32 тижні.
Як виявляти відхилення в межах сегмента в тій самій точці часу
Якщо для виявлення відхилень на основі часових рядів використовуються історичні дані, щоб позначати один показник у межах одного значення параметра, то ми також надаємо функцію виявлення відхилень одночасно за кількома показниками й значеннями параметрів у певній точці часу.
Ми використовуємо аналіз основних компонентів (PCA), щоб застосовувати кореляційну структуру показника, а також перехресну перевірку для позначення відхилень.
Спершу ми визначаємо набір параметрів і показників, які використовуватимуться для PCA. На основі всіх значень параметрів ми створюємо кілька сегментів, а потім нормалізуємо кожен показник за кількістю користувачів у сегменті. Далі ми виконуємо PCA-аналіз для цих сегментів і нормалізованих показників. Якщо якийсь сегмент демонструє аномальну поведінку для певного показника й становить не менше ніж 0,05% користувачів цього ресурсу, такі сегменти визначаються як відхилення. Наразі ми виконуємо цей аналіз щотижня.