Detekce anomálií je statistická metoda, s jejíž pomocí služba Informace Analytics identifikuje anomálie v časových řadách dané metriky a v segmentech ve stejném okamžiku.
Zjištění anomálií v metrikách v průběhu času
Služba Informace Analytics na historická data aplikuje bayesovský výpočet pro stavové modely a časové řady , na jehož základě předpoví hodnotu posledního pozorovaného datového bodu v časové řadě. Model vytvoří předpověď a kredibilní interval, díky nimž pozorovanou metriku vyhodnotíme.
Na základě historických dat odhadne služba Informace Analytics hodnotu metriky v aktuálním období a označí datový bod jako anomálii, pokud skutečná hodnota vybočí mimo interval spolehlivosti. Pro účely detekce hodinových anomálií je nutná doba učení v délce 2 týdnů. Pro detekci denních anomálií je třeba období 90 dní. U týdenních anomálií je to 32 týdnů.
Zjištění anomálií v segmentu ve stejném okamžiku
Detekce anomálií založená na historických datech a časových řadách označí jednu metriku v rámci jedné hodnoty dimenze, anomálie ale umíme zjistit i v určitém okamžiku v rámci několika metrik a hodnot dimenzí zároveň.
V tomto případě používáme analýzu hlavních komponent (PCA) a anomálie určíme díky korelační struktuře metrik a křížové validaci.
Nejprve identifikujeme sadu dimenzí a metrik, u kterých PCA použijeme. Na základě nejrůznějších hodnot dimenze vytvoříme více segmentů a pak každou metriku normalizujeme podle počtu uživatelů v segmentu. U těchto segmentů a normalizovaných metrik provedeme PCA. Segment označíme jako anomálii, pokud vykáže anomální chování v jakékoli metrice a tuto vlastnost má alespoň 0,05 % uživatelů. V současné době provádíme tuto analýzu každý týden.