Avvikelseidentifiering är en statistisk teknik som används i Analytics Intelligence för att upptäcka avvikelser i tidsseriedata för ett givet mätvärde samt avvikelser inom ett segment vid samma tidpunkt.
Identifiera avvikelser i mätvärden över tid
Intelligence tillämpar en bayesiansk modell för tillståndsrum/tidsserie på informationen om tidigare resultat för att förutse värdet på den senaste datapunkten i tidsserien. Modellen genererar en prognos och ett sannolikt intervall som används för att utvärdera det observerade mätvärdet.
Med hjälp av information om tidigare resultat förutser Analytics Intelligence värdet på mätvärdet vid den aktuella tidsperioden. Datapunkten flaggas som en avvikelse om det faktiska värdet faller utanför det sannolika intervallet. För avvikelseidentifiering per timme är träningsperioden två veckor. För avvikelseidentifiering per dag är träningsperioden 90 dagar. För avvikelseidentifiering per vecka är träningsperioden 32 veckor.
Identifiera avvikelser inom ett segment vid samma tidpunkt
Avvikelseidentifiering baserad på tidsserier använder information om tidigare resultat för att flagga ett enskilt mätvärde i ett enskilt dimensionsvärde. Utöver det kan vi även upptäcka avvikelser samtidigt i flera mätvärden och dimensionsvärden vid en specifik tidpunkt.
Med detta tillvägagångssätt används principalkomponentanalys (PCA) för att använda mätvärdenas korrelationsstruktur tillsammans med korsvalidering för att flagga avvikelser.
Först identifierar vi den uppsättning dimensioner och mätvärden som ska genomgå PCA. Baserat på alla möjliga dimensionsvärden skapar vi sedan flera segment och normaliserar varje mätvärde utifrån antalet användare inom ett segment. Därefter kör vi PCA på dessa segment och normaliserade mätvärden. Om ett visst segment uppvisar avvikande beteende för ett mätvärde och omfattar minst 0,05 % av användarna av egendomen visas dessa segment som avvikelser. För närvarande sker denna analys en gång i veckan.