Friday, October 21, 2016

Bewegende Gemiddelde Uitskieter Detection

Tendens beramer en die toepassing daarvan in Uitskieter Detection Dit is die opvolg van die laaste boodskap van bedrog opsporing Oorsig. In hierdie artikel, sal ons konsentreer op die tydreeksdata en 'n paar metodes om uitskieters vind in tydreeksdata tydreeksdata Wat is 'n tydreeks data Tyd reeks word gedefinieer as 'n versameling van data punte wat waargeneem word oor 'n aaneenlopende tyd interval. Tydreeksdata word dikwels gebruik om die verandering van data met verloop van tyd te vind. Byvoorbeeld, kan ons meet hoeveel kalorieë wat ons elke dag verbrand om te sien of hoe fiks ons ons kan ook die geld wat ons elke dag spandeer om ons uitgawes gedrag Valuta (Euro om VN) vind bereken. Bron: Google het die bostaande figuur as 'n voorbeeld van tydreeksdata (geïllustreer deur die lyn grafiek op die regte) Ons kan ook baie ander funksies te identifiseer in die grafiek. Byvoorbeeld, kyk na die grafiek, kan ons vind dat na 5 jaar, die waarde van die euro is verminder (van 30,000 VND tot 25,000 VND). Verder was daar 'n paar drastiese veranderinge aan die einde van 2014 (wat ooreenstem met hul krisis). Selfs die tendens van data in verlede jaar kon ook geïdentifiseer. Wat is 'n uitskieter in tydreeksdata In die laaste post, ons omskryf 'n uitskieter as 'n uitkykpunt wat ver van ander waarnemings. Soos genoem in die laaste gedeelte, met behulp van tydreeksdata kon ons die bewegende tendens van data op te spoor met verloop van tyd. Kombineer die twee, 'n uitskieter in tydreeksdata is 'n data punt wat ver van die algemene tendens van die hele datastel. Die gebruik van die bogenoemde definisie, kan ons 'n algemene metode skep om uitskieter vind in tydreeksdata soos volg: Versamel tydreeksdata met geluide en uitskieters. Normaliseer die waarde data Vind die algehele tendens van data te identifiseer die punte wat nie die algehele tendens volg nie (punte wat te ver om die geskatte waardes is volgens die algehele tendens) Opsporing uitskieter in tydreeksdata Daar is baie maniere om die bewegende bereken tendens van data. bewegende gemiddelde en regressie: In hierdie afdeling sal ons sowat twee metodes praat. Om die algoritme te illustreer, kan die insette data definieer. Aanvaar dat ons gegee: Moving gemiddelde bewegende gemiddelde is een van die eenvoudigste metodes te bereken en te visualiseer die tendens van tydreeksdata. Die idee is eenvoudig, die ooreengestem waarde van 'n tyd stempel word bereken as die gemiddelde waarde van die omliggende punte. Byvoorbeeld, laat 2k wees die vensters van die bewegende gemiddelde. op die datum en tyd XI kan ons yi bereken as: Pas hierdie vergelyking om al die gegewe punte ons die beraamde waardes van elke tyd stempel te bereik. Dit vind uitskieter in die gegewe data is nou heel eenvoudig. definieer net 'n drumpel en dan identifiseer al die data punt j wat: Die gebruik van omliggende punte is nie 'n moet. Ons kan ook gebruik k punte wat waargeneem voor (of na) die gekose punt. Daar is verskeie verbeterings vir bewegende gemiddelde algoritme. Jy kan dit hier vind Mediaan filter Moving gemiddelde bied 'n maklike manier om te skat en te visualiseer die tendens van tydreeksdata. Maar dit het 'n groot nadeel wat: uitskieter dikwels stel 'n drastiese verandering in die gemiddelde waarde. As gevolg van dat, kan jy uiteindelik die opsporing van 'n paar data punte wat moet nie gefiltreer. Gelukkig kon Mediaan filter hierdie probleem op te los deur die skatte van die waargenome waardes as die mediaan van die omliggende waardes. Met ander woorde, ons het: Soortgelyk aan bewegende gemiddelde, ons het nou 'n drumpel te definieer en dan vind die uitskieter volgens die drumpel. Beide bewegende gemiddelde en mediaan filter moet dieselfde probleem in die gesig staar: hulle kan 'n doeltreffende manier om die waarde te voorspel in die toekoms omdat ons nie data in die toekoms te hê nie verskaf. Byvoorbeeld, is die waarde van die euro in vergelyking met VND stygende volgens die grafiek in die laaste gedeelte. Die toepassing van die bewegende gemiddelde of mediaan filter algoritmes vir die volgende stap sal dit tot gevolg hê 'n voorspelde waarde wat laer is as die laaste gemeet tyd. Dus, sal die voorspelde waarde nie die algehele tendens van die data te volg. Om hierdie probleem op te los, kan ons die regressie metode gebruik. Regressie In teenstelling met bewegende gemiddelde en mediaan filter, regressie word bereken dat die verhouding tussen elke paar van die waargenome data in die datastel. Onder regressie metodes, word lineêre regressie beskou as die maklikste metode. Daar word geskat net 'n reguit lyn wat as die bewegende tendens van data kan in ag geneem word. Met ander woorde, ons probeer om 'n lyn wat skat: Gegewe die data, kan ons die fout persentasie bereken en die totale fout is: Minimalisering die totale fout oplewer Uitskieter opsporing met Gaussiese proses Lineêre regressie bied 'n metode om die bewegende tendens vind van data. Dit is egter net 'n reguit lyn. In die werklike wêreld data, het ons baie data wat nie moet geskat word as 'n reguit lyn gesien. Die geldeenheid grafiek hierbo is 'n voorbeeld. Daarom moet ons 'n beter regressie metode wat nie net die aard van die gegewe datastel te vang, maar ook sterk aan die geraas (of uitskieter) Gaussiese proses is 'n nie-parametriese metode om die tendens van data te ontdek. Dit bied ook 'n goeie probabilistiese model wat robuuste om die insette geraas (wat as uitskieter kan oorweeg word). Kom ons beweeg die die algoritme van Gaussiese proses self. In Gaussiese proses aanvaar ons dat datapunte is 'n versameling van ewekansige veranderlikes, 'n beperkte aantal wat 'n gesamentlike Gaussiese verspreiding Rasmussen. Soortgelyk aan Gaussiese verspreiding, is Gaussiese proses gedefinieer deur sy gemiddelde funksie en kovariansie funksie. Hulle kan bereken word as: Op die oomblik is, 'n Gaussiese proses word beheer deur die kovariansie funksie. Kom ons kyk na die mees algemene kovariansie funksie: RBF funksie (of Gaussiese funksie). In RBF funksie, is k (x, xj) bereken word deur die volgende vergelyking: Gestel ons wil die waarde YM op XM voorspel. Ons moet dan voor te berei, kan ons die voorspel YM bereken deur: Let daarop dat: al die parameters van die Gaussiese proses kan uit die gegewe data met behulp van marginale helling hoogte metode aangeleer. In statistiek, ons het die 67-95-99.7 reël. Die toepassing van hierdie reël in ons probleem sal ons die voorspellende vertroue van YM het. Dit help ons ook om die uitskieter identifiseer in die data (die waargenome data nie bly in die gekose vertrouensinterval van die voorspel da Voorbeeld Input data Kom skep 'n inset met Python Moving gemiddelde Mediaan filter Lineêre regressie Gaussiese processI is besig met 'n groot hoeveelheid van tydreekse. Dié tydreekse is basies netwerk metings kom elke 10 minute, en sommige van hulle is periodieke (dws die bandwydte), terwyl 'n ander Arent (dws die bedrag van routing verkeer). Ek wil graag 'n eenvoudige algoritme vir 'n doen aanlyn uitskieter opsporing. Kortom, ek wil die hele historiese data vir elke tydreekse in die geheue te hou (of op skyf), en ek wil 'n uitskieter in 'n lewendige scenario (elke keer as 'n nuwe monster vasgevang). Wat is die spoor beste manier om hierdie resultate Im tans met 'n bewegende gemiddelde om 'n geraas te verwyder, maar dan wat volgende Eenvoudige dinge soos standaardafwyking, mal. teen die hele datastel goed nie die geval werk (Ek kan nie aanvaar die tydreeks is stilstaande) te bereik, en ek wil graag iets meer akkuraat, ideaal 'n swart boks soos: dubbele outlierdetection (dubbel vektor, dubbel waarde) waar vektor is die verskeidenheid van dubbel met die historiese data, en die terugkeer waarde is die anomalie telling vir die nuwe monster waarde. gevra Augustus 2 10 In 20:37 Ja, ek het aanvaar die frekwensie is bekend en verduidelik. Daar is metodes om die frekwensie outomaties skat, maar dit sou die funksie aansienlik bemoeilik. As jy nodig het om die frekwensie te skat, te probeer vra 'n aparte vraag daaroor - en I39ll bied waarskynlik 'n antwoord, maar dit het meer ruimte as wat ek het in 'n kommentaar. uitvoering maak Rob Hyndman 3 Augustus 10 by 23:40 'n Goeie oplossing sal 'n paar bestanddele, insluitend: Gebruik 'n weerstandige, beweeg venster glad te stationariteit verwyder. Re-druk die oorspronklike data sodat die residue met betrekking tot die gladde is ongeveer simmetries versprei. Gegewe die aard van jou data, sy waarskynlik dat hul vierkantswortels of logaritmes simmetriese residue sou gee. Pas beheer grafiek metodes, of ten minste beheer grafiek denke, om die residue. Sover dit die laaste een gaan, beheer grafiek denke toon dat konvensionele drempels soos 2 SD of 1.5 keer die IKV buite die kwartiele swak werk omdat hulle sneller te veel valse out-of-control seine. Mense gebruik gewoonlik 3 SD in beheer grafiek werk, waar 2.5 (of selfs 3) keer die IKV buite die kwartiele 'n goeie beginpunt sou wees. Ek het min of meer beskryf die aard van Rob Hyndmans oplossing terwyl dit uit te brei twee groot punte: die potensiaal behoefte om weer uit te druk die data en die wysheid daarvan om meer konserwatief in sein 'n uitskieter. Ek is nie seker dat Löss is goed vir 'n aanlyn detector, al is, want dit is goed nie die geval werk by die eindpunte. Jy kan plaas gebruik iets so eenvoudig soos 'n bewegende mediaan filter (soos in Tukeys bestand smoothing). As uitskieters dont kom in bars, kan jy 'n smal venster (5 datapunte, miskien, wat af sal breek net met 'n sarsie van 3 of meer uitskieters in 'n groep van 5) gebruik. Sodra jy die ontleding van 'n goeie her-uitdrukking van die data bepaal verrig, sy onwaarskynlik sal jy nodig het om die re-uitdrukking verander. Daarom, jou aanlyn detector eintlik net nodig het om te verwys na die mees onlangse waardes (die mees onlangse venster), want dit sal nie die vorige data gebruik nie. As jy 'n baie lang tyd reeks wat jy kan verder gaan na outokorrelasie en seisoenaliteit (soos daaglikse herhalende of weeklikse skommelinge) ontleed om die proses te verbeter. antwoord 26 Augustus 10 In 18:02 Johannes, 1.5 IKV is Tukey39s oorspronklike aanbeveling vir die langste snorre op 'n boxplot en 3 IKV is sy aanbeveling vir nasien punte as quotfar outliersquot (a riff op 'n gewilde 6039s frase). Dit is gebou in baie boxplot algoritmes. Die aanbeveling is teoreties ontleed in HOAGLIN, Mosteller, amp Tukey, begrip Robuuste en verkennende data-analise. â € whuber 9830 9 Oktober 12 by 21:38 Dit bevestig tydreeksdata Ek het probeer om te analiseer. Venster gemiddelde en ook 'n venster standaardafwykings. ((X - Gem) / sd) GT 3 lyk die punte wat ek wil vlag as uitskieters wees. Wel ten minste waarsku as uitskieters, ek vlag iets hoër as 10 sd as uiterste dwaling uitskieters. Die probleem wat ek loop in is wat is 'n ideale venster lengte I39m speel met enigiets tussen 4-8 datapunte. â € NeoZenith 29 Junie om 8:00 Neo Jou beste bet is om te eksperimenteer met 'n subset van jou data en bevestig jou gevolgtrekkings met toetse op die res. Jy kan 'n meer formele cross-validation, te voer (maar spesiale sorg nodig met tydreeksdata te danke aan die interafhanklikheid van al die waardes). â € whuber 9830 29 Junie om 12:10 (Dit antwoord gereageer op 'n dubbele (nou gesluit) vraag in die opsporing van uitstaande gebeure. wat 'n paar data in grafiese vorm aangebied.) Uitskieter opsporing hang af van die aard van die data en op wat jy bereid is om aan te neem oor hulle. Algemene doel metodes staatmaak op robuuste statistiek. Die gees van hierdie benadering is om die grootste deel van die data kenmerk in 'n manier wat nie beïnvloed word deur enige uitskieters en dan verwys na 'n individu waardes wat nie binne daardie karakterisering pas. Want dit is 'n tydreeks, dit voeg die komplikasie van die behoefte om (weer) op te spoor uitskieters op 'n deurlopende basis. As dit is wat gedoen moet word as die reeks ontvou, dan mag ons net ouer data gebruik vir die opsporing, nie toekomstige data Verder, as beskerming teen die baie herhaal toetse, sou ons 'n metode wat 'n baie lae valse het gebruik positiewe koers. Hierdie oorwegings raai bestuur van 'n eenvoudige, kragtige bewegende venster uitskieter toets oor die data. Daar is baie moontlikhede, maar 'n eenvoudige, maklik verstaanbare en maklik geïmplementeer een is gebaseer op 'n lopende MAD: mediaan absolute afwyking van die mediaan. Dit is 'n sterk robuuste mate van variasie binne die data, wat verwant is aan 'n standaardafwyking. 'N afgeleë hoogtepunt sal 'n paar Mads of meer groter as die mediaan. Daar is nog 'n paar stemme wat gedoen moet word. hoeveel van 'n afwyking van die grootste deel van die data moet afgeleë oorweeg en hoe ver terug in die tyd moet 'n mens kyk Kom laat dit as parameters vir eksperimentering. Hier is 'n R implementering toegepas op data x (1,2, ldots, N) (met n1150 om die data te boots) met ooreenstemmende waardes y: Toegepas op 'n datastel soos die rooi kurwe geïllustreer in die vraag, dit produseer hierdie resultaat: Die data word in rooi, die 30-dag venster van median5MAD drempels in grys, en die uitskieters - wat is eenvoudig die datawaardes bo die grys kurwe - in swart. (Die drumpel kan slegs bereken word begin aan die einde van die eerste venster Vir al die data in hierdie aanvanklike venster, word die eerste drumpel gebruik:.. Dis hoekom die grys kurwe is plat tussen x0 en X30) Die gevolge van die verandering van die parameters is (a) die verhoging van die waarde van die venster sal neig om uit te stryk die grys kurwe en (b) die verhoging van drumpel sal die grys kurwe in te samel. Aangesien ons dit weet, kan 'n mens 'n aanvanklike segment van die data te neem en vinnig te identifiseer waardes van die parameters wat die beste skei die afgeleë pieke van die res van die data. Pas hierdie parameter waardes te monitor van die res van die data. As 'n plot toon die metode is verslegtende met verloop van tyd, dit beteken dat die aard van die data verander en die parameters dalk nodig her-tuning. Let op hoe min hierdie metode veronderstel oor die data: hulle het nie normaal versprei hulle nie nodig het om enige periodisiteit hulle nie eens nie-negatief te wees uitstal. Al wat dit neem is dat die data op te tree in 'n redelike soortgelyke maniere met verloop van tyd en dat die afgeleë berge is sigbaar hoër as die res van die data. As iemand wil om te eksperimenteer (of vergelyk 'n ander oplossing vir die een wat hier aangebied), hier is die kode wat ek gebruik om data soos dié wat in die vraag te produseer. Ek raai gesofistikeerde tydreeksmodel sal nie vir jou werk as gevolg van die tyd wat dit neem om uitskieters op te spoor met behulp van hierdie metode. Daarom, hier is 'n tydelike oplossing: Eerste vestig 'n basislyn normale verkeer patrone vir 'n jaar op grond van ontleding per hand van historiese data wat verantwoordelik is vir die tyd van die dag, weekdag vs naweek, maand van die jaar ens Gebruik hierdie basislyn saam met 'n paar eenvoudige meganisme (bv bewegende gemiddelde van Carlos voorgestel) om uitskieters op te spoor. Jy kan ook na die statistiese prosesbeheer literatuuroorsig vir 'n paar idees. Ja, dit is presies wat ek doen: tot nou toe het ek met die hand die sein in periodes verdeel, sodat vir elkeen van hulle het ek kan 'n vertrouensinterval waarbinne die sein is veronderstel stilstaande te wees te definieer, en daarom kan ek standaard metodes soos gebruik as standaardafwyking. Die werklike probleem is dat ek die verwagte patroon nie kan besluit vir al die seine Ek moet analiseer en that39s waarom I39m op soek na iets meer intelligent. â € Gianluca 2 Augustus 10 by 21:37 Hier is 'n een idee: Stap 1: implementeer en te skat 'n generiese tydreeksmodel op 'n tyd basis op grond van historiese data. Dit kan op die regte pad gedoen word. Stap 2: Gebruik die gevolglike model om uitskieters op te spoor. Stap 3: Op 'n sekere frekwensie (dalk elke maand), re-kalibreer die tydreeksmodel (dit kan op die regte pad gedoen word) sodat jou stap 2 opsporing van uitskieters nie te veel gaan uit pas met huidige verkeer patrone. Sou dit werk vir jou konteks uitvoering maak user28 2 Augustus 10 In 22:24 Ja, dit kan werk. Ek het gedink oor 'n soortgelyke benadering (Herbereken die basislyn elke week, wat CPU intensiewe kan wees as jy honderde eenveranderlike tydreekse moet ontleed). BTW die werklike moeilike vraag is quotwhat is die beste BlackBox-styl algoritme vir die modellering van 'n heeltemal generiese sein, met inagneming van geraas, tendens beraming en seasonalityquot. AFAIK, elke benadering in die letterkunde vereis 'n baie harde quotparameter tuningquot fase, en die enigste een outomatiese metode Ek het 'n ARIMA model deur Hyndman (robjhyndman / sagteware / voorspelling). Mis ek iets uitvoering maak Gianluca 2 Augustus 10 In 22:38 Weereens, werk hierdie baie goed as die sein is veronderstel om 'n seisoen soos dit, maar as ek 'n heeltemal ander tydreekse (dws die gemiddelde TCP ronde trip tyd met verloop van tyd ), sal hierdie metode nie werk (want dit sal beter wees om daardie een met 'n eenvoudige globale gemiddelde en standaardafwyking met behulp van 'n gly venster met historiese data te hanteer). â € Gianluca 2 Augustus 10 by 22:02 Tensy jy bereid is om 'n algemene tydreeksmodel ek pessimisties dat jy 'n algemene implementering wat terselfdertyd is eenvoudig genoeg sal vind (wat in sy nadele in terme van latency ens bring) te implementeer is om te werk vir alle vorme van tydreekse. â € user28 2 Augustus 10 by 22:06 Nog 'n opmerking: ek weet 'n goeie antwoord kan wees quotso jy die periodisiteit van die sein kan skat, en besluit om die algoritme te gebruik volgens itquot, maar ek didn39t 'n baie goeie oplossing vir hierdie ander vind probleem (ek het 'n bietjie met spectraalanalyse behulp DFT en tyd analise met behulp van die outokorrelasie funksie, maar my tyd reeks bevat 'n baie van geraas en sulke metodes te gee 'n paar mal resultate mosts van die tyd) uitvoering maak Gianluca 2 Augustus 10 by 22:06 a kommentaar op jou laaste opmerking: that39s waarom I39m op soek na 'n meer generiese benadering, maar ek het 'n soort van quotblack boxquot omdat ek 'n aanname oor die ontleed sein can39t maak, en dus can39t ek die parameter quotbest vir die leer algorithmquot skep. â € Gianluca 2 Augustus 10 by 22:09 Want dit is 'n tydreeks data, 'n eenvoudige eksponensiële filter en. wikipedia. org/wiki/Exponentialsmoothing sal die data gepolijst. Dit is 'n baie goeie filter sedert jy dit nie nodig het om ou datapunte te versamel. Vergelyk elke nuut stryk datawaarde met sy onbestreken waarde. Sodra die afwyking 'n sekere voorafbepaalde drempel oorskry (afhangende van wat jy glo 'n uitskieter in jou data is), dan is jou uitskieter kan maklik opgespoor word. antwoord 30 April toe 15 08:50 Jy kan die standaard afwyking van die laaste N metings gebruik (jy moet 'n geskikte N haal). 'N Goeie anomalie telling sal wees hoeveel standaardafwykings n meting is van die bewegende gemiddelde. beantwoord 2 Augustus 10 In 20:48 Dankie vir jou antwoord, maar wat as die sein vertoon 'n hoë seisoen (dit wil sê 'n baie netwerk metings word gekenmerk deur 'n daaglikse en weeklikse patroon terselfdertyd, byvoorbeeld nag vs dag of naweek vs werksdae) 'n benadering wat gebaseer is op standaard afwyking sal nie werk in so 'n geval. â € Gianluca 2 Augustus 10 by 20:57 Byvoorbeeld, as ek 'n nuwe monster elke 10 minute, en I39m doen 'n uitskieter opsporing van die netwerk bandwydte gebruik van 'n maatskappy, basies op 18:00 hierdie maatreël sal neerval (dit is 'n verwagte 'n heeltemal uit hulle dak normale patroon), en 'n standaardafwyking bereken oor 'n gly venster sal misluk (omdat dit 'n waarskuwing sal sneller vir seker). Op dieselfde tyd, indien die maatreël val hy aan 16:00 (wyk van die gewone basislyn), dit is 'n ware uitskieter. â € Gianluca 2 Augustus 10 by 20:58 wat ek doen is groep die metings per uur en dag van die week en vergelyk standaardafwykings van daardie. nie die geval is steeds korrek vir dinge soos vakansies en somer / winter seisoen, maar die korrekte meeste van die tyd. Die nadeel is dat jy regtig nodig het om 'n jaar in te samel of so van data om genoeg te hê sodat stddev begin om sin te maak. Spectraalanalyse ontdek periodisiteit in die tydreekse. Die frekwensie domein benadering gebaseer op skatting spektrale digtheid is 'n benadering wat ek sou as jou eerste stap beveel. As vir sekere tydperke onreëlmatigheid beteken 'n veel hoër piek as tipies vir daardie tydperk sou die reeks met sulke ongerymdhede nie stilstaande wees en spektrale anlsysis sou nie gepas wees. Maar die veronderstelling dat jy die tydperk wat die ongerymdhede wat jy moet in staat wees om ongeveer bepaal wat die normale piek hoogte sou wees het en dan kan 'n drumpel te stel op 'n sekere vlak hoër as dié gemiddelde tot die onreëlmatige gevalle aanwys geïdentifiseer het. antwoord 3 September 12 aan 14: 59Automatic Uitskieter opsporing 8211 Blessing of vloek deur Dr. Chockalingam middot 3 Februarie 2012 Een van die verbaas vrae dat die vraag Beplanners vra in ons opleidingswerkswinkels is waarom hulle sagteware produseer 'n plat voorspel 90 van die tyd. 'N duur sagteware wat 'n leër en 'n paar jaar geneem het om tipies implementeer voorgestel dat 'n konstante model of bewegende gemiddelde model. Dit het gelei tot 'n plat skatting. Hoewel die blote oog grafies kan sien (as grafieke beskikbaar vir die gebruiker gemaak) 'n mooi seisoenale patroon, die deskundige seleksie in die sagteware wat 'n konstante voorspelling vir die ewigheid. Daar is baie truuks onderliggende hierdie finale uitslag 8211 sommige van hulle bekend gemaak en 'n paar van hulle verborge. Een van die skuldiges is die uitskieter opsporing proses. Die sagteware kan intelligent op te spoor uitskieters vir 'n gegewe omgewing en uitskieter opsporing metode. Tipies jy 'n K-faktor gebruik om verdraagsaamheid bands te ontwikkel om die ex-post faktor om uitskieters te identifiseer. Wat is K-faktore en hoe om die K-faktor instellings hefboom om goeie voorspelling modelle Ons waargeneem in 'n verskeidenheid van sake te produseer, mense gebruik lae k-faktore wat dan gooi al seisoenale pieke en trôe. 'N Lae k-faktor is super waaksaam. Dit maak nie toelaat dat enige patroon om deur te ontsnap aan die modellering enjin. Al die enjin sien is net 'n groep van 'n paar data punte wat nou versprei oor die ex-post voorspel of net 'n historiese gemiddelde. Sien die foto hieronder. A k-faktor van 1 sal al patrone gesien in die profiel vraag uit te skakel. Dit hou net 'n fraksie van die oorspronklike datastel wat almal verwys na die historiese gemiddelde as gewelddadig akkurate skatting. Dit het niks te doen met die krag van die statistiese enjin beskikbaar vir die sagteware. In ons kom drie dae lange werkswinkel sal ons die gevare van 'n outomatiese uitskieter opsporing bespreek en het die deelnemers werk deur 'n hands-on oefening wat beter sigbaarheid van die hele uitskieter opsporing proses sal gee. Ons sal die funksies te verduidelik onder die enjinkap van die SAP APO vraag beplanning module om deur hierdie gevaarlike proses navigeer. Dag 3 sal wees al SAP APO met praktiese opleiding op die sagteware platform. Deelnemers in September 2011 werkswinkel kon model en parameter veranderinge direk na hul live voorspellings in die werkswinkel. Besoek demandplanning / workshops. htm vir meer besonderhede oor die werkswinkel. Let reik uit na my as jy meer vrae het of wil Uitskieter opsporing proses in APO DP bespreek. Dr Mark Chockalingam is die stigter en president van vraag Beplanning LLC, 'n besigheid proses en strategie Consultancy help kliënte oor industrieë: Pharmaceuticals, verbruikers, chemikalieë en mode klere. Sy spesialiteit konsultasie sluit in verkope vooruitskatting, Voorsieningskanaal Analytics, en verkope en Bedryf Beplanning. Hy het talle opleiding en strategie fasilitering werkswinkels vir 'n verskeidenheid van kliënte in die VSA en in die buiteland. Mark het saam met 'n verskeidenheid van maatskappye uit die Fortune 500 soos Wyeth, Miller SAB, FMC, Teva om die klein en medium grootte maatskappye soos Au Bon pyn, Multy Industries, Ticona, 'n afdeling maak van Celanese AG. Met aansienlike kundigheid in besigheid vooruitskatting en modellering, hy is 'n gereelde spreker by groot ketting gebeure oor onderwerpe wat wissel van aanvraagbestuur te verkoop en bedrywighede beplanning. Voor stigting sy raadgewende praktyk, het Mark saam met die vervaardiging van maatskappye in belangrike voorsieningsketting posisies. Mark was Direkteur van Markanalise en vraag Beplanning vir die Gillette Company, wat nou deel van Proctor en Gamble. Voordat Gillette, Mark het die zonne produkte, Voetsorg en OTC vooruitskatting prosesse vir Schering-Plough verbruikers gesondheidsorg in Memphis. Mark het 'n pH. D. in Finansies van die Arizona State University, 'n MBA van die Universiteit van Toledo en is 'n lid van die Instituut van Geoktrooieerde Rekenmeesters van Indië. Jy kan ook like. outlier Gegewe 'n reeks-time gestempel numeriese waardes, met behulp van ʼn uitskieter operateur in 'n navraag kan waardes te identifiseer in 'n ry dat onverwagte lyk, en sou 'n waarskuwing of skending identifiseer, byvoorbeeld, vir 'n geskeduleerde soek. Om dit te doen, ʼn uitskieter operateur volg die bewegende gemiddelde en standaardafwyking van die waarde en ontdek of kennisgewings wanneer die verskil tussen die waarde oorskry bedoel met 'n paar verskeie van standaardafwyking, byvoorbeeld, 3 standaardafwyking. Sintaksis:. timeslice 1m Max (x) as responsetime deur timeslice uitskieter responsetime. timeslice 1m telling (sourcehost) as sourcehost deur timeslice uitskieter telling Maak seker dat jou sintaks sluit slegs een sleutel veld: timeslice. Dit is nodig om die opsie lyn grafiek beskikbaar te stel. Die tweede sintaksis voorbeeld gebruik 'n bykomende ldquogroup byrdquo klousule uitskieters vir verskeie waardes van sourcehost vind. Sien die onderstaande vir meer inligting voorbeeld. Dit sintaksis voeg die volgende velde van die afvoer: responsetimeerror - Dit is die responsetime - gemiddelde. responsetimelower - Dit is die gemiddelde - thresholdstandard afwyking. responsetimeupper - Dit is die gemiddelde thresholdstandard afwyking. responsetimeindicator - Dit is 1 vir waarde buite die onderste en boonste grense. responsetimeviolation - Dit is 1 vir die slaan van gespesifiseerde aantal agtereenvolgende aanwysers. Daar is standaard vir alle parameters, maar jy kan parameters instel deur navraag argumente, soos venster lengte of drumpel. uitskieter responsetime window5, threshold3, consecutive2, direction - venster - Gebruik die sleep 5 datapunte te bereken gemiddelde en sigma: Byvoorbeeld, sou hierdie navraag die volgende parameters. Die verstek is 10. drumpel - Bereken skending gebaseer op / - 3 standaardafwykings. Die verstek is 3.0. agtereenvolgende - Slegs stel responsetimeviolation tot 1 as 2 of meer opeenvolgende datapunte verder waargeneem as 3 standaardafwykings van die rollende gemiddelde. Die verstek is 1. rigting - Gebruik -, of - vir watter rigting snellers oortredings: Gebruik - vir 'n positiewe of negatiewe afwykings. Dit is die standaard. Gebruik slegs positiewe afwykings (meer as wat verwag is). Gebruik - net negatiewe afwykings (minder as wat verwag is). Reëls: ʼn uitskieter operateur moet na 'n groep verskyn deur aggregator, soos tel, min, Max, of som. Die oorspronklike teiken area moet numeries wees. Voorbeelde IIS logs Begin die volgende navraag aan uitskieter waardes in IIS logs vind oor die afgelope 6 uur. sourceCategoryIIS / Toegang parse regex quotd-dd D: D: D (ltserveripgtS) (ltmethodgtS) (ltcsuristemgt / S) S d (ltusergtS) (ltclientipgt. d) quot parse regex quotd dd (ltresponsetimegtd) quot timeslice 15m maks (responsetime) as responsetime deur timeslice uitskieter responsetime window5, threshold3, consecutive2, direction - die uitskieter waardes word verteenwoordig deur die pienk driehoeke in die gevolglike grafiek. Apache logs - Sever Foute Oor Tyd Run die volgende navraag aan uitskieter waardes in Apache logs vind oor die laaste 3 ure. sourceCategoryApache / Toegang parse quotHTTP / 1.1quot quot as statuscode waar statuscode wedstryde quot5quot timeslice 5m telling (statuscode) as statuscode deur timeslice uitskieter statuscode window5, threshold3, consecutive1, direction - Die uitskieter waardes word verteenwoordig deur die pienk driehoeke in die gevolglike grafiek. Gebruik 'n bykomende ldquogroup byrdquo klousule uitskieters vir verskeie waardes van sourcehost vind. Jy kan ook 'n soektog soos hierdie hardloop: sourcecategorydatabase timeslice 1m telling deur timeslice, sourcehost uitskieter tel deur sourcehost Op hierdie manier kan jy uitskieter analise afsonderlik hardloop vir elke waarde van sourcehost. soos gewys. Hierdie voorbeeld sal net produseer 'n samevoeging tafel, nie 'n grafiek, maar die aanwyser en skending velde sal korrek weerspieël elke sourcehost verwerking. Multidimensionele Uitskieter Detection ʼn uitskieter operateur ondersteun multi-dimensionele of multi-tydreekse opsporing. Multidimensionele uitskieter opsporing is handig wanneer jy wil om die gedrag van elke gebruiker, bediener, aansoek funksie, of ander enkele ldquoentityrdquo, eerder as om 'n paar samevoeging in alle entiteite te monitor. Byvoorbeeld, kan jy nie logins op te spoor deur die gebruiker. Om dit te doen, sal jy wil om te verstaan ​​of enige rekening, individueel, het 'n vreemde bedrag van mislukte logins ervaar, nie of wersquove gesien sommige skerp styging in die gemiddelde of totale bedrag van mislukte logins op alle gebruikers. Laasgenoemde kan nuttig wees, maar met honderde of duisende gebruikers (entiteite), kan 'n skerp styging in mislukte logins verdwaal in die geraas van 'n ldquonormalrdquo bedrag van totale misluk logins, en jy kan 'n piek mis in mislukte logins vir 'n spesifieke gebruiker . Ander voorbeelde sluit in: Opsporing onreëlmatighede terwyl die dop bladsy foute, skyf operasie, of CPU gebruik vir al die nodes in 'n groep saam. Monitering van die prestasie van elke werkstasie gelyktydig, sonder die behoefte om 'n uitskieter verslag vir elke een te bou. Monitering misluk beeld oplaai vir elke gebruiker van 'n aansoek (nie totaal mislukte oplaai in alle gebruikers). As jy die uitskieter operateur gebruik, is dit maklik om 'n multi-dimensionele uitskieter werking te skep. Net voeg deur ltdimensiongt om die einde van die navraag. Byvoorbeeld, sal die volgende voorbeeld navraag baie tyd reeks bepaal, een per elke sourcehost: sourcecategorydatabase timeslice 1m telling deur timeslice, sourcehost uitskieter tel deur sourcehost Jy kan die rou resultate van 'n multi-dimensionele tydreekse in 'n tabel grafiek vertoon, maar op die oomblik ander grafiek opsies is nie beskikbaar nie. In die volgende tabel grafiek, 'n waarde van 1 in die countviolation kolom dui aan dat die data punt wat ooreenstem met dié timeslice is 'n uitskieter. Alert Op grond van Multidimensionele Uitskieter resultate aan 'n waarskuwing gebaseer op die multi-reeks uitskieter tabel hierbo te skep, te onttrek countviolation. Op hierdie manier, wonrsquot wat jy nodig het om 'n waarskuwing te bou vir elke reeks data (elke sourcehost in die vorige voorbeeld), en jy kan outomaties te monitor 'n dinamiese reeks vir wyk gedrag. Die volgende voorbeeld navraag kan jy monitor wanneer aansoek gebruikers ervaar mislukkings. Dit monitor alle gebruiker rekeninge deur unieke gebruiker ID en geld uitskieter aan die bedrag van ldquofailrdquo boodskappe wat plaasvind oor elke rekening: sourceCategoryProd parse quotUserID: quot as UserID parse quotResult: quot as gevolg waar gevolg quotFailquot timeslice 1h telling deur id, timeslice uitskieter tel deur UserID velde timeslice, id, countviolation Transponeer ry timeslice kolom UserID Sodra jy die navraag hardloop, jy kan bespaar op Soos 'n geskeduleerde Soek skep en instel om 'n waarskuwing te stuur wanneer 'n gebruiker rekening ondervind 'n ongewone hoeveelheid mislukkings, of ander geval wat jy wil elke reeks data vir monitor. As jy die resultate te visualiseer, op die Soek, kan jy 'n kolomgrafiek te skep. dan die stapel eiendom te verander na normaal om kennisgewings per unieke id (die multidimensionele aspek) vertoon. Grafiek Multidimensionele Uitskieter Resultate Hierdie afdeling verskaf twee voorbeelde van hoe om multidimensionele uitskieter resultate in tabelle te vertoon.


No comments:

Post a Comment