Detectați valorile aberante folosind distribuția normală

Detectarea valorilor aberante prin distribuția normală este un proces care implică definirea unui prag de deviație standard și cu care se intenționează găsirea valorilor extreme ale unui eșantion.

Cu alte cuvinte, a detecta valori aberante prin distribuția normală înseamnă a găsi valori extreme ale unui set de date prin formula normală normalizată.

  • Valorile extreme sunt numite valori aberante in engleza.
  • Valorile intern sunt numite din interior in engleza.

Detectarea vizuală a valorilor aberante poate fi o opțiune atunci când aveți foarte puține date. Când lucrați cu baze de date, este foarte puțin practic să trebuiască să găsiți valori anormale manual. Pentru a rezolva această problemă, putem calcula care sunt valorile considerate extreme comparând cu un prag de abateri.

Pentru cazul distribuției normale, o valoare este considerată extremă atunci când se află la 3 abateri standard de la medie. Deoarece distribuția normală are 2 cozi, trebuie să luăm în considerare faptul că poate fi micșorată atât pe laturile negative, cât și pe cele pozitive.

Formula pentru a detecta valorile aberante folosind distribuția normală

Un set de observații poate fi exprimat în modul anterior, unde x este valoarea medie peste care valorile oscilează și sigma dispersia oscilării valorilor menționate. Cu alte cuvinte, sigma este distanța observațiilor de valoarea medie.

Factorul multiplicativ determină dacă este un outlier sau un insider. Dacă z ia valorile 3 sau -3, atunci, în funcție de distribuția normală, observația y va fi o valoare anterioară.

Pentru a cunoaște valoarea z folosim ecuația anterioară:

  • Dacă z> = 3 sau z = <-3, atunci, conform distribuției normale, putem spune asta Da este o valoare sau un valor extrem de extrem.
  • Dacă z <3 sau z <-3, atunci, conform distribuției normale, putem spune asta Da este o valoare internă sau din interior.

Standard normal

Este ecuația de mai sus familiară?

Exact, este expresia unei observații care urmează o distribuție normală odată standardizată sau tipificată. Se numește așa pentru că atunci când se împarte la deviația standard sau standard, diferența numărătorului este exprimată în termeni de abateri.

Din acest motiv, putem asocia valorile deviației z și astfel să îl puteți cumpăra cu pragul de 3 abateri.

Exemplu

Găsiți valorile extreme ale următoarelor observații în funcție de distribuția normală:

Reprezentăm observațiile pe un grafic:

Încă de la început putem vedea deja că valoarea cea mai îndepărtată de restul poate fi cel mai probabil o valoare anterioară.

Mai întâi calculăm media și abaterea standard:

x = medie = 5,8

sigma = abaterea standard = 10,51

Apoi înlocuim valorile în formulă și calculăm valoarea lui z pentru fiecare observație:

Valorile de mai sus sunt factorii multiplicatori ai sigmei, adică z. Orice lucru care este mai mare de 3 sau mai mic de -3 va fi o valoare extremă.

Putem vedea că valoarea z care depășește 3 abateri standard este cea corespunzătoare observației 49.

Prin urmare, valoarea extremă sau anterioară a setului de date ar fi 49.

Posturi Populare

Doar 35% dintre britanici doresc un Brexit

De când 33 de milioane de britanici au fost la vot pentru a-și decide viitorul în iunie 2016, a plouat mult. Au trecut doi ani. Doi ani de speculații, speculații și diverse ipoteze despre viitorul Uniunii. Doi ani în care avansul maxim al Brexit-ului a fost un obstacol. Acum, citiți mai multe…

Cum sunt finanțate marile cluburi de fotbal?

Aruncați o privire la principalele ziare sportive pentru a realiza sumele astronomice pe care cluburile de fotbal le cheltuiesc pentru transferuri. Să luăm de exemplu semnarea lui Cristiano Ronaldo de către Juventus Torino, care a însumat în total 112 milioane de euro. Nici nu ar trebui să uităm salariile mari ale acestora Citiți mai multe…

Analiza tehnică S & P500: tendință de 10 ani de urcare

De când piața de valori din SUA a lovit terenul în martie 2009, nu a încetat să crească. S & P500 a crescut fără pauză, fără să aștepte alte schimburi și fără să știe ce s-a întâmplat. După aproape 10 ani de trend ascendent, investitorii se întreabă dacă nu a crescut deja prea mult. Poate că această urcare este Citiți mai multe…

Acesta este ecosistemul antreprenorial din Spania

Evaluarea ecosistemului antreprenorial într-o regiune este o problemă complexă datorită multitudinii de variabile care trebuie luate în considerare și a volatilității acestora. Bloomberg a creat „barometrul startup-urilor din SUA” unde reflectă într-un singur indice situația și evoluția situației ecosistemului antreprenorial din Citește mai mult…