Detectați valorile aberante folosind distribuția normală

Cuprins:

Detectați valorile aberante folosind distribuția normală
Detectați valorile aberante folosind distribuția normală
Anonim

Detectarea valorilor aberante prin distribuția normală este un proces care implică definirea unui prag de deviație standard și cu care se intenționează găsirea valorilor extreme ale unui eșantion.

Cu alte cuvinte, a detecta valori aberante prin distribuția normală înseamnă a găsi valori extreme ale unui set de date prin formula normală normalizată.

  • Valorile extreme sunt numite valori aberante in engleza.
  • Valorile intern sunt numite din interior in engleza.

Detectarea vizuală a valorilor aberante poate fi o opțiune atunci când aveți foarte puține date. Când lucrați cu baze de date, este foarte puțin practic să trebuiască să găsiți valori anormale manual. Pentru a rezolva această problemă, putem calcula care sunt valorile considerate extreme comparând cu un prag de abateri.

Pentru cazul distribuției normale, o valoare este considerată extremă atunci când se află la 3 abateri standard de la medie. Deoarece distribuția normală are 2 cozi, trebuie să luăm în considerare faptul că poate fi micșorată atât pe laturile negative, cât și pe cele pozitive.

Formula pentru a detecta valorile aberante folosind distribuția normală

Un set de observații poate fi exprimat în modul anterior, unde x este valoarea medie peste care valorile oscilează și sigma dispersia oscilării valorilor menționate. Cu alte cuvinte, sigma este distanța observațiilor de valoarea medie.

Factorul multiplicativ determină dacă este un outlier sau un insider. Dacă z ia valorile 3 sau -3, atunci, în funcție de distribuția normală, observația y va fi o valoare anterioară.

Pentru a cunoaște valoarea z folosim ecuația anterioară:

  • Dacă z> = 3 sau z = <-3, atunci, conform distribuției normale, putem spune asta Da este o valoare sau un valor extrem de extrem.
  • Dacă z <3 sau z <-3, atunci, conform distribuției normale, putem spune asta Da este o valoare internă sau din interior.

Standard normal

Este ecuația de mai sus familiară?

Exact, este expresia unei observații care urmează o distribuție normală odată standardizată sau tipificată. Se numește așa pentru că atunci când se împarte la deviația standard sau standard, diferența numărătorului este exprimată în termeni de abateri.

Din acest motiv, putem asocia valorile deviației z și astfel să îl puteți cumpăra cu pragul de 3 abateri.

Exemplu

Găsiți valorile extreme ale următoarelor observații în funcție de distribuția normală:

Reprezentăm observațiile pe un grafic:

Încă de la început putem vedea deja că valoarea cea mai îndepărtată de restul poate fi cel mai probabil o valoare anterioară.

Mai întâi calculăm media și abaterea standard:

x = medie = 5,8

sigma = abaterea standard = 10,51

Apoi înlocuim valorile în formulă și calculăm valoarea lui z pentru fiecare observație:

Valorile de mai sus sunt factorii multiplicatori ai sigmei, adică z. Orice lucru care este mai mare de 3 sau mai mic de -3 va fi o valoare extremă.

Putem vedea că valoarea z care depășește 3 abateri standard este cea corespunzătoare observației 49.

Prin urmare, valoarea extremă sau anterioară a setului de date ar fi 49.