Outlier - Ce este, definiție și concept

Cuprins:

Outlier - Ce este, definiție și concept
Outlier - Ce este, definiție și concept
Anonim

O valoare anormală este o observare anormală și extremă într-un eșantion statistic sau într-o serie de date de date care pot afecta potențial estimarea parametrilor săi.

În cuvinte mai simple, o valoare anterioară ar fi o observație într-un eșantion sau o serie de date care nu este în concordanță cu restul. Imaginați-vă, de exemplu, că măsurăm înălțimea elevilor dintr-o clasă.

Să ne imaginăm un eșantion de 10 studenți. Înălțimea fiecăruia este după cum urmează:

Eșantionul 1
StudentÎnălțimea în metri
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Înălțimea medie a clasei ar fi de 1,73. Dacă luăm în considerare înălțimea maximă (1,85) și înălțimea minimă (1,62) și distanța dintre ele până la medie, vedem că este de 0,113 și, respectiv, de 0,177. După cum putem vedea, media este aproximativ la mijlocul intervalului și ar putea fi considerată o estimare destul de bună.

Efectul anormal

Acum să ne gândim la un alt eșantion de 10 studenți, înălțimile lor fiind următoarele:

Eșantionul 1
StudentÎnălțimea în metri
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

În acest caz, înălțimea medie a clasei ar fi de 1,81. Dacă privim acum înălțimea maximă (2,20) și înălțimea minimă (1,62) și distanța dintre ele până la medie, vedem că este 0,39 și respectiv 0,18. În acest caz, media nu mai este aproximativ la mijlocul intervalului.

Efectul celor mai extreme 2 observații (2.18 și 2.20) a făcut ca media aritmetică să se fi deplasat spre valoarea maximă a distribuției.

Cu acest exemplu, vedem efectul pe care îl au valorile aberante și cum pot distorsiona calculul unei medii.

Cum se detectează valori aberante?

Cum se corectează efectul valorilor aberante

În astfel de situații în care există valori anormale care sunt substanțial diferite de restul, mediana este o estimare mai bună pentru a ști în ce moment sunt concentrate un număr mai mare de observații.

În cazul ambelor distribuții și întrucât avem un număr par de valori, nu putem lua exact valoarea care înjumătățește distribuția pentru a calcula mediana. Cu care, după ordonarea valorilor de la cea mai mică la cea mai mare, am lua a cincea și a șasea observație (ambele lăsând 4 observații pe fiecare parte) și am calcula mediana după cum urmează:

Exemplul 1:

1,75+1,72/2 = 1,73

Exemplul 2:

1,79+1,71/2 = 1,75

După cum putem vedea, în eșantionul numărul 1, dat fiind că nu există valori aberante sau observații anormale, mediana este 1,73 și coincide cu media. Dimpotrivă, pentru eșantionul 2, media este 1,75. După cum putem vedea, această valoare este mai departe de înălțimea medie, care a fost de 1,81 și ne oferă o estimare a punctului de calitate mai mare pentru a cunoaște aproximativ în ce punct este concentrat un număr mai mare de observații.

Estimare punctuală