Testul Kolmogorov - Smirnoff (K-S)

Testul Kolmogorov-Smirnoff (K-S) este un test non-parametric care urmărește să determine dacă frecvența a două seturi de date diferite urmează aceeași distribuție în jurul valorii medii a acestora.

Cu alte cuvinte, testul Kolmogorov-Smirnoff (K-S) este un test care se adaptează la forma datelor și este utilizat pentru a verifica dacă două probe diferite urmează aceeași distribuție.

De ce este un test nonparametric?

Frumusețea caracteristicii „non-parametrice” este că se potrivește cu datele și, în consecință, cu distribuțiile care pot urmări frecvența datelor. În plus, această caracteristică ne scutește de faptul că trebuie să ne asumăm a priori ce distribuție urmează eșantionul.

Importanța testului K-S

De câte ori ni s-au dat două mostre și am calculat coeficientul de corelație al lui Pearson fără să ne gândim de două ori? Cu alte cuvinte, dacă vrem să vedem relația liniară dintre două seturi de date, ar fi corect să calculăm corelația, nu?

Această deducere ar fi adevărată dacă distribuțiile celor două probe urmează o distribuție normală. Coeficientul de corelație presupune că distribuțiile sunt normale, dacă omitem această ipoteză, rezultatul coeficientului de corelație este greșit. Pentru testele de ipoteză și intervalele de încredere, presupunem, de asemenea, că populația este distribuită printr-o distribuție normală.

Ca toate testele de ipoteză care implică statistici, este important să aveți un volum mare de date pentru a avea rezultate semnificative statistic. Putem respinge din greșeală o ipoteză nulă, deoarece eșantionul este mic. Mai mult, este de asemenea important ca acest eșantion să aibă unele cazuri extreme (valori aberante, în engleză) pentru a da consistență rezultatului testului.

Procedura de testare

Procedura etapelor următoare.

Ipoteză

Primul pas va fi să verificați dacă ambele probe au aceeași distribuție. Pentru a face acest lucru, efectuăm un test de ipoteză presupunând că ambele probe au aceeași distribuție față de ipoteza alternativă că sunt diferite.

Statistic

Lucrăm cu funcțiile de distribuție cumulativă a două eșantioane, F1(x) și F2(X):

Nu vă panicați! Analizăm formula de mai sus cu calm:

  • Partea importantă a formulei este semn diferență (-). Căutăm diferențe verticale în distribuții. Deci, vom scădea ambele funcții de distribuție cumulative.
  • operator "max". Suntem interesați să găsim cea mai mare sau cea mai mare diferență pentru a vedea cât de diferite pot fi cele două distribuții.
  • valoare absolută. Folosim valoarea absolută astfel încât ordinea operatorilor să nu modifice rezultatul. Cu alte cuvinte, nu contează care F (x) are semnul negativ:

Valoare critica

Pentru eșantioanele mari există o aproximare la valoarea critică pentru K-S, care depinde de nivelul de semnificație (%):

Unde1 si n2 sunt dimensiunea eșantionului pentru eșantionul F.1(x) și F2(x) respectiv.

Unele valori critice calculate:

Regula respingerii

Aplicație

De foarte multe ori vrem să testăm dacă două distribuții sunt suficient de diferite una de cealaltă atunci când vrem să construim scenarii de predicție (lucrăm cu două eșantioane) sau când vrem să evaluăm care distribuție se potrivește cel mai bine datelor (lucrăm cu un singur eșantion).