Un eșantion statistic este un subset de date aparținând unei populații de date. Statistic vorbind, trebuie să fie alcătuit dintr-un anumit număr de observații care să reprezinte în mod adecvat datele totale.
Statistica, ca ramură a matematicii, este responsabilă pentru colectarea datelor, ordonarea și analiza acestora. Cu alte cuvinte, atunci când vrem să studiem un anumit fenomen, apelăm la statistici. Un bun exemplu de fenomen studiat de statistici este salariul mediu al cetățenilor unei țări
În acest sens, din motive de timp și cost, nu putem colecta toate datele. Această totalitate de date este ceea ce este cunoscut ca populație de date sau pur și simplu o populație.
De ce lucrezi cu eșantioane statistice?
Pentru a explica de ce se folosește un eșantion statistic în locul populației totale, vom recurge la exemplul prezentat mai sus.
Să presupunem că vrem să studiem orice fenomen. În cazul nostru, acest fenomen este salariul mediu al cetățenilor unei țări. Populația de date este formată din fiecare lucrător din țară. Desigur, din motive de timp și costuri, ar fi imposibil să întrebăm fiecare lucrător care este salariul lor anual. Ar dura mult timp sau am avea nevoie de multe resurse.
În acest moment apare conceptul de eșantion statistic. În loc să întrebăm milioane de lucrători dintr-o țară sau regiune, colectăm doar o cantitate mică de date. De exemplu, am întrebat 100.000 de oameni. Această sarcină este încă complicată, dar este mult mai accesibil să ceri 100.000 de oameni decât să ceri 30 de milioane.
Această cantitate mică de date trebuie să fie reprezentativă. Adică trebuie să reprezinte în mod adecvat populația. Dacă cei 100.000 de oameni pe care i-am întrebat sunt concentrați în cartiere bogate, vom obține date care nu sunt reprezentative. Salariul mediu ar fi mult mai mare decât este în realitate.
Caracteristicile unui eșantion statistic reprezentativ
Dacă doriți să faceți cercetări bune, calitatea eșantionului statistic este esențială. Este inutil să se realizeze cele mai complexe statistici statistice cu cele mai sofisticate modele dacă eșantionul statistic este părtinitor. Adică, dacă eșantionul nu este reprezentativ.
La obținerea unui eșantion reprezentativ există anumite aspecte pe care cercetătorul trebuie să le cunoască în prealabil. Printre aceste aspecte se numără caracteristicile unui eșantion reprezentativ. Caracteristicile unui eșantion reprezentativ sunt următoarele:
- Dimensiune suficient de mare: Când lucrăm cu eșantioane, lucrăm în mod normal cu o cantitate de date mai mică decât populația. Cu toate acestea, pentru ca un eșantion statistic să fie reprezentativ, acesta trebuie să fie suficient de mare pentru a fi considerat reprezentativ. De exemplu, dacă populația noastră este formată din 10 milioane de date și alegem 10, este dificil ca aceasta să fie reprezentativă. Desigur, cu cât eșantionul este mai mare nu este întotdeauna mai reprezentativ.
- Aleatoriu: Selectarea datelor dintr-un eșantion statistic trebuie să fie aleatorie. Adică trebuie să fie total aleatoriu. Dacă în loc să o facem aleatoriu, desfășurăm un proces planificat de selectare a datelor, introducem o prejudecată în colectarea datelor. Prin urmare, pentru a evita ca eșantionul să fie părtinitor și, prin urmare, pentru a face din el un eșantion reprezentativ, trebuie să facem o selecție aleatorie.
Inferință statistică
Odată obținut avem eșantionul reprezentativ, atunci este necesar să deducem anumite valori. Deseori suntem interesați să cunoaștem o anumită măsură a unei variabile. În exemplul inițial, variabila ar fi salariul cetățenilor unei țări. În acest sens, metrica pe care vrem să o analizăm este salariul mediu al cetățenilor unei țări.
Cu alte cuvinte, avem o populație de date formată din toți lucrătorii din Mexic. Din această populație obținem o variabilă, adică salariul anual. Folosind tehnicile adecvate obținem un eșantion reprezentativ. Și, în sfârșit, odată ce avem un set de date cu care putem lucra, folosim tehnici de inferență statistică pentru a calcula salariul mediu.
Desigur, odată ce avem setul de date, am putea deduce alte măsuri. De exemplu, modul în care este distribuit salariul, ce procent de lucrători este sub un anumit salariu sau cât de mare este decalajul salarial.
Exemplu de eșantion statistic
Să presupunem că vrem să realizăm un studiu privind cheltuielile medii ale familiilor columbiene în luna ianuarie. Pentru aceasta avem două opțiuni:
- Introduceți conturile bancare ale tuturor familiilor din Columbia
- Întrebați un număr reprezentativ de persoane
Prima opțiune nu este viabilă din mai multe motive. În primul rând, faptul că familiile nu vor renunța la datele lor și, în al doilea rând, că nu am putea merge nici familie cu familie uitându-ne la date. În principal, deoarece populația din Columbia este aproape de 50 de milioane. Între timp, a doua este opțiunea de a colecta un eșantion statistic.
Ceea ce vom face, urmând caracteristicile menționate mai sus, va fi să cerem 100.000 de familii. Este oarecum complicat, dar mult mai ușor decât să ceri 50 de milioane de columbieni. Diferența este considerabilă. Astfel, pe baza eșantionului de 100.000 de familii, vom încerca să calculăm cheltuielile medii ale familiilor în ianuarie.
Datele extrase vor fi mai mult sau mai puțin fiabile în conformitate cu o serie de valori care sunt luate în considerare în investigațiile statistice. Desigur, aceste tipuri de valori sunt mai avansate și, prin urmare, nu le vom discuta aici.