O statistică suficientă pentru un parametru Θ este una capabilă să colecteze sau să rezume toate informațiile pe care le conține eșantionul unei variabile aleatoare X.
Știm că o statistică este o funcție reală a eșantionului. Adică, ia valori reale conținute în eșantion. De acolo, așa cum am văzut în articolul în care este definit conceptul de statistică, trebuie să ne asigurăm că statisticianul are anumite proprietăți. De ce să ceri astfel de proprietăți? Pentru a ne asigura că statisticile sunt utile în scopurile noastre.
Suficiența este una dintre aceste proprietăți. Într-un mod mult mai simplu, vom spune că o statistică este suficientă dacă folosește toate informațiile conținute în eșantion.
Cum să știi dacă o statistică este suficientă?
În mod logic, întrebarea care se pune este: Cum pot să știu dacă o statistică T îndeplinește proprietatea suficientă? Sau Cum pot găsi, dacă există, o statistică care îndeplinește proprietatea suficientă. Răspunsul la aceste două întrebări se găsește în două teoreme:
- Criteriul de factorizare Fisher-Neyman: Acest criteriu afirmă că, având în vedere o statistică T, dacă îndeplinește anumite condiții, atunci va fi o statistică suficientă.
- Teorema lui Darmois: Această teoremă răspunde la a doua întrebare. Adică ne permite să găsim o statistică suficientă printr-o serie de proceduri.
Exemplu de statistică suficientă
Să presupunem că dorim să calculăm venitul mediu anual al familiilor care locuiesc în Chile. Pentru a face acest lucru, vom urma următorul proces:
- Colectați informații (eșantion): Deoarece nu putem întreba fiecare dintre familiile care locuiesc în Chile cât câștigă anual, vom lua un eșantion reprezentativ de, de exemplu, 1.000 de familii.
- Identificați variabila aleatorie studiată: Variabila aleatorie studiată este venitul familiei. Astfel: X → Venitul familiei
- Alegeți statistica potrivită: Statistica adecvată pentru calcularea venitului mediu nu este alta decât așteptarea lui X. Cu alte cuvinte, media eșantionului lui X.
- Cum pot să știu dacă statistica eșantionului mediu este suficientă? Deoarece avem deja expresia matematică a statisticii, vom folosi criteriul de factorizare Fisher-Neyman. Sau, teorema Darmois. Sunt formule create în acest scop.
După aplicarea calculelor corespunzătoare, concluzionăm că statistica medie a eșantionului îndeplinește cerința sau proprietatea de suficiență. Asigurându-ne că îndeplinește această cerință, ne asigurăm că această funcție (statistică), care ne permite să sintetizăm informațiile (venitul mediu), utilizează toate informațiile conținute în eșantion (cele 1.000 de familii).
De ce este important să folosesc toate informațiile din eșantion?
Acum, că știm că media eșantionului este o statistică suficientă, să presupunem un caz. Ce sens ar avea să ne dorim să calculăm venitul mediu pe baza celor 1.000 de familii chiliene și că folosim doar datele a 500 de familii?
Desigur, nu ar avea niciun sens. Vrem un rezumat al tuturor informațiilor. Adică ceea ce am definit ca statistică suficientă.