Coeficient de determinare (R pătrat)

Coeficientul de determinare este proporția variației totale a variabilei explicată prin regresie. Coeficientul de determinare, numit și R pătrat, reflectă bunătatea potrivirii unui model la variabila pe care intenționează să o explice.

Este important să știm că rezultatul coeficientului de determinare oscilează între 0 și 1. Cu cât valoarea acestuia este mai aproape de 1, cu atât mai mare este potrivirea modelului cu variabila pe care încercăm să o explicăm. În schimb, cu cât este mai aproape de zero, cu atât modelul va fi mai puțin strâns și, prin urmare, va fi mai puțin fiabil.

În expresia anterioară avem o fracțiune. Deci, să mergem pe părți. În primul rând, vom analiza numeratorul, adică partea de sus.

Pentru cei care nu cunosc expresia varianței, vă recomand să citiți articolul despre aceasta. Pentru cei care o cunosc, ei își pot da seama că este expresia varianței, dar cu două diferențe fundamentale.

Prima diferență este că Y are un circumflex sau ceea ce profesorii numesc didactic „pălărie”. Ceea ce detaliază că pălăria este că Y este estimarea unui model a ceea ce în funcție de variabilele explicative valorează Y, dar nu este valoarea reală a lui Y, ci o estimare a lui Y.

În al doilea rând, ar fi necesar să împărțim la T. Care, în alte cazuri, este notat ca N sau numărul de observații. Cu toate acestea, întrucât formula numitorului o va purta și ea, eliminăm numitorii (de jos) din ambele formule pentru a simplifica expresia. În acest fel este mai ușor să lucrați cu el.

Apoi, vom efectua aceeași analiză cu partea numitorului (partea de jos).

În acest caz, singura diferență față de formula de varianță originală este absența numitorului său. Adică, nu împărțim la T sau N. În acest fel, odată explicate cele două părți ale expresiei generice a pătratului sau coeficientului de determinare R, vom vedea un exemplu.

Coeficient de variațieCoeficient de corelație liniarăAnaliza regresiei

Interpretarea coeficientului de determinare

Să presupunem că vrem să explicăm numărul de goluri pe care Cristiano Ronaldo le marchează pe baza numărului de jocuri pe care le joacă. Presupunem că cu cât joacă mai multe jocuri, cu atât va marca mai multe goluri. Datele se referă la ultimele 8 sezoane. Astfel, după extragerea datelor, modelul dă următoarea estimare:

După cum putem vedea din grafic, relația este pozitivă. Cu cât sunt mai multe jocuri jucate, desigur, cu atât mai multe goluri înscrie în sezon. Potrivirea, pe baza calculului R-pătrat, este de 0,835. Aceasta înseamnă că este un model ale cărui estimări se potrivesc destul de bine cu variabila reală. Deși din punct de vedere tehnic nu ar fi corect, am putea spune ceva de genul că modelul explică 83,5% din variabila reală.

Problema coeficientului de determinare

Problema coeficientului de determinare și motivul pentru care apare coeficientul de determinare ajustat este că nu penalizează includerea variabilelor explicative nesemnificative. Adică, dacă la model sunt adăugate cinci variabile explicative care au o legătură mică cu obiectivele pe care Cristiano Ronaldo le marchează într-un sezon, pătratul R va crește. De aceea, mulți experți în econometrie, statistici și matematică se opun utilizării pătratului R ca măsură reprezentativă a bunătății potrivirii reale.

Coeficientul de determinare ajustat

Coeficientul de determinare ajustat (R ajustat la pătrat) este măsura care definește procentul explicat de varianța regresiei în raport cu varianța variabilei explicate. Adică la fel ca R pătrat, dar cu o diferență: Coeficientul de determinare ajustat penalizează includerea variabilelor.

După cum am mai spus, coeficientul de determinare a unui model crește chiar dacă variabilele pe care le includem nu sunt relevante. Deoarece aceasta este o problemă, pentru a încerca să o rezolvați, R pătrat ajustat este astfel încât:

În formulă, N este dimensiunea eșantionului și k este numărul de variabile explicative. Prin deducție matematică, cu cât valorile mai mari ale lui k, cu atât mai mult R-pătrat ajustat va fi față de R-pătrat normal. În schimb, la valori mai mici de k, cu cât fracția centrală va fi mai apropiată de 1 și, prin urmare, R ajustat la pătrat și R normal la pătrat vor fi mai similare.

Amintind că k este numărul de variabile explicative, deducem că acesta nu poate fi zero. Dacă ar fi zero, nu ar exista niciun model. Cel puțin, va trebui să explicăm o variabilă în termenii altei variabile. Deoarece k trebuie să fie cel puțin 1, R-pătrat ajustat și R-pătrat normal nu pot avea aceeași valoare. În plus, R-pătratul ajustat va fi întotdeauna mai mic decât R-pătratul normal.

Posturi Populare

ValueSchool și partener pentru a stimula educația financiară

Economipedia și Value School își unesc forțele pentru a promova educația financiară și pentru a facilita înțelegerea unor subiecte de bază precum economisirea, finanțarea și investițiile. Pe de o parte, ValueSchool este un proiect axat pe promovarea culturii financiare, a economiilor și a investițiilor în Spania. Născut din nevoia de a împărtăși Citiți mai multe…

Big data modelează lumea viitorului

S-au spus multe despre Big Data și impactul pe care acesta îl are asupra unor sectoare, nu numai economice și de afaceri, ci și asupra administrației publice sau a sănătății. Dar ce înseamnă Big Data? Big Data se referă la volumul enorm de date care este generat astăzi în diferite acțiuni care Citește mai mult…

Ce tipuri de credite sunt cele mai frecvente în rândul spaniolilor?

Trăim într-o societate în care trebuie să ne confruntăm zilnic cu nenumărate cheltuieli. Cu toate acestea, lichiditatea noastră nu ne permite întotdeauna să o facem din cauza decalajului de timp care există de obicei între cât și când introducem bani și cât și când îi cheltuim. Solicitarea unui împrumut este, atunci, cea mai răspândită soluție atât pentru rezolvarea unei urgențe, cât și pentru a citi mai multe…