Coeficient de determinare (R pătrat)

Cuprins:

Coeficient de determinare (R pătrat)
Coeficient de determinare (R pătrat)
Anonim

Coeficientul de determinare este proporția variației totale a variabilei explicată prin regresie. Coeficientul de determinare, numit și R pătrat, reflectă bunătatea potrivirii unui model la variabila pe care intenționează să o explice.

Este important să știm că rezultatul coeficientului de determinare oscilează între 0 și 1. Cu cât valoarea acestuia este mai aproape de 1, cu atât mai mare este potrivirea modelului cu variabila pe care încercăm să o explicăm. În schimb, cu cât este mai aproape de zero, cu atât modelul va fi mai puțin strâns și, prin urmare, va fi mai puțin fiabil.

În expresia anterioară avem o fracțiune. Deci, să mergem pe părți. În primul rând, vom analiza numeratorul, adică partea de sus.

Pentru cei care nu cunosc expresia varianței, vă recomand să citiți articolul despre aceasta. Pentru cei care o cunosc, ei își pot da seama că este expresia varianței, dar cu două diferențe fundamentale.

Prima diferență este că Y are un circumflex sau ceea ce profesorii numesc didactic „pălărie”. Ceea ce detaliază că pălăria este că Y este estimarea unui model a ceea ce în funcție de variabilele explicative valorează Y, dar nu este valoarea reală a lui Y, ci o estimare a lui Y.

În al doilea rând, ar fi necesar să împărțim la T. Care, în alte cazuri, este notat ca N sau numărul de observații. Cu toate acestea, întrucât formula numitorului o va purta și ea, eliminăm numitorii (de jos) din ambele formule pentru a simplifica expresia. În acest fel este mai ușor să lucrați cu el.

Apoi, vom efectua aceeași analiză cu partea numitorului (partea de jos).

În acest caz, singura diferență față de formula de varianță originală este absența numitorului său. Adică, nu împărțim la T sau N. În acest fel, odată explicate cele două părți ale expresiei generice a pătratului sau coeficientului de determinare R, vom vedea un exemplu.

Coeficient de variațieCoeficient de corelație liniarăAnaliza regresiei

Interpretarea coeficientului de determinare

Să presupunem că vrem să explicăm numărul de goluri pe care Cristiano Ronaldo le marchează pe baza numărului de jocuri pe care le joacă. Presupunem că cu cât joacă mai multe jocuri, cu atât va marca mai multe goluri. Datele se referă la ultimele 8 sezoane. Astfel, după extragerea datelor, modelul dă următoarea estimare:

După cum putem vedea din grafic, relația este pozitivă. Cu cât sunt mai multe jocuri jucate, desigur, cu atât mai multe goluri înscrie în sezon. Potrivirea, pe baza calculului R-pătrat, este de 0,835. Aceasta înseamnă că este un model ale cărui estimări se potrivesc destul de bine cu variabila reală. Deși din punct de vedere tehnic nu ar fi corect, am putea spune ceva de genul că modelul explică 83,5% din variabila reală.

Problema coeficientului de determinare

Problema coeficientului de determinare și motivul pentru care apare coeficientul de determinare ajustat este că nu penalizează includerea variabilelor explicative nesemnificative. Adică, dacă la model sunt adăugate cinci variabile explicative care au o legătură mică cu obiectivele pe care Cristiano Ronaldo le marchează într-un sezon, pătratul R va crește. De aceea, mulți experți în econometrie, statistici și matematică se opun utilizării pătratului R ca măsură reprezentativă a bunătății potrivirii reale.

Coeficientul de determinare ajustat

Coeficientul de determinare ajustat (R ajustat la pătrat) este măsura care definește procentul explicat de varianța regresiei în raport cu varianța variabilei explicate. Adică la fel ca R pătrat, dar cu o diferență: Coeficientul de determinare ajustat penalizează includerea variabilelor.

După cum am mai spus, coeficientul de determinare a unui model crește chiar dacă variabilele pe care le includem nu sunt relevante. Deoarece aceasta este o problemă, pentru a încerca să o rezolvați, R pătrat ajustat este astfel încât:

În formulă, N este dimensiunea eșantionului și k este numărul de variabile explicative. Prin deducție matematică, cu cât valorile mai mari ale lui k, cu atât mai mult R-pătrat ajustat va fi față de R-pătrat normal. În schimb, la valori mai mici de k, cu cât fracția centrală va fi mai apropiată de 1 și, prin urmare, R ajustat la pătrat și R normal la pătrat vor fi mai similare.

Amintind că k este numărul de variabile explicative, deducem că acesta nu poate fi zero. Dacă ar fi zero, nu ar exista niciun model. Cel puțin, va trebui să explicăm o variabilă în termenii altei variabile. Deoarece k trebuie să fie cel puțin 1, R-pătrat ajustat și R-pătrat normal nu pot avea aceeași valoare. În plus, R-pătratul ajustat va fi întotdeauna mai mic decât R-pătratul normal.