Analiza cluster - Ce este, definiție și concept

Cuprins:

Anonim

Analiza clusterelor este un set de tehnici statistice multivariate care au ca scop gruparea unui set de cazuri sau indivizi în clustere sau clustere.

Prin urmare, analiza cluster este un tip de grupare statistică. Scopul este de a face datele din fiecare cluster cât mai asemănătoare între ele și cât mai diferite în raport cu celelalte grupuri. Se poate face și cu variabile.

Transformarea datelor în analiza clusterelor

Una dintre problemele pe care le întâlnim atunci când grupăm date este că datele sunt uneori în diferite unități de măsură. Din acest motiv, trebuie efectuată o etapă de analiză pre-cluster care permite clusterizarea.

Cea mai comună metodă este standardizarea. Aceasta este utilizată pentru a transforma datele astfel încât acestea să aibă unități de măsură similare. Trebuie luate în considerare două reguli, variabilele binare nu sunt standardizate și, dacă sunt categorice, devin binare (prezență / absență).

Metode în analiza clusterelor

Există multe metode pentru a efectua analiza cluster-ului, dar în Economy-Wiki.com, urmând principiul simplității care ne caracterizează, vom vedea cele mai relevante într-un mod schematic.

Metode ierarhice

O primă clasificare ar fi metodele ierarhice sau neierarhice. Fostii grupează indivizii în faze ierarhice (de unde și numele lor). În acest fel, un singur obiect schimbă grupul la un moment dat, restul rămânând în același loc.

Acestea, la rândul lor, sunt clasificate în:

Metode aglomerative

Acesta constă în gruparea indivizilor în grupuri mai puține de fiecare dată. Începe de la un număr de grupuri egal cu numărul de cazuri și scade.

Cele mai cunoscute sunt:

  • Metoda celui mai apropiat vecin: În acest caz, utilizați un algoritm pentru a grupa datele. Ceea ce căutați este distanța minimă dintre cei mai apropiați indivizi. Este foarte sensibil la datele care pot provoca așa-numitul „zgomot”. Cea mai îndepărtată metodă de vecin este similară.
  • Metoda medie între grupuri: Ceea ce face este să calculeze media distanței dintre indivizii dintr-un grup și unul dintre ei în special. Este foarte util pentru a reduce așa-numitul „zgomot”.
  • Metoda lui Ward: Ceea ce face este să adăugați pătratele abaterilor dintre fiecare individ și media clusterului său, pentru a evita pierderea informațiilor. Este una dintre cele mai cunoscute și are avantajele metodei bazate pe media, dar o putere mai mare de discriminare.

Metode disociative

În acest caz, ceea ce faceți este să împărțiți. Începe cu un singur cluster, iar diviziunile sunt propuse pe baza unei serii de cerințe.

Cele mai frecvente sunt:

  • Media între grupuri, cea mai apropiată vecină și cea mai îndepărtată metodă: Aceste trei metode sunt similare cu cazul anterior, dar folosind metoda disociativă. Adică, de data aceasta ceea ce facem este separat și nu grup.
  • Metoda Centroid: Este utilizat pe scară largă în probleme de optimizare a locației instalației. Folosiți acest tip de analiză pentru a găsi cele mai potrivite.

Metode neierarhice

În acest caz, încep cu o soluție prestabilită. Acesta este punctul de plecare pentru analiza clusterelor. În acest fel, grupurile sunt stabilite în prealabil și fiecare caz va fi plasat într-unul dintre ele, în funcție de caracteristicile sale. La rândul lor, le putem împărți în alte subgrupuri.

  • Metode de reatribuire: Cele mai relevante sunt metodele centroid, cum ar fi k-means. Cele ale mediului, cum ar fi PAM. Sau cel al norilor dinamici.
  • Metode directe: Cea mai importantă este blocarea blocurilor, utilizată pe scară largă în exploatarea datelor.
  • Metode reductive: Acestea se bazează pe analiza factorială.
  • Metode de căutare a densității: Pe de o parte, ar exista cele ale abordărilor tipologice, cum ar fi analiza modală. Pe de altă parte, le avem pe cele probabiliste, precum Wolf.

Exemple de analiză cluster

Să vedem, în cele din urmă, câteva exemple de aplicații de analiză cluster.

  • Să ne imaginăm că avem un grup de țări pe care dorim să le grupăm pe baza anumitor variabile macroeconomice, cum ar fi inflația sau șomajul. Putem folosi acest tip de analiză pentru a face grupuri omogene, de exemplu, țări mai mult sau mai puțin dezvoltate.
  • Un alt exemplu ar putea fi o serie de consumatori cu anumite caracteristici sociodemografice. Ideea este de a crea grupuri cu indivizi similari și care, la rândul lor, sunt foarte diferiți unul de celălalt.
  • Dar pe lângă economie, analiza clusterelor este utilă și în alte științe. De exemplu, în biologie, pentru a clasifica speciile sau în geologie, pentru a face același lucru cu mineralele.