
2 minute read
2.4.3. Analisi dei gruppi (Cluster analysis
Riassumendo, si è applicata l’analisi fattoriale verificando che: • KMO test > 0.50; • il test di sfericità di Bartlett sia significativo (p-value < 0.05); • comunalità>0.3-0.5(si è considerato un limite di 0.35)e comunque quanto più vicina a 1, ad indicare una quota più elevata di variabilità spiegata; • il numero di fattori da estrarre sia coerente con il criterio dell’autovalore e con il “gomito” dello scree plot; • si sia ruotata con metodo obliquo PROMAX la matrice delle componenti; • la varianza spiegata cumulata sia > 60-65%; • le variabili imputabili al singolo fattore siano caratterizzate da un loading factor (peso) > 0.40.
2.4.3. Analisi dei gruppi (Cluster analysis)
Advertisement
La cluster analysis, o analisi dei gruppi, è una tecnica di analisi statistica rientrante tra i cosiddetti “metodi non supervisionati”, che considera tutte le variabili del dataset con un approccio esplorativo, senza cioè che vengano poste delle ipotesi a priori sui dati.
L’obiettivo dell’analisi è duplice: a. individuare dei patterntra le osservazioni, catturandone l’eterogeneità non direttamente osservabile, se presente; b. creare una segmentazione delle variabili osservate inizialmente in sottogruppi quanto più possibili omogenei al proprio interno ed eterogenei reciprocamente. Sono generalmente distinte 4 fasi applicative:
1) Preparazione del dataset. È la fase in cui vengono scelte le variabili che definiranno poi la classificazione dei gruppi. È legata allo scopo della ricerca, nonché all’approccio del ricercatore, e presenta quindi un elevato grado di soggettività. In questo caso, le variabili considerate coincidono con i 6 fattori latenti che, come si vedrà, sono stati individuati nell’analisi fattoriale.
2) Misura della “distanza” tra le unità statistiche.L’omogeneità all’interno di uno stesso gruppo è misurata come distanza (nel caso, come questo, di variabili quantitative) tra unità statistiche. Le misure tradizionalmente utilizzate sono la distanza euclidea e la distanza di Manhattan.
3) Implementazione dell’algoritmo. Esistono due macrocategorie di algoritmi di clustering: quelli gerarchici e quelli non gerarchici. Vista la dimensione estesa delle osservazioni, in questa ricerca si è utilizzato l’algoritmo di raggruppamento non gerarchico delle k-medie, consistente nella suddivisione del dataset iniziale in k gruppi –ciascuno rappresentato da un proprio centro o “centroide” – con k a discrezione del ricercatore e affinabile dallo stesso al termine delle iterazioni a seconda della significatività delle variabili di clusterizzazione.
Durante ciascuna iterazione, l’algoritmo assegna ogni osservazione al centroide più vicino (in base alla distanza del proprio valore dal valore medio centrale). Al termine di tutte le iterazioni, quindi, l’algoritmo avrà raggruppato ogni variabile attorno al centroide più vicino, minimizzando la variazione totale all’interno dello stesso gruppo.
4) Analisi dei risultati. L’interpretazione dei risultati in termini di identificazione dei raggruppamenti (cluster) avviene tramite confronto con le caratteristiche socioeconomiche e i pattern di mobilità dei rispondenti, cercando quindi di individuare gli elementi di giudizio che caratterizzano ciascun gruppo rispetto ai fattori latenti individuati nella fase precedente.