Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Slides Data Analysis, Sintesi del corso di Statistica

Libera università di lingue e comunicazione (IULM)Statistica

Prof. Francesco Della Beffa

Slides del corso di Data Analysis con Della Beffa (magistrale in Marketing)

Tipologia: Sintesi del corso

2021/2022

Caricato il 16/01/2023

beatrice-lattanzio-3 🇮🇹

4 documenti

1 / 20

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

1

DATA ANALYSIS

SONDAGGI E QUESTIONARI

•SURVEY = la rilevazione di dati primari attraverso interviste strutturate a un campione di

soggetti (molto generale; potenzialmente costoso; richiede competenza e rigore nel definire gli

obiettivi)

•CENSIMENTO = rilevazione su tutta la popolazione

•analisi di dati secondari da fonti esterne (ISTAT, Aida)

•analisi di dati secondari interni (banche, telefonia, assicurazioni…)

•POPOLAZIONE = insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende),

deve essere identificata inequivocabilmente attraverso almeno una caratteristica osservabile

•UNITÀ STATISTICA = ogni singolo elemento della popolazione

•CAMPIONE = il sottoinsieme della popolazione sul quale si rilevano i dati. Il processo con il

quale si estrae un campione può essere:

1. non probabilistico (campione di esperti; campionamento “a valanga” o “per convenienza”

2. probabilistico

A. campionamento casuale semplice;

B. campionamento stratificato: si usano delle caratteristiche note della popolazione per

suddividerla in strati omogenei all’interno, eterogenei tra loro

C. campionamento a grappoli (cluster): quando la popolazione è naturalmente suddivisa in

gruppo (es. comuni, classi scolastiche), e sono eterogenei all’interno, omogenei tra loro

Campioni più grandi migliorano la precisione delle stime, ma: sono costosi; il guadagno in

precisione per ogni unità aggiuntiva diminuisce al crescere del campione; la dimensione del

campione non dipende da quella della popolazione (se popolazione > 10mila);

Le caratteristiche di un buon campione sono:

•casualità

•rappresentatività: deve rappresentare tutte le caratteristiche della popolazione in proporzione

ridotta, non deve essere distorto (validità, accuratezza)

•numerosità (affidabilità, precisione)

Le fasi di un sondaggio sono:

1. definizione dell’obiettivo

-formula di ricerca

-popolazione

-campione

2. scelta del metodo di contatto

-CAPI (Computer Assisted Personal Interviewing): nessun limite di target, maggiore qualità e

accuratezza, ma tempi e costi alti

-CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): tempi brevi, qualità,

accuratezza e controllo rilevazione

Scopri Sintesi del corso di Statistica Libera università di lingue e comunicazione (IULM)

Documenti correlati

Report mozzarelle DATA ANALYSIS Della Beffa

Data Analysis Della Beffa

DISPENSE DATA ANALYSIS

SINTESI DATA ANALYSIS, IULM

DATA ANALYSIS - appunti lezione integrati con libro, slides, esercizi su software

(3)

data analysis corso della beffa

Appunti Data Analysis Professor. Della Beffa

Appunti Data Analysis primo ciclo primo semestre

Marketing, consumi e comunicazione: Data Analysis dispensa

data analysys per della beffa in iulm

Appunti Data Analysis secondo ciclo primo primo semestre

Parte pratica Data Analysis primo ciclo primo semestre IULM

Anteprima parziale del testo

Scarica Slides Data Analysis e più Sintesi del corso in PDF di Statistica solo su Docsity!

DATA ANALYSIS

SONDAGGI E QUESTIONARI

SURVEY = la rilevazione di^ dati primari^ attraverso interviste strutturate a un campione di soggetti (molto generale; potenzialmente costoso; richiede competenza e rigore nel definire gli obiettivi)
CENSIMENTO = rilevazione su tutta la popolazione
analisi di dati secondari da fonti esterne (ISTAT, Aida)
analisi di dati secondari interni (banche, telefonia, assicurazioni…)
POPOLAZIONE = insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende), deve essere identificata inequivocabilmente attraverso almeno una caratteristica osservabile
UNITÀ STATISTICA = ogni singolo elemento della popolazione
CAMPIONE = il sottoinsieme della popolazione sul quale si rilevano i dati. Il processo con il quale si estrae un campione può essere: 1. non probabilistico (campione di esperti; campionamento “a valanga” o “per convenienza” 2. probabilistico A. campionamento casuale semplice ; B. campionamento stratificato : si usano delle caratteristiche note della popolazione per suddividerla in strati omogenei all’interno, eterogenei tra loro C. campionamento a grappoli (cluster): quando la popolazione è naturalmente suddivisa in gruppo (es. comuni, classi scolastiche), e sono eterogenei all’interno, omogenei tra loro Campioni più grandi migliorano la precisione delle stime, ma: sono costosi; il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione; la dimensione del campione non dipende da quella della popolazione (se popolazione > 10mila); Le caratteristiche di un buon campione sono:
casualità
rappresentatività : deve rappresentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto (validità, accuratezza)
numerosità (affidabilità, precisione) Le fasi di un sondaggio sono:

definizione dell’obiettivo

(^) formula di ricerca
(^) popolazione
(^) campione

scelta del metodo di contatto

(^) CAPI (Computer Assisted Personal Interviewing): nessun limite di target, maggiore qualità e accuratezza, ma tempi e costi alti
(^) CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): tempi brevi, qualità, accuratezza e controllo rilevazione

(^) CAWI (Computer Assisted Web Interviewing): costi contenuti e tempi brevi, ma minore accuratezza, filtro internet e autoselezione

costruzione del questionario: i principi fondamentali per costruire un questionario sono chiarezza , semplicità e brevità (NON inserire domande replicate o con scala invertita)

(^) identificare le informazione di interesse primario e accessorie (cosa chiedere)
(^) stabilire la sequenza logica delle sezioni e delle domande (struttura del questionario)
(^) decidere la forma delle risposte e formulare le domande (come chiedere)

test del questionario
somministrazione del questionario al campione
raccolta dati
analisi
reporting

DATI

Tutte le analisi si basano su matrici di dati unità per variabili

- n righe: le unità statistiche (casi, osservazioni). Ogni unità si può interpretare come un punto nello spazio a k dimensioni - k colonne: le variabili (attributi, feature). Ogni variabile si può interpretare come una dimensione I dati possono essere:

numerici (quantitativi): rappresentano informazioni intrinsecamente numeriche e si può eseguire ogni tipo di calcolo (es. media)
categorici (qualitativi): non si possono eseguire operazioni aritmetiche, ma si possono calcolare frequenze e percentuali

(^) nominali (es. marca): esistono i dati binari (dicotomici) che sono dati nominali che si possono utilizzare come dati numerici in molte analisi (un dato categorico con k categorie, si può trasformare in k dati binari)
(^) ordinali : categorie ordinate, ma distane non uguali (es. istruzione, classifiche e ordinamenti, scale di Likert)

variabili discrete la probabilità è concentrata nei punti (la probabilità in un singolo punto equivale a 0), per le variabili continue la probabilità è l’area sotto la curva (l’area totale sotto la curva equivale a 1). L’area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b : Prob ( a < X < b ). La distribuzione normale ( gaussiana ) è una distribuzione continua caratterizzata da due parametri: la media e la varianza. Le proprietà della distribuzione gaussiana sono:

è simmetrica
forma a campana
probabilità alte vicino al centro, tendenti a 0 nelle code
media=moda=mediana Esempi di distribuzione normale: peso alla nascita, pressione sanguigna, precipitazione annuali a Milano, tempo del percorso casa-ufficio, errori casuali, peso/dimensione di pezzi prodotti da una macchina. Esempi di distribuzione non normale: reddito, dimensione delle aziende italiane, tempi di attesa ad uno sportello, tempo tra due chiamate consecutive ad un call centre, durata di una lampadina, tempo di attesa della metro, probabilità della probabilità. La conoscenza di una distribuzione teorica permette di rispondere a domande come: qual è la probabilità di valori tra a e b? qual è la probabilità di valori maggiori/minori di a? Nei problemi applicativi si cerca di ricondurre la distribuzione campionaria ad una d’istituzione teorica nota. Se la distribuzione ha media 0 e varianza 1 allora è una normale standard. Qualunque variabile casuale normale può essere convertita in una variabile standard mediante l’operazione di standardizzazione.

ANALISI BIVARIATA

Esistono diversi livelli di analisi:

analisi univariata : una variabile alla volta (statistiche descrittive: frequenze, media, varianza…)
analisi bivariata : relazione tra due variabili (numerica+numerica; numerica+categorica; categorica+categorica)
analisi multivariata : k variabili alla volta (modelli statistici, machine learning…)

.

Per le relazione bivariate tra dati numerici, si va a vedere l’andamento relativo di una variabile rispetto all’altra. Se c’è concordanza , a valori elevati di una variabile corrispondono perlopiù valori elevati dell’altra; se c’è discordanza , a valori elevati di una variabile corrispondono perlopiù valori bassi dell’altra. La covarianza con variabili X e Y , se è maggiore di 0 allora esiste una concordanza, se è minore di 0 esiste una discordanza. Si ha una covarianza minima quando Cov ( X;Y ) = 0 (nessuna relazione); si ha una covarianza massima Cov ( X;Y ) = devstd X devstd Y (relazione perfetta, punti allineati). La covarianza dipende dall’ordine di grandezza delle variabili: per eliminare questa dipendenza la si può normalizzare. Il coefficiente di correlazione misura la presenza di relazioni lineari. La correlazione non implica una relazione di causa-effetto: afferma che tra due variabili c’è una relazione sistematica, ma non che una determina l’altra. Interpretazione convenzionale:

tra 0,50 e 1: correlazione forte
tra 0,30 e 0,49: correlazione media
tra 0 e 0,29: correlazione debole (e simmetrica per valori negativi) La relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media. La variabile categorica identifica i gruppi, e si confrontano le medie della variabile numerica nei gruppi. Se le medie nei gruppi sono diverse, allora esiste una relazione; se le medie nei gruppi sono uguali allora non c’è relazione. Correlazione e differenze in media sono relazioni e concetti diversi e indipendenti. Per quanto riguarda la relazione tra due variabili categoriche, esse sono:
indipendenti (nessuna relazione) se la distribuzione di una non dipende dai valori dell’altra. Si analizza con el frequenze congiunte, le quali si rappresentano con tabelle a doppia entrata. Se le due variabili categoriche sono indipendenti: 1. la distribuzione è approssimativamente uguale in tutte le colonne e nella distribuzione marginale (idem per le righe) 2. le frequenze congiunte teoriche dipendono solo dalle marginali freq teorica=(tot riga) x (tot colonna)/ num totale unità 3. le frequenze osservate sono uguali a quelle teoriche

Grafici a barre : rappresentano frequenze o altri indici di variabili categoriche
Grafici a torta e ad anello : mostrano la distribuzione di una variabile categorica (limite: non costano chiaramente le relazioni tra le parti; evitare le versione 3D)
Grafici a linee : mostra la relazione tra variabili numeriche e ordinali

Grafici a dispersione e a bolle : rappresentano due variabili numeriche in un piano cartesiano; le bolle aggiungono una terza dimensione KISS: keep it short and simple

adattare il grafico all’audience
mostrare i valori, usare etichette, titoli, leggenda…
evitare livelli di precisione inutili
per confrontare grafici usare scale e basi di dati coerenti
evitare distorsioni e forzature dei dati Le caratteristiche della data visualization sono:
grafici multipli simultanei combinati in una dashboard
interattività: modifiche ai grafici facili, rapide, reversibili
grafici collegati tra loro: le operazioni fatte su uno si riflettono su tutti

STATISTICA INFERENZIALE

La statistica inferenziale opera su campioni di una popolazione, e il suo obiettivo è estendere alla popolazione i risultati ottenuti sul campione

stime campionarie
test delle ipotesi Lo scopo delle stime campionarie è calcolare un parametro della popolazione (es. media, percentuale, indici vari) e quella che si ottiene dal campione ( statistica campionaria ) è una stima del parametro. La stima varia da campione a campione: è a sua volte una variabile casuale. In tutti i casi di interesse pratico, la distribuzione teorica della statistica campionaria ( distribuzione campionaria ) è nota. La conoscenza delle distribuzioni campionarie è la base della statistica inferenziale. La statistica ha un modo caratteristico di fornire le stime:

la stima puntuale è il valore della statistica campionaria
la stima intervallare ( intervallo di confidenza ) è la stima puntuale ampliata con l’ errore campionario (stima intervallare = stima puntuale +- errore) Conoscere la distribuzione campionaria serve a calcolare l’errore. L’ampiezza

L’ analisi della varianza ( ANOVA ) è un test per verificare la significatività delle differenze tra due o più medie

- variabile categorica (es.marca) che identifica i gruppi (variabile indipendente, fattore, X) - variabile numerica (preferenza) di cui si confrontano le medie (variabile dipendente, risposta, Y) Ipotesi dell’ANOVA: l’analisi verifica se almeno due medie sono diverse, non dice quali sono diverse H0 = tutte le medie sono uguali H1 = almeno due medie sono diverse tra loro Per le ipotesi probabilistiche, le osservazioni devono essere indipendenti (casualità); la variabile numerica deve avere una distribuzione normale e varianza uguale in tutti i gruppi. La statistica test per l’ANOVA si chiama F e ha una distribuzione F con due parametri (gradi di libertà): F= 1 le medie sono uguali, si accetta H0 ; F> >1 le medie sono diverse, si rifiuta H Il p-value è la probabilità di ottenere valori > F : - se il p-value < 0,05 il test è significativo e ci sono differenze statisticamente significative tra le medie - se il p-value > 0,05 il test non è significativo e le differenze tra le medie si possono considerare casuali Nella variabile numerica ci sono due fonti di variabilità:

tra i centri dei gruppi: devianza tra gruppi
all’interno dei gruppi: devianza entro i gruppi Lo schema delle analisi bivariate
- - (^) iangolini neri^ sono^ tutti^ nella^ stessa^ posizione

α è la probabilità di rifiutare H0 quando invece è vera; β è la probabilità di accettare H0 quando in realtà è falsa.

α è scelta dal ricercatore
β dipende da α e H
se α diminuisce β aumenta
per diminuire sia α che β si aumenta la numerosità Cosa succede quando aumenta il volume dei dati?

numerosità → aspetti computazionali: il tempo di elaborazione aumenta linearmente
dimensionalità → complessità del problema: il tempo di elaborazione aumenta più che linearmente, gli algoritmi tradizionali possono non funzionare più, ridondanza informativa e difficoltà di interpretazione L’obiettivo è:

ridurre il numero delle variabili ( preprocessing dei dati per analisi successive), ossia generare delle nuove variabili da aggiungere a quelle originali nella matrice dei dati allo scopo di sostituirle nelle analisi
(^) individuare strutture nelle relazioni tra le variabili (sintesi di valutazioni espresse da intervistati, sintesi di dati secondari e generazione di KPI) Ci sono diverse tecniche di riduzione della dimensionalità: - (^) analisi fattoriale - (^) analisi delle componenti principali

calcolo della matrice di correlazione
estrazione delle componenti principali
rotazione (opzionale)
interpretazione (opzionale)
generazione dei punteggi (opzionale) Matrice dei dati: p variabili xi e n unità; ipotizziamo di lavorare su variabili xi standardizzate ; le relazioni tra le p variabili sono riassunte dalla matrice di correlazione. Lo scopo dell’estrazione della prima componente principale è individuare k componenti yi , con k < p , costruite come somme ponderate delle variabili xi. La prima componente ha la forma: 𝑦1 = 𝑎 1 𝑥1 + 𝑎 2 𝑥2 + + 𝑎𝑝𝑥p. I pesi ai sono calcolati in modo che la varianza di y1 sia massima. Queste condizioni si traducono in un'equazione le cui soluzioni sono gli autovalori λ della matrice di correlazione: la prima componente è identificata dall'autovalore maggiore 𝜆1, e 𝜆1 rappresenta la varianza della prima componente. Per la seconda componente principale 𝑦2 = 𝑏 1 𝑥1 + 𝑏 2 𝑥2 + + 𝑏𝑝𝑥𝑝 si procede allo stesso modo, aggiungendo il

(^) non ci dovrebbero essere variabili overall
(^) le variabili devono presentare correlazione non nulla
numerosità del campione: 10 casi per ogni variabile (minimo 100)

ANALISI PREDITTIVA (MODELLI DI REGRESSIONE)

L’obiettivo dei modelli di regressione è analizzare la relazione tra una o più variabili esplicative (predittori, variabili indipendenti) e una variabile risposta (variabile dipendente). L’idea è che tramite le variabili esplicative si possa approssimare (spiegare) la variabile risposta. In sostanza si cerca una formula che leghi rispettivamente le esplicative e le risposta. Ci sono diversi modelli di regressione, che dipendono:

(^) dal tipo di relazione tra predittori e risposta (es. lineare, non lineare)
(^) dalle caratteristiche delle variabile risposta (es. numerica, binaria) Il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione che le lega è lineare (es. retta, piano). La relazione lineare che lega la risposta y e il predittore x è: y=a+bx , m a per ogni punto c’è una componente di errore e ( residuo ), quindi y=a+bx+e Il calcolo della regressione lineare semplice consiste nella stima dei parametri a e b per i quali i residui sono più piccoli possibile (metodo dei minimi quadrati ). b = coefficiente di regressione , indica di quanto aumenta la variabile risposta ( y ) per un aumento unitario del predittore a = costante Una retta di regressione ottimale rispetto al criterio dei minimi quadrati c'è sempre: per valutarne la qualità si deve misurare la bontà dell’approssimazione attraverso l’indice di determinazione R² R² è la percentuale di varianza della variabile risposta spiegata dal predittore

Nella regressione lineare semplice R² è il quadrato del coefficiente di correlazione tra le variabili. Se due variabili sono perfettamente correlate (r = ±1), i punti sono allineati e l'approssimazione è perfetta ( R² = 1), questo però non dice nulla circa l'inclinazione della retta. Mentre la correlazione misura l’esistenza di una relazione (lineare) tra variabili, la regressione fornisce anche la stima del coefficiente di regressione (b). La regressione lineare multipla è l'estensione della regressione lineare semplice con k variabili esplicative. R² nella regressione multipla misura ancora la bontà dell'approssimazione, come percentuale di varianza spiegata complessivamente dal modello. Il coefficiente di regressione bj rappresenta l'aumento di y per un aumento unitario di xj tenendo fisse le altre variabili. I coefficienti bj misurano il contributo relativo di ogni predittore solo se i predittori:

hanno lo stesso ordine di grandezza : se i non hanno lo stesso ordine di grandezza si possono confrontare i coefficienti standardizzati (beta)
non sono correlati tra loro Se i predittori sono correlati tra loro (cioè se c’è collinearità ) i loro contributi sono in parte sovrapposti. La presenza di predittori correlati è tollerabile entro certi limiti, oltre i quali i coefficienti di regressione diventano instabili: predittori con indici di collinearità inaccettabili (es. VIF > 5) dovrebbero essere esclusi dall’analisi. La significatività dei risultati della regressione si può calcolare quando sono verificate delle assunzioni probabilistiche :

le osservazioni devono essere indipendenti
gli errori devono avere una distribuzione normale
gli errori devono avere varianza costante La bontà dell'approssimazione globale si verifica testando l'ipotesi che non ci sia nessuna relazione tra la y e i predittori. Il test è una ANOVA, la statistica test è F (Prob > F ). Perché il modello sia accettabile bisogna che il p-value sia piccolo ( p-value <0,05). La significatività dei singoli coefficienti di regressione si testa confrontando il bi con zero ( 𝐻0: 𝑏𝑖 = 0) mediante la statistica t. Perché un coefficiente sia significativo bisogna che il p-value sia piccolo (es. p-value < 0,05). Riepilogo: come esaminare i risultati

ANOVA
R²
coefficienti: VIF e test t , standardizzati o no?, segni e valori Con i coefficienti di regressione si può stimare il valore della y in corrispondenza di nuovi valori dei predittori, si può calcolare un intervallo di confidenza della stima (la stima è più precisa vicino ai valori medi delle 𝑥). La regressione lineare multipla:

tutte le variabili devono essere numeriche
la regressione è molto sensibile agli outlier
eseguirla su punteggi fattoriali attenua il problema di outlier e missing ed elimina la collinearità
è possibile usare variabili esplicative binarie
si possono analizzare anche variabili esplicative categoriche trasformandole in variabili dummy
numerosità del campione: da 10 a 20 volte il numero di variabili k (minimo 100)

SEGMENTAZIONE (CLUSTER ANALYSIS)

L’obiettivo della cluster analysis è classificare unità statistiche in gruppi omogenei. L’idea è di generare gruppi di unità:

sulla base di variabili scelte opportunamente
in modo che la variabilità sia minima all’interno dei gruppi e sia massima tra gruppi
senza indicazioni a priori sul gruppo di appartenenza delle unità Per generare gruppi omogenei di unità si utilizza il concetto di prossimità o vicinanza tra unità statistiche (non tra variabili). Occorre misurare la vicinanza tra unità e tra gruppi di unità ( prossimità = similarità ). Distanze più comuni (per variabili numeriche) Distanza tra gruppi di unità (criteri di aggregazione). Come si calcola la distanza tra gruppi di punti?
tra i due punti più vicini
tra i due punti più lontani
media delle distanze a coppie
tra i centrini
metodo di Ward: i gruppi più vicini sono quelli unendo i quali si ha il minimo aumento della varianza interna ai gruppi -

Indici di similarità per variabili binarie Le unità u e v sono rappresentate da 0 (= no, assenza) e 1 (= si, presenza) I valori possono essere riassunti in una tavola di frequenza Indici di similarità principali tutti i valori compresi tra zero (minima similarità) e 1 (massima similarità) Per creare i cluster esistono due tipi di metodo:

- metodo gerarchico (agglomerativo) 1. si parte dalla soluzione con n cluster di una sola unità 2. si aggregano i due cluster più vicini (al primo passo: le due unità più vicine) 3. si procede iterativamente aggregando i due cluster più vicini (ad ogni passo il numero dei cluster diminuisce di 1) 4. l’ultima soluzione è un unico cluster con tutte le unità Con meno cluster le soluzioni sono più semplici da capire e da gestire, con più cluster i raggruppamenti sono più precisi. La lunghezza dei rami rappresenta la distanza tra i due cluster uniti a ogni passo: un "salto" nella sequenza delle distanze suggerisce di scegliere la soluzione prima del salto. L’interpretazione dei cluster (profanazione) consiste nell’esame dei centri dei cluster, ossia le medie delle variabili all’interno di ogni gruppo. L’ideale è ottenere medie molto diverse su tutte le variabili. Quando le unità sono in numero ridotto e sono interpretabili individualmente, l’interpretazione dei cluster è definita anche implicitamente dalle unità che li compongono.

ridondanti, correlate, con forti differenze di scala o di varianza. La cluster non richiede ipotesi sulle variabili, né sulle relazioni tra di esse. Non c’è nessun limite di numerosità. Il preprocessing dei dati

standardizzazione o normalizzazione
analisi fattoriale
- (^) pro: elimina i problemi di scala e di varianza e le correlazioni tra variabili, attenua il problema di dati mancanti e outlier
- contro: trascurando le variabili apparentemente irrilevanti rende più difficile individuare cluster di nicchia Metodi gerarchici e k-means a confronto e consigli per l’uso

Riepilogo: come fare una cluster analysis

scelta delle variabili e pre-processing (rispetto a cosa voglio generare i cluster? analisi fattoriale? standardizzazione?)
scelta del metodo : gerarchico (Ward) o k-means? (quanti cluster?)
controllo della numerosità dei cluster
esame dei centri finali e prima interpretazione
relazione con variabili esterne per arricchire l’interpretazione (ANOVA per variabili numeriche e chi-quadrato per variabili categoriche) 6. mapping : rappresentare le unità (se poche) e colorare per cluster; rappresentare i centri dei cluster (con tante unità)