

















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispensa statistica Del corso della professoressa vanacore
Tipologia: Schemi e mappe concettuali
1 / 25
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


















Questa dispensa è stata costruita integrando in modo organico il materiale dei file caricati per il corso di Statistical Modelling for Business / Statistical Modelling e per la preparazione dell’esame del prof. Pasquale Sarnacchiaro. L’obiettivo non è fornire un riassunto breve, ma un testo di studio esteso, discorsivo e sistematico, utilizzabile come riferimento principale per la preparazione teorica e per l’interpretazione delle tracce d’esame. La struttura segue i nuclei tematici effettivamente presenti nel materiale: ripasso di statistica, regressione lineare multipla in forma classica e matriciale, derivazione degli stimatori OLS, inferenza e diagnostica, regressione logistica, analisi in componenti principali, cluster analysis, e metodo per affrontare gli esercizi dei compiti A e B. Le spiegazioni sono estese, con enfasi sia sulla comprensione concettuale sia sul linguaggio utile per scrivere risposte d’esame complete e rigorose.
Questa dispensa va studiata in due modi diversi. In una prima lettura conviene usarla per costruire la mappa del corso: che cosa studia ogni metodo, quale problema risolve, quali sono le assunzioni, quali output produce e come si interpretano. In una seconda lettura, invece, va usata come testo operativo: occorre saper ripetere le definizioni, ricostruire i passaggi matematici fondamentali e soprattutto commentare output e risultati come richiesto nelle prove scritte. Dal materiale emerge chiaramente che l’esame chiede tre competenze complementari: una competenza teorica breve ma precisa nelle domande da 150 parole; una competenza di interpretazione di output, spesso da regressione lineare o logistica; e una competenza metodologica su PCA e cluster analysis, sia a livello teorico sia a livello di lettura dei risultati.
Una popolazione è l’insieme completo delle unità su cui si vuole trarre una conclusione, mentre il campione è il sottoinsieme osservato e utilizzato per l’analisi. Questa distinzione è il fondamento di tutta l’inferenza statistica, perché nella pratica non si osserva quasi mai l’intera popolazione e si usano invece statistiche campionarie per stimare parametri ignoti della popolazione. Un parametro è una caratteristica numerica della popolazione, come la media , la varianza o la proporzione. Una statistica è invece la corrispondente quantità calcolata sul campione, come la media campionaria , la varianza campionaria o la proporzione campionaria. Le statistiche sono variabili casuali, perché cambiano da campione a campione, mentre i parametri sono numeri fissi, anche se ignoti.
2
2
Questa distinzione è importante per comprendere il senso degli stimatori: uno stimatore è una regola che trasforma i dati campionari in una stima del parametro ignoto. Quando, ad esempio, si usa la media campionaria per stimare la media della popolazione, si sta adottando uno stimatore; quando la si calcola su un campione specifico, si ottiene una stima.
Il ripasso mostra che le variabili possono essere qualitative/categoriali oppure quantitative/numeriche. Le variabili quantitative si distinguono ulteriormente in discrete , se derivano da conteggi, e continue , se derivano da misurazioni. Questa classificazione è essenziale perché i modelli successivi dipendono dal tipo di variabile risposta e dal tipo di regressori utilizzati. Le scale di misura si distinguono in nominale , ordinale , a intervalli e di rapporto. La scala nominale classifica senza ordine; quella ordinale introduce un ordine; la scala a intervalli ha differenze interpretabili ma non uno zero assoluto; la scala di rapporto possiede invece anche uno zero reale. La corretta identificazione della scala guida la scelta delle rappresentazioni grafiche, delle sintesi numeriche e dei modelli appropriati. In sede d’esame questo tema è importante anche per motivare l’uso delle variabili dummy. Quando una variabile qualitativa entra in un modello di regressione lineare multipla, non può essere inserita direttamente come numero senza una codifica; occorre trasformarla in una o più variabili indicatrici, che permettono di incorporare in modo corretto l’informazione
relazione lineare forte, non necessariamente assenza di relazione in senso assoluto. Questo è cruciale in regressione multipla, perché la correlazione tra regressori può generare multicollinearità e quindi aumentare la variabilità degli stimatori.
Il materiale di ripasso insiste sulla nozione di distribuzione campionaria di una statistica. Se si estraessero molti campioni della stessa dimensione dalla stessa popolazione, la statistica calcolata su ciascun campione avrebbe una propria distribuzione. Per la media campionaria, questa distribuzione ha media uguale alla media della popolazione e deviazione standard pari a , cioè l'errore standard della media.
Il teorema del limite centrale afferma che, per campioni sufficientemente grandi, la distribuzione della media campionaria è approssimativamente normale anche quando la popolazione non lo è. Questa idea è uno dei pilastri dell’inferenza e giustifica l’uso di intervalli di confidenza e test anche quando non si conosce perfettamente la distribuzione originaria dei dati, purché il campione sia abbastanza ampio.
Un intervallo di confidenza fornisce un insieme di valori plausibili per un parametro ignoto. La forma generale è: stima puntuale ± valore critico × errore standard. Quando la deviazione standard della popolazione è nota si usa la normale standard; quando è ignota si usa la distribuzione t di Student con i corretti gradi di libertà. La logica dei test di ipotesi è parallela: si formula un’ipotesi nulla, si calcola una statistica test e si valuta quanto il dato osservato sia compatibile con l’ipotesi nulla. Questa logica riapparirà in modo sistematico nella regressione lineare e logistica, dove si testano coefficienti individuali o gruppi di coefficienti tramite test t, test F, likelihood ratio test o test di Wald.
La regressione lineare multipla studia la relazione tra una variabile dipendente quantitativa
condizionatamente ai regressori, sia una combinazione lineare di questi ultimi più un termine casuale. In forma scalare si scrive:
La presenza di più regressori permette di stimare effetti parziali o aggiustati : il coefficiente misura la variazione media di associata a una variazione unitaria di , mantenendo costanti gli altri regressori. Questa interpretazione "a parità delle altre variabili" è il tratto distintivo della regressione multipla e va sempre esplicitata nei commenti d'esame.
Uno degli argomenti più importanti delle tracce è la presentazione del modello in forma matriciale. Il materiale mostra che il modello può essere riscritto come:
qui è il vettore colonna delle osservazioni della variabile dipendente, è la matrice dei regressori che include una prima colonna di 1 per l'intercetta, è il vettore dei parametri ignoti, e è il vettore dei disturbi casuali. La forma matriciale non è un semplice formalismo: serve a scrivere in modo compatto il problema di stima e rende più chiara la derivazione degli stimatori OLS.
Dal materiale risulta anche la lettura dimensionale degli oggetti: se ci sono osservazioni e regressori esclusa l'intercetta, allora ha dimensione , ha dimensione , ha dimensione , e ha dimensione. In sede orale o scritta, saper indicare correttamente queste dimensioni dà un'impressione di padronanza teorica forte.
Il file sulla regressione multipla in forma matriciale richiama le assunzioni essenziali per ottenere buone proprietà delle stime OLS. In particolare, il modello deve essere lineare nei parametri; la matrice deve avere rango pieno, cioè non devono esserci dipendenze lineari perfette tra i regressori; e il termine di errore deve avere media nulla, varianza costante e covarianze nulle tra osservazioni diverse. Nel materiale viene anche richiamata l'ipotesi di normalità degli errori per la costruzione dell'inferenza esatta.
L'assenza di multicollinearità perfetta è cruciale. Se una colonna di fosse combinazione lineare delle altre, allora la matrice sarebbe singolare e non invertibile; di
′ U =^ ERRORE^ =^ E
distribuiti, il che permette di costruire inferenza esatta in campioni finiti. Nelle risposte teoriche conviene specificare la differenza: la correttezza e la proprietà BLUE richiedono le ipotesi classiche; l’uso esatto di t e F richiede anche normalità degli errori.
Nel materiale viene presentato uno stimatore corretto della varianza dell’errore basato sulla somma dei quadrati dei residui. In forma generale:
2
oppure, nella notazione delle slide, con una formulazione equivalente in funzione del numero di regressori e dei gradi di libertà residui. Da qui si ottiene la matrice di varianza-covarianza stimata dei coefficienti e quindi gli errori standard delle singole stime. Gli errori standard misurano l’incertezza della stima: a parità di coefficiente stimato, un errore standard grande riduce il valore assoluto del test t e rende più debole l’evidenza statistica. Questo è il motivo per cui la multicollinearità, pur non introducendo necessariamente distorsione, può compromettere l’inferenza aumentando la variabilità delle stime.
Per verificare se un singolo coefficiente sia significativamente diverso da zero si usa il test t. La statistica si costruisce come rapporto tra coefficiente stimato e proprio errore standard. Se il valore assoluto della statistica è grande e il p-value associato è piccolo, si rigetta l’ipotesi nulla che il coefficiente sia nullo. In sede di commento di output, questo significa che un regressore con p-value basso viene considerato statisticamente rilevante nel modello, mentre un regressore con p-value elevato non fornisce evidenza sufficiente di un effetto diverso da zero, a parità delle altre variabili. Tuttavia, il commento non deve fermarsi alla significatività: bisogna anche discutere segno , intensità e interpretazione economica del coefficiente.
Il materiale sulla multiple linear regression chiarisce bene il ruolo del test F. Questo test serve a verificare la significatività complessiva del modello, cioè l’ipotesi nulla che tutti i coefficienti angolari siano simultaneamente pari a zero. In tal caso il modello con regressori non migliorerebbe l’intercetta sola; se il test F è significativo, almeno un regressore
contribuisce a spiegare la variabilità di (Y). L'ANOVA di regressione scompone la variabilità totale in variabilità spiegata dal modello e variabilità residua. Nelle slide sono presentate le quantità TSS , ESS/SSR e RSS/SSE , insieme alla relazione additiva tra esse. Questa scomposizione è alla base sia del coefficiente di determinazione sia della statistica F.
2
Il coefficiente di determinazione misura la quota di variabilità della risposta spiegata dal modello. Vale
2
2
tra 0 e 1 e aumenta, o almeno non diminuisce, quando si aggiungono regressori. Per questo il materiale richiama anche il R-quadrato corretto o adjusted , che penalizza l'aggiunta di variabili inutili e può quindi diminuire se il nuovo regressore non apporta informazione utile.
2 Nelle interpretazioni d'esame bisogna evitare l'errore di dire che un alto implica automaticamente un buon modello. Un valore elevato può indicare buona capacità esplicativa in-sample, ma non garantisce correttezza delle assunzioni, né assenza di collinearità, né validità causale, né buona previsione out-of-sample. Il modello va sempre valutato insieme a test F, significatività dei coefficienti, residui e coerenza sostanziale.
2
Una traccia del Compito A chiede esplicitamente di illustrare un modello di regressione multipla con una variabile indipendente dummy e di interpretarla. Una dummy è una variabile che assume valore 1 se una certa caratteristica è presente e 0 altrimenti. Inserirla nel modello consente di rappresentare differenze sistematiche tra gruppi. Se il modello è
dove è dummy, allora misura la differenza media attesa nella variabile risposta tra il gruppo con e il gruppo di riferimento con , tenendo costante. Se la dummy rappresenta, per esempio, la partecipazione a un programma, il coefficiente indica quanto differisce in media l'outcome tra partecipanti e non partecipanti, al netto delle altre covariate.
Il punto teorico importante è che la dummy sposta l’intercetta del modello. Se si introducono anche interazioni tra dummy e variabili quantitative, allora non cambia solo l’intercetta ma
significativo”. Occorre invece scrivere frasi complete: ad esempio, “a parità delle altre variabili, un aumento di un’unità in TechIntensity è associato a un incremento medio stimato di 5.1153 unità di Revenue3Y, con effetto altamente significativo”. Una formulazione di questo tipo è molto più matura e vicina al linguaggio atteso in esame.
La regressione logistica viene usata quando la variabile dipendente è dicotomica , cioè assume soltanto due valori, tipicamente 0 e 1. Il materiale chiarisce che in questo caso il modello lineare classico non è appropriato, perché potrebbe produrre valori previsti fuori dall’intervallo [0,1] e perché la varianza della risposta dipende dalla probabilità dell’evento, violando l’ipotesi di omoschedasticità richiesta dalla regressione lineare. La regressione logistica appartiene alla classe dei modelli lineari generalizzati. L’idea è collegare la probabilità dell’evento a una combinazione lineare dei regressori tramite una funzione non lineare adatta a garantire che la probabilità stimata rimanga tra 0 e 1. In problemi di classificazione binaria questa è la costruzione naturale.
Se è una variabile binaria, l'obiettivo è modellare la probabilità condizionata
. Il materiale sottolinea che il passaggio chiave consiste nel considerare non direttamente , ma prima le odds e poi il logit.
Le odds sono definite come:
Esse misurano quanto le probabilità a favore dell’evento siano grandi rispetto a quelle contrarie. Applicando il logaritmo naturale alle odds si ottiene il logit :
Questa trasformazione porta l'intervallo delle probabilità sull'intera retta reale e rende possibile esprimere il logit come funzione lineare dei regressori.
La forma standard del modello logistico è:
Equivalentemente, la probabilità può essere scritta attraverso la funzione logistica:
Il materiale insiste sul fatto che questa è la trasformazione lineare decisiva: il logit rende lineare una relazione che, in termini di probabilità, è intrinsecamente non lineare. Per questo nelle domande teoriche spesso viene chiesto di “concentrarsi sulla funzione logit” o “sull’utilizzo della trasformazione lineare”.
A differenza della regressione lineare, in logistica non si usa OLS. Il materiale spiega che i coefficienti si stimano tramite massima verosimiglianza. Si costruisce una funzione di verosimiglianza che esprime la probabilità di osservare il campione in esame, data una certa scelta dei parametri, e si scelgono i coefficienti che massimizzano tale funzione. La risoluzione non avviene in forma chiusa semplice ma mediante metodi numerici iterativi. Il punto concettuale importante, in sede d'esame, è spiegare perché non si usano i minimi quadrati: la risposta binaria e la dipendenza della varianza da rendono il quadro incompatibile con le ipotesi OLS; la massima verosimiglianza è il metodo naturale per questo tipo di modello.
Uno dei punti più delicati è l'interpretazione dei coefficienti logistici. Il coefficiente rappresenta la variazione del logit associata a un aumento unitario di , a parità delle altre variabili. Questa però non è sempre l'interpretazione più intuitiva. Per questo il materiale suggerisce di passare all'esponenziale del coefficiente, , che rappresenta l'effetto moltiplicativo sulle odds per un aumento unitario di.
βj
Se , l'aumento di incrementa le odds dell'evento; se , le riduce. In un commento d'esame conviene esplicitare entrambe le letture: "il coefficiente positivo aumenta il logit; in termini di odds ratio, l'effetto moltiplica le odds dell'evento per , a parità delle altre variabili". Questa doppia interpretazione mostra padronanza metodologica.
βj
βj EBo t
Il test di Hosmer-Lemeshow è esplicitamente richiamato come uno degli strumenti più usati per la bontà di adattamento nella regressione logistica. Il test ordina le osservazioni in base alle probabilità predette, le divide in gruppi di dimensioni simili e confronta, per ciascun gruppo, eventi osservati ed eventi attesi. Se le differenze non sono grandi, il modello è considerato compatibile con i dati.[file:10] L’interpretazione corretta è spesso controintuitiva per gli studenti: un p-value alto del test di Hosmer-Lemeshow non è un problema, ma anzi suggerisce che non c’è evidenza sufficiente per rigettare l’adeguatezza del modello. Viceversa, un p-value basso segnala cattivo adattamento. Questo punto compare direttamente nei temi teorici dei compiti caricati.
Il materiale sottolinea che la regressione logistica richiede meno assunzioni della regressione lineare per quanto riguarda normalità e omoschedasticità della dipendente, ma richiede comunque alcune condizioni cruciali: indipendenza delle osservazioni, corretta specificazione del modello, linearità tra regressori e logit, assenza di eccessiva multicollinearità e controllo delle osservazioni influenti. Tra gli strumenti diagnostici compaiono la verifica della multicollinearità, l’analisi delle osservazioni influenti tramite dfbetas , e il controllo della corretta forma della funzione di link. Le slide ricordano anche che, se si includono predittori quadratici e questi risultano significativi, ciò può suggerire una funzione di link mal specificata o una forma funzionale non adeguata.
Le slide spiegano che la multicollinearità aumenta la varianza degli stimatori anche nella regressione logistica. Questo non implica automaticamente bias, ma rende più instabili le stime, dilata gli errori standard e complica la significatività dei coefficienti. Come strumenti diagnostici vengono citati condition indices e variance decomposition proportions , adattati anche al caso logistico. In sede di commento di output, l’idea da esplicitare è che la non significatività di un coefficiente non implica necessariamente assenza di relazione sostanziale: potrebbe dipendere anche da forte correlazione con altri regressori. Per questo l’interpretazione dei modelli non deve mai essere ridotta a una lettura meccanica dei soli p-value.
Nella regressione logistica, come in quella lineare, alcune osservazioni possono esercitare una leva eccessiva sulle stime. Il materiale richiama i dfbetas , che misurano quanto cambiano i coefficienti stimati se una certa osservazione viene rimossa dal campione. Valori molto elevati possono segnalare osservazioni influenti. Anche qui il punto d’esame è sottile: individuare un’osservazione influente non implica automaticamente eliminarla. Potrebbe trattarsi di un errore di misura, ma potrebbe anche essere un’osservazione autentica e informativa del fenomeno. La diagnostica deve quindi guidare una valutazione critica, non una cancellazione automatica.
Dai compiti A e B si ricavano alcune forme ricorrenti di domanda teorica sulla regressione logistica: definire il modello e spiegare perché si usa con una Y dicotomica; concentrarsi sulla funzione logit e sulla trasformazione lineare; spiegare i principali indici di bontà di adattamento, soprattutto devianza e Hosmer- Lemeshow; presentare l’interpretazione dei coefficienti in termini di logit e odds ratio. Una risposta efficace in 150 parole deve avere tre blocchi: 1) che cos’è e perché non basta la regressione lineare; 2) formula del logit e significato della trasformazione; 3) uno o due elementi di interpretazione o valutazione del modello, a seconda della domanda. Questa struttura è pienamente coerente con il materiale fornito.
L’ analisi in componenti principali (ACP o PCA) è presentata come tecnica statistica descrittiva di riduzione della dimensionalità. Quando si hanno molte variabili quantitative fortemente correlate, la PCA consente di sostituirle con un numero più piccolo di nuove variabili, dette componenti principali, che sono combinazioni lineari delle variabili originarie, non correlate tra loro e ordinate per quantità di variabilità spiegata.
componenti. Se è la matrice di varianza-covarianza, si risolve dove è l'autovalore e l'autovettore corrispondente. Il primo autovettore è associato al più grande autovalore; il secondo al secondo autovalore; e così via.
Da un punto di vista interpretativo, l’autovettore fornisce i coefficienti della combinazione lineare che definisce la componente principale, mentre l’autovalore misura quanta informazione, in termini di variabilità, quella componente cattura. Questo collegamento tra ottimizzazione, combinazioni lineari e decomposizione spettrale è il cuore teorico della PCA.
Una componente principale è quindi una variabile di sintesi , costruita come combinazione lineare delle variabili originali. Le componenti sono non correlate fra loro e ordinate per potere esplicativo decrescente. La prima componente cattura la massima variabilità possibile; la seconda cattura la massima variabilità residua compatibile con l’ortogonalità rispetto alla prima; e così via.[file:14] Nelle risposte teoriche conviene sottolineare che la PCA non elimina le variabili in senso stretto, ma le ricodifica in un nuovo sistema di riferimento. In pratica, si passa da variabili originali spesso correlate a poche componenti sintetiche indipendenti tra loro, più facili da interpretare e da usare come base per analisi successive.
Uno dei temi d’esame più ricorrenti riguarda i criteri per scegliere quante componenti mantenere. Dai file teorici e dai compiti emergono chiaramente i principali criteri: Percentuale di varianza spiegata o tasso d'inerzia: si mantengono le
p i
k i
componenti che spiegano una quota ritenuta sufficiente della variabilità totale. Criterio di Kaiser o eigenvalue-one: se si lavora su variabili standardizzate, si conservano le componenti con autovalore maggiore di 1. Scree test : si osserva l’istogramma o grafico degli autovalori e si individua il punto in cui la discesa si regolarizza, il cosiddetto “gomito”. È utile aggiungere che nessun criterio è assoluto. La scelta finale è sempre in parte sostanziale e interpretativa: bisogna considerare quanta variabilità si vuole conservare, quanto sono interpretabili le componenti e quale scopo ha l’analisi.
Nel materiale applicativo compaiono le coordinate delle variabili , le correlazioni variabili- fattori e il cerchio delle correlazioni. Quando i dati sono standardizzati, le coordinate delle variabili sui fattori coincidono con le correlazioni tra variabili originali e componenti principali. Questo rende il grafico fattoriale delle variabili uno strumento interpretativo potentissimo. Se due variabili sono vicine nel piano fattoriale e orientate nella stessa direzione, sono positivamente correlate; se sono opposte, sono negativamente correlate; se formano un angolo vicino a 90 gradi, risultano circa incorrelate. Più una variabile è vicina alla circonferenza, meglio è rappresentata sul piano considerato.
L’altra rappresentazione fondamentale è il piano fattoriale degli individui. Qui ogni punto rappresenta un’unità statistica proiettata sulle prime componenti principali. La posizione relativa degli individui permette di individuare somiglianze, differenze, gruppi e profili estremi. Un individuo lontano dall’origine ha coordinate fattoriali marcate e contribuisce maggiormente alla definizione del piano. La lettura corretta richiede prudenza: il piano fattoriale è una proiezione e quindi non conserva perfettamente tutte le distanze originali. Tuttavia, quando la quota di varianza spiegata dalle prime due componenti è elevata, la rappresentazione è molto informativa. Nei compiti viene richiesto esplicitamente di saper spiegare queste due rappresentazioni fattoriali e il loro uso interpretativo.
Le slide applicative introducono anche i contributi assoluti e i coseni quadrati. I contributi assoluti indicano quanto una variabile o un individuo partecipa alla formazione di un asse fattoriale. I coseni quadrati misurano invece la qualità della rappresentazione di un punto sul piano o sull’asse: valori vicini a 1 indicano che il punto è ben rappresentato, valori bassi indicano una rappresentazione più povera. Questi indicatori sono importanti soprattutto quando si commentano output software. Non basta guardare la posizione di una variabile o di un individuo sul piano; bisogna verificare anche se quella proiezione è affidabile, cioè se la qualità della rappresentazione è sufficientemente buona. Questo rende il commento molto più rigoroso.
una regola di classificazione o algoritmo di aggregazione; criteri per valutare la qualità della classificazione. Questo schema è prezioso in esame perché consente di organizzare la risposta in modo ordinato. Prima si dice che cosa si vuole classificare; poi si spiega come si misurano somiglianze o differenze; infine si descrive il criterio con cui si formano i gruppi e come si decide il numero finale di cluster.
Per dati quantitativi, il materiale richiama diverse distanze, tra cui la distanza di Minkowski e i suoi casi particolari: euclidea , Manhattan e Chebyshev. Per dati eterogenei viene menzionata la distanza di Gower; per dati binari compaiono coefficienti come il simple matching coefficient e l’indice di Jaccard. La scelta della distanza è cruciale perché determina il concetto stesso di somiglianza. In applicazioni con variabili quantitative su scale diverse, spesso è necessario standardizzare i dati prima di calcolare le distanze, altrimenti una variabile con scala ampia può dominare le altre. Questo collegamento con la standardizzazione è molto simile a quanto visto nella PCA.
Il file sulla cluster analysis si concentra sui metodi gerarchici agglomerativi. La procedura parte da cluster singoli, uno per ogni unità, e a ogni passo aggrega i due cluster più vicini, aggiornando poi la matrice delle distanze fino a ottenere un unico cluster contenente tutte le unità. Il risultato è una gerarchia di partizioni e una rappresentazione tramite dendrogramma.
Le fasi descritte nelle slide sono molto chiare: si parte dalla matrice delle distanze, si individuano gli elementi più vicini, li si aggrega, si ricalcolano le distanze tra il nuovo cluster e quelli restanti secondo un certo criterio, e si ripete fino alla fine. È importante insistere sul fatto che il criterio di aggiornamento delle distanze è ciò che distingue i diversi metodi gerarchici.
Tra i criteri di collegamento riportati vi sono: legame semplice (single linkage), che usa la minima distanza tra elementi dei due gruppi;
legame completo (complete linkage), che usa la massima distanza tra elementi dei due gruppi; legame medio (average linkage), che usa la distanza media; metodo di Ward , che aggrega i gruppi minimizzando l’aumento di variabilità intraclasse. Questi metodi producono dendrogrammi anche molto diversi. Il metodo di Ward è spesso apprezzato perché tende a costruire cluster compatti e di forma relativamente bilanciata, mentre il legame semplice può soffrire del fenomeno del chaining, creando cluster allungati e poco omogenei. Anche se non tutto questo è esplicitato in dettaglio nelle slide, la logica generale è coerente con il materiale presentato sui criteri di aggregazione.
Il dendrogramma è la rappresentazione grafica della gerarchia di aggregazione. Sull’asse verticale si leggono i livelli di distanza o dissimilarità ai quali i cluster vengono fusi. Tagliando il dendrogramma a una certa altezza si ottiene una partizione con un certo numero di gruppi. In sede d’esame è utile dire che il dendrogramma non è solo un grafico descrittivo: è uno strumento decisionale. Aiuta a individuare a quale livello l’aggregazione comincia a unire gruppi troppo diversi e quindi suggerisce un possibile numero ragionevole di cluster.
Il materiale menziona diversi criteri per scegliere la partizione: il tasso d’inerzia ; il criterio di Calinski-Harabasz ; il criterio di Beale. L’idea generale è selezionare il numero di gruppi che realizza il miglior compromesso tra omogeneità interna e separazione esterna. In pratica, si cerca una partizione in cui l’informazione aggiunta passando a un numero maggiore di cluster non sia più sufficientemente rilevante. Anche qui la scelta non è mai puramente automatica: il supporto grafico e l’interpretabilità sostanziale restano fondamentali.
Un punto molto importante del materiale è l’esempio di cluster sulle componenti principali ,