















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
I concetti base dell'analisi di dati, inclusi singole istanze, proprietà individuali, disponibilità di dati, analisi statistica e qualità dei dati. Viene inoltre introdotto il concetto di Boxplot per la visualizzazione e riassunto dei principali caratteristiche numeriche e come sono distribuiti, nonché Principal Component Analysis (PCA) per trovare una proiezione dei dati in un sottospazio lineare che conserva la maggior parte della varianza originale. Il documento include anche spiegazioni su normalizzazione dei dati, distanza dei dati e algoritmi di raggruppamento dei dati.
Tipologia: Schemi e mappe concettuali
1 / 23
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
















Lezione 1 - 2 – Introduzione e Analisi introduttiva
Oggi enormi quantità di dati vengono raccolte e allocate con poco sforzo e con costi bassi.
I dati da soli non possono essere utilizzati così come sono per ottenere informazioni.
I dati sono una grande collezione di piccoli pezzi di informazioni.
Il cervello ha difficoltà a identificare i “pattern” tra una vasta collezione di dati.
La conoscenza sintetizza tutte le informazioni provenienti dai dati in un modello e permette
di indicarne il comportamento e fare predizioni circa il loro andamento.
Il DATO non è abbastanza per fare previsioni. Descrive:
● Una singola istanza (Singolo oggetto, persone, eventi in una determinata linea temporale)
● Una proprietà individuale
● C’è una vasta disponibilità dello stesso (Database, archivi, set di dati)
● Sono spesso semplici da collezionare od ottenere
● Non ci permettono di fare previsioni (Non è abbastanza da solo)
La CONOSCENZA invece:
● È una classe di istanze (Set di oggetti, persone, eventi, punti nel tempo…)
● Descrizive pattern generali, strutture, leggi, principi…
● Spesso è difficile e dispendiosa, in termini di tempo, da trovare
● Permette di fare predizioni e previsioni
Nell’Analisi assumiamo e sviluppiamo tecniche statistiche computazionali assistite per
semplificatre o automatizzare l’analisi. Un buon punto d'inizio è l'analisi statistica dei dati:
Statistica descrittiva: Riassume dati senza fare specifiche ipotesi.
Statistica induttiva: Si manipola il processo di generazione dei dati con metodi rigorosi di
ipotesi. Le conclusioni sono valide se quest'ipotesi sono soddisfatte.
Nello studio sperimentale manipoliamo il processo di generazione del dato per uno scopo.
Si applica il test d’ipotesi: Faccio ipotesi e controllo che il dato sia coerente.
Nello studio di osservazione non possiamo controllare il processo di generazione del dato:
Il dato viene reso disponibile, così com’è, per il nostro studio.
In contrasto col test delle ipotesi c’è Analisi esplorativa dei dati (EDA): riguarda la
generazione di ipotesi (Da verificare) dal dato raccolto. Noi analizziamo il dato da diversi
punti di vista per generare alcuna ipotesi.
Ogni osservazione è descritta come set di attributi, il Domino degli attributi è il set di valori
possibili per l’attributo, i tipi di Dominio sono:
● Nominale (o Categorico), il dominio è un set di valori finito (Corretto/Sbagliato)
● Ordinale, il dominio è un set finito con una gerarchia di molti domini raffinati (Cibi->Carne)
● Numerica, il dominio è un set infinito di intervalli, rapporti o scale assolute (Numeri)
● Dominio Dinamico
La precisione sintattica è definita come vicinanza dei valori del dato a un set di valori
definiti nel suo dominio considerato corretto dal punto di vista sintattico.
Es. Per un attributo categorico che ammette TRUE e FALSE, “FLSE” viola la precisione
sintattica, o gli attributi numerici come il peso ammetteranno valori positivi.
La precisione semantica, utilizziamo un Es. Se l’attributo “sesso” ha valore “femmina”
per l’insegnante “Daniele Tessera”, questa non è questione di precisione sintattica,
“femmina” è un possibile valore dell’attributo “sesso” ma è un valore sbagliato.
Scoprire problemi di precisione sintattica in un set di dati è un compito semplice.
La verifica della precisione semantica è molto più difficile o spesso impossibile.
nelle misure possono portare alla riduzione della precisione per gli attributi numerici:
PRINCIPIO GIGO (GARBAGE IN – OUT): Con un input corretto otterrò output corretto.
Spesso la disponibilità dei set di dati è parziale oppure l’osservazione del set di dati
non è proporzionale alla “popolazione” del dato (Dato non bilanciato)
informazioni non rappresentative per le predizioni sul futuro del dato.
L’obbiettivo principale della comprensione dei dati è ottenere approfondimenti generali dei
dati che saranno utili per ulteriori step nel processo di analisi dei dati.
La comprensione dovrebbe puntare ad esplorare il dato con punto di vista neutrale.
È un tipo di tabella in formato matriciale che mostra la
(multi-variabile) ripartizione della frequenza delle variabili.
Sono termini statistici con ruolo simile nel capire la tendenza
principale di un set di dati statistici.
La media è la misura della metà in un campione di valori,
è influenzata da ogni valore troppo grande o troppo piccolo in
confronto al campione di valori (Sensibile ai valori anomali).
La mediana è la media tra i valori nella posizione n/2 e n/2 +.
È considerata una migliore misura della media.
Lezione 3 – Misure di Correlazione
Calcolano misure di correlazione tra attributi per confermare legami o scoprirne inaspettati.
Uno di questi è il coefficiente di correlazione Pearson, che misura la relazione lineare tra
due attributi numerici X e Y. Il valore è e più è grande il valore assoluto più è
forte la relazione lineare tra i due attributi: Per |r X,Y
| = 1, x
i
e y
i
sono su uguali.
Pearson si usa se le variabili hanno Distribuzione Normale ***** (Funzione e Relazione Lineare) e
sono variabili quantitative (Metodo parametrico). Se una di queste ipotesi non è verificata è
necessario un test non parametrico (O Correlazioni di Rango)
Distribuzione Normale ***** : Approssimare valori casuali a reali che tendono a un valore medio.
I coefficienti di correlazione del rango ignorano i valori degli attributi e considerano solo la
posizione dei valori (La posizione): Misurano correlazioni monotone tra attributi in cui la
loro funzione non è lineare (Metodi non parametrici).
Dato , sia X’ l’insieme ordinato di X:.
Il rango della funzione r(x) ritorna la posizione di x i
in X’.
Esempio: X = { 2, 0, 8, 6, 4, 10}, allora r(8) = 3.
Misura il grado di relazione tra due variabili, l’unica ipotesi è che siano ordinabili e continue.
Utilizza la stessa formula della di Pearson applicandola ai ranghi delle variabili:
Ai basa sulle deviazioni dei dati dai valori medi delle variabili.
Il coefficiente del rango di correlazione di Spearman misura la somma delle distanze
quadratiche dei ranghi e la bilancia nell’intervallo [-1, 1]: Per il ϼ di Spearman se 2 o più
valori sono uguali il loro rango non è definito, I valori devono essere unici.
Il coefficiente di Kendall è basato sul confronto degli ordini delle coppie dei valori.
È una misura statistica per misurare l’associazione ordinale tra due quantità misurate.
Si divodno le coppie in due insiemi C e D di coppie concordanti e discordanti.
E si calcola il coefficiente con la formula:
Pearson, Spearman e Kendall controllano se due attributi numerici sono indipendenti.
Non sono calcolabili negli attributi categorici.
2
(Chi-Quadrato)
La correlazione negli attributi categorici si attua studiando una distribuzione indipendente.
Una di queste è il test X
2
che si usa con gli attributi nominali/categorici per decidere
se rifiutare o no l’ipotesi nulla. Verifica se le frequenze osservate si adattano alle teoriche.
Frequenza Osservata è la frequenza dei dati,
Frequenza Prevista è quella se l’ipotesi è corretta.
Il valore critico c è determinato scegliendo il livello significativo
da una distribuzione X
2
in base ai gradi di libertà.
Se il valore di X
2
supera il valore critico bisogna rifiutare l’ipotesi
nulla perchè c’è troppa dipendenza tra i dati.
Gradi di libertà : Numero di valori nel calcolo finale di una statistica che sono liberi di variare.
Il valore p (O valore di probabilità ; detto p - value ) è la
probabilità di osservare risultati uguali quelli osservati durante il
test (Risultati Ipotizzati), supposta vera
l'ipotesi nulla : L'affermazione per cui non ci sia relazione tra
due fenomeni misurati.
Il valore p aiuta a capire se la differenza tra il risultato osservato e ipotizzato è data dalla
casualità dal campionamento o se la differenza è statisticamente significativa per l’analisi.
La probabilità di osservare un risultato dato alcune ipotesi vere non è equivalente alla
probabilità che un’ipotesi sia vera dati alcuni risultati presi in considerazione.
Accettare le ipotesi significa non trovare nei tuoi dati abbastanza evidenza sperimentale per
poterle rifiutare (Il Rifiuto delle ipotesi è un test più robusto)
La rappresentazione costruita dallo MDS mira a preservare le distanze tra i punti dei dati e
non la varianza nel set di dati ( PCA ). Posiziona solo i punti dei dati nello spazio a bassa
dimensione. Per questo è utilizzato principalmente per scopi di visualizzazione: I dati
originali ad alta dimensione sono rappresentati da punti in due (a volte tre) dimensioni.
Di solito è impossibile preservare le distanze esattamente nel sottospazio bidimensionale.
La distanza dovrebbe deviare il meno possibile dalle distanze originali, la Computazione
dell’errore nella proiezione dei dati è 𝐸
0
𝑛
𝑖= 1
𝑛
𝑗=𝑖+ 1
𝑖,𝑗
𝑋
𝑖,𝑗
𝑌
2
dove:
𝑖,𝑗
𝑋
è la distanza nello spazio originale e 𝑑
𝑖,𝑗
𝑌
distanza nello spazio ridotto.
I Diagrammi di visualizzazione rappresentano grandi numeri di dati multidimensionali.
Le coordinate parallele disegnano gli assi delle coordinate paralleli tra loro, in modo che
non ci siano limiti al numero di assi da visualizzare con l’obbiettivo di trovare i pattern.
I grafici radar si basano su un'idea simile alle coordinate parallele, la differenza che gli assi
delle coordinate non sono linee ma a forma di stella che si intersecano in un punto.
Riassumendo:
perché le considerazioni devono essere fatte all’interno dello spazio originale.
Se ho dati che si comportano allo stesso modo vuol dire che all’interno della
rappresentazione (Nello spazio dei dati) ho gruppi di punti che sono chiamati Cluster.
Lezione 5 - Cluster
E’ l’approccio più usato per trovare pattern (Schemi ricorrenti) nei dati.
Trovare i pattern vuol dire riassumere, descrivere, esplorare il set di dati.
L’Analisi dei Cluster (o Clustering) consiste nel trovare gruppi di osservazioni simili che
possono essere naturalmente separati da altre osservazioni dissimili.
Per eseguire una analisi con i Cluster, bisogna trovare gruppi stabili di cluster.
Gruppi stabili vuol dire che una minore variazione nei dati (Del rumore) non dovrebbe
portare a una suddivisione completamente diversa (Risultati diversi).
Ci sono algoritmi basati sulla costellazione dei dati (Compattezza dei Cluster) come:
Crea una gerarchia ad albero per tutti i dati che possono essere ispezionati visivamente.
Considera le osservazioni come Cluster individuali e li unisce tutti in base alla loro diversità,
fino ad un cluster che le racchiude tutte.
Questa tecnica è fattibile solo per piccoli set di dati ma fornisce una buona panoramica.
Il termine “Agglomerativo” indica che questo tipo di clustering opera dal basso verso l'alto,
per prima cosa si calcola quanto sono vicine le osservazioni con la metrica di dissomigianza
o distanza calcolando tutte le distanze a coppie e costruendo una serie di partizioni :
Una partizione è un insieme di Cluster, l’unione delle partizioni porta al set di dati originale.
Ogni Partizione è disgiunta dalle altre e non ci sono patizioni vuote.
Data una distanza 𝛿, definiamo i cluster richiedendo che ogni record 𝑥,𝑦 debba appartenere
allo stesso cluster 𝐶 se sono più vicini tra loro di 𝛿: Con diversi 𝛿 risultano partizioni diverse.
La scelta di 𝛿 deve dare cluster stabili e robusti , nel senso che una soglia leggermente
modificata non dovrebbe portare a cluster completamente diversi.
L'evoluzione delle partizioni (Al crescere di 𝛿) è riassunta in un'unica gerarchia chiamata
dendogramma, che dice il numero ottimale di cluster.
Il dendogramma è più stabile usando i compenenti principali della PCA.
Dati 2 cluster di dati la distanza tra i 2 indica la stabilità : E’ la distanza per cambiare Cluster.
Ci sono diverse distanze alternative per far fronte al rumore e alla stabilità:
● Collegamento singolo: La minima distanza tra gli elementi di 2 cluster
● Collegamento completo: La massima ditanza tra gli elementi di 2 cluster
● Collegamento medio: La distanza media tra tutti gli elementi
● Reparti: Calcola la funzione di errore tra la distanza nei cluster e la distanza tra i cluster.
Per esprimere i Cluster con una osservazion si usa il centro geometrico (O Baricentro),
Oppure il metroide ossia l’osservazione più vicina alla centro geometrico.
N.B: Il centro geometrico non è un’osservazione, è la media di tutto.
La Gaussian Mixture Decomposition è una generalizzazione del Clustering K-Means.
Si stima un modello probabilistico per cui un Cluster segue una distribuzione gaussiana
multivariata con parametri della distribuzione la media 𝜇 e la varianza 𝜎 del Cluster.
I dati seguono la multivariata distribuzione Gaussiana per ipotesi iniziale:
Dobbiamo verificare se i dati sono distribuiti secondo l’ipotesi.
Per fare ciò l’obbiettivo è trovare un’ottima partizione dei dati massimizzando la funzione di
massima verosimiglianza: Un procedimento matematico per identificare uno stimatore,
cioè una funzione che ad ogni campione associa un valore del parametro da stimare,
definito in base alla probabilità di osservare una data realizzazione nei campioni.
Il valore assunto dallo stimatore in corrispondenza a un particolare campione è detto stima.
N.B: La distribuzione gaussiana è unimodale (Ha solo un massimo), per questo ogni Cluster
rappresenta un singolo picco di densità complessiva dei dati:
La densità complessiva è una somma di distribuzioni gaussiane.
Multivariata: Ogni osservazione è descritta in termine di tutti gli attributi.
L'idea di fondo è quella di smussare l'appartenenza ai Cluster usando la Fuzzy Logic:
Con 𝑝
𝑖𝑗
∈ [ 0 , 1 ] abbiamo una appartenenza graduale che consente di distinguere i dati vicini
al prototipo (Molto tipici per il Cluster) dai dati lontani.
Un elemento appartiene ad un cluster con un grado di probabilità 𝑝
𝑖,𝑗
detto
Grado di appartenenza (Che tiene conto anche della Distanza rispetto agli altri Cluser).
Un elemento può appartenere a più Cluster con probabilità diverse: Somma Probabilità = 1.
La funzione obiettivo Fuzzy C-Means è una distanza 𝐽 𝐹𝑐𝑀
𝑐
𝑖= 1
𝑛
𝑗= 1
𝑖,𝑗
2
𝑗
𝑖
2
con 𝑝
𝑖,𝑗
2
che è il Fuzzifier per considerare i gradi di appartenenza come probabilità.
L’approzzio C-Means è per casi con un Cluster che ha il grado di appartenenza più grande.
La somma di ogni grado di appartenenza (Vista come probabilità) è 1.
Questa interpretazione richiede ipotesi per i dati affetti da rumore, variabili casuali e
anomali perchè da una formulazione statistica per il problema.
Forendo una buona inizializzazione, gli algoritmi di Clustering su modello o prototipi sono
più veloci del Clustering gerarchico, entrambi hanno bisogno del numero di Cluster a priori.
Per valutare il numero di cluster abbiamo diversi approcci:
Top-down, clustering divisivo: Inizia con un numero relativamente piccolo di Cluster e
divide i Cluster nel caso in cui non si adatti bene ai dati associati.
Bottom-up, cluster agglomerativo: Sopravvalutare il n° di cluster e unire i simili
Gamma completa: Eseguire una serie di n di cluster e valutare (Validare) ogni partizione.
MISURE DI VALIDITÀ LOCALE e GLOBALE
Le misure di validità locale valutano la bontà di un singolo cluster attraverso:
● La Densità dei dati nel Cluster e La Distribuzione dei gradi di appartenenza (C-Means(
● Il Coefficiente di sagoma del cluster 𝐶 definito come la media dei coefficienti di sagoma:
Esso tiene conto della distanza media di un valore dai valori dello stesso Cluster e la
distanza media dai membri del Cluster più vicino. Si elabora questa metrica per ogni
Cluster, e poi si confronta la metrica di ogni Cluster con partizioni con n° diversi di Cluster.
Per valutare i Cluster in modo complessivo una delle misure è l'AIC (Akaike Information
Criterion): Un metodo per la valutazione/confronto tra modelli statistici.
INDICE DI SEPARAZIONE : L'indice di separazione identifica cluster compatti e ben separati.
Tutti gli approcci non riescono a trovare il numero di Cluster se:
Rumore e valori anomali potrebbero ridurre la capacità degli algoritmi di identificare
modelli di dati. Il rumore è un dato sparso distribuito uniformemente nello spazio dati.
Una estensione del clustering Fuzzy C-Means è il Clustering del rumore:
Il cluster di rumore ha una distanza fissa (𝑑
𝑛𝑜𝑖𝑠𝑒
) da qualsiasi punto nei dati.
Non appena la distanza di alcuni dati dal prototipo più vicino 𝑝
𝑖
è vicino a 𝑑
𝑛𝑜𝑖𝑠𝑒
il Cluster
del rumore guadagna una frazione considerevole del grado di appartenenza totale
riducendo così l'influenza di 𝒙 rispetto a 𝑝
𝑖
Il coefficiente di somiglianza di Jaccard, dati 𝐴 e 𝐵 insiemi di più di un attributo nominale,
indica la somiglianza tra insiemi finiti: Da 0 (Nulla) a 1 (Tutti) in comune come possibilità.
La distanza di Jaccard misura la dissomiglianza tra insiemi.
Le Metriche di dissomiglianza (Isotropiche) per gli attributi numerici sono:
𝑛
𝑖= 1
𝑖
𝑖
2
(Es. Distanza tra 2 punti)
𝑛
𝑖= 1
𝑖
𝑖
𝑝
1
𝑝
è la formula generale:
Se p è 2 è il Euclidean se p è 1 è il Manhattan.
𝐿
1
𝑛
𝑖= 1
𝑖
𝑖
| (Es. Distanza tra punti 1 dimensione)
𝐿
∞
𝑖= 1
𝑛
𝑖
𝑖
|} è una distanza su spazi vettoriali tale per cui
la distanza tra due vettori è il valore massimo della loro differenza lungo gli assi.
𝐶
𝑥
𝑇
𝑦
‖𝑥‖ ‖𝑦‖
con il coseno trigonometrico dell’angolo tra i vettori.
La soglia di densità nell’algoritmo è codificata da due parametri:
● Il raggio 𝜖 del quartiere (Ipersferico)
● Il numero "MinPts" di oggetti dati necessari nel vicinato per considerarlo denso.
La Densità effettiva di una posizione indica quanti punti verranno inclusi nel Cluster:
Per tutti i dati nel 𝜖-quartiere si controlla se soddisfano la soglia di densità.
Se è così, appartengono anche al Core del Cluster (E sono chiamati Core-Points).
Tutti i Core Point che si sovrappongono si uniscono.
𝜖 e 𝑀𝑖𝑛𝑃𝑡𝑠 per un raggruppamento ottimale seguono dalla Regola del pollice:
● 𝑀𝑖𝑛𝑃𝑡𝑠 = 2*m-1 dove m è la dimensione
● 𝜖 viene derivato ispezionando visivamente il grafico della distanza "𝑀𝑖𝑛𝑃𝑡𝑠"
Uno dei problemi con questi tipi di approcci per densità è che abbiamo molti dati rumore.
Il cluster rumore conterà il più delle informazioni e il DBScan identificherà molte poche
regioni con una limitata percentuale di dati.
Lezione 7 – Mining pattern frequenti e regole di associazioni
Mappe auto-organizzanti : Organizzano tutte le osservazioni in una mappa bidimensionale
in cui i record simili sono posizionati vicini tra loro in modo da esplorare osservazioni simili
ad alcune selezionate esaminando i suoi vicini. Le mappe auto-organizzanti
non sono intese come tecniche di Clustering ma possono fornire approfondimenti simili.
I nvece di raggruppare osservazioni simili, potremmo voler scoprire interdipendenze tra i
singoli attributi che spesso si verificano.
L'esistenza di alcune caratteristiche aumenta la probabilità di altre.
Questo si fa con le Regole di Associazione o Mining di patter frequenti.
Il mining di pattern frequenti è un processo analitico per trovare modelli e associazioni
frequenti nei set di dati di vari DB. Ricerca proprietà comuni (Pattern) condivise da tutti i
sottogruppi sufficientemente grandi di un dato set di dati.
Si crea uno spazio di potenziali modelli (In modo combinatorio) attraverso:
Per esempio per trovare regolarità nel comportamento di acquisto dei clienti
di supermercati o negozi online.
MARKET BASKET ANALYSIS (MBA) o ESTRAZIONE FREQUENTE DI SET DI OGGETTI
Sia I l’Insieme di oggetti e 𝑇 un DB di transazioni (Collezione oggetti-implicazioni):
● Il supporto 𝑠 𝑇
(𝐼) di un insieme è il suo n° di transazioni in T: Indica la frazione dei casi nei
quali si applica la regola. Il Supporto minimo (Specificato dall'utente) è 𝑠
𝑀𝐼𝑁
● 𝐼 si dice frequente in 𝑇 se e solo se 𝑠
𝑇
𝑀𝐼𝑁
● Vale la proprietà Apriori : ∀ 𝑠
𝑀𝐼𝑁
𝑇
𝑀𝐼𝑁
𝑇
𝑀𝐼𝑁
Es. 1&2 => 3 ha 90% di confidenza : Quando compro oggetti 1 e 2 al 90% compro oggetto 3
Sono metodi per estrarre relazioni nascoste tra i dati. Es. (Cipolle, Patate) - > (Hamburger)
Siano 𝐵 oggetto base, 𝐴 l’antecedente, 𝐶 il conseguente: Vogliamo vedere se c’è
un’evidenza sperimentale che dice che c’è un legame (Un pattern) tra A e C. Essendo che i
set di oggetti sono associati con il loro supporto 𝑠
𝑇
, le regole si valutano con due misure:
Supporto di tutti gli elementi che compaiono nella regola:
cioè la frazione di transazioni in cui le regole sono corrette.
Supporto dell'antecedente della regola:
cioè la frazione di operazioni in cui verifichiamo se la regola è applicabile o meno.
Il numero di casi in cui la regola è corretta (E applicabile) rispetto al numero di casi in cui è
applicabile si dice Fiducia (E’ uno stimatore della probabilità condizionata)
Un algoritmo molto popolare per la creazione dei modelli è Apriori che esprime i modelli
con con regole chiamate ‘’Di Associazione’’:
Descrivono associazioni di elemento/i nel conseguente con l'elemento/i nell’antecedente.
Ad esempio, calcolare la probabilità che chi compra birra (Parte antecedente), possa
comprare patate fritte (Parte conseguente).
Alcune aree di applicazione: Analisi panieri di mercato, Controllo e miglioramento della
qualità, gestione clienti (CRM) per fornire offerte personalizzate, intercettazione frode.
È importante filtrare le regole di associazione per evidenziare quelle più interessanti.
Una regola è interessante solo se la presenza del antecedente ha un effetto “ sufficiente ”
sulla presenza del conseguente.
Le regole sono confrontate con le loro confidenze attese nell'assunzione che il loro
antecedente e conseguente siano indipendenti.
Si calcola il Valore di sollevamento cioè il rapporto tra le fiducie.
E’ la Probabilità di vedere C in una transazione sapendo che tutti gli elementi di A ci sono.
Si allena il set fornendo valore target e descrizione dell’attributo, successivamente si
fornisce solo la descrizione e si chiede al modello quale sia il valore target più probabile.
Nella struttura gerarchica nella prima posizione c’è la “Domanda” e poi in
base alle decisioni prese abbiamo bisogno di un altro attributo che ci aiuta a
prendere una nuova decisione. Tutti questi tipi di modelli hanno un margine
di errore chiamati “Errori di classificazione errata”.
La suddivisione degli attributi nominali si fa con attributi booleani (SI/NO) oppure
suddividendolo in n nodi uguale al n° di tipi dell’attributo nominale (N° colori ad esempio).
La suddivisione continua degli attributi numerici si fa in base a un valore soglia
(Es. “Temperatura” con ‘’<30’’ o ‘’>90’’) o su una serie di valori.
L’identificazione della soglia su cui porre le strutture condizionali si dice problema di
partizionamento ricorsivo in cui si divide lo spazio dati in sotto partizioni disgiunte.
È l'albero più piccolo o con la migliore precisione sui dati di allenamento.
Gli algoritmi più diffusi impiegano una strategia avida (Tecnica di risoluzione dei problemi):
● Si concentrano sulla prima costruzione della radice dell'albero
● Poi aggiungono rami e divisioni successive lungo il resto dei dati di addestramento trovando
ricorsivamente la divisione migliore in ogni punto.
Ho diverse scelte e scelgo quella più vicina alla soluzione, successivamente in modo
ricorsivo seleziono un’altra scelta più vicina alla soluzione.
La soluzione ottimale è data dalla composizione di soluzioni ottimali locali di sottoproblemi.
Input: Il set di dati D e il Set di tutti gli attributi disponibili A (Le colonne del Dataset)
Output: Un albero decisionale che rispetti il più possibile D
Classi: Sono le Osservazioni (Righe) con lo stesso valore target nell’attributo
L’Algoritmo Ricorsivo è:
Seleziona l’attributo migliore tra quelli di A.
Rende quell’attributo un nodo decisionale e si suddivide il set in sottoinsiemi.
Tutti gli elementi di D che stanno in una classe formano un nodo in base alla “Domanda”.
Si ripete il processo in modo ricorsivo finchè:
Il problema è quindi la scelta dell’attributo migliore che meglio classifica D.
L’ID3 (Iterative Dichotomiser 3) è un algoritmo applicato per trovare l’attributo migliore.
L'albero è costruito in maniera top-down usando la strategia divide et impera.
L’algoritmo crea rapidamente sottoinsiemi con i principali modelli di una classe:
Le istanze di addestramento sono assegnate al figlio appropriato.
L'obiettivo è comunque sempre quello di ottenere un albero piccolo e preciso (Ottimo)
La più grande limitazione di ID3 è il focus solo sugli attributi nominali: Con un attributo
numerico la soluzione è rimpiazzarlo con k split in base alla soglia di identificazione k.
In questo caso il problema non è la previsione di una classe ma la previsione di un valore di
output continuo (Albero di regressione) con il CART (Alberi di regressione e classificazione):
In cui invece di etichette di classe le foglie contengono costanti numeriche.
Si usa l’Errore Quadratico medio come misura della qualità di adattamento di un
albero/ramo tra il valore predetto dell’albero decisionale e il valore target associato a x.
Minimizzare l’Errore vuol dire minimizzare la distanza media tra valori predetti e attuali.
Possono esserci dei valori mancanti in un set di dati, se si ignorano tutte le osservazioni con
valori mancanti stiamo scartando troppo dal nostro set di dati.
Invece di ignorare i record che contengono valori mancanti, si utilizzano le informazioni
durante l'allenamento aggiungendone una frazione a ciascuna partizione.
Gestire i valori degli attributi mancanti è semplice.
L'attraversamento dell'albero può essere semplicemente eseguito nei rami col valore
mancante e solo in seguito unire tutte le foglie.
Misura le informazioni ottenute osservando il verificarsi di un evento con probabilità 𝑝.
Ignora qualsiasi caratteristica dell'evento e osserva solo se è accaduto o meno.
L'informazione è una quantità non negativa 𝐼
Se un evento ha probabilità 1, non dà alcuna informazione al verificarsi 𝐼( 1 ) = 0
Se si verificano due eventi indipendenti, l'informazione che otteniamo è la somma delle due
La misura dell'informazione è una funzione continua (E monotona) della probabilità:
Piccoli cambiamenti nelle probabilità associate alll’evento devono generare piccoli
cambiamenti nella quantità di info associate con la conoscenza che l’evento è avvenuto
1
𝑝
= −𝑝 è la Metrica per misurare l’ammontare di informazioni associato all’evento,
c’è un meno perchè volendo quantità positive un numero minore di 1 porterà log negativo.
La potatura si attua per fermare la crescita di un albero: Un albero grande rende
inutilmente complessa la sua interpretazione, inoltre porta ad un Problema di Overfitting:
Stiamo costruendo un albero troppo personalizzato rispetto al dataset che stiamo usando.
Un albero così fallisce nel riconoscere le proprietà generali. Abbiamo due tipi di potatura:
Pre-potatura:
Bloccare la costruzione dell'albero decisionale durante il processo di addestramento.
Abbiamo una riduzione dell’entropia, che sicuramente non crescerà mai.
Post-potatura :
Sostituzione: (Replacing di sottoalberi con foglie-valori (Sostituzione di sottoalberi)
Rimozione di nodi dall'interno dell'albero (Innalzamento o Raising del sottoalbero)
Gli alberi decisionali sono notoriamente instabile: Stabilità significa che piccole modifiche ai
dati di addestramento possono comportare cambiamenti drastici nell'albero risultante.
Ciò è dovuto alla natura avida dell'algoritmo. Quando sono necessarie prestazioni più stabili
(E migliori) si fa riferimento alle foreste di alberi decisionali: Si crea un insieme di alberi
decisionali diversi ("Ceppi") inizializzati in modo diverso (Random Forest)
La foresta casuale è un algoritmo di apprendimento supervisionato, una combinazione di
alberi decisionali addestrati con la tecnica dell’aggregazione bootstrap (Bagging):
L'idea del metodo di bagging ( Insaccamento ) è che la combinazione dei modelli di
apprendimento aumenta il risultato complessivo, riduce la varianza del modello (Senza
aumentare la tendenza a deviare dal valore medio (Bias) e evita un eccesso di adattamento.
L’idea è dare delle proprietà dei dati in aggiunta a quelle presenti vere e proprie estraendo
dalle n osservazioni un campionamento di n valori.
La differenza tra l'algoritmo Random Forest (O foreste casuali) e l'Algoritmo dell'albero
decisionale è che in Random Forest, i processi per trovare il nodo radice e dividere i nodi di
funzionalità verranno eseguiti in modo casuale.
Studiando un Dataset l’idea è partizionare i dati in due sottoinsiemi:
● Training set: Sono i Dati utilizzati per “Addestrare” l'algoritmo.
● Validation set: Per validare le performance e l’accuratezza del modello e dell’algoritmo.
Sommando i set devono includere tutte le misurazioni rappresentative (Es. 80%-20%)
Per generare questi due set di dati abbiamo due approcci:
generare dati extra dai dati disponibili per dividerli.
Dopodichè si attua un campionamento uniforme dei dati prendendoli in modo casuale per
generare il Training e la Validation Set.
Lezione 9 – Teorema di Bayes e i Classificiatori di Bayes (Completo e Ingenuo)
Il Teorema di Bayes misura un "Grado di credenza", quanto crediamo che qualcosa accada.
Descrive la probabilità di un evento di accadere, basata sulla conoscenza preliminare delle
condizioni che potrebbero essere correlate a quell'evento.
Gli ingenui classificatori di Bayes sono una famiglia di "Classificatori probabilistici" semplici
basati sull'applicazione del teorema di Bayes con forti (ingenui) presupposti di indipendenza
tra le caratteristiche: Presuppone che ogni attributo sia indipendente dagli altri attributi.
Le osservazioni sono classificate con parametri 𝒙 in funzione di un attributo nominale 𝑦.
L’obbiettivo di questi modelli è trovare una dipendenza nei dati.
I classificatori di Bayes esprimono il loro modello in termini di probabilità semplici:
Prevedono, per ogni record, la classe più probabile.
Altre ipotesi semplificatrici riguardano gli attributi numerici: Si ipotizza che la distribuzione
che meglio si adatta a questi dati è una distribuzione Gaussiana con parametri:
La Media (Uguale al valore medio dell’attributo) e la Varianza (Quella dei dati).
L'ingenuo presupposto di indipendenza è raramente soddisfatto nella pratica, tuttavia, i
classificatori ingenui funzionano bene e spesso non sono molto peggiori di classificatori
molto più sofisticati e complicati: I classificatori sono valutati con accuratezza/perdita 0-1:
Viene semplicemente contato quanto spesso prevedono correttamente 𝑦:
Una previsione corretta non richiede che le probabilità di classe siano previste con
precisione ma solo che la classe più probabile riceva la probabilità più alta.
Scarta l’ingenua ipotesi di indipendenza condizionale e modella tutti gli attributi metrici
insieme con una distribuzione gaussiana multivariata (DGM) per classi.
Il risultato è noto come classificatore completo di Bayes.
N.B: Se fossero presenti attributi categoriali, potrebbe essere ancora necessario assumere
l'indipendenza condizionale per non mischiare attributi numerici e categorici in DGM.
Le estensioni di questo approccio riguardano mitigare il presupposto dell'indipendenza
condizionale selezionando un appropriato sottoinsieme di attributi descrittivi e
incorporando i costi di classificazione. L’Algoritmo predice la classe più probabile.
Sono la Generalizzazione delle regole di associazione.
Modelli relativi all’efficienza numerica con un sistema che genera regole in automatico
chiamato “Rule Induction”. Questi modelli sono applicabili se vi è conoscenza base dei dati
che permettono di esprimere alcune regole di approssimazione, questi algoritmi inoltre:
● Dovrebbero essere applicati solo a set di dati con una struttura ben compresa e non grandi.
● Tendono ad essere sensibili agli attributi inutili o correlati e all'eccessivo rumore nei dati.