Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Dati: Tipi di Dati, Qualità e Visualizzazione con Boxplot e PCA, Schemi e mappe concettuali di Tecniche Di Analisi Dei Dati

I concetti base dell'analisi di dati, inclusi singole istanze, proprietà individuali, disponibilità di dati, analisi statistica e qualità dei dati. Viene inoltre introdotto il concetto di Boxplot per la visualizzazione e riassunto dei principali caratteristiche numeriche e come sono distribuiti, nonché Principal Component Analysis (PCA) per trovare una proiezione dei dati in un sottospazio lineare che conserva la maggior parte della varianza originale. Il documento include anche spiegazioni su normalizzazione dei dati, distanza dei dati e algoritmi di raggruppamento dei dati.

Tipologia: Schemi e mappe concettuali

2021/2022

Caricato il 14/04/2022

giovanni-muchucha
giovanni-muchucha 🇮🇹

1 documento

1 / 23

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Lezione 1 - 2 Introduzione e Analisi introduttiva
Oggi enormi quantità di dati vengono raccolte e allocate con poco sforzo e con costi bassi.
I dati da soli non possono essere utilizzati così come sono per ottenere informazioni.
I dati sono una grande collezione di piccoli pezzi di informazioni.
Il cervello ha difficoltà a identificare i “pattern” tra una vasta collezione di dati.
La conoscenza sintetizza tutte le informazioni provenienti dai dati in un modello e permette
di indicarne il comportamento e fare predizioni circa il loro andamento.
Il DATO non è abbastanza per fare previsioni. Descrive:
Una singola istanza (Singolo oggetto, persone, eventi in una determinata linea temporale)
Una proprietà individuale
C’è una vasta disponibilità dello stesso (Database, archivi, set di dati)
Sono spesso semplici da collezionare od ottenere
Non ci permettono di fare previsioni (Non è abbastanza da solo)
La CONOSCENZA invece:
È una classe di istanze (Set di oggetti, persone, eventi, punti nel tempo…)
Descrizive pattern generali, strutture, leggi, principi…
Spesso è difficile e dispendiosa, in termini di tempo, da trovare
Permette di fare predizioni e previsioni
CRITERI DI VALUTAZIONE DELLA CONOSCENZA
- Correttezza: I dati devono essere corretti, dare corretta rappresentazione della categoria
- Generalità: Il modello deve essere chiaro nel dominio e nelle condizioni di validità
- Utilità: I risultati devono dare risposta corretta per il problema e permettere predizioni
- Comprensibilità: semplicità, chiarezza, moderazione
- Novità: Deve dare conoscenze precedentemente sconosciute, inaspettate)
- Con il Machine Learning e AI bisogna spiegare perché traiamo i risultati o spiegarli
ANALISI DEI DATI
Nell’Analisi assumiamo e sviluppiamo tecniche statistiche computazionali assistite per
semplificatre o automatizzare l’analisi. Un buon punto d'inizio è l'analisi statistica dei dati:
Statistica descrittiva: Riassume dati senza fare specifiche ipotesi.
Statistica induttiva: Si manipola il processo di generazione dei dati con metodi rigorosi di
ipotesi. Le conclusioni sono valide se quest'ipotesi sono soddisfatte.
Nello studio sperimentale manipoliamo il processo di generazione del dato per uno scopo.
Si applica il test d’ipotesi: Faccio ipotesi e controllo che il dato sia coerente.
Nello studio di osservazione non possiamo controllare il processo di generazione del dato:
Il dato viene reso disponibile, così com’è, per il nostro studio.
In contrasto col test delle ipotesi c’è Analisi esplorativa dei dati (EDA): riguarda la
generazione di ipotesi (Da verificare) dal dato raccolto. Noi analizziamo il dato da diversi
punti di vista per generare alcuna ipotesi.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17

Anteprima parziale del testo

Scarica Analisi Dati: Tipi di Dati, Qualità e Visualizzazione con Boxplot e PCA e più Schemi e mappe concettuali in PDF di Tecniche Di Analisi Dei Dati solo su Docsity!

Lezione 1 - 2 – Introduzione e Analisi introduttiva

Oggi enormi quantità di dati vengono raccolte e allocate con poco sforzo e con costi bassi.

I dati da soli non possono essere utilizzati così come sono per ottenere informazioni.

I dati sono una grande collezione di piccoli pezzi di informazioni.

Il cervello ha difficoltà a identificare i “pattern” tra una vasta collezione di dati.

La conoscenza sintetizza tutte le informazioni provenienti dai dati in un modello e permette

di indicarne il comportamento e fare predizioni circa il loro andamento.

Il DATO non è abbastanza per fare previsioni. Descrive:

● Una singola istanza (Singolo oggetto, persone, eventi in una determinata linea temporale)

● Una proprietà individuale

● C’è una vasta disponibilità dello stesso (Database, archivi, set di dati)

● Sono spesso semplici da collezionare od ottenere

● Non ci permettono di fare previsioni (Non è abbastanza da solo)

La CONOSCENZA invece:

● È una classe di istanze (Set di oggetti, persone, eventi, punti nel tempo…)

● Descrizive pattern generali, strutture, leggi, principi…

● Spesso è difficile e dispendiosa, in termini di tempo, da trovare

● Permette di fare predizioni e previsioni

CRITERI DI VALUTAZIONE DELLA CONOSCENZA

  • Correttezza: I dati devono essere corretti, dare corretta rappresentazione della categoria
  • Generalità: Il modello deve essere chiaro nel dominio e nelle condizioni di validità
  • Utilità: I risultati devono dare risposta corretta per il problema e permettere predizioni
  • Comprensibilità: semplicità, chiarezza, moderazione
  • Novità: Deve dare conoscenze precedentemente sconosciute, inaspettate)
  • Con il Machine Learning e AI bisogna spiegare perché traiamo i risultati o spiegarli

ANALISI DEI DATI

Nell’Analisi assumiamo e sviluppiamo tecniche statistiche computazionali assistite per

semplificatre o automatizzare l’analisi. Un buon punto d'inizio è l'analisi statistica dei dati:

Statistica descrittiva: Riassume dati senza fare specifiche ipotesi.

Statistica induttiva: Si manipola il processo di generazione dei dati con metodi rigorosi di

ipotesi. Le conclusioni sono valide se quest'ipotesi sono soddisfatte.

Nello studio sperimentale manipoliamo il processo di generazione del dato per uno scopo.

Si applica il test d’ipotesi: Faccio ipotesi e controllo che il dato sia coerente.

Nello studio di osservazione non possiamo controllare il processo di generazione del dato:

Il dato viene reso disponibile, così com’è, per il nostro studio.

In contrasto col test delle ipotesi c’è Analisi esplorativa dei dati (EDA): riguarda la

generazione di ipotesi (Da verificare) dal dato raccolto. Noi analizziamo il dato da diversi

punti di vista per generare alcuna ipotesi.

ATTRIBUTI DEI DATI

Ogni osservazione è descritta come set di attributi, il Domino degli attributi è il set di valori

possibili per l’attributo, i tipi di Dominio sono:

● Nominale (o Categorico), il dominio è un set di valori finito (Corretto/Sbagliato)

● Ordinale, il dominio è un set finito con una gerarchia di molti domini raffinati (Cibi->Carne)

● Numerica, il dominio è un set infinito di intervalli, rapporti o scale assolute (Numeri)

● Dominio Dinamico

LA QUALITA’ DEI DATI DIPENDE DA

  • La precisione, la vicinanza tra il valore nel dato e il valore “vero”. È di due tipi:

La precisione sintattica è definita come vicinanza dei valori del dato a un set di valori

definiti nel suo dominio considerato corretto dal punto di vista sintattico.

Es. Per un attributo categorico che ammette TRUE e FALSE, “FLSE” viola la precisione

sintattica, o gli attributi numerici come il peso ammetteranno valori positivi.

La precisione semantica, utilizziamo un Es. Se l’attributo “sesso” ha valore “femmina”

per l’insegnante “Daniele Tessera”, questa non è questione di precisione sintattica,

“femmina” è un possibile valore dell’attributo “sesso” ma è un valore sbagliato.

Scoprire problemi di precisione sintattica in un set di dati è un compito semplice.

La verifica della precisione semantica è molto più difficile o spesso impossibile.

  • Il rumore (Inteso come misurazioni non di nostro interesse) o limitata precisione

nelle misure possono portare alla riduzione della precisione per gli attributi numerici:

PRINCIPIO GIGO (GARBAGE IN – OUT): Con un input corretto otterrò output corretto.

  • La Completezza, cioè il rispetto dei valori degli attributi (No valori mancanti):

Spesso la disponibilità dei set di dati è parziale oppure l’osservazione del set di dati

non è proporzionale alla “popolazione” del dato (Dato non bilanciato)

  • La Tempestività: La disponibilità del dato non deve essere troppo vecchia, fornirebbe

informazioni non rappresentative per le predizioni sul futuro del dato.

COMPRENSIONE DEI DATI

L’obbiettivo principale della comprensione dei dati è ottenere approfondimenti generali dei

dati che saranno utili per ulteriori step nel processo di analisi dei dati.

La comprensione dovrebbe puntare ad esplorare il dato con punto di vista neutrale.

TABELLA CONTINGENTE

È un tipo di tabella in formato matriciale che mostra la

(multi-variabile) ripartizione della frequenza delle variabili.

MEDIANA E MEDIA

Sono termini statistici con ruolo simile nel capire la tendenza

principale di un set di dati statistici.

La media è la misura della metà in un campione di valori,

è influenzata da ogni valore troppo grande o troppo piccolo in

confronto al campione di valori (Sensibile ai valori anomali).

La mediana è la media tra i valori nella posizione n/2 e n/2 +.

È considerata una migliore misura della media.

Lezione 3 – Misure di Correlazione

Calcolano misure di correlazione tra attributi per confermare legami o scoprirne inaspettati.

COEFFICIENTE DI CORRELAZIONE DI PEARSON

Uno di questi è il coefficiente di correlazione Pearson, che misura la relazione lineare tra

due attributi numerici X e Y. Il valore è e più è grande il valore assoluto più è

forte la relazione lineare tra i due attributi: Per |r X,Y

| = 1, x

i

e y

i

sono su uguali.

Pearson si usa se le variabili hanno Distribuzione Normale ***** (Funzione e Relazione Lineare) e

sono variabili quantitative (Metodo parametrico). Se una di queste ipotesi non è verificata è

necessario un test non parametrico (O Correlazioni di Rango)

Distribuzione Normale ***** : Approssimare valori casuali a reali che tendono a un valore medio.

CORRELAZIONE DEL RANGO

I coefficienti di correlazione del rango ignorano i valori degli attributi e considerano solo la

posizione dei valori (La posizione): Misurano correlazioni monotone tra attributi in cui la

loro funzione non è lineare (Metodi non parametrici).

Dato , sia X’ l’insieme ordinato di X:.

Il rango della funzione r(x) ritorna la posizione di x i

in X’.

Esempio: X = { 2, 0, 8, 6, 4, 10}, allora r(8) = 3.

COEFFICIENTE DI CORRELAZIONE DEL RANGO DI SPEARMAN

Misura il grado di relazione tra due variabili, l’unica ipotesi è che siano ordinabili e continue.

Utilizza la stessa formula della di Pearson applicandola ai ranghi delle variabili:

Ai basa sulle deviazioni dei dati dai valori medi delle variabili.

Il coefficiente del rango di correlazione di Spearman misura la somma delle distanze

quadratiche dei ranghi e la bilancia nell’intervallo [-1, 1]: Per il ϼ di Spearman se 2 o più

valori sono uguali il loro rango non è definito, I valori devono essere unici.

COEFFICIENTE DI CORRELAZIONE DEL RANGO DI KENDALL

Il coefficiente di Kendall è basato sul confronto degli ordini delle coppie dei valori.

È una misura statistica per misurare l’associazione ordinale tra due quantità misurate.

Si divodno le coppie in due insiemi C e D di coppie concordanti e discordanti.

E si calcola il coefficiente con la formula:

Pearson, Spearman e Kendall controllano se due attributi numerici sono indipendenti.

Non sono calcolabili negli attributi categorici.

IL TEST DI DIPENDENZA X

2

(Chi-Quadrato)

La correlazione negli attributi categorici si attua studiando una distribuzione indipendente.

Una di queste è il test X

2

che si usa con gli attributi nominali/categorici per decidere

se rifiutare o no l’ipotesi nulla. Verifica se le frequenze osservate si adattano alle teoriche.

Frequenza Osservata è la frequenza dei dati,

Frequenza Prevista è quella se l’ipotesi è corretta.

Il valore critico c è determinato scegliendo il livello significativo

da una distribuzione X

2

in base ai gradi di libertà.

Se il valore di X

2

supera il valore critico bisogna rifiutare l’ipotesi

nulla perchè c’è troppa dipendenza tra i dati.

Gradi di libertà : Numero di valori nel calcolo finale di una statistica che sono liberi di variare.

P-VALUE

Il valore p (O valore di probabilità ; detto p - value ) è la

probabilità di osservare risultati uguali quelli osservati durante il

test (Risultati Ipotizzati), supposta vera

l'ipotesi nulla : L'affermazione per cui non ci sia relazione tra

due fenomeni misurati.

Il valore p aiuta a capire se la differenza tra il risultato osservato e ipotizzato è data dalla

casualità dal campionamento o se la differenza è statisticamente significativa per l’analisi.

ERRORE CONDIZIONALE TRASPOSTO :

La probabilità di osservare un risultato dato alcune ipotesi vere non è equivalente alla

probabilità che un’ipotesi sia vera dati alcuni risultati presi in considerazione.

Accettare le ipotesi significa non trovare nei tuoi dati abbastanza evidenza sperimentale per

poterle rifiutare (Il Rifiuto delle ipotesi è un test più robusto)

SCALING MULTIDIMENSIONALE (MDS)

La rappresentazione costruita dallo MDS mira a preservare le distanze tra i punti dei dati e

non la varianza nel set di dati ( PCA ). Posiziona solo i punti dei dati nello spazio a bassa

dimensione. Per questo è utilizzato principalmente per scopi di visualizzazione: I dati

originali ad alta dimensione sono rappresentati da punti in due (a volte tre) dimensioni.

Di solito è impossibile preservare le distanze esattamente nel sottospazio bidimensionale.

La distanza dovrebbe deviare il meno possibile dalle distanze originali, la Computazione

dell’errore nella proiezione dei dati è 𝐸

0

𝑛

𝑖= 1

𝑛

𝑗=𝑖+ 1

𝑖,𝑗

𝑋

𝑖,𝑗

𝑌

2

dove:

𝑖,𝑗

𝑋

è la distanza nello spazio originale e 𝑑

𝑖,𝑗

𝑌

distanza nello spazio ridotto.

VISUALIZZAZIONE DI DATI MULTIDIMENSIONALI

I Diagrammi di visualizzazione rappresentano grandi numeri di dati multidimensionali.

Le coordinate parallele disegnano gli assi delle coordinate paralleli tra loro, in modo che

non ci siano limiti al numero di assi da visualizzare con l’obbiettivo di trovare i pattern.

I grafici radar si basano su un'idea simile alle coordinate parallele, la differenza che gli assi

delle coordinate non sono linee ma a forma di stella che si intersecano in un punto.

Riassumendo:

  • Raccogliamo i dati, li Normalizziamo i dati ed Elaboriamo i componenti principali (PCA)
  • Identifichiamo un piccolo numero dei componenti principali adatti al nostro studio
  • Proiettiamo i dati nel sottospazio ed Eseguiamo determinati tipi di analisi
  • Quando abbiamo terminato torniamo alla rappresentazione iniziale dei dati,

perché le considerazioni devono essere fatte all’interno dello spazio originale.

Se ho dati che si comportano allo stesso modo vuol dire che all’interno della

rappresentazione (Nello spazio dei dati) ho gruppi di punti che sono chiamati Cluster.

Lezione 5 - Cluster

E’ l’approccio più usato per trovare pattern (Schemi ricorrenti) nei dati.

Trovare i pattern vuol dire riassumere, descrivere, esplorare il set di dati.

L’Analisi dei Cluster (o Clustering) consiste nel trovare gruppi di osservazioni simili che

possono essere naturalmente separati da altre osservazioni dissimili.

Per eseguire una analisi con i Cluster, bisogna trovare gruppi stabili di cluster.

Gruppi stabili vuol dire che una minore variazione nei dati (Del rumore) non dovrebbe

portare a una suddivisione completamente diversa (Risultati diversi).

Ci sono algoritmi basati sulla costellazione dei dati (Compattezza dei Cluster) come:

CLUSTERING GERARCHICO AGGLOMERATIVO

Crea una gerarchia ad albero per tutti i dati che possono essere ispezionati visivamente.

Considera le osservazioni come Cluster individuali e li unisce tutti in base alla loro diversità,

fino ad un cluster che le racchiude tutte.

Questa tecnica è fattibile solo per piccoli set di dati ma fornisce una buona panoramica.

Il termine “Agglomerativo” indica che questo tipo di clustering opera dal basso verso l'alto,

per prima cosa si calcola quanto sono vicine le osservazioni con la metrica di dissomigianza

o distanza calcolando tutte le distanze a coppie e costruendo una serie di partizioni :

Una partizione è un insieme di Cluster, l’unione delle partizioni porta al set di dati originale.

Ogni Partizione è disgiunta dalle altre e non ci sono patizioni vuote.

Data una distanza 𝛿, definiamo i cluster richiedendo che ogni record 𝑥,𝑦 debba appartenere

allo stesso cluster 𝐶 se sono più vicini tra loro di 𝛿: Con diversi 𝛿 risultano partizioni diverse.

La scelta di 𝛿 deve dare cluster stabili e robusti , nel senso che una soglia leggermente

modificata non dovrebbe portare a cluster completamente diversi.

L'evoluzione delle partizioni (Al crescere di 𝛿) è riassunta in un'unica gerarchia chiamata

dendogramma, che dice il numero ottimale di cluster.

Il dendogramma è più stabile usando i compenenti principali della PCA.

Dati 2 cluster di dati la distanza tra i 2 indica la stabilità : E’ la distanza per cambiare Cluster.

DISTANZA CLUSTER-A-CLUSTER

Ci sono diverse distanze alternative per far fronte al rumore e alla stabilità:

● Collegamento singolo: La minima distanza tra gli elementi di 2 cluster

● Collegamento completo: La massima ditanza tra gli elementi di 2 cluster

● Collegamento medio: La distanza media tra tutti gli elementi

● Reparti: Calcola la funzione di errore tra la distanza nei cluster e la distanza tra i cluster.

Per esprimere i Cluster con una osservazion si usa il centro geometrico (O Baricentro),

Oppure il metroide ossia l’osservazione più vicina alla centro geometrico.

N.B: Il centro geometrico non è un’osservazione, è la media di tutto.

DECOMPOSIZIONE DELLA MISCELA GAUSSIANA (GMD)

La Gaussian Mixture Decomposition è una generalizzazione del Clustering K-Means.

Si stima un modello probabilistico per cui un Cluster segue una distribuzione gaussiana

multivariata con parametri della distribuzione la media 𝜇 e la varianza 𝜎 del Cluster.

I dati seguono la multivariata distribuzione Gaussiana per ipotesi iniziale:

Dobbiamo verificare se i dati sono distribuiti secondo l’ipotesi.

Per fare ciò l’obbiettivo è trovare un’ottima partizione dei dati massimizzando la funzione di

massima verosimiglianza: Un procedimento matematico per identificare uno stimatore,

cioè una funzione che ad ogni campione associa un valore del parametro da stimare,

definito in base alla probabilità di osservare una data realizzazione nei campioni.

Il valore assunto dallo stimatore in corrispondenza a un particolare campione è detto stima.

N.B: La distribuzione gaussiana è unimodale (Ha solo un massimo), per questo ogni Cluster

rappresenta un singolo picco di densità complessiva dei dati:

La densità complessiva è una somma di distribuzioni gaussiane.

Multivariata: Ogni osservazione è descritta in termine di tutti gli attributi.

IL MODELLO C-MEANS

L'idea di fondo è quella di smussare l'appartenenza ai Cluster usando la Fuzzy Logic:

Con 𝑝

𝑖𝑗

∈ [ 0 , 1 ] abbiamo una appartenenza graduale che consente di distinguere i dati vicini

al prototipo (Molto tipici per il Cluster) dai dati lontani.

Un elemento appartiene ad un cluster con un grado di probabilità 𝑝

𝑖,𝑗

detto

Grado di appartenenza (Che tiene conto anche della Distanza rispetto agli altri Cluser).

Un elemento può appartenere a più Cluster con probabilità diverse: Somma Probabilità = 1.

La funzione obiettivo Fuzzy C-Means è una distanza 𝐽 𝐹𝑐𝑀

𝑐

𝑖= 1

𝑛

𝑗= 1

𝑖,𝑗

2

𝑗

𝑖

2

con 𝑝

𝑖,𝑗

2

che è il Fuzzifier per considerare i gradi di appartenenza come probabilità.

L’approzzio C-Means è per casi con un Cluster che ha il grado di appartenenza più grande.

La somma di ogni grado di appartenenza (Vista come probabilità) è 1.

Questa interpretazione richiede ipotesi per i dati affetti da rumore, variabili casuali e

anomali perchè da una formulazione statistica per il problema.

Forendo una buona inizializzazione, gli algoritmi di Clustering su modello o prototipi sono

più veloci del Clustering gerarchico, entrambi hanno bisogno del numero di Cluster a priori.

Per valutare il numero di cluster abbiamo diversi approcci:

Top-down, clustering divisivo: Inizia con un numero relativamente piccolo di Cluster e

divide i Cluster nel caso in cui non si adatti bene ai dati associati.

Bottom-up, cluster agglomerativo: Sopravvalutare il n° di cluster e unire i simili

Gamma completa: Eseguire una serie di n di cluster e valutare (Validare) ogni partizione.

MISURE DI VALIDITÀ LOCALE e GLOBALE

Le misure di validità locale valutano la bontà di un singolo cluster attraverso:

● La Densità dei dati nel Cluster e La Distribuzione dei gradi di appartenenza (C-Means(

● Il Coefficiente di sagoma del cluster 𝐶 definito come la media dei coefficienti di sagoma:

Esso tiene conto della distanza media di un valore dai valori dello stesso Cluster e la

distanza media dai membri del Cluster più vicino. Si elabora questa metrica per ogni

Cluster, e poi si confronta la metrica di ogni Cluster con partizioni con n° diversi di Cluster.

Per valutare i Cluster in modo complessivo una delle misure è l'AIC (Akaike Information

Criterion): Un metodo per la valutazione/confronto tra modelli statistici.

INDICE DI SEPARAZIONE : L'indice di separazione identifica cluster compatti e ben separati.

Tutti gli approcci non riescono a trovare il numero di Cluster se:

  • La forma dei cluster non è ipersferica o Le dimensioni dei cluster sono molto diverse.
  • La densità dei cluster è molto diversa o c'è troppo rumore nei dati o valori anomali

RAGGRUPPAMENTO DEL RUMORE

Rumore e valori anomali potrebbero ridurre la capacità degli algoritmi di identificare

modelli di dati. Il rumore è un dato sparso distribuito uniformemente nello spazio dati.

Una estensione del clustering Fuzzy C-Means è il Clustering del rumore:

Il cluster di rumore ha una distanza fissa (𝑑

𝑛𝑜𝑖𝑠𝑒

) da qualsiasi punto nei dati.

Non appena la distanza di alcuni dati dal prototipo più vicino 𝑝

𝑖

è vicino a 𝑑

𝑛𝑜𝑖𝑠𝑒

il Cluster

del rumore guadagna una frazione considerevole del grado di appartenenza totale

riducendo così l'influenza di 𝒙 rispetto a 𝑝

𝑖

COEFFICIENTE DI DISSOMIGLIANZA DI JACCARD

Il coefficiente di somiglianza di Jaccard, dati 𝐴 e 𝐵 insiemi di più di un attributo nominale,

indica la somiglianza tra insiemi finiti: Da 0 (Nulla) a 1 (Tutti) in comune come possibilità.

La distanza di Jaccard misura la dissomiglianza tra insiemi.

METRICHE ISOTROPICHE DI DISSOMIGLIANZA

Le Metriche di dissomiglianza (Isotropiche) per gli attributi numerici sono:

  • Euclidean 𝑑 𝐸

𝑛

𝑖= 1

𝑖

𝑖

2

(Es. Distanza tra 2 punti)

  • Minkowski 𝑑 𝑝

𝑛

𝑖= 1

𝑖

𝑖

𝑝

1

𝑝

è la formula generale:

Se p è 2 è il Euclidean se p è 1 è il Manhattan.

  • Manhattan 𝑑

𝐿

1

𝑛

𝑖= 1

𝑖

𝑖

| (Es. Distanza tra punti 1 dimensione)

  • Chebyshev 𝑑

𝐿

𝑖= 1

𝑛

𝑖

𝑖

|} è una distanza su spazi vettoriali tale per cui

la distanza tra due vettori è il valore massimo della loro differenza lungo gli assi.

  • Coseno 𝑑

𝐶

𝑥

𝑇

𝑦

‖𝑥‖ ‖𝑦‖

con il coseno trigonometrico dell’angolo tra i vettori.

DBSCAN

La soglia di densità nell’algoritmo è codificata da due parametri:

● Il raggio 𝜖 del quartiere (Ipersferico)

● Il numero "MinPts" di oggetti dati necessari nel vicinato per considerarlo denso.

La Densità effettiva di una posizione indica quanti punti verranno inclusi nel Cluster:

Per tutti i dati nel 𝜖-quartiere si controlla se soddisfano la soglia di densità.

Se è così, appartengono anche al Core del Cluster (E sono chiamati Core-Points).

Tutti i Core Point che si sovrappongono si uniscono.

𝜖 e 𝑀𝑖𝑛𝑃𝑡𝑠 per un raggruppamento ottimale seguono dalla Regola del pollice:

● 𝑀𝑖𝑛𝑃𝑡𝑠 = 2*m-1 dove m è la dimensione

● 𝜖 viene derivato ispezionando visivamente il grafico della distanza "𝑀𝑖𝑛𝑃𝑡𝑠"

Uno dei problemi con questi tipi di approcci per densità è che abbiamo molti dati rumore.

Il cluster rumore conterà il più delle informazioni e il DBScan identificherà molte poche

regioni con una limitata percentuale di dati.

Lezione 7 – Mining pattern frequenti e regole di associazioni

ALTRI ALGORITMI DI CLUSTERING

Mappe auto-organizzanti : Organizzano tutte le osservazioni in una mappa bidimensionale

in cui i record simili sono posizionati vicini tra loro in modo da esplorare osservazioni simili

ad alcune selezionate esaminando i suoi vicini. Le mappe auto-organizzanti

non sono intese come tecniche di Clustering ma possono fornire approfondimenti simili.

I nvece di raggruppare osservazioni simili, potremmo voler scoprire interdipendenze tra i

singoli attributi che spesso si verificano.

L'esistenza di alcune caratteristiche aumenta la probabilità di altre.

Questo si fa con le Regole di Associazione o Mining di patter frequenti.

Il mining di pattern frequenti è un processo analitico per trovare modelli e associazioni

frequenti nei set di dati di vari DB. Ricerca proprietà comuni (Pattern) condivise da tutti i

sottogruppi sufficientemente grandi di un dato set di dati.

Si crea uno spazio di potenziali modelli (In modo combinatorio) attraverso:

  • Mining frequente in sequenza: In cui si cercano sequenze o tendenze nei dati
  • Estrazione delle regole di Associazione: Per trovare associazioni di oggetti frequenti
  • Mining frequente di grafici
  • Market Basket Analysis (MBA) o Estrazione frequente di Set di Oggetti:

Per esempio per trovare regolarità nel comportamento di acquisto dei clienti

di supermercati o negozi online.

MARKET BASKET ANALYSIS (MBA) o ESTRAZIONE FREQUENTE DI SET DI OGGETTI

Sia I l’Insieme di oggetti e 𝑇 un DB di transazioni (Collezione oggetti-implicazioni):

● Il supporto 𝑠 𝑇

(𝐼) di un insieme è il suo n° di transazioni in T: Indica la frazione dei casi nei

quali si applica la regola. Il Supporto minimo (Specificato dall'utente) è 𝑠

𝑀𝐼𝑁

● 𝐼 si dice frequente in 𝑇 se e solo se 𝑠

𝑇

𝑀𝐼𝑁

● Vale la proprietà Apriori : ∀ 𝑠

𝑀𝐼𝑁

𝑇

𝑀𝐼𝑁

𝑇

𝑀𝐼𝑁

Es. 1&2 => 3 ha 90% di confidenza : Quando compro oggetti 1 e 2 al 90% compro oggetto 3

REGOLE DI ASSOCIAZIONE

Sono metodi per estrarre relazioni nascoste tra i dati. Es. (Cipolle, Patate) - > (Hamburger)

Siano 𝐵 oggetto base, 𝐴 l’antecedente, 𝐶 il conseguente: Vogliamo vedere se c’è

un’evidenza sperimentale che dice che c’è un legame (Un pattern) tra A e C. Essendo che i

set di oggetti sono associati con il loro supporto 𝑠

𝑇

, le regole si valutano con due misure:

Supporto di tutti gli elementi che compaiono nella regola:

cioè la frazione di transazioni in cui le regole sono corrette.

Supporto dell'antecedente della regola:

cioè la frazione di operazioni in cui verifichiamo se la regola è applicabile o meno.

Il numero di casi in cui la regola è corretta (E applicabile) rispetto al numero di casi in cui è

applicabile si dice Fiducia (E’ uno stimatore della probabilità condizionata)

REGOLE DI ASSOCIAZIONE - APRIORI

Un algoritmo molto popolare per la creazione dei modelli è Apriori che esprime i modelli

con con regole chiamate ‘’Di Associazione’’:

Descrivono associazioni di elemento/i nel conseguente con l'elemento/i nell’antecedente.

Ad esempio, calcolare la probabilità che chi compra birra (Parte antecedente), possa

comprare patate fritte (Parte conseguente).

Alcune aree di applicazione: Analisi panieri di mercato, Controllo e miglioramento della

qualità, gestione clienti (CRM) per fornire offerte personalizzate, intercettazione frode.

VALUTARE LE REGOLE DELL'ASSOCIAZIONE

È importante filtrare le regole di associazione per evidenziare quelle più interessanti.

Una regola è interessante solo se la presenza del antecedente ha un effetto “ sufficiente

sulla presenza del conseguente.

Le regole sono confrontate con le loro confidenze attese nell'assunzione che il loro

antecedente e conseguente siano indipendenti.

Si calcola il Valore di sollevamento cioè il rapporto tra le fiducie.

E’ la Probabilità di vedere C in una transazione sapendo che tutti gli elementi di A ci sono.

Si allena il set fornendo valore target e descrizione dell’attributo, successivamente si

fornisce solo la descrizione e si chiede al modello quale sia il valore target più probabile.

Nella struttura gerarchica nella prima posizione c’è la “Domanda” e poi in

base alle decisioni prese abbiamo bisogno di un altro attributo che ci aiuta a

prendere una nuova decisione. Tutti questi tipi di modelli hanno un margine

di errore chiamati “Errori di classificazione errata”.

La suddivisione degli attributi nominali si fa con attributi booleani (SI/NO) oppure

suddividendolo in n nodi uguale al n° di tipi dell’attributo nominale (N° colori ad esempio).

La suddivisione continua degli attributi numerici si fa in base a un valore soglia

(Es. “Temperatura” con ‘’<30’’ o ‘’>90’’) o su una serie di valori.

L’identificazione della soglia su cui porre le strutture condizionali si dice problema di

partizionamento ricorsivo in cui si divide lo spazio dati in sotto partizioni disgiunte.

L’ALBERO DECISIONALE OTTIMALE

È l'albero più piccolo o con la migliore precisione sui dati di allenamento.

Gli algoritmi più diffusi impiegano una strategia avida (Tecnica di risoluzione dei problemi):

● Si concentrano sulla prima costruzione della radice dell'albero

● Poi aggiungono rami e divisioni successive lungo il resto dei dati di addestramento trovando

ricorsivamente la divisione migliore in ogni punto.

Ho diverse scelte e scelgo quella più vicina alla soluzione, successivamente in modo

ricorsivo seleziono un’altra scelta più vicina alla soluzione.

La soluzione ottimale è data dalla composizione di soluzioni ottimali locali di sottoproblemi.

ALGORITMO PER COSTRUIRE L’ALBERO DECISIONALE

Input: Il set di dati D e il Set di tutti gli attributi disponibili A (Le colonne del Dataset)

Output: Un albero decisionale che rispetti il più possibile D

Classi: Sono le Osservazioni (Righe) con lo stesso valore target nell’attributo

L’Algoritmo Ricorsivo è:

Seleziona l’attributo migliore tra quelli di A.

Rende quell’attributo un nodo decisionale e si suddivide il set in sottoinsiemi.

Tutti gli elementi di D che stanno in una classe formano un nodo in base alla “Domanda”.

Si ripete il processo in modo ricorsivo finchè:

  • Non ci sono più attributi da usare come nodi decisionali
  • Non ci sono più osservazioni e classi da studiare.

Il problema è quindi la scelta dell’attributo migliore che meglio classifica D.

L’ALGORITMO ID

L’ID3 (Iterative Dichotomiser 3) è un algoritmo applicato per trovare l’attributo migliore.

L'albero è costruito in maniera top-down usando la strategia divide et impera.

L’algoritmo crea rapidamente sottoinsiemi con i principali modelli di una classe:

  • Parte con un albero con la sola radice,a cui sono assegnate le istanze di addestramento.
  • L'algoritmo ID3 sceglie l’attributo migliore mediante il guadagno di informazione.
  • Si creano tanti nodi (Figli) quanti sono i possibili valori dell'attributo scelto.

Le istanze di addestramento sono assegnate al figlio appropriato.

  • Si procede ricorsivamente usando come radici i nuovi nodi.

L'obiettivo è comunque sempre quello di ottenere un albero piccolo e preciso (Ottimo)

La più grande limitazione di ID3 è il focus solo sugli attributi nominali: Con un attributo

numerico la soluzione è rimpiazzarlo con k split in base alla soglia di identificazione k.

In questo caso il problema non è la previsione di una classe ma la previsione di un valore di

output continuo (Albero di regressione) con il CART (Alberi di regressione e classificazione):

In cui invece di etichette di classe le foglie contengono costanti numeriche.

Si usa l’Errore Quadratico medio come misura della qualità di adattamento di un

albero/ramo tra il valore predetto dell’albero decisionale e il valore target associato a x.

Minimizzare l’Errore vuol dire minimizzare la distanza media tra valori predetti e attuali.

VALORI MANCANTI

Possono esserci dei valori mancanti in un set di dati, se si ignorano tutte le osservazioni con

valori mancanti stiamo scartando troppo dal nostro set di dati.

Invece di ignorare i record che contengono valori mancanti, si utilizzano le informazioni

durante l'allenamento aggiungendone una frazione a ciascuna partizione.

Gestire i valori degli attributi mancanti è semplice.

L'attraversamento dell'albero può essere semplicemente eseguito nei rami col valore

mancante e solo in seguito unire tutte le foglie.

MISURA INFORMATIVA

Misura le informazioni ottenute osservando il verificarsi di un evento con probabilità 𝑝.

Ignora qualsiasi caratteristica dell'evento e osserva solo se è accaduto o meno.

L'informazione è una quantità non negativa 𝐼

Se un evento ha probabilità 1, non dà alcuna informazione al verificarsi 𝐼( 1 ) = 0

Se si verificano due eventi indipendenti, l'informazione che otteniamo è la somma delle due

La misura dell'informazione è una funzione continua (E monotona) della probabilità:

Piccoli cambiamenti nelle probabilità associate alll’evento devono generare piccoli

cambiamenti nella quantità di info associate con la conoscenza che l’evento è avvenuto

1

𝑝

= −𝑝 è la Metrica per misurare l’ammontare di informazioni associato all’evento,

c’è un meno perchè volendo quantità positive un numero minore di 1 porterà log negativo.

POTATURA

La potatura si attua per fermare la crescita di un albero: Un albero grande rende

inutilmente complessa la sua interpretazione, inoltre porta ad un Problema di Overfitting:

Stiamo costruendo un albero troppo personalizzato rispetto al dataset che stiamo usando.

Un albero così fallisce nel riconoscere le proprietà generali. Abbiamo due tipi di potatura:

Pre-potatura:

Bloccare la costruzione dell'albero decisionale durante il processo di addestramento.

Abbiamo una riduzione dell’entropia, che sicuramente non crescerà mai.

Post-potatura :

Sostituzione: (Replacing di sottoalberi con foglie-valori (Sostituzione di sottoalberi)

Rimozione di nodi dall'interno dell'albero (Innalzamento o Raising del sottoalbero)

RANDOM FOREST O FORESTA DI ALBERI DECISIONALI

Gli alberi decisionali sono notoriamente instabile: Stabilità significa che piccole modifiche ai

dati di addestramento possono comportare cambiamenti drastici nell'albero risultante.

Ciò è dovuto alla natura avida dell'algoritmo. Quando sono necessarie prestazioni più stabili

(E migliori) si fa riferimento alle foreste di alberi decisionali: Si crea un insieme di alberi

decisionali diversi ("Ceppi") inizializzati in modo diverso (Random Forest)

La foresta casuale è un algoritmo di apprendimento supervisionato, una combinazione di

alberi decisionali addestrati con la tecnica dell’aggregazione bootstrap (Bagging):

L'idea del metodo di bagging ( Insaccamento ) è che la combinazione dei modelli di

apprendimento aumenta il risultato complessivo, riduce la varianza del modello (Senza

aumentare la tendenza a deviare dal valore medio (Bias) e evita un eccesso di adattamento.

L’idea è dare delle proprietà dei dati in aggiunta a quelle presenti vere e proprie estraendo

dalle n osservazioni un campionamento di n valori.

La differenza tra l'algoritmo Random Forest (O foreste casuali) e l'Algoritmo dell'albero

decisionale è che in Random Forest, i processi per trovare il nodo radice e dividere i nodi di

funzionalità verranno eseguiti in modo casuale.

TRAINING SET E VALIDATION SET

Studiando un Dataset l’idea è partizionare i dati in due sottoinsiemi:

Training set: Sono i Dati utilizzati per “Addestrare” l'algoritmo.

Validation set: Per validare le performance e l’accuratezza del modello e dell’algoritmo.

Sommando i set devono includere tutte le misurazioni rappresentative (Es. 80%-20%)

Per generare questi due set di dati abbiamo due approcci:

  1. Quando c’è numero limitato di osservazioni, si usa una procedura Bootstrap per

generare dati extra dai dati disponibili per dividerli.

  1. Quando abbiamo abbastanza dati e li dividiamo nei due set.

Dopodichè si attua un campionamento uniforme dei dati prendendoli in modo casuale per

generare il Training e la Validation Set.

Lezione 9 – Teorema di Bayes e i Classificiatori di Bayes (Completo e Ingenuo)

Il Teorema di Bayes misura un "Grado di credenza", quanto crediamo che qualcosa accada.

Descrive la probabilità di un evento di accadere, basata sulla conoscenza preliminare delle

condizioni che potrebbero essere correlate a quell'evento.

Gli ingenui classificatori di Bayes sono una famiglia di "Classificatori probabilistici" semplici

basati sull'applicazione del teorema di Bayes con forti (ingenui) presupposti di indipendenza

tra le caratteristiche: Presuppone che ogni attributo sia indipendente dagli altri attributi.

Le osservazioni sono classificate con parametri 𝒙 in funzione di un attributo nominale 𝑦.

L’obbiettivo di questi modelli è trovare una dipendenza nei dati.

I classificatori di Bayes esprimono il loro modello in termini di probabilità semplici:

Prevedono, per ogni record, la classe più probabile.

Altre ipotesi semplificatrici riguardano gli attributi numerici: Si ipotizza che la distribuzione

che meglio si adatta a questi dati è una distribuzione Gaussiana con parametri:

La Media (Uguale al valore medio dell’attributo) e la Varianza (Quella dei dati).

L'ingenuo presupposto di indipendenza è raramente soddisfatto nella pratica, tuttavia, i

classificatori ingenui funzionano bene e spesso non sono molto peggiori di classificatori

molto più sofisticati e complicati: I classificatori sono valutati con accuratezza/perdita 0-1:

Viene semplicemente contato quanto spesso prevedono correttamente 𝑦:

Una previsione corretta non richiede che le probabilità di classe siano previste con

precisione ma solo che la classe più probabile riceva la probabilità più alta.

IL CLASSIFICATORE COMPLETO DI BAYES

Scarta l’ingenua ipotesi di indipendenza condizionale e modella tutti gli attributi metrici

insieme con una distribuzione gaussiana multivariata (DGM) per classi.

Il risultato è noto come classificatore completo di Bayes.

N.B: Se fossero presenti attributi categoriali, potrebbe essere ancora necessario assumere

l'indipendenza condizionale per non mischiare attributi numerici e categorici in DGM.

Le estensioni di questo approccio riguardano mitigare il presupposto dell'indipendenza

condizionale selezionando un appropriato sottoinsieme di attributi descrittivi e

incorporando i costi di classificazione. L’Algoritmo predice la classe più probabile.

ALGORITMI DI ESTRAZIONE DELLE REGOLE

Sono la Generalizzazione delle regole di associazione.

Modelli relativi all’efficienza numerica con un sistema che genera regole in automatico

chiamato “Rule Induction”. Questi modelli sono applicabili se vi è conoscenza base dei dati

che permettono di esprimere alcune regole di approssimazione, questi algoritmi inoltre:

● Dovrebbero essere applicati solo a set di dati con una struttura ben compresa e non grandi.

● Tendono ad essere sensibili agli attributi inutili o correlati e all'eccessivo rumore nei dati.