





Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Vuoi superare l’esame di Machine Learning senza perderti in migliaia di slide e dispense? Questi appunti sono la soluzione ideale: chiari, schematizzati e pensati per farti risparmiare tempo nello studio. - Contenuti coperti: Supervised & Unsupervised Learning (Regressione, Classificazione, Clustering) Funzioni di costo e tecniche di ottimizzazione (Gradient Descent, Normal Equations) Tecniche di regolarizzazione e riduzione della dimensionalità (PCA, SVD, ICA, Kernel PCA) Reti Neurali, Alberi decisionali, Random Forest e SVM Metriche di valutazione e validazione dei modelli (MAE, MSE, Accuracy, Precision, Recall, ROC, Cross-validation) Principi fondamentali (Bias-Variance Tradeoff, Rasoio di Occam, Teorema del No Free Lunch) Embeddings e Autoencoders - Perché comprarli: Sintetici ma completi : tutto l’esame in un unico file Strutturati per facilitare la memorizzazione e il ripasso veloce Ideali sia per la preparazione all’esame che come riferimento pratico per progetti
Tipologia: Schemi e mappe concettuali
1 / 9
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






Supervised Learning
predizione dati input risposte corrette modello predire dati non presenti
Tecniche correlate Regressione Lineare
tecnica predire valore basandosi precedente set valori precedenti
Composizione
dataset l’insieme dati l’allenamento
learning algorithm
ipotesi descrivere relazione input output
Unsupervised Learning similitudine esclusivamente input individuate
correlazioini
anomalie
Funzione di costo
funzione descrivere differenza
valori predetti
valori reali
valutare migliorare performance modello trovando parametri theta minimizzino funzione di costo
Metodi per minimizzare la funzione di costo
Il gradient descent
Quando si ferma?
Max Iteration dopo determinato numero iterazioni
Absolute Tolerance sotto valore fissato funzione di costo
Relative Tolerance sotto valore fissato decremento funzione di costo
Gradient Norm Toleance norma Gradiente inferiore valore fissato
Metodi
Batch-Gradient Descent ad ogni iterazione aggiornati tutti i punti dataset lenta assicura convergenza
Stochastic Gradient Descent ad ogni iterazione l’aggiornamento esclusivamente datapoint in considerazione in quel momento veloce non garantisce convergenza
Mini-Batch Gradient Descent dataset diviso batch ognuno ottimizzato poi all’update finale intero dataset
Normal Equations
minimizzare funzione di costo
gradiente uguale zero si ricava theta minimizzano funzione di costo
Min-Max Normalization
scala caratteristiche intervallo specifico
dati futuri fuori dell’intervallo non in considerazione
Z-Score Normalization
scala caratteristiche basandosi
media
deviazione standard
meno sensibile valori anomali
Likelihood misura verosimile parametri theta spieghino I dati osservati X
Relazione tra Likelihood e funzione di costo dimostrazione
Modelli con feature multiple Aggiunta componenti migliorare complessità
Regolarizzazione Riduzione di overfitting termini penalizzanti funzione di costo.
modello supervisionato classificare dati due categorie probabilità base decisione
l’output ristretto 0 e 1 tramite sigmoide
Likliehood e cost function
liklhood prendendo probabilità condizionata y dato x
funzione di costo logL Togliendo singolarmente contributo dell’errore (^) formula
Gradient Descent dimostrazione
apprendimento supervisionato campioni classificati più di due classi
principali tecniche
One vs All classificatori=classi classificatore calcola probabilità appartenenza. scelta classe punteggio maggiore
All vs All classificatori binari n classi (n(-1))/2 coppie possibili
altrettanti classificatori
scelta classe punteggio maggiore
Rimozione dei valori anomali utilizzando
Quartile
dataset divide 4 parti
calcolati Q1,Q2 e Q3 valori mediani
calcola l’interquantile range IQR = Q3 – Q1 Si escludono valori
sotto Q1 -1.5*IQR
sopra Q3 +1,5*IQR
Decile
Percentile
Selezione delle feature
processo selezione componenti più importanti l’addestramento
tecniche
Domain Experts esperto sceglie manualmente feature rilevanti
Filter misura rilevanza componente indipendente modello
Wrappers provano diverse combinazioni set di partenza trovare combinazione migliore
Riduzione della dimensionalità
PCA
SVD
tecnica valutare Overfitting Underfitting capire modificare ipotesi
Si utilizzano Learning Curves
Training Curve l’errore dati di addestramento variare dimensione dati in addestramento da 1 a n
Validation Curve l’errore dati di validazione variare iperparametro esempio complessità
Diagnosticare alto bias (Underfitting) curve vicine errore elevato
Diagnosticare basso bias (Overfitting) errore training basso errore validation alto
Cross-validation
valutare
prestazioni
modello
Hold-out dataset diviso
Training Set addestrare modello
Validation set scegliere miglior modello
Test set valutare miglior modello
K-folds k sottogruppi ogni iterazione un fold test set gli altri validation valutazione finale media risultati
Come valutare se un modello di ML lavora bene
Modelli di Regressione tramite metriche Standard
MAE errore medio previsione valori reali
MSE
quadrato MAE
più sensibile valori anomali
RMSE
radice MSE
dimensioni originali valori positivi
Modelli di Classificazione tramite metriche confusion matrix
Accuracy previsioni corrette totale
Precision previsione corrette positive fatte
Recall previsioni positive positivi reali
ROC
asse y TPR recall
asse x FPR 1-recall
variare soglia di precisione
Come misurare se i risultati sono significativi
Paired Sample t-test
test statistico confrontare modelli stessa serie di dati valutare modello migliori prestazioni
differenza significativa? Calcolare
differenza errori di previsione
media differenze
t-score se maggiore soglia si
differenza determinata dal caso?
Test a due code differenza significativa non si sa direzione
Test a una coda
Differenza Positiva primo modello migliore del secondo
Differenza Negativa secondo modello migliore del primo
p < soglia differenza non determinata dal caso
p > soglia differenza potrebbe essere dovuta al caso
Coefficient of Determination
misura previsioni modello corrispondono
RSS differenza valori reali previsioni
TSS differenza valori reali media di essi
nodi (neuroni) strati (layer) modificano ingresso produrre output
apprendere mappatura risolvere problema
neurone sigmoide
input x(i)
Pesi theta
Output unico
si passa da approccio lineare non lineare funzioni di attivazione come sigmoide
sigmoide utilizzata
classificazione indicare l’appartenenza classe intervallo 0 e 1 probabilità
caratteristica derivabilità fondamentale backpropagation
Processo dati attraversano rete neurale
Composto
X vettore di input
Theta(i) matrici dei pesi strati i
z(i) attivazione combinazione lineare
a( i-1)
theta(i-1)
a(i) input strato i applicato funzione di attivazione z(i)
htheta(x)
Tipologie
Regressione
Classificazione
RegTerm
Minimizzazione Backpropagation
calcolare gradiente funzione di costo aggiornare pesi minimizzare errore
Passaggi
ottenere l’errore strato di output
Tramite l’errore Strato L calcolare l’errore neurone j strato nascosto l
ottenuti valori errori ciascun neurone calcolare gradiente funzione di costo
Aggiornamento pesi
limitazioni
rete
troppo complessa l’algoritmo porta Overfitting
troppo profonda gradienti molto piccoli propaghiamo errore difficile allenamento strati iniziali
risolviamo inponendo
valore atteso attivazione 0 evitano accumuli
troppo grandi
troppo piccoli
varianza attivazione costante tra layer considerati
inizializzare parametri thteta valori casuali molto piccoli selezionandoli distribuzioni standard Xavier
algoritmo supervised learning problemi
classificazione
regressione
trovare decision boundary linea separare datapoints differenti classi
Definiamo
iperpiano
classi
Mappiamo punti distanza
distanza punto iperpiano distanza larghezza margine
Definiamo problema Lagrange
Deriviamo L punti critici
Sostituiamo
soluzione dipende coppie di campioni
Per dati classi sovrappongono distribuite complesso adattare modello gestire errori
Cambia
Condizione separazione
Problema ottimizzazione
Cover’s T. problema classificazione complesso bassa dimensionalità più probabilmente separabile alta dimensionalità
Kernel trick lavorare dati se fossero trasformati alta dimensionalità mantenendo spazio originale
calcola prodotto scalare vettori trasformati senza calcolare trasformazione
Principali
Kernel....................................... Lineare
Kernel.......................................Polinomale
Kernel.......................................Radiale
Kernel....................................... Sigmoide
Problema SVM diventa
estendono modelli linearI permettendo modellare dati non seguono distribuzione normale applicando funizione di link trasforma relazione
input
output
mantenendo modello lineare nei parametri
ipotesi cambia funzione base
Principali funzione base
Lineare............... ...........
Polinomiale.... ...........
Gaussiana...... ...........
Sigmoidale... .............
Clustering
algoritmo scopo raggruppare dati simili Cluster
Tipi di Clustering
K-means
Algoritmo raggruppa m data points k cluster minimizzare distanze quadratiche
punti del cluster
rispettivo centroide
Passaggi
Scelta numero cluster k
intuitivamente
metodo di Elbow
Inizializzione i k centroidi
casualmente
strategie K-means ++
Assegnazione punto x(i) cluster Ck cluster Ck più vicino
Aggiornamento centroidi u(k) media punti cluster Ck
Ripetere
convergenza
criteri d’arresto
V e S
Vantaggi
Semplice
efficiente
Buono dati ben separati
Svantaggi
Sensibile valori anomali
Dipende inizializzazione centroidi
K-medoids
Algoritmo raggruppa m data points k cluster minimizzare distanze
punti
medoid
Passaggi
Scelta casualmente k punti dataset medoid iniziali
Assegnazione ogni punto assegnato cluster medoid vicino
Calcolo costo somma distanze
punti
medoids
Aggiornamento medoids valuta iterativamente ogni punto punto costo minore
Ripetere convergenza
V e S
Ventaggi
Robusto outlier
può utilizzare qualsiasi metrica
Svantaggi
Costo computazionale elevato
Non garantisce soluzione ottimale
Gaussian Mixture Models
metodo determinare probabilità datapoint appartenga cluster
associando ogni cluster una gaussiana obiettivo identificare k gaussiane descrivono dati loro parametri massimizzare verosimiglianza dati
probabilità combinazione lineare k gaussiane k cluster
Tipologie possibili della gaussiana
Distribuzione normale univariata
Distribuzione normale multivariata
Passaggi
Expectation calcolare coefficiente responabilità
Maximization Aggiornamento parametri
Coefficiente di miscelazione ....
Media .....
Matrice di covarianza ....
V e S
Vantaggi
modellare cluster qualsiasi forma
Robusto outlier
Svantaggi
cluster pochi punti matrice covarianza diverge
Sensibile valori iniziali
Scelta valore k
Elbow Method
grafico SSE variare k SSE distanza
punti
centroide
Passaggi
Calcolare SSE diversi k
Tracciare grafico SSE variare k
Identificare gomito grafico
Silhouette Coefficient
misura qualità separazione tra cluster
a(i) distanza media punti suo cluster
b(i) distanza media punti cluster più vicino
Passaggi Calcolare Silhouette Coefficient per ogni k
Scegliere k massimizza silhouette score
KL- Divergence
misura distribuzione trovata differisca distribuzione vera
Passaggi
Calcolare D(kl) diversi k
Scegliere k minimizza D(kl)
si basa penalizzazione complessità modello
Passaggi
Calcolare AIC diversi valori k
Scegliere Valori bassi AIC
AIC coretto
Correzione piccoli dataset
sensibile scelta parametri
penalizzazione più forte complessità
valido m>>k
Hirarchical clustering
approccio creare gerarchia di cluster dendogramma in base all’altezza taglio divisione cluster
Due tipologie
Agglomerate
Divisive
Necessario definire
metrica di similarità
Eucledian Distance......
Manhattan Distance.....
Mahalanobis Distance....
Criterio di collegamento
Single Linkage Min Linkage
Complete Linkage Max Linkage
Average Linkage
Centroid Linkage
Pro e Contro
Pro
Non richiede K a priori
Rappresenta relazioni gerarchiche tra i dati
diverse metriche di distanza
Contro
Computazionalmente costoso
Sensibile a outlier e rumore
Dipendente dalla scelta
algoritmo basato densità
Elementi
Epsilon
MinPts
Tipi di punti
Core Point
Border Point
Noise Point
Limitazioni
Scelta MinPts
Spazi ad alta dimensionalità
Non efficiente con dataset a diversa densità
viene creata gerarchia cluster basata densità
Passaggi
Identificare ogni punto core distance distanza
punto
punto k-esimo piu vicino
k minClusterSize
Trasformare distanza punti Mutual Reachability Distance misura difficoltà di connessione
Costruzione Minimum Spanning Tree utilizzando MRD metrica di distanza
Divisione cluster archi più lunghi rimossi iterativamente in base densità locale
Rimozione cluster instabili utilizzando
λ-nascita
λ-morte
V e S
Vantaggi
Superamento limiti
Scelta epsilon
Gestione dataset densità variabile
rimozione rumore
rileva cluster densità diverse
Svantaggi
Più lento DBSCAN
Prestazioni influenzate
dimensionalità
distribuzione dati
Utilizza SVD
tecnica fattorizzazione di matrici scompone componenti fondamentali analizzare strutture principali dati
Definita m*n
matrice m*m
ortogonale dati reali
unitaria dati complessi
sue colonne autovettori sinistri A
matrice m*n
contenente valori singolari A
matrice n*n
ortogonale dati reali
unitaria dati complessi
sue colonne autovettori destri A
Proprietà
Valori singolari
sempre positivi radice quadrata autovalori
non nulli rango di A
Norma2A massimo valori singolari
da decomposizione agli autovalori
AAt ricaviamo U
AtA ricaviamo V
tecnica statistica ridurre dimensionalità dataset nuova rappresentazione basata combinazioni lineare componenti originali massima varianza
Principali utilizzi
Data Compression Riduzione spazio dimensionale rappresentare informazioni essenziali
Data visualization ridurre dati complessi dimensioni ridotte rappresentarli graficamente
Passaggi
Preprocessing dei dati
media ogni caratteristica zero
scalare valori
Calcolo matrice di covarianza
cattura relazioni caratteristiche
descrive quanto ogni coppia variabili correlata tra loro
Applicare SVD S matrice diagonale autovalori decrescente
Selezione componenti principali scegliere k in base varianza spiegata ridurre
Proiezione nello spazio ridotto mappare valori di x trovare valori approssimati
V e S
Può gestire diverse densità
Robusto agli outliers
Necessità di definire manualmente alcuni parametri
Kernel PCA
variante PCA ridurre dimensionalità dei dati quando relazioni tra le variabili non sono lineari
Passaggi
Mappatura spazio delle caratteristiche dimensione superiore attraverso una funzione
Matrice di covarianza nello spazio trasformato descrive quanto ogni coppia variabili correlata tra loro
Kernel Trick
Problema agli autovalori spazio trasformato
Riformulazione con il kernel
Normalizzazione degli autovettori Per garantire autovettori
confrontabili
scalabili
Proiezione dei dati nello spazio trasformato ridurre dimensionalità dati
normalizziamo imponendo
tecnica
utilizzata data analysis permette
separare
identificare
risorse indipendenti
dataset multivariabile
decomporre
segnale misto x segnali sorgenti s statisticamente indipendenti
cercare matrice di Smixting W
componenti
segnale misto....
segnali osservati....
segnali indipendenti
ipotesi fondamentali
Indipendenza Statistica sorgenti statisticamente indipendenti
Distribuzione non Gaussiana sorgenti distribuzioni non gaussiane
Numero di sorgenti uguale numero di osservazioni A matrice
quadrata
invertibile
ambiguità
Permutazione delle componenti non distingue ordine sorgenti
Ambiguit`a di Scala non determina scala delle sorgenti
Partendo da
Teorema del Limite Centrale
combinazione lineare variabili non gaussiane più gaussianamente distribuita rispetto variabili stesse
sfrutta questa proprietà individuare componenti originali massimizzando ”non gaussianità” principali misure
Curtosi misura appiattimento distribuzione rispetto gaussiana
Negentropy quantifica distanza distribuzione gaussiana
Passaggi
definiamo distribuzione congiunta sorgenti indipendenti Il fattore ∣W∣ deriva dalla regola generale per il cambio di variabili nelle densità di probabilità:
Vogliamo massimizzare probabilità p(x) utilizziamo Log(L(W))
Si utilizza modello alta curtosi favorire non gaussianeità
ottimizzare W gradiente stocastico
Limitazioni
Non funziona bene sorgenti gaussiane
Sensibile al rumore
Embeddings
rappresentazioni vettoriali densi codificare oggetti discreti in uno spazio continuo bassa dimensionalità catturare relazioni
semantiche
strutturali
trasformano
elementi discreti in vettori numerici caratteristiche rilevanti
Esempi
Documento-Occorrenza vettore rappresenta documenti parola appare
Parole vicine (context-based) vettore costruito parole appaiono accanto parola target
Trigrammi di caratteri cattura struttura ortografica parola
essere appresi tramite
Fattorizzazione Matriciale decomposizione matrici
parole
documenti
Utilizza tecniche come SVD
Reti Neurali Word2Vec modello neurale apprende embeddings due strategie
CBOW Predice parola centrale date parole circostanti
Skip-gram Predice contesto di una parola data parola centrale
Autoencoders
rete neurale artificiale apprendere rappresentazioni latenti dati senza supervisione
Struttura
Encoder comprime input rappresentazione bassa dimensionalità
Decoder
ricostruisce input originale partire embedding latente
obiettivo minimizzare errore di ricostruzione
Passaggi
Forward pass input trasformato rappresentazione latente e decodificato
Calcolo della Loss misura differenza
input originale
ricostruzione
Backpropagation pesi aggiornati minimizzare l’errore
Iterazione fino convergenza
Possibilità togliere output layer aggiungere hidden layer trovare layer rappresentare output più bassa dimesionalità
Alcune Applicazioni
Compressione di immagini
Denoising
Anomaly Detection