Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Mappe complete per il corso di Machine Learning, Schemi e mappe concettuali di Machine learning

Vuoi superare l’esame di Machine Learning senza perderti in migliaia di slide e dispense? Questi appunti sono la soluzione ideale: chiari, schematizzati e pensati per farti risparmiare tempo nello studio. - Contenuti coperti: Supervised & Unsupervised Learning (Regressione, Classificazione, Clustering) Funzioni di costo e tecniche di ottimizzazione (Gradient Descent, Normal Equations) Tecniche di regolarizzazione e riduzione della dimensionalità (PCA, SVD, ICA, Kernel PCA) Reti Neurali, Alberi decisionali, Random Forest e SVM Metriche di valutazione e validazione dei modelli (MAE, MSE, Accuracy, Precision, Recall, ROC, Cross-validation) Principi fondamentali (Bias-Variance Tradeoff, Rasoio di Occam, Teorema del No Free Lunch) Embeddings e Autoencoders - Perché comprarli: Sintetici ma completi : tutto l’esame in un unico file Strutturati per facilitare la memorizzazione e il ripasso veloce Ideali sia per la preparazione all’esame che come riferimento pratico per progetti

Tipologia: Schemi e mappe concettuali

2024/2025

In vendita dal 16/09/2025

paolo-gisonna
paolo-gisonna 🇮🇹

1 documento

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1
Tecniche di apprendimento
Supervised Learning
predizione dati input risposte corrette modello predire dati non presenti
Tecniche correlate Regressione Lineare
tecnica predire valore basandosi precedente set valori precedenti
Composizione
dataset l’insieme dati l’allenamento
learning algorithm
ipotesi descrivere relazione input output
Unsupervised Learning similitudine esclusivamente input individuate
correlazioini
anomalie
Funzione di costo e ottimizzazione
Funzione di costo
funzione descrivere differenza
valori predetti
valori reali
valutare migliorare performance modello trovando parametri theta minimizzino funzione di costo
Metodi per minimizzare la funzione di costo
Il gradient descent
Quando si ferma?
Max Iteration dopo determinato numero iterazioni
Absolute Tolerance sotto valore fissato funzione di costo
Relative Tolerance sotto valore fissato decremento funzione di costo
Gradient Norm Toleance norma Gradiente inferiore valore fissato
Metodi
Batch-Gradient Descent ad ogni iterazione aggiornati tutti i punti dataset lenta assicura convergenza
Stochastic Gradient Descent ad ogni iterazione l’aggiornamento esclusivamente datapoint in considerazione in quel momento veloce non garantisce convergenza
Mini-Batch Gradient Descent dataset diviso batch ognuno ottimizzato poi all’update finale intero dataset
Normal Equations
minimizzare funzione di costo
gradiente uguale zero si ricava theta minimizzano funzione di costo
Tecniche di normalizzazione
Min-Max Normalization
scala caratteristiche intervallo specifico
dati futuri fuori dell’intervallo non in considerazione
Z-Score Normalization
scala caratteristiche basandosi
media
deviazione standard
meno sensibile valori anomali
Interpretazioni probabilistiche
Likelihood misura verosimile parametri theta spieghino I dati osservati X
Relazione tra Likelihood e funzione di costo dimostrazione
Modelli avanzati
Modelli con feature multiple Aggiunta componenti migliorare complessità
Regolarizzazione Riduzione di overfitting termini penalizzanti funzione di costo.
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica Mappe complete per il corso di Machine Learning e più Schemi e mappe concettuali in PDF di Machine learning solo su Docsity!

CAPITOLO 1

Tecniche di apprendimento

Supervised Learning

predizione dati input risposte corrette modello predire dati non presenti

Tecniche correlate Regressione Lineare

tecnica predire valore basandosi precedente set valori precedenti

Composizione

dataset l’insieme dati l’allenamento

learning algorithm

ipotesi descrivere relazione input output

Unsupervised Learning similitudine esclusivamente input individuate

correlazioini

anomalie

Funzione di costo e ottimizzazione

Funzione di costo

funzione descrivere differenza

valori predetti

valori reali

valutare migliorare performance modello trovando parametri theta minimizzino funzione di costo

Metodi per minimizzare la funzione di costo

Il gradient descent

Quando si ferma?

Max Iteration dopo determinato numero iterazioni

Absolute Tolerance sotto valore fissato funzione di costo

Relative Tolerance sotto valore fissato decremento funzione di costo

Gradient Norm Toleance norma Gradiente inferiore valore fissato

Metodi

Batch-Gradient Descent ad ogni iterazione aggiornati tutti i punti dataset lenta assicura convergenza

Stochastic Gradient Descent ad ogni iterazione l’aggiornamento esclusivamente datapoint in considerazione in quel momento veloce non garantisce convergenza

Mini-Batch Gradient Descent dataset diviso batch ognuno ottimizzato poi all’update finale intero dataset

Normal Equations

minimizzare funzione di costo

gradiente uguale zero si ricava theta minimizzano funzione di costo

Tecniche di normalizzazione

Min-Max Normalization

scala caratteristiche intervallo specifico

dati futuri fuori dell’intervallo non in considerazione

Z-Score Normalization

scala caratteristiche basandosi

media

deviazione standard

meno sensibile valori anomali

Interpretazioni probabilistiche

Likelihood misura verosimile parametri theta spieghino I dati osservati X

Relazione tra Likelihood e funzione di costo dimostrazione

Modelli avanzati

Modelli con feature multiple Aggiunta componenti migliorare complessità

Regolarizzazione Riduzione di overfitting termini penalizzanti funzione di costo.

Regressione Logistica

Definizione

modello supervisionato classificare dati due categorie probabilità base decisione

l’output ristretto 0 e 1 tramite sigmoide

Cambiamenti

Likliehood e cost function

liklhood prendendo probabilità condizionata y dato x

funzione di costo logL Togliendo singolarmente contributo dell’errore (^) formula

Gradient Descent dimostrazione

Multi-class Classification

apprendimento supervisionato campioni classificati più di due classi

principali tecniche

One vs All classificatori=classi classificatore calcola probabilità appartenenza. scelta classe punteggio maggiore

All vs All classificatori binari n classi (n(-1))/2 coppie possibili

altrettanti classificatori

scelta classe punteggio maggiore

Come costruire

un sistema di ML

Rappresentazione Data Analysis e Pre-processing

Rimozione dei valori anomali utilizzando

Quartile

dataset divide 4 parti

calcolati Q1,Q2 e Q3 valori mediani

calcola l’interquantile range IQR = Q3 – Q1 Si escludono valori

sotto Q1 -1.5*IQR

sopra Q3 +1,5*IQR

Decile

Percentile

Selezione delle feature

processo selezione componenti più importanti l’addestramento

tecniche

Domain Experts esperto sceglie manualmente feature rilevanti

Filter misura rilevanza componente indipendente modello

Wrappers provano diverse combinazioni set di partenza trovare combinazione migliore

Riduzione della dimensionalità

PCA

SVD

Ottimizzazione Disgnostica

tecnica valutare Overfitting Underfitting capire modificare ipotesi

Si utilizzano Learning Curves

Training Curve l’errore dati di addestramento variare dimensione dati in addestramento da 1 a n

Validation Curve l’errore dati di validazione variare iperparametro esempio complessità

Diagnosticare alto bias (Underfitting) curve vicine errore elevato

Diagnosticare basso bias (Overfitting) errore training basso errore validation alto

Valutazione

Cross-validation

valutare

prestazioni

modello

Hold-out dataset diviso

Training Set addestrare modello

Validation set scegliere miglior modello

Test set valutare miglior modello

K-folds k sottogruppi ogni iterazione un fold test set gli altri validation valutazione finale media risultati

Come valutare se un modello di ML lavora bene

Modelli di Regressione tramite metriche Standard

MAE errore medio previsione valori reali

MSE

quadrato MAE

più sensibile valori anomali

RMSE

radice MSE

dimensioni originali valori positivi

Modelli di Classificazione tramite metriche confusion matrix

Accuracy previsioni corrette totale

Precision previsione corrette positive fatte

Recall previsioni positive positivi reali

ROC

asse y TPR recall

asse x FPR 1-recall

variare soglia di precisione

Come misurare se i risultati sono significativi

Paired Sample t-test

test statistico confrontare modelli stessa serie di dati valutare modello migliori prestazioni

differenza significativa? Calcolare

differenza errori di previsione

media differenze

t-score se maggiore soglia si

differenza determinata dal caso?

Test a due code differenza significativa non si sa direzione

Test a una coda

Differenza Positiva primo modello migliore del secondo

Differenza Negativa secondo modello migliore del primo

p < soglia differenza non determinata dal caso

p > soglia differenza potrebbe essere dovuta al caso

Coefficient of Determination

misura previsioni modello corrispondono

RSS differenza valori reali previsioni

TSS differenza valori reali media di essi

RETI NEURALI

Rete neurale

nodi (neuroni) strati (layer) modificano ingresso produrre output

apprendere mappatura risolvere problema

neurone sigmoide

input x(i)

Pesi theta

Output unico

Pattern complessi

si passa da approccio lineare non lineare funzioni di attivazione come sigmoide

sigmoide utilizzata

classificazione indicare l’appartenenza classe intervallo 0 e 1 probabilità

caratteristica derivabilità fondamentale backpropagation

Forward Propagation

Processo dati attraversano rete neurale

Composto

X vettore di input

Theta(i) matrici dei pesi strati i

z(i) attivazione combinazione lineare

a( i-1)

theta(i-1)

a(i) input strato i applicato funzione di attivazione z(i)

htheta(x)

Funzioni di costo

Tipologie

Regressione

Classificazione

RegTerm

Minimizzazione Backpropagation

calcolare gradiente funzione di costo aggiornare pesi minimizzare errore

Passaggi

ottenere l’errore strato di output

Tramite l’errore Strato L calcolare l’errore neurone j strato nascosto l

ottenuti valori errori ciascun neurone calcolare gradiente funzione di costo

Aggiornamento pesi

limitazioni

rete

troppo complessa l’algoritmo porta Overfitting

troppo profonda gradienti molto piccoli propaghiamo errore difficile allenamento strati iniziali

risolviamo inponendo

valore atteso attivazione 0 evitano accumuli

troppo grandi

troppo piccoli

varianza attivazione costante tra layer considerati

inizializzare parametri thteta valori casuali molto piccoli selezionandoli distribuzioni standard Xavier

SVM

Definizione

algoritmo supervised learning problemi

classificazione

regressione

trovare decision boundary linea separare datapoints differenti classi

Passaggi

Definiamo

iperpiano

classi

Mappiamo punti distanza

distanza punto iperpiano distanza larghezza margine

Definiamo problema Lagrange

Deriviamo L punti critici

Sostituiamo

soluzione dipende coppie di campioni

Non-separable SVM

Per dati classi sovrappongono distribuite complesso adattare modello gestire errori

Cambia

Condizione separazione

Problema ottimizzazione

Kernel Trick

Cover’s T. problema classificazione complesso bassa dimensionalità più probabilmente separabile alta dimensionalità

Kernel trick lavorare dati se fossero trasformati alta dimensionalità mantenendo spazio originale

calcola prodotto scalare vettori trasformati senza calcolare trasformazione

Principali

Kernel....................................... Lineare

Kernel.......................................Polinomale

Kernel.......................................Radiale

Kernel....................................... Sigmoide

Problema SVM diventa

GLMs

estendono modelli linearI permettendo modellare dati non seguono distribuzione normale applicando funizione di link trasforma relazione

input

output

mantenendo modello lineare nei parametri

ipotesi cambia funzione base

Principali funzione base

Lineare............... ...........

Polinomiale.... ...........

Gaussiana...... ...........

Sigmoidale... .............

Unsupervised Learning Principali algoritmi

Clustering

algoritmo scopo raggruppare dati simili Cluster

Tipi di Clustering

K-means

Algoritmo raggruppa m data points k cluster minimizzare distanze quadratiche

punti del cluster

rispettivo centroide

Passaggi

Scelta numero cluster k

intuitivamente

metodo di Elbow

Inizializzione i k centroidi

casualmente

strategie K-means ++

Assegnazione punto x(i) cluster Ck cluster Ck più vicino

Aggiornamento centroidi u(k) media punti cluster Ck

Ripetere

convergenza

criteri d’arresto

V e S

Vantaggi

Semplice

efficiente

Buono dati ben separati

Svantaggi

Sensibile valori anomali

Dipende inizializzazione centroidi

K-medoids

Algoritmo raggruppa m data points k cluster minimizzare distanze

punti

medoid

Passaggi

Scelta casualmente k punti dataset medoid iniziali

Assegnazione ogni punto assegnato cluster medoid vicino

Calcolo costo somma distanze

punti

medoids

Aggiornamento medoids valuta iterativamente ogni punto punto costo minore

Ripetere convergenza

V e S

Ventaggi

Robusto outlier

può utilizzare qualsiasi metrica

Svantaggi

Costo computazionale elevato

Non garantisce soluzione ottimale

Gaussian Mixture Models

metodo determinare probabilità datapoint appartenga cluster

associando ogni cluster una gaussiana obiettivo identificare k gaussiane descrivono dati loro parametri massimizzare verosimiglianza dati

probabilità combinazione lineare k gaussiane k cluster

Tipologie possibili della gaussiana

Distribuzione normale univariata

Distribuzione normale multivariata

Passaggi

Expectation calcolare coefficiente responabilità

Maximization Aggiornamento parametri

Coefficiente di miscelazione ....

Media .....

Matrice di covarianza ....

V e S

Vantaggi

modellare cluster qualsiasi forma

Robusto outlier

Svantaggi

cluster pochi punti matrice covarianza diverge

Sensibile valori iniziali

Scelta valore k

Elbow Method

grafico SSE variare k SSE distanza

punti

centroide

Passaggi

Calcolare SSE diversi k

Tracciare grafico SSE variare k

Identificare gomito grafico

Silhouette Coefficient

misura qualità separazione tra cluster

a(i) distanza media punti suo cluster

b(i) distanza media punti cluster più vicino

Passaggi Calcolare Silhouette Coefficient per ogni k

Scegliere k massimizza silhouette score

KL- Divergence

misura distribuzione trovata differisca distribuzione vera

Passaggi

Calcolare D(kl) diversi k

Scegliere k minimizza D(kl)

AIC

si basa penalizzazione complessità modello

Passaggi

Calcolare AIC diversi valori k

Scegliere Valori bassi AIC

AIC coretto

Correzione piccoli dataset

sensibile scelta parametri

BIC

penalizzazione più forte complessità

valido m>>k

Hirarchical clustering

approccio creare gerarchia di cluster dendogramma in base all’altezza taglio divisione cluster

Due tipologie

Agglomerate

Divisive

Necessario definire

metrica di similarità

Eucledian Distance......

Manhattan Distance.....

Mahalanobis Distance....

Criterio di collegamento

Single Linkage Min Linkage

Complete Linkage Max Linkage

Average Linkage

Centroid Linkage

Pro e Contro

Pro

Non richiede K a priori

Rappresenta relazioni gerarchiche tra i dati

diverse metriche di distanza

Contro

Computazionalmente costoso

Sensibile a outlier e rumore

Dipendente dalla scelta

DBSCAN

algoritmo basato densità

Elementi

Epsilon

MinPts

Tipi di punti

Core Point

Border Point

Noise Point

Limitazioni

Scelta MinPts

Spazi ad alta dimensionalità

Non efficiente con dataset a diversa densità

HDBSCAN

viene creata gerarchia cluster basata densità

Passaggi

Identificare ogni punto core distance distanza

punto

punto k-esimo piu vicino

k minClusterSize

Trasformare distanza punti Mutual Reachability Distance misura difficoltà di connessione

Costruzione Minimum Spanning Tree utilizzando MRD metrica di distanza

Divisione cluster archi più lunghi rimossi iterativamente in base densità locale

Rimozione cluster instabili utilizzando

λ-nascita

λ-morte

V e S

Vantaggi

Superamento limiti

Scelta epsilon

Gestione dataset densità variabile

rimozione rumore

rileva cluster densità diverse

Svantaggi

Più lento DBSCAN

Prestazioni influenzate

dimensionalità

distribuzione dati

PCA

Utilizza SVD

tecnica fattorizzazione di matrici scompone componenti fondamentali analizzare strutture principali dati

Definita m*n

matrice m*m

ortogonale dati reali

unitaria dati complessi

sue colonne autovettori sinistri A

matrice m*n

contenente valori singolari A

matrice n*n

ortogonale dati reali

unitaria dati complessi

sue colonne autovettori destri A

Proprietà

Valori singolari

sempre positivi radice quadrata autovalori

non nulli rango di A

Norma2A massimo valori singolari

da decomposizione agli autovalori

AAt ricaviamo U

AtA ricaviamo V

tecnica statistica ridurre dimensionalità dataset nuova rappresentazione basata combinazioni lineare componenti originali massima varianza

Principali utilizzi

Data Compression Riduzione spazio dimensionale rappresentare informazioni essenziali

Data visualization ridurre dati complessi dimensioni ridotte rappresentarli graficamente

Passaggi

Preprocessing dei dati

media ogni caratteristica zero

scalare valori

Calcolo matrice di covarianza

cattura relazioni caratteristiche

descrive quanto ogni coppia variabili correlata tra loro

Applicare SVD S matrice diagonale autovalori decrescente

Selezione componenti principali scegliere k in base varianza spiegata ridurre

Proiezione nello spazio ridotto mappare valori di x trovare valori approssimati

V e S

VANTAGGI

Può gestire diverse densità

Robusto agli outliers

SVANTAGGI

Necessità di definire manualmente alcuni parametri

Kernel PCA

variante PCA ridurre dimensionalità dei dati quando relazioni tra le variabili non sono lineari

Passaggi

Mappatura spazio delle caratteristiche dimensione superiore attraverso una funzione

Matrice di covarianza nello spazio trasformato descrive quanto ogni coppia variabili correlata tra loro

Kernel Trick

Problema agli autovalori spazio trasformato

Riformulazione con il kernel

Normalizzazione degli autovettori Per garantire autovettori

confrontabili

scalabili

Proiezione dei dati nello spazio trasformato ridurre dimensionalità dati

normalizziamo imponendo

ICA

tecnica

utilizzata data analysis permette

separare

identificare

risorse indipendenti

dataset multivariabile

decomporre

segnale misto x segnali sorgenti s statisticamente indipendenti

cercare matrice di Smixting W

componenti

segnale misto....

segnali osservati....

segnali indipendenti

ipotesi fondamentali

Indipendenza Statistica sorgenti statisticamente indipendenti

Distribuzione non Gaussiana sorgenti distribuzioni non gaussiane

Numero di sorgenti uguale numero di osservazioni A matrice

quadrata

invertibile

ambiguità

Permutazione delle componenti non distingue ordine sorgenti

Ambiguit`a di Scala non determina scala delle sorgenti

Partendo da

Teorema del Limite Centrale

combinazione lineare variabili non gaussiane più gaussianamente distribuita rispetto variabili stesse

sfrutta questa proprietà individuare componenti originali massimizzando ”non gaussianità” principali misure

Curtosi misura appiattimento distribuzione rispetto gaussiana

Negentropy quantifica distanza distribuzione gaussiana

Passaggi

definiamo distribuzione congiunta sorgenti indipendenti Il fattore ∣W∣ deriva dalla regola generale per il cambio di variabili nelle densità di probabilità:

Vogliamo massimizzare probabilità p(x) utilizziamo Log(L(W))

Si utilizza modello alta curtosi favorire non gaussianeità

ottimizzare W gradiente stocastico

Limitazioni

Non funziona bene sorgenti gaussiane

Sensibile al rumore

Embeddings

rappresentazioni vettoriali densi codificare oggetti discreti in uno spazio continuo bassa dimensionalità catturare relazioni

semantiche

strutturali

trasformano

elementi discreti in vettori numerici caratteristiche rilevanti

Esempi

Documento-Occorrenza vettore rappresenta documenti parola appare

Parole vicine (context-based) vettore costruito parole appaiono accanto parola target

Trigrammi di caratteri cattura struttura ortografica parola

essere appresi tramite

Fattorizzazione Matriciale decomposizione matrici

parole

documenti

Utilizza tecniche come SVD

Reti Neurali Word2Vec modello neurale apprende embeddings due strategie

CBOW Predice parola centrale date parole circostanti

Skip-gram Predice contesto di una parola data parola centrale

Autoencoders

rete neurale artificiale apprendere rappresentazioni latenti dati senza supervisione

Struttura

Encoder comprime input rappresentazione bassa dimensionalità

Decoder

ricostruisce input originale partire embedding latente

obiettivo minimizzare errore di ricostruzione

Passaggi

Forward pass input trasformato rappresentazione latente e decodificato

Calcolo della Loss misura differenza

input originale

ricostruzione

Backpropagation pesi aggiornati minimizzare l’errore

Iterazione fino convergenza

Possibilità togliere output layer aggiungere hidden layer trovare layer rappresentare output più bassa dimesionalità

Alcune Applicazioni

Compressione di immagini

Denoising

Anomaly Detection