Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti Data Analytics, Appunti di Analisi Dei Dati

Appunti completi di Data analytics con anche esercizi svolti

Tipologia: Appunti

2024/2025

In vendita dal 31/05/2025

giulia-andreoli-12
giulia-andreoli-12 🇮🇹

4.9

(18)

34 documenti

1 / 31

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DATA ANALYTICS
Introduzione
L'algoritmo è il procedimento per la risoluzione di un problema utilizzando un numero finito di istruzioni.
Gli aspetti fondamentali nella progettazione di un algoritmo sono:
Correttezza: risolve correttamente il problema che si analizza
Efficienza: può essere caratterizzata in due modi:
tempo: velocità dell'algoritmo
spazio: spazio di memorizzazione
La progettazione di algoritmi è utilizzata per diversi problemi di analisi di dati, come:
Ordinamento di dati (problema da risolvere), es. ordine alfabetico
Calcolo di distanze tra elementi (problema da risolvere), es. due punti su una mappa
PageRank
Scienza dei dati. Vengono prodotti moltissimi dati in formato digitale, questi dati vengono raccolti per
ottenere delle informazioni. La nostra era è detta era dei dati. Nel 2020 sono stati creati 40.000miliardi di
GB di dati.
Differenziazione a seconda della tipologia dei dati; tre tipologie:
Business data:
Sensor data: rispondono a input provenienti dall'ambiente fisico
Human data: attività delle persone
Analisi dei dati consiste nel:
1. Raccogliere i dati
2. Crescita della capacità di computazione
3. Applicazione - algoritmi efficaci nell'analisi, producono risultati migliori dal punto di vista delle
analisi.
I dati raccolti sono dati grezzi, l'obiettivo è quello di applicare delle tecniche su questi dati per estrarre
informazioni (descrivere determinate proprietà) e creare conoscenza. Aspetti degli obiettivi dell'analisi dei
dati:
Suggerimenti da proporre
Previsioni
Sistemi di supporto alle decisioni, infine decisione presa da una persona
Discipline dell'analisi dei dati:
Informatica: algoritmi e software, definire l'elaborazione
Matematica e statistica
Conoscenza del dominio, studio dei dati in base all'ambito di applicazione
Informatica vs scienza dei dati
Informatica nell'analisi dei dati fa attenzione agli algoritmi (veloci, corretti, …) il problema deve essere
risolto con qualsiasi dato. Risultati plausibili. Idealizzazione dei dati. Invenzione dell'algoritmo che
permette di analizzare i dati.
Scienza dei dati nell'analisi dei dati fa attenzione ai dati (proprietà, cosa descrivono,…). Comprensione
dei dati negli aspetti del mondo reale. I dati possono avere delle imperfezioni che devono essere
affrontate. Scoperta dei dati.
Dato vs informazione
Dato: ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione; (in informatica)
elementi di informazione costituiti da simboli che debbono essere elaborati. Il dato è costituito da
sequenze di simboli.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Anteprima parziale del testo

Scarica Appunti Data Analytics e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

DATA ANALYTICS

Introduzione

L'algoritmo è il procedimento per la risoluzione di un problema utilizzando un numero finito di istruzioni. Gli aspetti fondamentali nella progettazione di un algoritmo sono: ● Correttezza : risolve correttamente il problema che si analizza ● Efficienza : può essere caratterizzata in due modi: → tempo : velocità dell'algoritmo → spazio : spazio di memorizzazione La progettazione di algoritmi è utilizzata per diversi problemi di analisi di dati, come: ● Ordinamento di dati (problema da risolvere), es. ordine alfabetico ● Calcolo di distanze tra elementi (problema da risolvere), es. due punti su una mappa ● PageRank

Scienza dei dati. Vengono prodotti moltissimi dati in formato digitale, questi dati vengono raccolti per ottenere delle informazioni. La nostra era è detta era dei dati. Nel 2020 sono stati creati 40.000miliardi di GB di dati. Differenziazione a seconda della tipologia dei dati; tre tipologie: ● Business data: ● Sensor data: rispondono a input provenienti dall'ambiente fisico ● Human data: attività delle persone

Analisi dei dati consiste nel:

  1. Raccogliere i dati
  2. Crescita della capacità di computazione
  3. Applicazione - algoritmi efficaci nell'analisi, producono risultati migliori dal punto di vista delle analisi. I dati raccolti sono dati grezzi, l'obiettivo è quello di applicare delle tecniche su questi dati per estrarre informazioni (descrivere determinate proprietà) e creare conoscenza. Aspetti degli obiettivi dell'analisi dei dati: ● Suggerimenti da proporre ● Previsioni ● Sistemi di supporto alle decisioni, infine decisione presa da una persona

Discipline dell'analisi dei dati: ● Informatica : algoritmi e software, definire l'elaborazione ● Matematica e statisticaConoscenza del dominio , studio dei dati in base all'ambito di applicazione

Informatica vs scienza dei dati Informatica nell'analisi dei dati fa attenzione agli algoritmi (veloci, corretti, …) il problema deve essere risolto con qualsiasi dato. Risultati plausibili. Idealizzazione dei dati. Invenzione dell'algoritmo che permette di analizzare i dati. Scienza dei dati nell'analisi dei dati fa attenzione ai dati (proprietà, cosa descrivono,…). Comprensione dei dati negli aspetti del mondo reale. I dati possono avere delle imperfezioni che devono essere affrontate. Scoperta dei dati. Dato vs informazione Dato : ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione; (in informatica) elementi di informazione costituiti da simboli che debbono essere elaborati. Il dato è costituito da sequenze di simboli.

Informazione : notizia, dato o elemento che consente di avere conoscenza più o meno esatta di fatti, situazioni, modi di essere. Descrive determinate proprietà di qualcosa. Il passaggio tra dato e informazione è anche legato alla tipologia di dati: ● Dati organizzati o strutturati: organizzazione con struttura in tabella; da dato a informazione è un passaggio immediato ● Dati non organizzati o non strutturati : non c'è una struttura organizzativa; bisogna creare le strutture.

Oggi i dati vengono detti Big data , in quanto i dati sono cresciuti notevolmente, non hanno una definizione formale e condivisa. In genere i big data hanno grande quantità di dati, difficili da conservare in memoria centrale, alcuni devono stare nella memoria di massa, provocando il rallentamento. La presenza di volumi considerevoli di dati permette l'applicazione di tecniche di analisi dei dati, come l’apprendimento automatico. Inoltre, c’è un eterogeneità di fonti e formati e ci potrebbero essere dati mancanti o errori. Le tre V dei big data: ● Volume : grandi quantità di dati ● Velocità : dati creati con un flusso di alta velocità; dare dei risultati in tempo reale ● Varietà : i dati possono essere di diverso formato (strutturati e non strutturati) Altri aspetti: ● Variabilità : dati con flussi non costanti; picchi periodici ● Complessità : i dati possono arrivare da molteplici fonti; i dati possono avere degli errori oppure mancanti Nella scienza dei dati viene considerato un dataset. L’analisi dei dati costruisce un modello dei dati, ha come obiettivo di individuare delle relazioni-proprietà tra elementi dei dati analizzati. Raccogliere i dati in archivi, esistono varie tipologie di archivi con vari argomenti.

Metodi algoritmici

L'obiettivo degli algoritmi è risolvere problemi dato un input, questo va trasformato per ottenere un output. Le tipologie di problemi sono: ● Decisione : hanno come risposta due possibilità, es. v o f ● Ordinamento : si parte da un insieme di dati in ordine casuale e bisogna riordinare con uno specifico ordinamento ● Ottimizzazione : rendere massimo o minimo una certa funzione obiettivo

Attività di modellazione. Un algoritmo può essere modellizzato in più modi. Bisogna scegliere un approccio e bisogna tenere conto delle proprietà che si vogliono avere nel risultato. Es. torneo sportivo tra 8 giocatori: come determinare il vincitore? ¤ Torneo all’italiana → massimizzare le partite, costruisce una graduatoria ¤ Eliminazione diretta → minimizzare le partite

Ordinamento e ricerca Si ha un vettore (lista di numeri) e, ad esempio, bisogna trovare il massimo. Si leggono i numeri all'interno del vettore e va trovato il massimo, si aggiorna il risultato quando trovo un numero massimo rispetto a quelli precedenti. esempio >>> mymax([5,4,3,11,4]) → 11 L'efficienza si valuta prendendo in considerazione il tempo nel caso peggiore, esso va espresso con n, poi si contano le operazioni che fa l'algoritmo; semplificazioni con la dipendenza di n, le costanti non sono considerate, Es. 2n-2 e n+1 sono considerati ordine di n. I problemi possono essere classificati in due categorie:

  1. Facili : risolvibile da un algoritmo efficiente per il problema. Efficienza → funzione polinomiale
  2. Difficili : problemi in cui non si conoscono algoritmi risolutivi efficienti. Non efficienti → funzione esponenziali

Considerando che metà dei numeri non vengono considerati ad ogni passo si ha n/2. Dal secondo

passaggio 𝑛2ℎ^ = 1 conℎ = 𝑙𝑜𝑔 2 𝑛

Es. 1.000.000 di dati in cui cercare un elemento

  • Ricerca sequenziale: 1.000.000 di operazioni → n = 1.000.
  • Ricerca binaria: 20 operazioni nel caso peggiore → 𝑙𝑜𝑔 2 1.000.000 = 20

Distanze Per la rappresentazione della distanza viene usato il grafo o rete. Ci sono due tipologie di cose da rappresentare:

  • gli elementi in cui si utilizzano i nodi o i punti. I nodi sono rappresentati come cerchi
  • le relazioni in cui si utilizzano gli archi , è una relazione binaria tra coppie di nodi. Gli archi sono linee che uniscono gli elementi La relazione tra i nodi può essere: biunivoca e univoca. I nodi sono adiacenti sono collegati direttamente. I grafi vengono utilizzati per:
  • Clustering
  • Classificazione di un determinato argomento
  • Distanze

Fissando due nodi (uno di partenza e uno di arrivo) si può trovare il cammino , ovvero una sequenza di nodi che devono avere delle specifiche proprietà: adiacenti, distinti, che inizia da a e termina con b. Il problema da risolvere è il calcolo del cammino più breve (tempo e non numero di archi) tra due nodi. Uso dell' Algoritmo di Dijkstra per trovare il cammino più breve. Una possibilità è percorrere un solo arco. La seconda possibilità è che ci sia il nodo di partenza, quello di destinazione e i nodi intermedi. Partendo da a, per tutti gli altri nodi intermedi bisogna calcolare i cammini più brevi di questi, poi bisogna etichettare i nodi. Le etichette possono essere temporanee (non si è ancora arrivato a calcolare il tempo minimo) o definitive (non si può impiegare meno di quel tempo). Fase iniziale: si definiscono le etichette che in questo momento sono temporanee. L'algoritmo fa delle iterazioni, prende l'etichetta temporanea con il valore più piccolo e viene resa definitiva inoltre vengono aggiornate le altre etichette. Le etichette temporanee hanno valore 0 per a, tutte le altre etichette si dà un valore elevato/infinito ( l (a)=0; l (c)= ∞). Ad ogni passaggio viene presa un'etichetta con il valore minimo viene resa definitiva e si aggiornano i nodi adiacenti. Il processo continua finché tutti i nodi nel grafo sono stati aggiunti al percorso. In questo modo, si ottiene un percorso che connette il nodo sorgente a tutti gli altri nodi seguendo il cammino più breve possibile per raggiungere ogni nodo.

Algoritmi e motori di ricerca Alla fine degli anni '90 si analizza il web comprendendo che esso ha strutture differenti rispetto ai documenti classici, in quanto il web è ipertestuale. I link ipertestuali costruiscono dei legami tra le pagine web, per studiarli si usa il Grafo del web. I nodi sono le pagine web e gli archi sono orientati che seguono i l ink ipertestuali. Il grafo del web ha tantissimi nodi ed è una rete dinamica. Il grafo del web è utilizzato per:

  • Esplorare il web, fondamentale per il motore di ricerca per costruire l'archivio
  • Ordinamento dei risultati dei motori di ricerca, come PageRank
  • Raggiungibilità delle pagine tramite link ipertestuali

Uno degli aspetti per valutare i nodi è misurarne l’ importanza dei risultati. Prima si considerava il grado per misurare l'importanza, più è alto il numero di pagine collegate a una pagina più è alto il grado.

I creatori di Google creano PageRank. Il loro obiettivo era definire in termini numerici l'importanza delle pagine web. L'importanza di una pagina dipende dall 'importanza dei link ipertestuali in entrata. Se una pagina ha rilevanza X e n link uscenti, trasmette una rilevanza X/n (divisa in parti uguali) ai nodi raggiunti dai link. Rilevanza di una pagina: somma delle rilevanze ricevute dai nodi con link alla pagina.

r(Pk) rilevanza della pagina Pk l(Pk) link in uscita della pagina Pk

Come avviene il calcolo del PageRank? Il calcolo di Pagerank avviene con procedura ricorsiva complessa , si parte dai valori precedenti di rilevanza e si continuano a ricalcolare, alla volta x il valore non cambia più rispetto a quello precedenza, ci si può fermare con il calcolo e si trova l'importanza delle pagine della rete (metodo convergenza). L'importanza delle pagine dipende dalla struttura della rete → Valore calcolato a priori. Interpretazione del PageRank è la navigazione Probabilistica: casualmente sceglie un link ipertestuale affinché si riesca a visitare una certa pagina.

Sistemi di raccomandazione

I sistemi di raccomandazione sono software che propongono contenuti di (possibile) interesse per un utente. Essi hanno molti ambiti di applicazione, come intrattenimento, commercio, ecc... In alcuni casi c’è una vasta quantità di contenuti che sono fondamentali per la fruizione. Sono costruiti sull'analisi dei contenuti e/o studio comportamento degli utenti analizzando quelli simili tra vari utenti. Struttura grafo è detto delle valutazioni in cui vanno rappresentati i nodi del sistema: utenti e contenut i. Sistema che sfrutta le valutazioni. Due tipi di archi che si hanno quando l'utente valuta il contenuto:

  • Arco positivo tra utente e contenuto, quando l'utente ha fatto una valutazione positiva
  • Arco negativo tra utente e contenuto, quando l'utente ha fatto una valutazione negativa

Grafo delle valutazioni è un grafo bipartito , in quanto si possono suddividere in due categorie; gli archi non collegano mai due utenti o due contenuti. Approccio basato sulla selezione collaborativa:

  • Analisi del grafo delle valutazioni

Sistema dei fattori nascosti Gli utenti a cui piacciano o meno determinati contenuti, sono influenzati da alcune caratteristiche, detti fattori nascost i. Bisogna quantificare il valore di quanto influenzano questi fattori. Determinare i fattori nascosti è rilevante, per esempio, nell’ambito dei suggerimenti. Questi sistemi si basano su un catalogo di contenuti, si ipotizzano pochi fattori nascosti e bisogna trovare quanto influenzano le scelte degli utenti. Nella tabella si hanno le valutazione (1-5) dei contenuti di vari utenti. Non sempre ci sono le valutazioni.

Questi giudizi sono stati dati a causa delle influenze dei fattori nascosti. Si costruiscono due tabelle. La prima rappresenta l'interesse dell'utente per una caratteristica (descrizione numerica degli utenti). Nella seconda si rappresenta il grado di presenza di una caratteristica in un contenuto. Non si sa quanto valgono i valori delle due tabelle l'obiettivo è stimarli. Se si conoscessero i dati si saprebbe l'interesse per una caratteristica degli utenti e la presenza di una caratteristica di un contenuto, inoltre si potrebbe costruire la matrice delle valutazione. Determinare i fattori nascosti: Il giudizio di U1 su F1 = x1,1 y1,1+ x1,2 y2, x1,1 y1,1 → quanto la categoria 1 è apprezzata dall'utente 1 * quanto la caratteristica 1 è presente nel contenuto numero 1. x1,2 y2,1 → quanto la categoria 2 è apprezzata dall'utente 1 * quanto la caratteristica 2 è presente nel contenuto numero 1. Questo approccio si può fare per tutte le celle.

La tabella è ancora incognita e non si può ancora confrontare. Si parte da valori casuali, ad esempio tutti i valori uguali a 1 e con questi si può calcolare le matrice delle valutazioni.

Si calcolano le valutazioni a partire dalle tabelle 1 e 2: Il giudizio di U1 su F1 = x1,1 y1,1+ x1,2 y2,1 = 1+1 = 2 ; si fa per tutte le celle che avranno lo stesso valore, in questo caso sempre 2. → Si considera la tabella delle valutazioni iniziale; Basandosi sui valori stimati si calcola l'errore commesso e dal valore stimato si sottrae il valore reale (es. 2 - 4 = -2).

L'errore che si può commettere qualche volta è negativo e altre volte è positivo. Gli errori vanno elevati al quadrato così che anche quelli negativi diventano positivi. Errore quadratico medio si calcola prendendo i vari errori calcolati che vengono elevati al quadrato e vengono sommati tutto si divide per n che sta per i numeri degli errori e si calcola la radice quadrata. S = ((0+4+9+1+4+9+1)/7)^1/2=1, Il metodo cerca di rendere minore l'errore commesso. Per ridurre l'errore ci si fissa su un elemento della tabella di interesse dell’utente rendendolo l' unica incognita. Si calcola la matrice delle valutazioni tenendo conto della variabile. Il giudizio di U1 su F1 = x1,1 y1,1+ x1,2 y2,1 = x + 1 , si applica per tutte le celle e si trova una nuova stima avendo solo un incognita. Si prende questa nuova matrice e si calcola l'errore. Poi si applica l'errore quadratico medio nella nuova tabella. 𝑆 = (((𝑥 − 1) 2 + (𝑋 − 3) 2 + (𝑋 − 4) 2 + 1 + 4 + 9 + 1)/7) 1/. Si studia questa funzione per trovare il valore minimo, in questo caso

x=8/3 = 2,667. Questo valore lo si sostituisce nella tabella al posto dell'incognita.

Questo appena calcolato è la prima iterazione , infatti poi si deve inserire un incognita per le celle successive e fare i calcoli. I valori delle celle si possono aggiornare per rendere minimo l'errore medio. Il procedimento converge. Le tabelle calcolate vengono usate per fare delle previsioni delle valutazioni mancanti degli utenti e in base a queste si costruiscono i suggerimenti agli utenti. Nel 2006, Netflix propose una sfida per migliorare il sistema di raccomandazione che usava a quel tempo. Uno delle proposte fu quella dei fattori nascosti che riuscì a migliorarlo del 7%. La competizione venne vinta da BellKor’s Pragmatic Chaos : miglioramento di oltre il 10%: che combinava diversi algoritmi.

Dati e descrizione

Statistica Discipline matematiche connesse all’analisi di eventi/dati:

  • Statistica : analisi di quanto già osservato; disciplina applicativa, descrivere determinate fenomeni
  • Probabilità : predizioni future, stimare dei fenomeni; disciplina teorica Statistica descrittiva : ha l’obiettivo descrivere determinati fenomeni in modo sintetico. Popolazione : insieme dei soggetti studiati, ognuno di questi è detta unità statistica. Si studiano delle caratteristiche , ovvero una grandezza di un soggetto statistico. Variabile statistica è una funzione che associa un valore a ogni unità statistica.

Analisi dei dati Caratteristiche dei vari dati che si utilizzano:

  • Dati strutturati : hanno una loro organizzazione interna si rifletta in un organizzazione a tabelle, per rendere più semplice l'interpretazione dei dati. Es. Osservazioni scientifiche, database. La prima fase di analisi è più semplice e più immediata. Diffusione in ambiti limitati. Nei dati strutturati ogni riga rappresenta una unità statistica e ogni colonna rappresenta un carattere.
  • Dati non strutturati : non hanno una struttura interna tabellare nella prima fase. Es. post social media, sequenza di nucleotidi. Prima analisi più complessa con tecniche di pre-elaborazione. Diffusione in molti ambiti. Nella fase di preelaborazione bisogna applicare delle tecniche: partire da input non strutturati e arrivare a output con dati strutturati. Questo dipende dal tipo di dati che si va ad analizzare, es. In un testo: parole, presenza di caratteri speciali, classificazione semantica,…
  • Dati quantitativi : dati che possono essere associati a un formato numerico ed è quindi possibili associare delle operazioni matematiche. ❖ discreti : associati a numeri naturali, si possono contare ❖ continui : associati a numeri reali, si possono misurare

Livello dei rapporti. Tutte le operazioni aritmetiche sono possibili. Dati espressi in modo quantificabile su cui è definito uno zero assoluto. Le operazioni consentite sono quelle dei livelli precedenti, la moltiplicazione e la divisione. In genere i valori non sono negativi. Per calcolare il centro sono quelle dei livelli precedenti, media geometrica (radice n di xnvalori che vanno moltiplicati). Es. temperature2 = [9, 11, 13, 14, 26, 27, 29, 31] Media = 20 Media geometrica = 18.

Alcune proprietà delle misure del centro Proprietà negativa della media aritmetica: alcuni dati ( outliers ) hanno un valore distante dalla maggioranza dei dati, la media viene molto influenzata da questi valori anomali. Invece la mediana è meno o non sensibile ai valori anomali. Es. temperature = [0, 30, 32, 32, 33, 33, 34] Media = 27,7 Mediana = 32 La media è una misura significativa per dati senza outliers e distribuzione simmetrica; es. altezza. Per capire se la media riesce a calcolare bene senza valori anomali, si devono calcolare gli scarti rispetto al centro dei dati, lo scarto rispetto al centro è la differenza tra il valore del dato e il valore del centro. Quando il centro è la media aritmetica: la somma degli scarti (eventualmente pesata) è nulla. Conferma la proprietà delle media come baricentro dei dati.

La dispersione misura come i dati si posizionano (complessivamente) rispetto al centro, nella media non si può usare la somma degli scarti. Gli scarti vanno elevati al quadrato, così che anche quelli negativi diventano positivi. Se si sommano gli scarti quadratici, il valore minimo lo si trova quando il centro dei dati è la media aritmetica, non si riesce mai a fare meglio della media aritmetica.

Se ci sono due variabili: si indica con E(X) la media della variabile x. La media di y = a + b * media di x → trasformazione lineare. Esempio: X: costo produzione di prodotti [10, 11, 11,5, 12, 14, 15,5, 16, 16,5] Y: prezzo di vendita 2* X + 1 [21, 23, 24, 25, 29, 32, 33, 34] E[X] = 13,3125 E[Y] = 2*E[X] + 1 = 27,

Ordinamento e quantili

L'ordinamento dei dati permette la descrizione di calcolare la mediana e il calcolo dei quantili , ovvero delle posizioni rilevanti di un valore all'interno dei dati. Massimo e minimo sono dei quantili semplici. Dopo aver ordinato i dati, i dati vengono divisi in parti, come: quartili, percentili, decili. Nei quartili ogni parte deve contenere più o meno 1/4 dei valori. l quartile zero, il primo, il secondo, il terzo e il quarto quartile corrispondono con le prime modalità la cui frequenza cumulata percentuale è almeno 0, 25, 50, 75 e 100 rispettivamente:

  • Primo quartile: minimo valore x per cui almeno ¼ dei dati a sinistra di esso è minore o uguale a x
  • Secondo quartile: minimo valore x per cui almeno ½ dei dati è minore o uguale a x
  • Terzo quartile: minimo valore x per cui almeno ¾ dei dati è minore o uguale a x Esempio: X: durata lampadine [100, 110|, 120, 125|, 142, 145|, 160, 165] Primo quartile: 110 Secondo quartile: 125 Terzo quartile: 145 Percentili : suddivisione dei dati ordinati in 100 parti. Molto utilizzata. Valore in x minori o uguali a x sono almeno il 10% dei dati. Alcuni percentili utilizzati: 25-esimo (corrisponde al primo quartile); 50-esimo (corrisponde al secondo quartile); 75-esimo (corrisponde al terzo quartile). Scopi dei percentili:
  • Dare una descrizione complessiva dei dati
  • Individuare la posizione di un dato
  • Definiscono le misure di descrizione dei dati per trovare il centro, chiamata media interquartile , si ordinano i dati, si individuano il primo e il terzo quartile e si fa la media di essi. La media interquartile evita i valori anomali. Esempio: X: durata lampadine [100, 110, 120, 125, 142, 145, 160, 165] Primo quartile:110; Terzo quartile:145; Media interquartile:(110+145)/2 = 127, Semisomma estrem i: media del massimo e del minimo, ma è sensibile ai valori anomali.

Il centro dei dati cerca di descrivere l'aspetto dei dati. Ma ci sono delle misure che descrivono i dati più nel dettaglio, ovvero le misure di variabilità. Oltre al centro dei dati, possiamo misurare la variabilità dei dati: quanto sono distanti dal centro, per fare questo serve il centro e la variabilità. Le misure di variabilità più usate sono:

  • Intervalli di variazione : quanto sono distanti tra di loro il min e il max; si calcola il campo di escursione = max - min. misura influenzata dai valori anomali. Rappresenta quanto sono lontani i dati della variabile statistica. Esempio: temperature1 = [15, 16, 17, 19, 21, 23, 24, 25]Media = 20 Campo di escursione = 10 temperature2 = [0, 16, 17, 19, 21, 23, 24, 40] Media = 20 Campo di escursione = 40
  • Intervallo interquartile : definire una misura non anomale, si considera il valore estremo del terzo quartile meno il valore estremo del primo quartile x0.75 - x0.25. Esempio: temperature = [0, 16, 17, 19, 21, 23, 24, 40] Media = 20 Campo di escursione = 40 Differenza interquartile = 23 – 16 = 7
  • Dispersione rispetto al centro , quanto sono complessivamente distanti tutti i dati dal centro. Si definiscono la somma degli scarti al quadrato. Ci sono delle misure di variabilità che definiscono la dispersione: ● Varianza : calcolare tutti gli scarti al quadrato e poi vanno sommati, poi va diviso tutto per n

(tot dei dati) Esempio:

Definizione standard : la deviazione standard misura la distanza media dei punti dal centro, si applica alla varianza la radice quadrata, si cerca di annullare l'effetto dell'elevamento al quadrato. Esempio: temperature1 = [15, 16, 17, 19, 21, 23, 24, 25] Media = 20 Dev. standard = 3.5707142142714252 temperature2 = [9, 11, 13, 14, 26, 27, 29, 31] Media = 20 Dev. Standard = 8.

Molti fenomeni osservabili hanno un distribuzione a campana (altezza, peso, aspettativa di vita, etc…). Questo tipo di distruzione ha delle particolarità:

  • Media molto rappresentativa : molti dati hanno valori vicini alla media
  • D istribuzione simmetrica : dati si compensano La disuguaglianza di Chebyshev mostra in generale il legame tra media, varianza e distribuzione dei dati, invece per la distribuzione normale vale la regola empirica , ovvero solo i dati seguono questa regola si possono dare delle informazioni precise. La regola empirica considera una distribuzione normale, con media m e varianza v^2 quando:
  • Circa il 68% dei dati è in un intervallo [m- v, m+ v]
  • Circa il 95% dei dati è in un intervallo [m-2v, + m+2v]
  • Circa il 99,7% dei dati è in un intervallo [m-3v, m+3v] Se si aumenta ulteriormente v, la percentuale dei dati diventa infinitesima.

Distribuzione di frequenza Con le misure di centralità e variabilità si possono descrivere in modo sintetico i dati, ma non sempre è sufficiente. Le frequenze danno maggiori informazioni. In generale bisogna individuare i valori di un carattere e poi contare le unità statistiche con lo stesso valore. Ci sono due tipologie di frequenze:

  • Frequenza assoluta : di un valore b di X è il numero di unità statistiche che assumono valore b → numero naturale
  • Frequenza relativa : contare per ogni valore le unità statistiche con lo stesso valore, poi questo valore va diviso per il numero totale di dati che si stanno considerando → porzione di unità statistiche Nella descrizione dei dati si usa la distribuzione delle frequenze. Per descrivere al meglio i dati vanno definite delle coppie Vi (valori specifici che possono assumere i dati) e Fi (frequenza).

Confronto di insiemi di dati

Molto spesso si analizzano due o più caratteri di insiemi di dati. Il c oefficiente di variazione permette di confrontare dei dati che hanno delle grandezze distanti (dispersione di più insiemi di dati). Approccio per la standardizzazione della dispersione. Coefficiente di variazione = Deviazione standard/media ; questo esprime la variabilità media rispetto al valore del centro.

La posizione relativa serve per capire la posizione in cui si colloca un determinato valore (quanto vicino/lontano alla media). Per calcolarlo si usa il punteggio zero o z-score → punteggio di un singolo dato che ha valori x. Si calcola facendo la differenza tra il valore x e la media aritmetica / deviazione standard. Calcola quanto è distante il punto dalla media. Esempio: n. visite pagina= [109, 98, 76, 202, 124, 56, 109] media = 110.57 deviazione standard = 42. z-score= [-0.037 (molto vicino alla media), -0.293, -0.8, 2.132 (molto distante dalla media), 0.313, -1.272, -0.037].

Proprietà punteggio z:

  • Valori maggiori della media, z-score positivo
  • Valori minori della media, z-score negativo
  • Lo z-score della media è nullo
  • Punto x vale la media più la deviazione standard e si ottiene 1
  • Punto x vale la media meno la deviazione standard e si ottiene -
  • Lo z-score non riesce a controllare i dati anomali Il punteggio z è utile per capire la posizione di un'unità statistica rispetto a due caratteri diversi e come ogni unità si distingue e individuare o meno dei legami tra le proprietà. Facilità di confronto indipendentemente dalla scala. Es. n. visite pagina correlata agli investimenti in pubblicità? n. visite pagina= [109, 98, 76, 202, 124, 56, 109] media = 110.57 deviazione standard = 42.89 z-score= [-0.037, -0.293, -0.8, 2.132, 0.313, -1.272, -0.037] Investimenti in pubblicità = [0.75 (prima pagina quanto ha investito in pubblicità?), 0.73, 0.67, 0.91, 0.78, 0.77, 0.75] media = 0.766 deviazione standard = 0.0676 z-score= [-0.233, -0.528, -1.416, 2. 134, 0.211, 0.063, -0.233]

Correlazione Per correlazione si intendono le misure quantitative con fine quanto due dati sono legati tra di loro. Due tipologie di misure sono la covarianza e gli indici di correlazione. Con la covarianza vanno considerate due variabili statistiche x e y. Bisogna capire, se considerando gli individui della popolazione, come essi si collocano rispetto al centro comune (E[X]; E[Y]), se variano in modo simile oppure no. La covarianza è la media aritmetica del prodotto tra gli scarti dalla media di X e Gli scarti dalla media di Y → si prende il valore della persona 1 e si calcola lo scarto della media e si vede se è maggiore o minore, così per tutte le variabili. E poi vengono sommate tra di loro e divido per gli n valori Il valore della covarianza può essere

  • Positivo : proporzionalità diretta, i punti si collocano in modo concorde rispetto al centro
  • Negativo : proporzionalità inversa , i punti si collocano al di sopra della media per x sono sotto per y, e viceversa
  • Vicino a zero : assenza di proporzionalità – situazione simmetrica

Correlazione tra i dati. Ci sono delle possibili ipotesi su un insieme di dati:

  • Associazione positiva (andamento simile)
  • Associazione negativa (andamento opposto)
  • Nessuna associazione Il coefficiente di correlazione misura la quantitativa delle relazioni tra variabili:
  • Ha valore compreso tra -1 e 1
  • Assenza di correlazione: 0
  • Correlazione positiva: andamento simile
  • Correlazione negativa: andamento opposto

e invertita da variabili nascoste. Esempio del Test A/B: esempio di raccolta dati per sperimentazione nella progettazione web. Quando si progettano le pagine web si possono verificare le landing page , l'utente ci arriva senza passare dalla homepage, bisogna scegliere la versione più efficace tramite il test A/B. Gli utenti che provano il test vengono distinti in due gruppi, ognuno dei gruppi interagisce solo con una versione della pagina; si misura quanti hanno selezionato il servizio offerto dalla pagina, detto tasso di conversione : porzione di utenti che attivano una transazione della pagina. Per ogni pagina si calcola n persone che hanno fatto la conversione/n tot persone nel gruppo. Consideriamo un test A/B, con i seguenti tassi di conversione:

  • Pagina A: 257/320 = 80,3125%
  • Pagina B: 212/250 = 84,8% → miglior tasso di conversione

Analizzando i risultati: Pagina A ha migliori risultati in ogni fascia d’età e peggior risultato in generale. A cosa è dovuto questo risultato?

  • Sbilanciamento del campione: pagina A valutata da molti utenti nella fascia 60-80 anni: giudizi più severi; pagina B valutata da molti utenti nella fascia 20-59 anni: giudizi meno severi
  • Una possibile variabile di confusione: età legata alla conversione Considerazioni legate al paradosso di Simpson:
  • Correlazione non implica relazione di causalità
  • Il possibile ruolo di variabili di confusione da considerare se ho un valore elevato di correlazione
  • Per ottenere maggiori informazioni sulla causalità bisogna fare dei test statistici

Formule su Excel Moda: =MODA(intervallo) es. =MODA(B2:B101) Mediana: =MEDIANA(intervallo) es. =MEDIANA(B2:B101). Media aritmetica: =MEDIA(intervallo) es. =MEDIA(B2:B101) Quartile: =INC.QUARTILE(intervallo; n quartile) es. =INC.QUARTILE(B2:B101;1) primo quartile Intervallo quartile: = III quartile - I quartile Intervallo di variazione: max - min Varianza: =VAR.P(intervallo) es. =VAR.P(B2:B101) Deviazione standard: =DEV.ST.P(intervallo) es. =DEV.ST.P(B2:B101) Frequenze: =CONTA.SE(intervallo;”valore che si vuole contare”) es. =CONTA.SE(B$2:B$101;"18") Contare le classi: =FREQUENZA(matrice1 intervallo; matrice2 contiene valori per la suddivisione in classe già dati) es. =FREQUENZA(B2:B101;G103:G107) Z.score: =(valore - media)/ deviazione standard es. =(B2-B$104)/B$ Correlazione Pearson: =CORRELAZIONE((matrice 1 primo intervallo; matrice 2 secondo intervallo) es. =CORRELAZIONE(L2:L101;M2:M101) Correlazione R: bisogna fare due operazioni =RANGO.MEDIA(cella; tutto intervallo) es. =RANGO.MEDIA(A98;A$2:A$101) =CORRELAZIONE(intervallo della posizione1; intervallo della posizione2) es. =CORRELAZIONE(C2:C101;D2:D101)

Probabilità

La Procedura/esperimento è un’azione che porta a un esito. L'esperimento può essere deterministico (quando si sanno i dati di input si calcola direttamente la formula, es. A =b*h) o casuale/non deterministico (non si conosce subito l'esito finale, es. lancio della moneta; i possibili esiti sono noti, ma non si sa quale si verificherà). L'esito a cui si è interessati è detto evento. L' evento elementare è uno dei possibili esiti di un

esperimento casuale; Es. Lancio di un dado {1, 2, 3, 4, 5, 6}. In generale un evento è un sottoinsieme dei possibili esiti, es. numero pari. Altri tipi di eventi:

**- Certi

  • Impossibili**
  • Evento complementare : costituito da tutti gli eventi che non stanno in A, il complementare Ᾱ è la negazione di A In modo simile agli insiemi possiamo definir eventi composti, dati due eventi A e B:
  • Intersezione di A e B : eventi che appartengono sia ad A che a B → A AND B = 𝐴 ∩ 𝐵
  • Unione di A e B: eventi che stanno o in A o in B o nell'intersezione → A OR B = 𝐴 ∪ 𝐵 Si possono avere anche eventi che combinano più procedure, es. due lanci di un dado. Spazio dei campioni : insieme di tutti i possibili eventi. Proprietà della probabilità:
  • Non negatività : probabilità di un evento è maggiore o uguale a 0
  • Norma : la probabilità che si verifichi l'evento certo deve essere 1
  • Probabilità ha un numero compreso tra 0 e 1
  • Additività : se si considerano due eventi disgiunti, intersezione vuota, la probabilità della loro unione è uguale alla somma delle loro probabilità. La probabilità dell'unione di a e b è uguale alla probabilità di a + probabilità di b → P (AuB) = P(A)+P(B) = 𝑥+𝑦𝑛

Probabilità = n. di eventi in cui A si verifica / punti complessivi contenuti nella dimensione dello spazio dei campioni.

Per calcolare la probabilità di Ᾱ: → P(Ᾱ) = 1 - P(A) tutto lo spazio dei campioni - la probabilità di a → P(A) = 1 - P(Ᾱ) L’utilizzo degli eventi complementari è utile per il calcolo di alcune probabilità, due esempi:

  1. A = Lancio di due dadi: probabilità di ottenere un risultato complessivamente > 3. il numero possibile di esiti sono 6*6 =36 esiti. Per l'evento A si usa l'evento complementare → Ᾱ: somma risultato <=3 → P(A) = 1 - P(Ᾱ). Gli esiti che esistono sono 2 e 3 → per ottenere 2 si ha la probabilità di 1/36; per ottenere 3 si ha la probabilità di 2/36. P(Ᾱ) = P(1) +P(2) + P(3)= 0/36+1/36+2/36= 3/36. P(A)= 36/36 – 3/36 = 33/36.
  2. Fondiamo una start-up; 2 riunioni indipendenti:
    • 10% di ottenere finanziamenti alla prima riunione
    • 20% alla seconda riunione Evento A ottenere un finanziamento P(A)= 1 - P(Ᾱ). L'evento complementare è che nessuno faccia un finanziamento → P(Ᾱ) = 90% *80% = 0,72 → P(A)= 1- P(Ᾱ) = 1-0,72 = 0,

Eventi composti: eventi composti tra due eventi A e B:

  • P robabilità che si verifichino A e B (A AND B) : punti che stanno nell'intersezione Esempio Universo di 100 persone → Test per scoprire la presenza dell’influenza, 30 persone dell’universo hanno l’influenza P(A) = 30/100; 40 persone positive al test P(B) = 40/100 → A ∩ B: 20 che rappresenta il numero di persone con l'influenza e anche positive al test - Probabilità che si verifichi almeno uno tra A e B (A OR B) Esempio: A U B: 50 Rappresenta il numero di persone che hanno l’influenza o sono positive al test 50/

Regole per il calcolo di probabilità composte : Probabilità dell'unione con somma : Dati due eventi A e B, la probabilità dell’unione di A e B è data da: La somma della probabilità di A e della probabilità di B Meno la probabilità dell’intersezione tra A e B.

  • 30 con l’influenza (in A) P(A)=30/
  • 25 con test positivo (in B) P(B)= 25/
  • 20 con influenza E test positivo (in A e in B) P(A ∩B)=20/

𝑃(𝐴|𝐵) = 𝑃(𝐴∩𝐵)𝑃(𝐵) = 20/10025/100 = 2025 = 0, 8

La probabilità condizionata soddisfa le proprietà della probabilità

  1. P(A|B) ≥0 proprietà della non negatività, probabilità di B è sempre positiva
  2. Se A | B e C | B sono disgiunti P(A U C | B) = P(A|B) + P(C|B), proprietà dell’ additività
  3. La probabilità dell’evento certo dato B è uguale a 1, proprietà della norma

Esercizio: Consideriamo la probabilità che un utente effettui una conversione su una pagina web. Abbiamo i seguenti dati:

  • 2000 utenti considerati
  • 500 utenti usano tablet
  • 100 utenti usano tablet ed effettuano una conversione Sapendo che l’utente usa un tablet, qual è la probabilità che un utente effettui una conversione? P(T)= 500/ P(C ∩ T) = 100/ 𝑃(𝐶|𝑇) = 𝑃(𝐶∩𝑇)𝑃(𝑇) = 100/2000500/2000 = (^100500)

Esercizio 2: Consideriamo la probabilità che un'email sia spam. Abbiamo i seguenti dati:

  • 1000 messaggi analizzati
  • 500 contengono la parola conferenza
  • 200 sono spam e contengono la parola conferenza Qual è la probabilità che una mail che contiene la parola conferenza sia spam? P(C)= 500/ P(C ∩ S) = 200/

𝑃(𝑆|𝐶) = 𝑃(𝐶∩𝑆)𝑃(𝐶) = 200/1000500/1000 = (^200500)

La regola del prodotto permette di calcolare la probabilità di B * la probabilità di A dato B. 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴 𝐴𝑁𝐷 𝐵) = 𝑃(𝐵) * 𝑃(𝐴|𝐵) 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴 𝐴𝑁𝐷 𝐵) = 𝑃(𝐴) * 𝑃(𝐵|𝐴)

Esempio 1: Insieme di 20 persone, scelte casualmente

  • Sistema operativo smartphone: 12 Android e 8 iOS
  • Due eventi: A: scelta di un utente con Android; B: scelta di un secondo utente con Android Qual è la probabilità di aver scelto due utenti con Android - A AND B? 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) * 𝑃(𝐵|𝐴) P(A) = 12/ P(B|A) = 11/19 → il primo caso A si è verificato quindi tolgo una persona P(A and B) = 12/20 * 11/19 = 0,

Esempio 2: Consideriamo due insiemi di utenti:

  • 300 su 500 usano PC
  • Selezioniamo due utenti Qual è la probabilità di selezionare due utenti che usano un PC? P(A) = 300/ P(A|B) = 299/ P( A int B)= 299/499 * 300/500 =0,

Esempio 3: Consideriamo la probabilità che un utente acquisti un prodotto. Abbiamo i seguenti dati:

  • 1000 utenti considerati
  • 20% utenti usano uno smartphone
  • Tra i 200 utenti che usano uno smartphone, 50 effettuano un acquisto Qual è la probabilità dell’evento acquisto E utilizzo smartphone?

P(di usare lo Smartphone ) = 20/ P(A|S) =50/ P (A int S) = 20/100 * 50/200 = 0,

Eventi indipendenti Due eventi sono indipendenti quando il risultato di un evento non influenza l’altro. Ha le seguenti probabilità: P(B|A)=P(B) e P(A|B)=P(A) → Se A è indipendente da B, allora B è indipendente da A. Inoltre c'è una proprietà per l'intersezione: P(A AND B) = P(A)P(B).* Esempio di evento indipendente: Due lanci di una moneta: primo lancio: testa, secondo lancio: croce

Classificatori: valutazione dei risultati I classificatori sono dei metodi il cui obiettivo è di assegnare degli oggetti a delle categorie. I classificatori binari sono dei classificatori con due categorie, come test influenzale, documento rilevante o meno…. Il classificatori stabilisce che ogni elemento analizzato appartenga a una delle due classi. Matrice-Tabella di confusione : si prendono in considerazione i dati e le due classi-previsioni (si e no). Previsioni si: elementi classificati positivi. Previsioni no: elementi classificati negativi. Casella A: classificatore ha identificato una previsione positiva; Casella D: metodo ha correttamente identificato come negativi; Caselle B e C il metodo ha classificato erroneamente. Si ha il comportamento ottimale quando le celle B e C non contengono nessun elemento. L'insieme B è l'insieme dei falsi positivi e l'insieme C è l'insieme dei falsi negativi.

Coefficienti di valutazione permettono di misurare la qualità delle classificazioni. Ci sono due aspetti:

  • Precisione : Quanti della porzione dei risultati positivi sono stati riconosciuti correttamente della classificazione, si concentra sulle previsioni positive del metodo P = A / (A+B)
  • Richiamo-sensitività : Quanti della porzione dei risultati riconosciuti come positivi dalla classificazione che sono realmente positivi R = A / (A+C) Esempio: Precisione P = 20 / (20+10)=20/30 Richiamo/recupero R = 20 / (20+5)=20/

Approccio bayesiano

L’ approccio bayesiano sfrutta le probabilità per descrivere gli eventi con l'obiettivo di fare una previsione della probabilità. L’approccio bayesiano è caratterizzato da tre concetti e dai legami tra di essi:

  • Distribuzione a priori : ciò che conosciamo del caso analizzato, si è verificato un evento dato un altro
  • Distribuzione a posteriori : previsione a partire da conoscenza a priori - Probabilità di un evento Con il teorema di Bayes si considerano:
  • P(A)
  • P(B)
  • P(A ∩B)
  • P(A|B) e P(B|A)