Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


BUSINESS DATA ANALYTICS MOD 1, Dispense di E-Business

DISPENSA COMPLETA DEL MODULO 1

Tipologia: Dispense

2024/2025

Caricato il 27/02/2026

riccardo-salardino
riccardo-salardino 🇮🇹

3 documenti

1 / 139

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
BUSINESS DATA ANALYTICS
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica BUSINESS DATA ANALYTICS MOD 1 e più Dispense in PDF di E-Business solo su Docsity!

BUSINESS DATA ANALYTICS

MODULO 1

Introduzione

La statistica è una disciplina scientifica che si occupa della raccolta, dell'analisi e dell'interpretazione dei dati ottenuti

dall’osservazione di un esperimento. Questa materia ha una struttura coerente basata sulla teoria della probabilità e

comprende molte procedure diverse che contribuiscono alla ricerca e allo sviluppo in tutta la Scienza e la Tecnologia.

Statistica come scienza

● basata sui dati;

● costruita sulla teoria della probabilità;

● transdisciplinare.

Le teorie matematiche alla base della statistica si basano molto sul calcolo differenziale e integrale, sull'algebra

lineare e sulla teoria della probabilità.

Ad oggi, l'oggetto di studio della statistica sta diventando sempre più complesso e ampio →Big Data.

Perciò c’è la necessità di modelli più complessi per trattare i dati e di conseguenza calcolatori più performanti.

Il machine learning è un campo di studi che dà ai computer la capacità di imparare senza essere esplicitamente

programmati. Si tratta, in sostanza, dell’apprendimento automatico: permette ai computer di imparare

dall’esperienza.

Nota: analisi statistiche univariate possono essere svolte sui singoli vettori

x

. j.

(colonne della matrice dei dati)

Analisi bivariata

Se l’analisi viene effettuata considerando due variabili i dati possono essere rappresentati come una nuvola di punti

in

R

p

Esempio:

Ogni vettore riga (unità i-esima) rappresenta una coppia di coordinate in

R

2

Rappresentazione dei dati

In generale, le righe della matrice dei dati sono osservazioni delle unità statistiche lungo p variabili.

La visualizzazione della nuvola di punti richiede di rappresentare i dati in R

p

(nel corso verranno illustrati strumenti

grafici sul software R per rappresentare i dati in p>3 dimensioni).

Quando il numero di variabili supera di molto 1 (

p ≫ 1

) possono insorgere problemi nella visualizzazione ed

esplorazione dei dati. In questi casi, spesso si ricorre a metodi statistici di riduzione dimensionale (e.g., analisi delle

componenti principali).

Variabile risposta e variabili covariate

All’interno del dataset, è spesso possibile identificare una variabile risposta, ovvero una variabile target per l’analisi.

La variabile risposta Y può essere:

● continua;

● categorica.

Se Y è una variabile categorica, l’obiettivo dell’analisi è tipicamente la classificazione

Statistica univariata

Nella statistica univariata si analizzano le unità statistiche focalizzandosi su una singola variabile.

Statistica descrittiva

Nella statistica descrittiva si utilizzano:

● indici di sintesi (sintetizzano l’informazione nei dati);

● rappresentazioni grafiche.

Gli indici di sintesi e rappresentazioni grafiche più appropriate vengono determinate in base alla tipologia dei

caratteri:

● qualitativi;

● quantitativi

○ discreti,

○ continui.

Esempio:

Diagnosi principale di 1467 pazienti dell'ospedale Tooting Bec

unità statistica = paziente

campione = numero di pazienti =

n

variabili = diagnosi

p

= schizofrenia, disordine affettivo, …

Frequenze assolute →contano le unità statistiche in ogni categoria.

Frequenze relative →si calcolano come le frequenze assolute diviso l’ampiezza campionaria.

Esempio:

Si deve valutare l'efficienza di una linea di produzione in uno stabilimento manifatturiero. A tale scopo vengono

raccolti dati sul numero di pezzi prodotti al giorno da una macchina per 30 giorni.

● verificare se la distribuzione assume una forma interessante;

● verificare se la distribuzione presenta dati anomali.

Indici di sintesi

Gli indici di sintesi si dividono in:

● misure di posizione (o misure di centralità) →qual è quel valore che mi sintetizza bene il fenomeno?

● misure di variabilità (o di dispersione) →come si distribuisce il fenomeno rispetto a questo valore?

● misure di forma →sono più frequenti valori alti o bassi?

→ la distribuzione mostra qualche forma interessante?

Outlier = dato anomalo;

= un dato che è significativamente più grande o più piccolo di altri punti di dati in un set di dati.

● può influenzare il calcolo delle statistiche descrittive;

● può essere causato da:

○ errore sperimentale,

○ errata registrazione dei dati,

○ valori reali;

● è necessario decidere se escluderlo o meno prima di effettuare l'analisi, un outlier dovrebbe essere

escluso se è dovuto a un errore di misurazione o umano.

Indici di locazione

Gli indici di locazione misurano la tendenza centrale dei dati.

Esistono diversi indici con i quali è possibile sintetizzare un insieme di dati (es. il valore più frequente, il valore che

divide equamente la popolazione).

● Media (aritmetica) campionaria

○ si calcola dividendo la somma di tutti i valori per la dimensione del dataset. Siano

x

1

,... , x

n

le osservazioni nel campione, allora le media campionaria

x

è

x =

n

i = 1

n

x

i

distribuzione di unità

x =

n

i = 1

K

x

i

n

i

distribuzione di frequenze

○ è la statistica di posizione più comunemente utilizzata;

○ è facile da capire e da calcolare;

○ può essere calcolata su fenomeni quantitativi;

○ funziona bene quando la distribuzione è simmetrica e non ci sono outlier

○ la media aritmetica è:

■ il baricentro della distribuzione,

■ la quantità che annulla la somma degli scostamenti

(

x

i

− x

) ,

■ la quantità che minimizza la somma degli scostamenti al quadrato

(

x

i

− x

)

2

○ la media aritmetica non è:

■ non è il punto medio del range;

■ non divide la distribuzione in due parti uguali;

■ non è il valore più frequente.

● Mediana (campionaria)

○ è il valore medio in cui esattamente la metà delle osservazioni ha un valore minore o uguale e

l’altra metà ha un valore maggiore o uguale;

○ è il più piccolo valore di

x

tale che la frequenza cumulata relativa è maggiore o uguale a 0,5 ;

○ indice meno utilizzato;

○ è una statistica utile per la sua robustezza (riduce l'effetto dei valori anomali);

○ spesso viene utilizzata quando i dati non sono simmetrici;

○ può essere calcolata su dati quantitativi o qualitativi ordinali;

rimuovendo l’outlier la media

varia molto di più della mediana

○ la più semplice misura di variabilità;

○ considera solo 2 osservazioni;

○ può essere fuorviante quando i dati sono distorti o in presenza di valori anomali, anche solo un

outlier fa crescere drasticamente il range.

● Differenza interquartile

○ la IQR (Inter Quartile Range) contiene il 50% centrale dei dati (i.e. Q3-Q1);

○ usata per distribuzioni non simmetriche che si discostano dalla distribuzione normale.

● Varianza campionaria e deviazione standard (o scarto quadratico medio)

○ la varianza campionaria della j-esima variabile è definita come

S

2

n − 1

i

n

(

x

i

− x

)

2

n − 1

serve per la non-distorsione

○ la deviazione standard campionaria è definita come √

S

2

■ è una media (non aritmetica) degli scostamenti,

■ ha la stessa unità di misura del carattere che si sta analizzando.

○ varianza e deviazione standard sono sensibili agli outliers,

○ sono impiegate per distribuzioni simmetriche,

○ per distribuzioni non simmetriche →disuguaglianza di Chebychev

Fr

[

x

i

[

x − k

S

2

, x + k

S

2

]

]

k

2

○ la varianza viene utilizzata per contestualizzare i valori della media

Standardizzazione di una variabile

La deviazione standard viene impiegata come unità di misura per la distanza dalla media.

variabile standardizzata

x

i

(

x

i

− x

)

S

2

nota:

x

i

non ha unità di misura

Indici di forma

I dati continui possono essere rappresentati con un istogramma per avere un'idea generale della loro forma, o

distribuzione.

La forma può rivelare molte informazioni sui dati; aiuta a identificare la statistica descrittiva più appropriata da

utilizzare in una determinata situazione.

I dati non seguono sempre una distribuzione nota. Le distribuzioni dei dati possono essere simmetriche o non

simmetriche. In una distribuzione simmetrica, i due lati della distribuzione sono l'immagine speculare l'uno dell'altro.

I dati sono rappresentati da un grafico quantitativo discreto.

Esempio:

Livello di vitamina D nel sangue di n= 26 pazienti in salute.

I dati sono rappresentati da un grafico quantitativo continuo (istogramma).

Il modo in cui i dati vengono rappresentati deve facilitarne l’analisi; in riferimento all’esempio precedente:

Il boxplot è un metodo di rappresentazione grafica quantitativa dei dati.

IQR = differenza interquartile (

Q

3

− Q

1

Maggiore è la distanza tra

Q

1

e

Q

1

−1.5 IQR

maggiore è la variabilità dei dati (lo stesso vale per la distanza

tra

Q

3

e

Q

3

+1.5 IQR

Il boxplot è utile ed efficace per confrontare un fenomeno in diversi gruppi.

La distribuzione dei dati può essere:

● simmetrica;

● orientata a destra;

● orientata a sinistra.

Test d’ipotesi

Esempi:

Z-test:

● Test sulla media per campione Gaussiano, varianza nota;

● Test asintotico sulla media per campione qualsiasi, varianza incognita;

T-test:

● Test sulla media per campione Gaussiano, varianza incognita;

Test per due popolazioni indipendenti

ANOVA

Si osserva un fenomeno

X e se ne raccoglie un campione casuale di ampiezza

n

(

x

1

,... , x

n

) ⤷= insieme di variabili casuali indipendenti e identicamente

distribuite (i.i.d.).

Si ipotizza che il fenomeno

X

si comporti con distribuzione normale:

X ∼ N

(

2

) .

Caso

con σ

2

nota

Si raccoglie un campione casuale per stimare

μ

(

x

1

,... , x

n

).

Lo stimatore della media

μ è una variabile campionaria

X =

n

i = 1

n

X

i

con distribuzione normale

X ∼ N

2

n

Sul campione casuale si calcola la stima della media

X =

n

i = 1

n

X

i

Esempio:

durata nominale delle pile (data dal produttore, da verificare) = 22h

deviazione standard (nota) = 3.5h

Viene estratto un campione di 20 pile con durata media rilevata di 20.7h

X ∼ N ( μ =? , σ =3.5)

n = 20

X =20.

è una delle possibili realizzazioni (non la media)

X ∼ N

H

0

μ = 22

H

1

ipotesi unilaterale (in questo caso sinistra)

H

0

vera

H

0

falsa

accetto

H

0

✅ errore di II tipo

rifiuto

H

0

errore di I tipo ✅

α = Prob ( errore di I tipo ) α ∈ [ 0 , 1 ]

β = Prob ( errore di II tipo ) β ∈ [ 0 , 1 ]