Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

BUSINESS DATA ANALYTICS MOD 1, Dispense di E-Business

Politecnico di Milano (POLIMI)E-Business

Prof. Laura Grassi

DISPENSA COMPLETA DEL MODULO 1

Tipologia: Dispense

2024/2025

Caricato il 27/02/2026

riccardo-salardino 🇮🇹

3 documenti

1 / 139

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

BUSINESS DATA ANALYTICS

Scopri Dispense di E-Business Politecnico di Milano (POLIMI)

Documenti correlati

Business Data Analytics (gestionale)

BUSINESS DATA ANALYTICS MODULO 2

Business Data Analytics

BDA - Business Data Analytics (Prof. Flori)

BDA - Business Data Analytics (Prof. Ieva)

Business data analytics comandi R completi (2023)

(1)

BDA Anova One Way, Polimi Business Data Analytics

BUSINESS DATA ANALYTICS (FLORI ANDREA) schemi parte GES

BUSINESS DATA ANALYTICS (BERAHA MARIO), sintesi parte MAT

Business Data Analytics, formulario comandi e librerie per R

Business Intelligence & Data mining

(2)

BDA (Business Data Analytics

Anteprima parziale del testo

Scarica BUSINESS DATA ANALYTICS MOD 1 e più Dispense in PDF di E-Business solo su Docsity!

BUSINESS DATA ANALYTICS

MODULO 1

Introduzione

La statistica è una disciplina scientifica che si occupa della raccolta, dell'analisi e dell'interpretazione dei dati ottenuti

dall’osservazione di un esperimento. Questa materia ha una struttura coerente basata sulla teoria della probabilità e

comprende molte procedure diverse che contribuiscono alla ricerca e allo sviluppo in tutta la Scienza e la Tecnologia.

Statistica come scienza

● basata sui dati;

● costruita sulla teoria della probabilità;

● transdisciplinare.

Le teorie matematiche alla base della statistica si basano molto sul calcolo differenziale e integrale, sull'algebra

lineare e sulla teoria della probabilità.

Ad oggi, l'oggetto di studio della statistica sta diventando sempre più complesso e ampio →Big Data.

Perciò c’è la necessità di modelli più complessi per trattare i dati e di conseguenza calcolatori più performanti.

Il machine learning è un campo di studi che dà ai computer la capacità di imparare senza essere esplicitamente

programmati. Si tratta, in sostanza, dell’apprendimento automatico: permette ai computer di imparare

dall’esperienza.

Nota: analisi statistiche univariate possono essere svolte sui singoli vettori

x

. j.

(colonne della matrice dei dati)

Analisi bivariata

Se l’analisi viene effettuata considerando due variabili i dati possono essere rappresentati come una nuvola di punti

R

Esempio:

Ogni vettore riga (unità i-esima) rappresenta una coppia di coordinate in

R

Rappresentazione dei dati

In generale, le righe della matrice dei dati sono osservazioni delle unità statistiche lungo p variabili.

La visualizzazione della nuvola di punti richiede di rappresentare i dati in R

(nel corso verranno illustrati strumenti

grafici sul software R per rappresentare i dati in p>3 dimensioni).

Quando il numero di variabili supera di molto 1 (

p ≫ 1

) possono insorgere problemi nella visualizzazione ed

esplorazione dei dati. In questi casi, spesso si ricorre a metodi statistici di riduzione dimensionale (e.g., analisi delle

componenti principali).

Variabile risposta e variabili covariate

All’interno del dataset, è spesso possibile identificare una variabile risposta, ovvero una variabile target per l’analisi.

La variabile risposta Y può essere:

● continua;

● categorica.

Se Y è una variabile categorica, l’obiettivo dell’analisi è tipicamente la classificazione

Statistica univariata

Nella statistica univariata si analizzano le unità statistiche focalizzandosi su una singola variabile.

Statistica descrittiva

Nella statistica descrittiva si utilizzano:

● indici di sintesi (sintetizzano l’informazione nei dati);

● rappresentazioni grafiche.

Gli indici di sintesi e rappresentazioni grafiche più appropriate vengono determinate in base alla tipologia dei

caratteri:

● qualitativi;

● quantitativi

○ discreti,

○ continui.

Esempio:

Diagnosi principale di 1467 pazienti dell'ospedale Tooting Bec

unità statistica = paziente

campione = numero di pazienti =

n

variabili = diagnosi

p

= schizofrenia, disordine affettivo, …

Frequenze assolute →contano le unità statistiche in ogni categoria.

Frequenze relative →si calcolano come le frequenze assolute diviso l’ampiezza campionaria.

Esempio:

Si deve valutare l'efficienza di una linea di produzione in uno stabilimento manifatturiero. A tale scopo vengono

raccolti dati sul numero di pezzi prodotti al giorno da una macchina per 30 giorni.

● verificare se la distribuzione assume una forma interessante;

● verificare se la distribuzione presenta dati anomali.

Indici di sintesi

Gli indici di sintesi si dividono in:

● misure di posizione (o misure di centralità) →qual è quel valore che mi sintetizza bene il fenomeno?

● misure di variabilità (o di dispersione) →come si distribuisce il fenomeno rispetto a questo valore?

● misure di forma →sono più frequenti valori alti o bassi?

→ la distribuzione mostra qualche forma interessante?

Outlier = dato anomalo;

= un dato che è significativamente più grande o più piccolo di altri punti di dati in un set di dati.

● può influenzare il calcolo delle statistiche descrittive;

● può essere causato da:

○ errore sperimentale,

○ errata registrazione dei dati,

○ valori reali;

● è necessario decidere se escluderlo o meno prima di effettuare l'analisi, un outlier dovrebbe essere

escluso se è dovuto a un errore di misurazione o umano.

Indici di locazione

Gli indici di locazione misurano la tendenza centrale dei dati.

Esistono diversi indici con i quali è possibile sintetizzare un insieme di dati (es. il valore più frequente, il valore che

divide equamente la popolazione).

● Media (aritmetica) campionaria

○ si calcola dividendo la somma di tutti i valori per la dimensione del dataset. Siano

x

,... , x

le osservazioni nel campione, allora le media campionaria

x

x =

n

∑

i = 1

x

distribuzione di unità

x =

n

∑

i = 1

x

n

distribuzione di frequenze

○ è la statistica di posizione più comunemente utilizzata;

○ è facile da capire e da calcolare;

○ può essere calcolata su fenomeni quantitativi;

○ funziona bene quando la distribuzione è simmetrica e non ci sono outlier

○ la media aritmetica è:

■ il baricentro della distribuzione,

■ la quantità che annulla la somma degli scostamenti

(

x

− x

) ,

■ la quantità che minimizza la somma degli scostamenti al quadrato

(

x

− x

)

○ la media aritmetica non è:

■ non è il punto medio del range;

■ non divide la distribuzione in due parti uguali;

■ non è il valore più frequente.

● Mediana (campionaria)

○ è il valore medio in cui esattamente la metà delle osservazioni ha un valore minore o uguale e

l’altra metà ha un valore maggiore o uguale;

○ è il più piccolo valore di

x

tale che la frequenza cumulata relativa è maggiore o uguale a 0,5 ;

○ indice meno utilizzato;

○ è una statistica utile per la sua robustezza (riduce l'effetto dei valori anomali);

○ spesso viene utilizzata quando i dati non sono simmetrici;

○ può essere calcolata su dati quantitativi o qualitativi ordinali;

rimuovendo l’outlier la media

varia molto di più della mediana

○ la più semplice misura di variabilità;

○ considera solo 2 osservazioni;

○ può essere fuorviante quando i dati sono distorti o in presenza di valori anomali, anche solo un

outlier fa crescere drasticamente il range.

● Differenza interquartile

○ la IQR (Inter Quartile Range) contiene il 50% centrale dei dati (i.e. Q3-Q1);

○ usata per distribuzioni non simmetriche che si discostano dalla distribuzione normale.

● Varianza campionaria e deviazione standard (o scarto quadratico medio)

○ la varianza campionaria della j-esima variabile è definita come

n − 1

∑

(

− x

)

n − 1

serve per la non-distorsione

○ la deviazione standard campionaria è definita come √

S

■ è una media (non aritmetica) degli scostamenti,

■ ha la stessa unità di misura del carattere che si sta analizzando.

○ varianza e deviazione standard sono sensibili agli outliers,

○ sono impiegate per distribuzioni simmetriche,

○ per distribuzioni non simmetriche →disuguaglianza di Chebychev

Fr

[

x

[

x − k

S

, x + k

S

]

k

○ la varianza viene utilizzata per contestualizzare i valori della media

Standardizzazione di una variabile

La deviazione standard viene impiegata come unità di misura per la distanza dalla media.

variabile standardizzata

x

(

x

− x

)

S

nota:

x

non ha unità di misura

Indici di forma

I dati continui possono essere rappresentati con un istogramma per avere un'idea generale della loro forma, o

distribuzione.

La forma può rivelare molte informazioni sui dati; aiuta a identificare la statistica descrittiva più appropriata da

utilizzare in una determinata situazione.

I dati non seguono sempre una distribuzione nota. Le distribuzioni dei dati possono essere simmetriche o non

simmetriche. In una distribuzione simmetrica, i due lati della distribuzione sono l'immagine speculare l'uno dell'altro.

I dati sono rappresentati da un grafico quantitativo discreto.

Esempio:

Livello di vitamina D nel sangue di n= 26 pazienti in salute.

I dati sono rappresentati da un grafico quantitativo continuo (istogramma).

Il modo in cui i dati vengono rappresentati deve facilitarne l’analisi; in riferimento all’esempio precedente:

Il boxplot è un metodo di rappresentazione grafica quantitativa dei dati.

IQR = differenza interquartile (

Q

− Q

Maggiore è la distanza tra

Q

−1.5 IQR

maggiore è la variabilità dei dati (lo stesso vale per la distanza

tra

Q

+1.5 IQR

Il boxplot è utile ed efficace per confrontare un fenomeno in diversi gruppi.

La distribuzione dei dati può essere:

● simmetrica;

● orientata a destra;

● orientata a sinistra.

Test d’ipotesi

Esempi:

Z-test:

● Test sulla media per campione Gaussiano, varianza nota;

● Test asintotico sulla media per campione qualsiasi, varianza incognita;

T-test:

● Test sulla media per campione Gaussiano, varianza incognita;

Test per due popolazioni indipendenti

ANOVA

Si osserva un fenomeno

X e se ne raccoglie un campione casuale di ampiezza

n

(

x

,... , x

) ⤷= insieme di variabili casuali indipendenti e identicamente

distribuite (i.i.d.).

Si ipotizza che il fenomeno

X

si comporti con distribuzione normale:

X ∼ N

(

) .

Caso

con σ

nota

Si raccoglie un campione casuale per stimare

(

x

,... , x

Lo stimatore della media

μ è una variabile campionaria

X =

n

i = 1

X

con distribuzione normale

X ∼ N

n

Sul campione casuale si calcola la stima della media

X =

n

i = 1

X

Esempio:

durata nominale delle pile (data dal produttore, da verificare) = 22h

deviazione standard (nota) = 3.5h

Viene estratto un campione di 20 pile con durata media rilevata di 20.7h

X ∼ N ( μ =? , σ =3.5)

n = 20

X =20.

è una delle possibili realizzazioni (non la media)

X ∼ N

√

H

μ = 22

H

ipotesi unilaterale (in questo caso sinistra)

H

vera

H

falsa

accetto

H

✅ errore di II tipo

rifiuto

H

errore di I tipo ✅

α = Prob ( errore di I tipo ) α ∈ [ 0 , 1 ]

β = Prob ( errore di II tipo ) β ∈ [ 0 , 1 ]