Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


STATISTICA DI ROBERTA PAROLI, Dispense di Statistica

DISPENSA MODULO 1 STATISTICA DI PAROLI

Tipologia: Dispense

2025/2026

Caricato il 01/07/2026

yosef-abou-hamra
yosef-abou-hamra 🇮🇹

5 documenti

1 / 53

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
INTRODUZIONE ALLA STATISTICA
PERCHE’ STUDIARE STATISTICA?
Ogni giorno vengono rilasciati tantissimi dati che sono fondamentali per risolvere i
problemi: a tal proposito rivestono un ruolo importante soggetti che hanno una certa
sensibilità all’approccio quantitativo. Per capire quanta e come questa mole di dati si
trasforma veramente in informazione bisogna studiare la statistica-->comprendere la
statistica aiuta a prendere decisioni in modo efficace.
COS’E’ LA STATISTICA?
Definizione: in origine, con statistica si intendeva la raccolta di dati economico-
demografici di vitale interesse per lo stato. Da allora la statistica si è sviluppata come
metodo scientifico d’analisi applicato a tutte le scienze sociali e naturali.
-La statistica è un insieme di strumenti matematico-probabilistici per la raccolta, la
misura e il trattamento dei dati.
-Uno strumento di supporto nelle situazioni in cui si devono prendere decisioni in
condizione di incertezza grazie all’aiuto decisivo della teoria della probabilità.
Al giorno d’oggi il termine statistica si confonde con Data science (consente di trarre
informazioni dai dati), Machine Learning, Artificial intelligence. Grazie a questi
strumenti si è in grado di trarre informazioni dai dati per risolvere problemi reali. Sono
discipline che lavorano insieme.
3
Cosa NON è la statistica
Non è un metodo per predire con sicurezza il futuro
Non è un metodo per provare qualsiasi cosa si abbia convenienza a provare
La statistica è una scienza certa ma è in grado di misurare l’incertezza delle decisioni
(supporta le decisioni prese per analizzare il fenomeno).
3
SIS: società italiana di statistica --> si occupa di raccogliere gli studiosi che si
occupano di statistica, della diffusione della conoscenza statistica e corretta analisi dei
dati.
La statistica viene utilizzata nell’ambito medico, demografico, sociale, nello sport e
nella vita quotidiana. In ambito economico:
- Nel controllo della qualità di un processo produttivo
- Nello studio dell’affidabilità di un prodotto
- Nello studio del rischio di credito/cyber-risk/fintech
- Nello studio del climate change e i riflessi sull’economia
- Nello studio dell’andamento di un titolo di borsa/del PIL
- Nelle analisi di mercato/sulla soddisfazione dei clienti
3
La statistica si divide in tre branche
Statistica descrittiva: si occupa di fotografare una determinata realtà, ossia di
analizzare dei campioni di soggetti e di rilevare su di esso delle variabili. Tramite
indicatori e rappresentazioni grafiche è possibile trarre informazioni su questi
campioni.
Statistica probabilistica: si parla di fenomeni aleatori che si verificano con una
certa incertezza a cui si associa una certa probabilità di verificarsi (studio del
meccanismo generatore delle realizzazioni campionarie). MODELLO--> CAMPIONE
Statistica inferenziale: non si limita a fotografare la realtà del campione di soggetti,
ma li analizza anche. Si va infatti dal campione al suo meccanismo generatore.
CAMPIONE-->MODELLO
CAPITOLO 1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35

Anteprima parziale del testo

Scarica STATISTICA DI ROBERTA PAROLI e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA

INTRODUZIONE ALLA STATISTICA

PERCHE’ STUDIARE STATISTICA?

Ogni giorno vengono rilasciati tantissimi dati che sono fondamentali per risolvere i problemi: a tal proposito rivestono un ruolo importante soggetti che hanno una certa sensibilità all’approccio quantitativo. Per capire quanta e come questa mole di dati si trasforma veramente in informazione bisogna studiare la statistica-->comprendere la statistica aiuta a prendere decisioni in modo efficace.

COS’E’ LA STATISTICA?

Definizione: in origine, con statistica si intendeva la raccolta di dati economico- demografici di vitale interesse per lo stato. Da allora la statistica si è sviluppata come metodo scientifico d’analisi applicato a tutte le scienze sociali e naturali.

  • La statistica è un insieme di strumenti matematico-probabilistici per la raccolta, la misura e il trattamento dei dati.
  • Uno strumento di supporto nelle situazioni in cui si devono prendere decisioni in condizione di incertezza grazie all’aiuto decisivo della teoria della probabilità. Al giorno d’oggi il termine statistica si confonde con Data science (consente di trarre informazioni dai dati), Machine Learning, Artificial intelligence. Grazie a questi strumenti si è in grado di trarre informazioni dai dati per risolvere problemi reali. Sono discipline che lavorano insieme. Cosa NON è la statistica Non è un metodo per predire con sicurezza il futuro Non è un metodo per provare qualsiasi cosa si abbia convenienza a provare La statistica è una scienza certa ma è in grado di misurare l’incertezza delle decisioni (supporta le decisioni prese per analizzare il fenomeno). SIS: società italiana di statistica --> si occupa di raccogliere gli studiosi che si occupano di statistica, della diffusione della conoscenza statistica e corretta analisi dei dati. La statistica viene utilizzata nell’ambito medico, demografico, sociale, nello sport e nella vita quotidiana. In ambito economico:
  • Nel controllo della qualità di un processo produttivo
  • Nello studio dell’affidabilità di un prodotto
  • Nello studio del rischio di credito/cyber-risk/fintech
  • Nello studio del climate change e i riflessi sull’economia
  • Nello studio dell’andamento di un titolo di borsa/del PIL
  • Nelle analisi di mercato/sulla soddisfazione dei clienti La statistica si divide in tre branche Statistica descrittiva: si occupa di fotografare una determinata realtà, ossia di analizzare dei campioni di soggetti e di rilevare su di esso delle variabili. Tramite indicatori e rappresentazioni grafiche è possibile trarre informazioni su questi campioni. Statistica probabilistica: si parla di fenomeni aleatori che si verificano con una certa incertezza a cui si associa una certa probabilità di verificarsi (studio del meccanismo generatore delle realizzazioni campionarie). MODELLO--> CAMPIONE Statistica inferenziale: non si limita a fotografare la realtà del campione di soggetti, ma li analizza anche. Si va infatti dal campione al suo meccanismo generatore. CAMPIONE-->MODELLO CAPITOLO 1

DATI, CARATTERI, RAPPRESENTAZIONI GRAFICHE

L’INDAGINE STATISTICA

  1. Individuazione del problema e definizione degli obbiettivi
  2. Individuazione delle variabili osservabili (es: colore occhi, capelli, peso)
  3. Individuazione della popolazione o campione
  4. Rilevazione dei dati: mediante sperimentazione, questionari, base dati aziendali (Istat, Banca d’Italia, Comune di Milano), internet e social network
  5. Spoglio dei dati (costruzione matrice dei dati): organizzazione dati, classificazione, costruzione di database
  6. Elaborazione dei dati: sintesi, interpretazione. I dati possono essere sintetizzati mediante tabelle di frequenza, grafici. *Un aspetto molto importante è la qualità dei dati, che dipende dalle fonti, dal metodo di rilevazione e dai criteri seguiti durante la fase di rilevazione. Se il dato è di buona qualità avremo un’interpretazione attendibile.

MATRICE DEI DATI E CARATTERI

Data base = matrice dei dati: si tratta di una tabella formata dalle osservazioni di tutti i dati rilevati per ogni elemento oggetto dell’indagine e si compone di:

  • righe —> contenenti le unità statistiche oggetto dell’indagine (soggetti intervistati)
  • colonne —> contenenti le variabili/caratteri (colore occhi, altezza..) Unità statistiche o sperimentali: sono il supporto fisico/materiale su cui si manifesta il fenomeno, in altri termini i soggetti dell’indagine.

Caratteri

Caratteri o variabili descrivono le proprietà dell’unità sperimentale, ossia le caratteristiche che si intende rilevare su ciascuna unità statistica. I caratteri possono essere:

  • Qualitativi o categorici : esprimono una qualità, non rappresentati da numeri. La modalità del carattere, ossia il modo in cui si manifesta prende il nome di —> modalità = attributi. Si suddividono a loro volta in: sconnesso : se le modalità del carattere non sono ordinabili per natura (colore occhi, si/no, operatore telefonico, comune di residenza, nazionalità, sesso, grado di parentela) ordinato : se le modalità del carattere sono ordinabili per natura in modo crescente o decrescente (titoli di studio, grado di vendibili, risultato di un esame)
  • Q uantitativi o metrici : esprimono una quantità e sono rappresentati da numeri (altezza) (modalità = misure). Si suddividono a loro volta in: discreti : insieme di modalità finito e numerabile, numeri interi (numero di figli, oggetti comprati, giornali letti, numero di accesso ad internet, componenti della famiglia)

Frequenza cumulata : numero/frazione di unità statistiche che presentano una data modalità “minore o uguale” alla corrente (Ni o Fi). Ha senso calcolare le frequenze cumulate solo se il carattere è qualitativo ordinabile e quantitativo (discreti e continui), non per caratteri sconnessi!. Ni Frequenze assolute cumulate : somma di successive frequenze assolute

  • Fi Frequenze relative cumulate : somma di successive frequenze relative

Raggruppamento in classi

Se il carattere quantitativo (continuo o discreto) presenta molte modalità distinte, può essere conveniente accorpare le modalità in classi, ossia costruzione di intervalli di valori chiusi o aperti (si sintetizzano i dati). Noi consideriamo intervalli chiusi a destra, ovvero con estremo superiore incluso (es. 14-18 con 14 escluso e 18 incluso). Le classi devono essere

  • Disgiunte: senza sovrapposizioni (ogni unità statistica deve ricadere all’interno di una classe soltanto
  • Esaustive: devono contenere il minimo e il massimo osservati, cioè ogni unità deve essere collocata all’interno di una classe. ai ampiezza : estremo superiore - estremo inferiore. Se non è costante si deve calcolare la densità

di: densità di frequenza : frequenza (assoluta o relativa) rapportata all’ampiezza

dell’intervallo

Insieme di coppie modalità + frequenze

si chiama

  • mutabile statistica se il carattere è qualitativo
  • variabile statistica se il carattere è quantitativo RAPPRESENTAZIONI GRAFICHE Coordinate cartesiane: Asse ascisse (x): modalità Asse ordinate (y): frequenze (assolute, relative, densità). Caratteri qualitativi
    • Diagrammi a torta (caratteri sconnessi)
    • Diagrammi a rettangoli separati (caratteri sconnessi e ordinati) Le modalità devono essere ordinate! Caratteri quantitativi discreti
    • Diagrammi a bastoncini: in corrispondenza ad ogni modalità si disegna un segmento con altezza proporzionale alla frequenza

Carattere quantitativo in classi con frequenze cumulate: grafico sempre crescente ma non più a gradini bensì continuo (ad S- detta anche funzione di ripartizione) asse x: classi asse y: frequenze cumulate può essere letto in 2 modi: data la posizione posso ricavare l’anno di nascita, e viceversa. TABELLA DI FREQUENZA A DOPPIA ENTRATA Serve ad analizzare 2 caratteri insieme: frequenze congiunte: quante volte si verifica la modalità i-esima del carattere x e j- esima del carattere y

Esempio 25 soggetti intervistati 2 variabili: X = studio; Y = reddito Prendo soggetti scuola elementare, e guardo chi ha le varie modalità di reddito 20-40, poi sommo e ottengo 3 (soggetti totali che hanno la scuola elementare e un reddito 20-40). Frequenza marginale X e Y : dalla tabella di sopra è possibile ricavare la tabella di frequenza dei due caratteri considerati separatamente Frequenze relative condizionate : mi interessa solo il reddito di quelli che hanno la scuola elementare (variabile X), quindi mi focalizzo su una colonna condizionata dalla riga. La versione condizionata è Y|X = E

Indici tipici

  • moda, percentili di ordine p, mediana : non analitici
  • medie potenziate: aritmetica, armonica, geometria, quadratica; analitici (solo per caratteri quantitativi) MODA : modalità/valore di massima frequenza o densità. A seconda della tipologia del carattere vi sono modi differenti per identificarla: per caratteri quantitativi continui definiti in classi
    • con stessa ampiezza: cerco la massima frequenza, prendo l’intervallo corrispondente (classe modale): la moda è il valore centrale Frequenza massima: 15 Classe modale: 11-| Moda Mo(X): 13 + 11/2 = 12
    • con diversa ampiezza: calcolo la densità di frequenza (ni/ai), e prendo l’intervallo corrispondente alla massima densità; quell’intervallo si chiama classe modale e la moda è il valore centrale della classe modale. Densità massima: 5. Classe modale: 30-| 40 Moda: 30+40/2 = 35 per caratteri qualitativi e quantitativi discreti : si individua la massima frequenza (ni), la moda è la modalità corrispondente. moda: grossista

Osservazioni La moda è l’unico indice di posizione che può essere calcolato per tutti i tipi di carattere La moda è la modalità a cui è associata la massima frequenza e non il valore massimo. Dato (6,1,1,1,3,4) la moda non è il valore massimo fra le modalità (6) ma è la modalità cui è associata la massima frequenza. Avremo quindi che la moda è 1 in quando ha una max ni=3. La moda è una modalità non una frequenza La moda è indice di posizione in senso lato: non vale la monotonicità. Le osservazioni di Y sono maggiori o uguali rispetto a quelle di X, ma è maggiore la moda di X: per x la moda è 3; per Y la moda è 2. Viene meno la monotonicità. unico indice utilizzabile per caratteri qualitativi sconnessi si può calcolare anche con le frequenze relative (o assolute, è uguale) la moda può non essere unica (distribuzione plurimodale o senza moda: caratteri che presentano più di una modalità con massima frequenza). 3 gruppi di studenti Carattere qualitativo: colore dei capelli (biondo, castano, nero e altro). Moda G1: biondo; moda G3: nero Moda G2: nero, moro, biondo: quindi è plurimodale (o senza moda). MEDIANA E PERCENTILI MEDIANA, esempio di percentile: modalità o valore che occupa la posizione centrale in una sequenza ordinata di tutti i dati. La mediana è quindi la modalità che lascia il 50% delle unità a sinistra (aventi un valore inferiore o uguale alla mediana) e il resto del 50% delle osservazioni a destra (aventi un valore maggiore o uguali alla mediana). La mediana si può chiamare anche secondo quartile ed è indicata con Me o Q2. Il calcolo della mediana è possibile solo per caratteri quantitativi o qualitativi ordinabili. Calcolo : ordino le osservazioni in ordine crescente e individuo quella che sta nella posizione centrale. Si utilizzano le frequenze relative cumulate.

  • Quartili : dividono in 4 parti la distribuzione. Servono 3 quartili per suddividere in 4 parti. La mediana è il secondo quartile. - Q1 (primo quartile): lascia a sinistra il 25% delle osservazioni e a destra il 75%. Modalità a cui è associata una frequenza cumulata di 0.25) - Q2: lascia a sinistra il 50% delle osservazioni, e il 50% a destra. Modalità a cui è associata frequenza cumulata pari a 0.5. - Q3: lascia a sinistra il 75% delle osservazioni e a destra il 25%. Modalità a cui è associata frequenza cumulata pari a 0,
  • Decili : dividono in 10 parti la distribuzione. Percentili di ordine 0,1; 0,2..0,
  • Percentili : dividono in 100 parti la distribuzione. Percentili di ordine 0,01,0,02..0,99. La mediana è 50 Avremo che: I quartile = percentile di ordine 0, II quartile = percentile di ordine 0, III quartile = percentile di ordine 0, MEDIA ARITMETICA : (solo se il carattere è quantitativo).

u (mu) = somma di tutte le osservazioni diviso il numero di osservazioni.

Se c’è la frequenza: moltiplico le modalità (x) per la propria frequenza, e divido per il numero totale delle frequenze. (Posso usare frequenze assolute o relative). Esempio 1: somma diviso il numero di osservazioni: Voti di uno studente U = 18 + 21 + 26 + 27 + 25 + 28 / 6 = 24, Esempio 2: carattere quantitativo discreto, con la presenza della frequenza Sommo (20 x 1) + (25 x 2) + (25 x 3 )..= 265 / 100 = 2,65. (Calcolo con le frequenze assolute) Sommo (0,2 x 1) + (0,25 x 2) + (0,25 x 3)..= 2,65/1 = 2, (Calcolo con le frequenze relative)

Soddisfa anche proprietà di Cauchy. Esempio 3: carattere quantitativo in classi Si calcolano i valori centrali della classe Xi = 7,5 + 9,5/2. Poi moltiplico Xi per ni; sommo tutti i valori e poi divido tutto per il numero delle frequenze totali. Anche in questo caso posso utilizzare le frequenze relative (sommatoria di xi fi). Proprietà della media aritmetica La media è l’indice di posizione più utilizzato Operatore media aritmetica : esplicito la variabile rispetto a cui sto calcolano la media. Se calcolo la media di x, non scrivo u, ma scrivo M(x). Dunque associa ad ogni variabile X la sua media. Nel mondo anglosassone è indicato con E(X). Proprietà dell’operatore di media aritmetica:

  1. La media di una costante è la costante stessa. M(C)= C. M(3)= 3. X = (2,2,2,2).

2. M(cX) = c M(X). Media di 3 per X = 3 M (X)

  1. La media di una somma, è la somma delle medie
  2. M (X) è un operatore lineare. Vuol dire che: I Proprietà della media aritmetica : la media aritmetica rende nulla (zero) la media o la somma degli scarti di ogni valore da un indice di posizione: Calcolo dello scarto: differenza tra Xi e alfa, moltiplicato per ni. Poi faccio la somma degli scarti. Se al posto di alfa metto la media ottengo zero (se ci metto la mediana non viene zero).

Per caratteri qualitativi ordinabili: si possono calcolare la moda e la mediana Per caratteri quantitativi discreti/continui si possono calcolare TUTTI gli indici (moda, mediana, media aritmetica) CAPITOLO 3

INDICI DI VARIABILITA’

Quando si studia la distribuzione, spesso utilizzare un indice di posizione non è sufficiente, perché ci possono essere distribuzioni con lo stesso valore di indice di posizione ma un comportamento totalmente diverso. Esempio: Due caratteri x e y che rappresentano le votazioni di due studenti, relative a 25 esami sostenuti. Primo studente: 12 volte 18, 1 volta 24, 12 volte 30. Secondo studente: 25 volte 24. La media, per entrambi, è 24: la mediana è sempre 24. Ma il comportamento, l’impegno dei due studenti è completamente diverso, in quanto il secondo ha una prestazione costante a differenza del primo. Per poter cogliere questo aspetto, ci sono gli indicatori di variabilità. Il primo soggetto presenterà maggior variabilità del secondo che ha variabilità nulla in quanto ha preso sempre lo stesso voto. Variabilità : attitudine del carattere ad assumere modalità diverse. Si calcola in modo diverso a seconda della tipologia del carattere Indici di mutabilità/eterogeneità se si tratta di caratteri qualitativi Indici di variabilità/dispersione per caratteri quantitativi La distribuzione Z è più variabile di Y in quanto i dati di Z sono molto lontani tra loro, mentre per Y i dati sono concentrati tutti sulla media. Maggiore sarà la distanza delle osservazioni dalla propria media, maggiore sarà la variabilità. Proprietà generali

1. Non negatività: gli indici di variabilità sono tutti positivi, maggiori o uguale di zero. In

particolare è nullo, V(X)=0 se e solo se tutte le modalità della distribuzione sono uguali—>si parla in tal caso di distribuzione degenere, ossia tutte le unità statistiche presentano stessa modalità del carattere.

2. Monotonicità: gli indici sono sempre più grandi quanto maggiore è la diversità tra le modalità

della distribuzione. Prendo due variabili, maggiori è la diversità, maggiore è il valore della variabilità.

3. Invarianza per traslazione: V (X+costante). La varianza di una costante è zero quindi avremo

sempre V(X). In altri termini non cambia se a ciascun termine della distribuzione si aggiunge una quantità costante, negativa o positiva. Indici di mutabilità / eterogeneità (caratteri qualitativi, sconnessi e ordinati) Si distinguono in Indice di Eterogeneità di Gini e Indice di Eterogeneità di Gini normalizzato

1. Indice di Eterogeneità di Gini : (per tutti i caratteri qualitativi)

3 gruppi; la variabile è il colore dei capelli. Quale gruppo è più eterogeneo? Nel gruppo 3, il 70% ha colore nero, cioè ci sono molti soggetti con lo stesso colore, quindi avremo minore variabilità. Nel gruppo 2 invece il 30% neri, 30% castani.. si ha cioè la tendenza ad assumere modalità diverse, quindi c’è maggiore variabilità. NB: lo studio delle mutabilità si basa sulle frequenze relative. Indice di eterogeneità di Gini: Sommatoria del prodotto tra (frequenze relative) e (1-frequenze relative ); se raccolgo posso scriverla come: 1 - (somma delle frequenze relative al quadrato), al quadrato perché altimetri la somma farebbe 1) Facendo le formule: Eterogeneità del gruppo 2 (0,7) è maggiore del gruppo 3 e del gruppo 1.

Ho tutte frequenze relative uguali a 1/k; k=4 nell’esempio ed è il numero delle modalità. L’indice di Eterogeneità di Gini assume il suo valore massimo, ovvero 1-1/k (con k numero delle modalità, 4 in questo caso). Quindi 1- 1/4 = 0, 2.Indice di Eterogeneità di Gini normalizzato (EN) Indice normalizzato : Per il gruppo 1 Si calcola indice E, e poi si divide per il suo valore massimo. L’indice normalizzato assume valore di 0,753 ed essendo più vicino ad 1 siamo in una situazione di alta mutabilità. Se fosse più vicino allo 0, saremmo in una situazione di minima mutabilità. In questo caso è l’indice E diviso il suo valore massimo. Indici di variabilità/dispersione per carattere quantitativi Tali indici si basano sul concetto di distanza: Le distanze di ogni modalità da tutte le altre (ho misurato altezza X e si osserva quanto è distante da quella degli altri) Le distanze di ogni modalità ed un centro (es la media aritmetica, quanto l’altezza di X dista dalla media aritmetica). Più le modalità sono lontane dalla media aritmetica, più la variabilità aumenta. Gli indicatori per misurare la variabilità sono diversi:

Range: differenza tra due modalità (valore massimo - valore minimo, come altezza più alta e altezza più bassa). Maggiore è la differenza tra loro, maggiore è la variabilità. Differenza interquartile : (Q3-Q1), cioè la differenza tra il terzo e il primo quartile. Maggiore è la differenza tra loro, maggiore è la variabilità

Varianza : misura di variabilità per caratteri SOLO quantitativi, indicata con Var(X),

oppure con sigma quadro. Valuta la distanza delle osservazioni dalla media. 2 formule

1. La varianza è la media delle distanze al quadrato tra le osservazioni e la media aritmetica. Faccio la media di x - u, al quadrato. Ovviamente visto che c’è un quadrato, la varianza assume valore o maggiore di zero. 2. Formula operativa della varianza : la varianza si calcola facendo la differenza tra la media delle x al quadrato, e il quadrato della media