Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti di statistica, Appunti di Statistica

Appunti di Statistica integrati con le slides

Tipologia: Appunti

2023/2024

In vendita dal 16/06/2025

elisa-bracalente-1
elisa-bracalente-1 🇮🇹

4

(1)

12 documenti

1 / 102

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Appunti di statistica e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

CAPITOLO 1 - AREE DELLA STATISTICA

La statistica analizza in termini quantitativi i fenomeni collettivi, per esempio, il consumo di un determinato bene in un periodo fissato o il reddito di un insieme di individui.

  • Statistica descrittiva: insieme dei metodi per la raccolta, la presentazione e la sintesi dei dati relativi ad una popolazione allo scopo di descriverne le caratteristiche. (Insieme di formule che servono per descrivere un fenomeno)
  • Statistica probabilistica: studio del modello probabilistico generatore dei dati osservabili
  • Statistica inferenziale: insieme dei metodi che permettono, avvalendosi di metodi probabilistici, di trarre conclusioni generali su una popolazione a partire dai dati osservati; dal campione al suo meccanismo generatore (campione → modello teorico) CAMPIONE: Rappresentativo → deve rappresentare effettivamente (una miniatura) della popolazione. Casuale → tutte le unità hanno una probabilità di entrare a far parte del campione, con un campione casuale è possibile quantificare l’errore che si compie nella stima del parametro di interesse I DATI
  1. Matrice dei dati Qualsiasi analisi statistica presuppone che i dati siano organizzati in modo che i risultati non siano influenzati dalla cattiva costruzione del database. Le regole fondamentali sono:
  • verifica delle fonti
  • verifica della qualità dei dati
  • creazione della matrice dei dati UNITA’ STATISTICHE : supporto fisico/materiale su cui si manifesta il fenomeno; l’unità elementare su cui vengono osservati i caratteri oggetto di studio. Un insieme di unità statistiche omogenee rispetto a una o più caratteristiche costituisce un collettivo statistico o una popolazione. CARATTERI : singola domanda, proprietà dell’unità statistica che può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo; si suddividono in qualitativi e quantitativi. (Anche detti “variabili”) MODALITÀ DEL CARATTERE : modo di manifestarsi del carattere. Attributi (non numeri) → qualitative Misure (numeri) → quantitative

CAPITOLO 2 - DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE

Distribuzione di frequenza univariate e grafici La statistica descrittiva univariata si occupa di tutti gli strumenti descrittivi per l’analisi di un solo carattere estratto dalla matrice dei dati (una colonna). Si tratta di un’organizzazione di dati elementari che sintetizza il carattere. Ogni riga riporta le modalità dei caratteri osservati in corrispondenza a una unità, mentre ogni colonna corrisponde alla distribuzione unitaria semplice di un carattere Per organizzare i dati elementari in prospetti sintetici delle osservazioni è utile costruire una distribuzione/tabella utilizzando la nozione fondamentale di frequenza I colonna: tutte le modalità differenti (in ordine crescente se il carattere è ordinabile II colonna: frequenze associate alle modalità n: numero totale di unità statistiche xi: modalità distinte (i = 1,2,…, k) K: numero di modalità distinte ni: frequenze (assolute) (i= 1,2,…,k) TIPI DI FREQUENZE

  • Assoluta : numero di unità statistiche che presentano una data modalità, ovvero quante volte si ripete una data modalità(ni): ni≥0 interi e Ʃki ni =n
  • Relativa : numero di unità statistiche sul totale che presentano una data modalità, ovvero il rapporto fra la frequenza assoluta e il numero totale di unità osservate (fi ): fi= ni/n 0 ≤ fi ≤ 1 e Ʃki fi= Moltiplicando per 100 le fi si ottengono le frequenze percentuali pi= fi*100%
  • Cumulata : frequenze che vengono sommate modalità per modalità. Numero/frazione di unità statistiche che presentano una data modalità “minore o uguale” alla corrente (Ni o Fi). Hanno senso solo se il carattere è ordinabile! Ni = frequenze assolute cumulate = n 1 + n 2 + … + ni = ∑ij = 1 nj N 1 = n 1 Nk = n

Fi = frequenze relative cumulate = f 1 + f 2 + … + fi = ∑ij = 1 fj F 1 = f 1 Fk = 1 Esempio: frequenze assolute cumulate su 30 unità statistiche del carattere numero componenti famiglia Esempio: frequenze relative cumulate su 30 unità statistiche del carattere numero componenti famiglia Esempio: frequenze assolute e relative su 30 unità statistiche del carattere età primo lavoro. Nella tabella sopra le modalità distinte della variabile in questione sono 9, quando il carattere quantitativo presenta molte modalità distinte può essere conveniente accorpare le modalità in classi. Raggruppamento in classi = costruzione di intervalli di valori chiusi o aperti Classi o intervalli:

  • Devono essere disgiunte (senza sovrapposizioni)
  • Devono essere esaustive (devono contenere il minimo ed il massimo osservati)
  • Solitamente si intendono chiuse a destra Esempio: 3 classi di ampiezza costante Attenzione all’ampiezza delle classi: se non è costante si calcolano le densità di frequenza! Densità di frequenza (di) = frequenza assoluta (o relativa) rapportata all’ampiezza dell’intervallo di = ni / ai oppure fi / ai Con ai = ampiezza classe i-esima = hi - hi-

RAPPRESENTAZIONI GRAFICHE

Grafici su coordinate cartesiane in cui:

  • asse ascisse (X) = modalità
  • Asse ordinate (Y) = frequenze (assolute - relative - densità)
  1. Caratteri qualitativi Diagrammi a torta : (caratteri sconnessi) circolare, in corrispondenza ad ogni modalità si disegna un settore circolare il cui angolo al centro è proporzionale alla frequenza. A seconda delle frequenze, le fette sono più o meno ampie. Una alternativa al diagramma a torta per i caratteri qualitativi sconnessi (soprattutto quando le modalità distinte sono numerose) può essere il diagramma a rettangoli separati in cui le frequenze stanno sull’asse delle ascisse. Diagrammi a rettangoli separati : (caratteri sconnessi e ordinati) tipico esempio di coordinate cartesiane, se ho il carattere “titolo di studio”, le modalità sono ordinabili e vengono impostate in una linea orizzontale che delimita il grafico. In corrispondenza ad ogni modalità si disegna un rettangolo con altezza proporzionale alla frequenza.
  2. Caratteri quantitativi discreti Diagrammi a bastoncini :dato che ci sono dei numeri sono delle coordinate cartesiane, ma essendo il carattere discreto i numeri sono interi, quindi sull’asse delle X i numeri sono degli unici punti. In corrispondenza ad ogni modalità si disegna un segmento con altezza proporzionale alla frequenza. Le unità di misura dei due assi sono differenti.
  3. Caratteri quantitativi continui Istogramma : le classi sono sull’asse delle ascisse e le frequenze sull’asse delle ordinate, che possono essere assolute, relative o densità, in corrispondenza ad ogni classe si disegna un rettangolo con base proporzionale all’ampiezza della classe e altezza proporzionale alla frequenza (o alla densità se le classi sono di diversa ampiezza)
  • Classi con ampiezza diversa Carattere = ore lavorative settimanali, sul grafico i rettangoli non hanno tutti la stessa base Frequenze relative le densità di frequenza si possono calcolare comunque GRAFICO DELLE FREQUENZE CUMULATE Grafico cartesiano per la rappresentazione dell’andamento dei valori delle frequenze cumulate assolute o relative (Ni o Fi). Viene usato per lo più per caratteri quantitativi e il massimo che può essere raggiunto sull’asse delle ordinate è 1. Nel caso di un carattere quantitativo in classi si utilizza una linea continua, la funzione a gradini è approssimata ipotizzando che le unita statistiche siano equipartite dentro la classe.

Le frequenze marginali sono il numero di soggetti che hanno una certa modalità di uno solo dei due caratteri, indipendentemente dal numero delle modalità dell'altro carattere. NB: il totale n deve risultare come somma delle frequenze congiunte e somma delle frequenze marginali di X e Y Esempio: nella seguente tabella è riportata la distribuzione congiunta del numero di automobili Y rispetto al numero di componenti con patente X rilevato su 100 famiglie. In questo esempio sia X che Y sono caratteri quantitativi discreti. Le marginali non possono essere uguali a 0 (altrimenti tutta la colonna sarebbe fatta di zeri), mentre le congiunte sì!

  • 40 famiglie includono 2 patentati
  • 10 famiglie con due patentati posseggono 1 macchina
  • 50 famiglie posseggono due macchine
  • In totale ci sono n = 100 famiglie, cioè 100 unità statistiche
  1. Distribuzioni marginali X e Y (ultima colonna e ultima riga della tabella):
  • La marginale X è formata dalle modalità di X xi e dalle corrispondenti frequenze marginali ni.
  • La marginale Y è formata dalle modalità di Y yj e dalle corrispondenti frequenze marginali n.j
  1. Distribuzioni condizionate X|y e Y|x (righe e colonne interne alla tabella):
  • Le modalità di X, fissata una modalità di Y
  • Le modalità di Y, fissata una modalità di X

RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE DI DUE CARATTERI

Due possibili grafici:

  • Grafico delle coppie con frequenza unitaria
  • Grafico delle coppie in tabella a doppia entrata Entrambe sono grafici in coordinate cartesiane ortogonali:
  • Asse ascisse: modalità variabile indipendente (X)
  • Asse ordinate: modalità variabile dipendente (Y)
  1. Grafico di dispersione o scattare plot Le coppie di modalità di due caratteri, osservate per ciascuna unità statistica, vengono rappresentate come punti di un piano cartesiano i cui assi ortogonali corrispondono ai due caratteri. Il punto rappresenta la singola unità statistica Esempio: aspettativa di vita (X) e numero di persone per medico (Y) in n=38 Paesi
  2. Grafico tabelle a doppia entrata (a bolla) Le coppie di modalità di due caratteri quantitativi, osservate per ciascuna unità statistica, vengono rappresentate come punti di un piano cartesiano i cui assi ortogonali corrispondono ai due caratteri. Due opzioni a seconda che si voglia tenere conto del valore della frequenza congiunta.
  • Il punto rappresenta la frequenza congiunta diversa da zero
  • Il punto è un cerchio (o bolla) proporzionale al valore della frequenza congiunta associata Grafico a dispersione Grafico a bolle Il punto in questo caso segnala la presenza di una frequenza congiunta diversa da zero in corrispondenza delle coppie di modalità dei caratteri della tabella La bolla in questo caso è proporzionale al valore della frequenza congiunta associata alle coppie di modalità dei caratteri della tabella.

Esempio 1: carattere qualitativo max ni =19 → moda=Mo(X)=idoneo Esempio 2: carattere quantitativo discreto max ni =249 → moda=Mo(X)=

  • (^) caratteri quantitativi continui definiti da classi di medesima ampiezza = classe modale Mo(X) = {xc : nj = max ni} Se la distribuzione del carattere è suddivisa in classi di stessa ampiezza, abbiamo al posto della moda, la classe modale che è definita come la classe alla quale corrisponde la frequenza più alta. Se all’interno di essa vogliamo individuare un unico valore, si potrà prendere il valore centrale della classe. Operativamente: prima individuare la classe modale con massima frequenza, poi la moda, ovvero il valore centrale della classe modale Esempio 3: carattere quantitativo continuo Classe modale 11 -| Mo(X)=(11+13)/2=12 (punto centrale)
  • (^) caratteri quantitativo continui definiti da classi di differente ampiezza = classe modale Mo(X) = {xc : nj/aj = max ni/ai} (valore centrale classe di max densità di frequenza) Se la distribuzione possiede classi di diversa ampiezza, occorre, come già visto per gli istogrammi di frequenze, dividere le frequenze delle classi per la loro ampiezza e confrontare tali quozienti: quello più grande individuerà la classe modale. Operativamente: prima individuare la classe modale con massima densità, poi la moda, ovvero il valore centrale della classe modale Esempio 4: carattere quantitativo continuo Attenzione: guardando la colonna delle frequenze assolute si sarebbe individuata in modo errato la classe modale

Osservazione 1 La moda è indice di posizione in senso lato cadendo la monotonicità Esempio: Anche se xi = yi → Mo(X) ≠ Mo(Y) Osservazione 2

  • Calcolo per caratteri qualitativi sconnessi
  • Calcolo con le frequenze relative
  • La moda può non essere unica (la distribuzione plurimodale o senza moda) Esempio: carattere qualitativo colore dei capelli di 3 gruppi (frequenze relative) G1: Mo(X) = biondo G2: Mo(X) = nero/castano/biondo → è plurimodale G3: Mo(X) = nero Attenzione la moda è la modalità cui è associata la frequenza massima e non il valore massimo!!! Data la seguente distribuzione della variabile X {8,1,1,2,4} la moda non è 8 (la modalità con valore massimo) ma è 1 (cioè la modalità cui è associata la frequenza massima) in questo caso la modalità 1 ha frequenza 2 al contrario di 2,4,8 che hanno frequenza 1. Mediana Fa parte di una classe di modalità più ampia che si chiama “percentili”, questa modalità occupa la posizione centrale nella distribuzione ordinata dei dati. (La mediana non si può calcolare per tutti i tipi di caratteri, ovvero sui caratteri qualitativi sconnessi, ma può essere calcolata solo se il carattere è almeno ordinabile) Me(X) = Q 2 = 2° quartile Il calcolo della mediana è possibile solo per caratteri quantitativi o qualitativi ordinabili. Pertanto, la mediana di un insieme di unità ordinate (secondo un carattere ordinabile) è la modalità presentata dall’unità centrale, dove per unità centrale si intende quell’unità che divide il collettivo in due parti di uguale numerosità. Ragionare sulle frequenze assolute è difficile perché il valore centrale dipende dal numero totale delle unità, perciò conviene ragionare sulle frequenze relative → Nel caso in cui il numero di dati fosse pari, non avrei un valore centrale La mediana è quindi la modalità cui corrisponde la prima frequenza relativa cumulata maggiore o uguale a 0.5.

Osservazione: La mediana non è influenzata dai valori estremi della distribuzione. Si dice infatti che essa è ROBUSTA rispetto a variazioni dei valori minimo o massimo della distribuzione di frequenza La mediana è la stessa anche se le due distribuzioni sulle code si comportano molto diversamente Percentili : modalità che dividono la distribuzione di frequenza ordinata in più parti. Permettono di rispondere ad esempio alla domanda “qual è il reddito familiare che divide il 25% dei più poveri del resto 75%?” Alcuni esempi sono:

  • Quartili: dividono in 4 parti la distribuzione
  • Decili: dividono in 10 parti la distribuzione
  • Percentili: dividono in 100 parti la distribuzione Media aritmetica: data la variabile statistica (carattere quantitativo) X la media aritmetica è data dalle seguente formula È qui di definita come la somma dei prodotti tra modalità e frequenze assolute (o relative) diviso il totale. Nel caso di una distribuzione di frequenze di un carattere quantitativo continuo suddiviso in classi, si utilizzano i valori centrali delle classi. Esempio 1: voti in 6 esami di uno studente, le modalità hanno frequenze unitarie (n=k=6) Esempio 2: carattere quantitativo continuo X = “altezze”

Proprietà della media aritmetica Per la media aritmetica, che è l’indice di posizione più utilizzato, tante sono le proprietà.

- Operatore media aritmetica Assegna ad ogni X la sua media aritmetica Simbolo sintetico Utile quando la media aritmetica compare in formule matematiche più complesse Con le seguenti proprietà:

  1. M(c) = M(costante) = c
  2. M(cX) = c M(X)
  3. M(X±Y) = M(X) ± M(Y)
  4. M(X) è un operatore lineare, cioè se Y =aX + b allora M(Y) = aM(X) + b - I proprietà La media aritmetica rende nulla la somma (media) degli scarti (differenze) di ogni valore (xi) da indice di posizione (α) Ovvero: M(X-μ) = 0 - II proprietà (proprietà di minimo) La media aritmetica minimizza la somma (media) dei quadrati degli scarti di ogni valore da un indice di posizione Ovvero: M[(X-μ)^2 ] è minima - Proprietà associativa Ipotesi: i dati elementari sono riuniti in h gruppi di cui si conoscono solo le medie di gruppi (parziali) e le rispettive numerosità La MEDIA totale è la MEDIA delle MEDIE di gruppo Esempio: se X=voto esame matematica, suppongo di conoscere il voto medio riportato da 100 maschi e da 80 femmine. Non conosco il voto di ciascuna delle 180 singole unità statistiche. Voglio calcolare la media di X sull’intero insieme. I valori del carattere X saranno definiti da due indici: j= 1,2,…,h (j = indice del gruppo) i= 1,2,…,ni (i = indice del valore nel gruppo) xij rappresenta il valore dell’osservazione i-ma rilevata nel gruppo j-mo

STATISTICA DESCRITTIVA UNIVARIATA - INDICI DI VARIABILITA’

Con variabilità si intende il modo in cui si distribuiscono le xi Gli indici di posizione sono indici sintetici che sostituiscono alle diverse modalità del carattere un’unica modalità che possa ritenersi “rappresentativa di tutte le altre”. Ma da solo l’indice di posizione appare tuttavia insufficiente. Due distribuzioni con la stessa media non è detto che abbiano un medesimo comportamento. Per capire la definizione di variabilità consideriamo queste 4 serie (aventi tutte medesima media aritmetica pari a 5) X ={0,3,5,7,10} Y ={3,4,5,6,7} Z ={0,0,0,1,24} W ={0,2,6,7,10 } La distribuzione Y è quella con modalità meno diverse tra loro (meno variabile), al contrario la distribuzione Z sembra essere quella con modalità più diversificate (più variabile). Definizione La variabilità è l’attitudine di un carattere ad assumere modalità differenti. In base alle differenti tipologie di carattere si calcolano gli:

  • Indici di mutabilità o eterogeneità → caratteri qualitativi
  • Indici di variabilità o dispersione → caratteri quantitativi Proprietà generali A prescindere dal carattere, tutti gli indici di variabilità devono soddisfare le seguenti proprietà generali.
  1. Non negatività: v(X) ≥ 0 È sempre maggiore o uguale a zero. In particolare è nullo (v(X)=0) se e solo se tutte le modalità della distribuzione sono uguali. È il caso della distribuzione degenere: tutte le unità statistiche presentano la stessa modalità del carattere.
  2. Monotonicità Assume valori tanto più grandi quanto maggiore è la diversità tra modalità della distribuzione. Maggiore è la variabilità, maggiore sarà l’indice da calcolare.
  3. Invarianza per traslazione: v(X±b) = v(X) Non cambia se a ciascun termine della distribuzione si aggiunge una quantità costante, negativa o positiva

MUTABILITA’ E INDICI DI GINI

Lo studio della mutabilità si basa sulla definizione di indici che, data la natura dei caratteri che non presentano modalità numeriche, vengono calcolati sui valori delle frequenze relative. Esempio: colore dei capelli di 3 gruppi (distribuzioni %). In quale gruppo c’è più differenza tra il colore dei capelli? G G1,E = 1 − (0.1^2 + 0.25^2 + 0.6^2 + 0.05^2 ) = 1 − (0.435) = 0. G2,E = 1 − (0.3^2 + 0.3^2 + 0.3^2 + 0.10^2 ) = 1 − (0.28) = 0. G3,E = 1 − (0.7^2 + 0.2^2 + 0.05^2 + 0.05^2 ) = 1 − (0.535) = 0. Indice di eterogeneità di Gini Indici normalizzati Per rendere confrontabili tra di loro alcuni aspetti come la mutabilità o la variabilità di caratteri diversi è necessario avere a disposizione indici particolari, che prendono il nome di indici normalizzati. Si tratta di indici che consentono di fare confronti tra caratteri diversi o stessi caratteri, ma misurati con unità di misura diverse; ad esempio, consente di confrontare i limiti dei caratteri, minimo e massimo, così da poter dire che sia grande o piccolo. Siano dunque I l’indice da normalizzare e Imin e Imax i suoi valori nelle situazioni estreme: Imin ≤ I ≤ Imax Per il quale 0 ≤ IN ≤ 1 In genere Imin = 0 per cui IN = I/Imax Situazioni estreme della mutabilità

  • Minima mutabilità: ∃ fi = 1, fj = 0 (j ≠i) Esiste una sola modalità a cui corrisponde tutta la frequenza, tutte le altre hanno frequenza nulla
  • Massima mutabilità: f 1 = … = fk = 1/k Tutte le modalità hanno la stessa frequenza relativa, poiché la frequenza relativa massima è 1, allora 1/k