Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Introduzione alla Statistica: Variabili, Distribuzioni e Probabilità, Dispense di Statistica

Università degli Studi di Pavia (UNIPV)Statistica

. - . - . - .

Tipologia: Dispense

2011/2012

Caricato il 25/06/2012

sabrina.salamone 🇮🇹

2 documenti

1 / 38

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Statistica Metodologica

Appunti ad uso degli studenti

Prima parte:

Statistica Descrittiva e Probabilita’

Silvia Figini

e-mail: [email protected]

1. Introduzione

La statistica e’ la scienza che ha come fine lo studio quantitativo e qualitativo di un

collettivo. Studia i modi (descritti attraverso formule matematiche) in cui una realta’

fenomenica - limitatamente ai fenomeni collettivi - puo’ essere sintetizzata e quindi com-

presa.

La scienza statistica e’ comunemente suddivisa in tre branche principali:

1. Descrittiva: sintetizzare i dati attraverso i suoi strumenti grafici e misure di tendenza

centrale, variabilita’, eterogeneita’, concentrazione, correlazione, connessione.

2. Probabilita’: esprimere attraverso opportuni calcoli il grado di fiducia circa il veri-

ficarsi di un evento.

3. Inferenza: fare stime e previsioni, con una possibilit di errore controllata, riguardo

la natura teorica del fenomeno che si osserva (si pensi, ad esempio, che quando

Scopri Dispense di Statistica Università degli Studi di Pavia (UNIPV)

Documenti correlati

Introduzione alla Statistica: Distribuzioni di Probabilità e Inferenza Statistica

Variabili Aleatorie Discrete e Distribuzioni di Probabilità

Introduzione alla Statistica: Variabili, Probabilità e Distribuzioni

(1)

Introduzione alla Psicometria: Distribuzioni di Probabilità e Inferenza Statistica

Statistica: variabili, distribuzioni e probabilità

(1)

Analisi statistica di dati e distribuzioni di probabilità

Introduzione alla Statistica: Distribuzioni Normali, Campionamento e Stima

(1)

Statistica: Frequenze, Distribuzioni e Variabili Casuali - Prof. Fugazza

Statistica: collettivi, caratteri, distribuzioni e probabilità - Prof. Figini

Introduzione alla Statistica: Variabili, Distribuzioni di Probabilità e Test di Ipotesi -

Le Variabili Casuali e le Distribuzioni di Probabilità: Esercizi e Applicazioni

Introduzione alla Statistica: Variabili, Distribuzioni e Campionamento

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Variabili, Distribuzioni e Probabilità e più Dispense in PDF di Statistica solo su Docsity!

Statistica Metodologica

Appunti ad uso degli studenti

Prima parte:

Statistica Descrittiva e Probabilita’

Silvia Figini

e-mail: [email protected]

1. Introduzione

La statistica e’ la scienza che ha come fine lo studio quantitativo e qualitativo di un collettivo. Studia i modi (descritti attraverso formule matematiche) in cui una realta’ fenomenica - limitatamente ai fenomeni collettivi - puo’ essere sintetizzata e quindi com- presa. La scienza statistica e’ comunemente suddivisa in tre branche principali:

Descrittiva: sintetizzare i dati attraverso i suoi strumenti grafici e misure di tendenza centrale, variabilita’, eterogeneita’, concentrazione, correlazione, connessione.
Probabilita’: esprimere attraverso opportuni calcoli il grado di fiducia circa il veri- ficarsi di un evento.
Inferenza: fare stime e previsioni, con una possibilit di errore controllata, riguardo la natura teorica del fenomeno che si osserva (si pensi, ad esempio, che quando

si dice che l’inflazione il prossimo anno avr una certa entita’ deriva dal fatto che esiste un modello dell’andamento dell’inflazione derivato da tecniche inferenziali). La statistica inferenziale fortemente legata alla teoria della probabilita’.

interi). Un caso particolare di variabile quantitativa e’ rappresentata dal reddito. In particolare si dice che il reddito e’ un carattere trasferibile, nel senso che e’ coerente immaginare che una unita’ statistica possa cedere tutto o parte del carattere posseduto a una altra unita’ statistica. A seconda del tipo di variabile esistono misure e strumenti grafici opportune di sintesi. Per quanto concerne le misure di sintesi, studieremo:

Misure di tendenza centrale (media, mediana, moda)
Misure di variabilita’ (varianza, range, differenza interquartile)

Nelle variabili qualitative, invece, useremo le distribuzioni di frequenza (assolute e rela- tive) e strumenti grafici quali il diagramma a torta e l’istogramma a barre; analizzeremo la variabilita’ delle variabili qualitative con lo studio di misure di eterogeneita’. Quando si analizza una singola variabile alla volta con strumenti descrittivi o esplorativi, si parla di analisi univariata, mentre se le variabili vengono analizzate a coppie si parla di analisi bivariata. Nella trattazione inizieremo ad affrontare le misure di sintesi per le variabili qualitative e poi passeremo alle variabili quantitative.

3. Strumenti statistici per variabili qualitative

Iniziamo ad analizzare le variabili qualitative attraverso il concetto di distribuzione di un carattere. Definiamo distribuzione unitaria semplice di un carattere l’elencazione delle modalita’ osservate nel collettivo statistico preso in esame. Indichiamo con il termine frequenza assoluta di una modalita’ di un carattere, il numero di volte che questa viene osservata nel collettivo. La distribuzione di frequenza semplice associa alle modalita’ che puo’ assumere un carat- tere X le corrispondenti frequenze assolute (FA). Partendo dalla tabella 1, possiamo costruire le frequenze relative (rapporto tra la fre- X FA x 1 n 1 x 2 n 2

xk nk totale N

Table 1: Distribuzione di frequenza semplice

quenza assoluta e il numero totale di unita’ statistiche osservate) e le frequenze percentuali (frequenza relativa moltiplicata per 100). Provate a rispondere alle seguenti domande:

Quanto vale la somma sulle k modalita’ delle frequenze assolute? (∑ki=1 ni =?)
Quanto vale la somma sulle k modalita’ delle frequenze relative? (∑ki=1 fi =?)

X FAC FRC FRPC

x 1 N 1 F 1 P 1 x 2 N 2 F 2 P 2

............ xj Nj Fj Pj ............ xk Nk Fk Pk

Table 3: Frequenze assolute, relative e percentuali cumulate

Eta’ FA FR FRC da 30 a 50 anni 6 0.3 0. da 51 a 70 anni 7 0.35 0. da 71 a 75 anni 4 0.2 0. da 76 a 80 anni 3 0.15 1

Table 4: Esempio numerico per distribuzione di frequenza

4. Misure di tendenza centrale per variabili quantitative

Le misure di tendenza centrale per variabili quantitative sono la media aritmetica, la media geometrica, la mediana, la moda e i percentili.

4.1 Media aritmetica

La media aritmetica μ di un insieme di n valori osservati x 1 ,... , xn di un carattere quan- titativo X e’ pari alla somma dei valori osservati divisa per il loro numero:

μ =^1 n(x 1 +... + xn) = n^1 ∑ i=1^ n xi. (1)

Se X e’ un carattere quantitativo discreto e conosciamo la sua distribuzione di frequenza, possiamo calcolare la media nel modo seguente: μ = (^1) n^ ∑kj=1 xj nj , dove nj sono le fre- quenze assolute oppure μ = ∑kj=1 xj fj , dove fj sono le frequenze assolute. Le proprieta’ principali della media aritmetica sono le seguenti:

La somma dei valori x 1 ,... , xn assunti da un insieme di n unita’ statistiche e’ uguale al valore medio moltiplicato per il numero di unita’: ∑ni=1 xi = nμ.
La somma delle differenze tra i valori delle xi e la loro media μ e’ pari a zero: ∑ni=1(xi − μ) = 0.
La somma degli scarti al quadrato dei valori xi da una costante c e’ minima quando c e’ uguale alla media aritmetica: ∑ni=1(xi − μ)^2 , minimo quando c = μ.
Una media si dice consistente se, calcolata per le grandezze x 1 = x 2 =... = xn = a, vale a.

4.2 Media geometrica

La media geometrica di un insieme di n valori positivi x 1 ,... , xn di un carattere quantita- tivo X e’ pari alla radice n−esima del prodotto dei singoli valori: μg = √nx 1 ×... × xn = √ n∏ni=1 xi.

Il prodotto della media geometrica e’ uguale alla media aritmetica dei logaritmi.

4.3 Mediana

La mediana (Me) di un insieme di unita’ ordinate (secondo un carattere ordinabile) e’ la modalita’ presentata dall’unita’ centrale (unita’ che divide il collettivo in due parti di uguale numerosita’). Calcoliamo la mediana per l’insieme di valori: 2 , 3 , 4 , 5 , 7 , Me=4. Calcoliamo la mediana per l’insieme di valori: 4 , 2 , 6 , 10 , 7. In questo caso bisogna fare attenzione. Per prima cosa bisogna ordinare i valori dal piu’ piccolo al piu’ grande: 2 , 4 , 6 , 7 , 10 e poi Me=6. Consideriamo ora 1 , 4 , 5 , 6. Quanto vale la mediana? La mediana cadrebbe esattamente tra 4 e 5, convenzionalmente si prende la media tra i due valori, pertanto, Me=4.5. Da questi esempi deduciamo che per un insieme ordinato di valori se n e’ dispari la mediana e’ corrispondente al valore che divide in due parti uguali la distribuzione; mentre convenzionalmente e’ pari alla media quando n e’ pari. La mediana, rispetto alla media, e’ piu’ robusta, cioe’ risente meno di possibili valori

anomali (outliers).

4.4 Moda

La moda e’ la mdoalita’ della distribuzione che si presenta con la massima frequenza (assoluta, relativa o percentuale). Una distribuzione si dice unimodale se presenta un solo picco e bimodale se presenta due picchi di medesima altezza, ovvero due modalita’ o valori che presentano uguale frequenza massima.

4.5 Percentili

Definiamo percentili quei valori che dividono la distribuzione in cento parti di uguale numerosita’. Nelle esercitazioni ci saranno utili esercizi per capire bene quanto visto fino ad ora.

Varianza e scarto quadratico medio;
Campo di variazione o range;
Coefficiente di variazione (indice di variabilit relativa).

5.1 Campo di variazione o range

Il range si calcola nel modo seguente. Si ordinano le n unita’ statistiche di un carattere quantitativo continuo in modo crescente e calcolando la differenza tra il massimo e il minimo si ottiene il range. Considerando ad esempio il carattere X e ordinando in modo crescente x 1 < x 2 <... < xn, dove x 1 = min(x 1 ,... , xn) e xn = M ax(x 1 ,... , xn), il range si calcola come:

Range(X) = R(X) = xn − x 1 (2)

I limiti del campo di variazione sono: troppo influenzato dai valori estremi; tiene conto dei due soli valori estremi, trascurando tutti gli altri; tende ad aumentare con laumento del numero di osservazioni. Nelle misure di variabilita’ esiste anche il range interquartile, utile per l’identificazione di osservazioni anomale, calcolato come: Q 3 − Q 1 , dove Q 3 e Q 1 sono rispettivamente il primo e il terzo quartile della distribuzione.

5.2 Devianza

E’ la somma dei quadrati degli scarti dalla media aritmetica:

Devianza(X) = D(X) =∑ i=1^ n (xi − μ)^2 , (3)

dove μ = (^1) n^ ∑ni=1 xi. Il limite della Devianza come misura di dispersione quello di aumentare con il numero di osservazioni. Per ottenere una misura che non dipenda dalla numerosit si pu dividere la devianza per il numero n. di dati, ottenendo la varianza.

5.3 Varianza

La varianza si ottiene dividendo la devianza per n, totale delle osservazioni. In pratica il denominatore n quasi sempre sostituito da (n − 1) in modo da ottenere una stima corretta della dispersione della variabile nella popolazione da cui il campione in esame stato estratto.

V arianza(X) = σ^2 (X) = n^1 ∑ i=1^ n (xi − μ)^2. (4)

Il limite della varianza come misura di dispersione quella di avere una unit di misura espressa al quadrato rispetto all’unit di misura originale, per cui si utilizza la deviazione standard σ equivalente alla radice quadrata della varianza. Una importante proprieta’ della varianza e’ la seguente: la varianza di una variabile Y ottenuta attraverso una trasformazione lineare Y = a + bX di una variabile X, con media M (X) = μ(X) e varianza V (X) = σ^2 (X), e’ pari a: V (Y ) = b^2 V (X). Attraverso questa proprieta’ evidenziamo il fatto che la varianza e’ un operatore quadratico e non lineare come la media aritmetica. Inoltre, per fini computazionali, ricordiamo che una forma equivalente per il calcolo della varianza e’ la seguente:

V arianza(X) = σ^2 (X) = n^1 ∑ i=1^ n x^2 i − μ^2 x. (5)

6. Misure di eterogeneita’ per variabili qualitative

L’indice di eterogeneita’ di Gini e’ un indicatore di variabilita’ (mutabilita’) statistica per variabili qualitative. Esso offre una misura della eterogeneita’ (omogeneita’) di una dis- tribuzione statistica a partire dai valori delle frequenze relative associate alle k modalita’ di una generica variabile X (si ricordi che questo indice e’ usato nella statistica descrittiva univariata, dove si considera una sola variabile). Cio’ vuol dire che se i dati sono distribuiti in modo eterogeneo su tutte le k modalita’ di X (cioe’, se le modalita’ hanno numerosita’ simili o, nel caso di massima eterogeneita’, uguali), l’indice di Gini e’ elevato, viceversa, in caso di distribuzione di frequenza omogenea l’indice sara’ (percentualmente) piuttosto basso. L’indice di Gini e’ cos definito:

I = 1 −∑ i=1^ k p^2 i. (7)

In caso di minima eterogeneita’ (massima omogeneita’) i dati sono tutti distribuiti su una modalit, mentre in caso di massima eterogeneita’(minima omogeneita’) i dati sono equamente distribuiti nelle k modalita’. Al fine di ottenere l’indice relativo di Gini, bisogna dividere I per il suo valore massimo possibile. L’indice relativo di Gini e’ il seguente:

I∗^ = (^) k −I 1 /k , I∗^ ∈ [0, 1]. (8)

L’indice I∗^ avra’ valori pari a zero nel caso di massima omogeneita’ e pari a uno nel caso di massima eterogeneita’ (minima omogeneita’).

7. Analisi bivariata

L’analisi bivariata comprende una serie di indici e misure statistiche per lo studio della relazione tra coppie di variabili.

7.1 Analisi bivariata per variabili qualitative

Date due variabili qualitative X e Y , definiamo tabella di frequenze a doppia entrata o distribuzione doppia di frequenze l’insieme delle frequenze congiunte nij , ovvero le fre- quenze assolute delle unita’ che presentano congiuntamente la modalita’ i − esima del primo carattere e j − esima del secondo carattere. La generica tabella a doppia entrata dei caratteri X e Y , rispettivamente con H e K modalita’ e’ la seguente: L’ultima colonna e l’ultima riga della tabella sono dette dis- tribuzioni marginali, mentre all’interno della tabella vengono riportate le distribuzioni congiunte. La somma delle frequenze congiunte e’ pari alla somma delle frequenze marginali di riga o di colonna e restituisce N , cioe’ il totale delle unita’ statistiche. Piu’ precisamente: N = ∑Hi=1^ ∑Kj=1 nij = ∑Hi=1 ni = ∑Kj=1 nj. Anche in questo caso possiamo costruire le frequenze marginali e congiunte relative div- idendo ogni frequenza associata per N. In questo caso, 1 = ∑Hi=1^ ∑Kj=1 pij = ∑Hi=1 pi = ∑Kj=1 pj , dove pij = nij /N , pi = ni/N e pj = nj /N.

Proponiamo un esempio di tabella a doppia entrata: Provate a calcolare, sulla base della tabella che riporta gli indici di rischio per settori

A Io Ic Ir

B 0.01 0.01 0.
C 0.01 0.02 0.
D 0.01 0.03 0.
- E 0.01 0.04 0.
- F 0.05 0.01 0.
G 0.05 0.03 0.
H 0.04 0.06 0. - I 0.07 0.04 0.
- L 0.07 0.05 0.
M 0.05 0.08 0.
- N 0.08 0.15 0.
- O 0.13 0.12 0.
  - P 0.13 0.12 0.
- Q 0.12 0.19 0.
- R 0.18 0.17 0.
  - S 0.26 0.17 0.
  - T 0.24 0.19 0.
- U 0.36 0.55 0.

corrispondente alla i − esima modalita’ di X e alla j − esima modalita’ di Y deve essere uguale a: nij = ni. Nn .j. Le frequenze assolute di una tabella di contingenza ottenute nell’ipotesi di indipendenza tramite la definizione precedente, saranno dette frequenze teoriche di indipendenza (o piu’ semplicemente frequenze teoriche o frequenze attese) e per distinguerle dalle altre (dette anche frequenze osservate) le indicheremo con n′ ij. Diremo che un carattere Y dipende perfettamente da X quando ad ogni modalita’ di X e’ associata una sola modalita’ di Y , cioe’ quando in una tabella a doppia entrata per ogni i c’e’ un solo j per il quale nij 6 = 0. Invece, tra due caratteri sussiste interdipendenza perfetta se a ogni modalita’ di uno dei due caratteri corrisponde una e una sola modalita’ dell’altro carattere e viceversa. Per misurare il grado di dipendenza tra due caratteri qualitativi, ad esempio, tra X e Y , si usa l’indice di chi-quadrato di Pearson definito come:

χ^2 =∑ i^ H=1∑ j^ K=1 n^ c^2 ij′ ij , (9)

dove c^2 ij sono le contingenze al quadrato (differenze tra le frequenze osservate e quelle teoriche). Seguendo la notazione introdotta precedentemente, cij = nij − n′ ij. Per costruzione χ^2 ≥ 0 ; inoltre il valore di χ^2 aumenta al crescere di N. In generale e’ bene usare indici relativi. Per non fare dipendere il χ^2 dal numero totale di osservazioni N , si usa l’indice di contingenza media: φ^2 = χ^2 /N. Nel caso di indipendenza, φ^2 = 0. Siccome φ^2 ha valore massimo pari a min[(H − 1), (K − 1)], dove H e K sono rispettiva- mente il numero di righe e di colonne della tabella di contingenza, l’indice normalizzato (indice V di Cramer) e’ dato da:

V =

√√√ √ (^) min[(H −φ 1)^2 , (K − 1)]. (10)