





















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispensa completa di appunti a lezione+slide+libro di testo.
Tipologia: Appunti
1 / 29
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






















Raccoglie le misurazioni dei dati dell’indagine condotta Il fenomeno studiato si indica con una lettera maiuscola (ad esempio X ) Con xi si intende il valore i-esimo del fenomeno X Con ni si intende la misurazione i-esime del fenomeno X, associata ad xi Grandezza principali FREQUENZA ASSOLUTA : si indica con ni ed è il numero di unità statistiche che presentano la modalità xi
Vale la proprietà (^) ∑ i = 1
k
FREQUENZA ASSOLUTA CUMULATA : si indica con Ni e rappresenta il numero di unità statistiche che presentano una modalità minore o uguale a xi. In pratica si calcola sommarizzando le frequenze assolute di indice inferiore o uguale ad i FREQUENZA RELATIVA CUMULATA : si indica con Fi e rappresenta la proporzione di unità statistiche che presentano una modalità minore o uguale ad xi. In pratica si calcola sommarizzando le frequenze relative di indice inferiore o uguale ad i Le frequenze cumulabili si possono calcolare quando le modalità sono almeno ordinabili, per cui non esistono per le VARIABILI QUALITATIVE SCONNESSE
DENSITA’ DI FREQUENZA : si può calcolare per variabili quantitative continue ed è data dal rapporto tra la FREQUENZA ASSOLUTA, RELATIVA o PERCENTUALE e l’AMPIEZZA DELLA CLASSE Quindi:
La relazione tra le due grandezze è
Spesso, per convenienza, alcuni fenomeni vengono discretizzati (ad esempio, se si pesa 67,8934Kg oppure 68,0345Kg si dice che si pesa 68Kg) un dato qualitativo continuo viene trasformato in uno discreto ed in questi casi si ricorre alla distribuzione in classi di frequenza. Ad esempio, se 10 persone appartenenti ad un gruppo pesano (in kg) 65, 70, 88, 72, 69, 81, 80, 73, 73, 69, può essere definita la seguente tabella Peso da hi
Peso a hi+
ni 65 70 4 70 80 4
Gli indici di posizione sono degli indicatori sintetici che con uno o pochi valori riassumono la distribuzione dei dati, dando un ordine di grandezza del fenomeno studiato. Gl indici di posizione devono essere sempre affiancati da un ulteriore quantità che misura la precisione come indicatore sintetico, cioè un indicatore di precisione I principali indici di posizione sono:
La moda viene indicata con Mo e può essere calcolata per tutti i tipi di carattere. Per i caratteri qualitativi e quantitativi continui è la modalità a cui è associata la frequenza assoluta maggiore. Per i caratteri quantitativi discreti (con tabella di frequenze) è il valore centrale dell’intervallo che presenta densità di frequenza maggiore
Indicatori di precisione Si valuta la corrispondente frequenza relativa o relativa percentuale tanto più questa è grande rispetto alle altre, tanto più la moda è un buon indicatore
Sia 0<p<1, si dice quantile di ordine p e si indica con xp quel valore che dopo aver ordinato in senso non decrescente i dati, lascia alla sua sinistra almeno p osservazioni ed alla sua destra (1-p) osservazioni p=1/4 = 0,25 è detto primo quartile p=1/2 = 0,5 è detto secondo quartile o mediana p=3/4 = 0,75 è detto terzo quartile I quartili così introdotti dividono l’insieme delle osservazioni in 4 gruppi, al cui interno cadono almeno il 25% delle osservazioni Indicatori di precisione Gli indicatori di precisione della MEDIANA sono costruiti dal primo e terzo quartile o DIFFERENZA INTERQUARTILE (DI): si calcola come DI = x0,75 – x0, o SCARTO INTERQUARTILE (SI): si calcola come SI = (x0,75 – x0,25)/ o RANGE o CAMPO DI VARIAZIONE (R): si calcola come differenza tra il massimo ed il minimo valore osservato: R=xmax - xmin o Posso quindi concluder che: Se DI è piccola rispetto ad R la mediana è un indicatore sintetico preciso Se DI è grande rispetto ad R la mediana è un cattivo indicatore sintetico Il BOXPLOT si costruisce come segue:
džϬ͕ϳ ϱ džϬ͕ϱϬ x0,
džϬ͕ϳ ϱн ϭ͕ ϱ/
x0,25- 1,5DI
In caso di distribuzioni in classi di frequenza, una volta individuata la classe i a cui appartiene la mediana (è quella in cui Fi supera il valre 0,5), la mediana può essere calcolata con la seguente formula:
caratteri quantitativi Media aritmetica La media aritmetica si calcola semplicemente sommando tutte le frequenze assolute e dividendo per il numero di occorrenze:
In caso di tabella di frequenza la media si calcola sommando il prodotto tra il valore della classe e la sua frequenza assoluta e dividendo per il numero di classi
x = (^1) n ∑ x = 1
k xi ∙ ni =∑ x = 1
k
Proprietà della media aritmetica: o Redistribuzione e mantenimento del totale o Annullamento degli scarti ∑ x = 1
k
o Linearità o Media di somma e differenza o Media di combinazione lineare o Associatività o Minimizzazione della somma degli scarti al quadrato
Indicatori di precisione
o relativa percentuale tanto più questa è grande rispetto alle altre, tanto più la moda è un buon indicatore
n ∙ ∑ i = 1
n
Esiste anche un’altra formula, più semplice da applicare:
n ∙ ∑ i = 1
n
Una covarianza negativa indica che al crescere di X mediamente Y decresce Al contrario, una varianza positiva indica che al crescere di X mediamente anche Y cresce
Il coefficiente di variazione di un fenomeno X, indicato come CV(X), è un indice di variabilità relativa dato dal rapporto tra lo scarto quadratico medio ed il valore assoluto della media aritmetica, ossia:
E’ un numero puro
Spesso due o più caratteri vengono rilevati contemporaneamente su n unità statistiche: in questi casi l’obiettivo della statistica è indagare eventuali legami tra i caratteri rilevati. Vengono trattati solo i casi di 2 variabili quantitative (o categoriali) rilevate sulle stesse unità statistiche ( statistica bivariata )
La tabella di contingenza (o doppia entrata) permette di riorganizzare i dati per le successive elaborazioni. Data la raccolta di questi dati a sinistra, la tabella a doppia entrata aggrega i dati in ascissa ed ordinata secondo le due variabili considerate
Frequenze assolute:
(^) ni. =∑ j = 1
k
(^) n. j =∑ i = 1
h
(^) n =∑ i = 1
h ∑ j = 1
k
Frequenze relative:
(^) f (^) i. =∑ j = 1
k
(^) f (^). j =∑ i = 1
h
Poiché Y si manifesta attraverso k modalità statistiche distinte, si possono individuare k sottoinsiemi di unità statistiche, uno per ogni modalità di Y: si definiscono distribuzioni condizionate relative di X come il rapporto tra le frequenze assolute ed il totale delle unità statistiche del gruppo di appartenenza.
La tabella delle frequenze relativa condizionate di X si costruisce dividendo in ciascuna cella il valore nij per il totale della colonna di appartenenza (che si denota come n.1). La sommatoria di ogni colonna deve uscire 1, inclusa l’ultima che è quella delle Frequenze Marginali. La tabella delle frequenze relativa condizionate di Y si costruisce dividendo in ciascuna cella il valore nij per il totale della riga di appartenenza (che si denota come n1.). La sommatoria di ogni riga deve uscire 1, inclusa l’ultima che è quella delle Frequenze Marginali. Riprendendo l’esempio di sopra:
o Ad ogni modalità X corrisponde una sola modalità Y (su ogni riga ho un solo elemento diverso da 0) Y 1 Y 2 X 1 x 0 X 2 x 0 X 3 0 x
Solitamente una tabella di contingenza su dati reali non è né di massima connessione, né di completa indipendenza: quando non c’è indipendenza vuol dire che c’è connessione tra i due caratteri ed è interessante calcolare questo grado di connessione ( indice di Paerson ). Il legame tra X e Y è tanto più forte quanto la tabella dei dati è lontana da quella teorica di indipendenza e vicina a quella di massima connessione L’ indice di Paerson (rappresentabile con il simbolo X^2 ) permette di misurare la distanza tra la tabella misurata e quella teorica.
X^2 =∑ i = 1
h ∑ j = 1
Il valore minimo di X^2 è 0 , che si ottiene quando tutte le contingenze sono nulle (quando c’è quindi massima indipendenza ) Il valore massimo di X^2 si ottiene quando c’è massima connessione e vale: max (^ X^2 )= n ∙ min ( h −1. k − 1 ) Un’altra formula per calcolare l’indice di Paerson, più semplice da usare in pratica è:
Per valutare e confrontare il livello di connessione tra due variabili si può usare l’ indice di connessione normalizzato , detto anche Chi quadrato normalizzato:
∑ i = 1
h ∑ j = 1
Esprimendo l’indice di connessione normalizzato in percentuale, esso indica la percentuale di connessione rispetto al massimo raggiungibile: 0 = indipendenza 1 = massima connessione più alta è più le due variabili sono connesse.
Principali grandezze
Media marginale : (^) y =^ ∑ j = 1
k
∑ j = 1
k
Media condizionata di Y dato xi : (^) yi =^ ∑ j = 1
k
Varianza condizionata di Y dato xi: (^) ~ si (^2) =^ ∑ j = 1
k
Proprietà associativa della media marginale: la media delle medie condizionate, pesata con la dimensione del gruppo, coincide con la media marginale di Y La varianza delle h medie condizionate di Y, pesata con la dimensione del gruppo, è detta varianza between:
Varianza between: ~ s^2 B = (^1) n ∑ i = 1
h
La media delle h varianze condizionate è detta varianza within :
Varianza within: ~ s^2 W =^1 n ∑ i = 1
Conoscendo le due varianze marginali per X e Y, esistono delle formule più semplici
Varianza between: ~ s^2 B =^1 n [ nX ( x^ X − x )^2 + nY (^ xY − x )^2 ]
Proprietà di scomposizione della varianza marginale : La varianza marginale è data dalla varianza delle medie condizionate più la media delle varianze condizionate.
Eta quadro ( indice di dipendenza in media di Y da X ) se le medie condizionate sono tutte uguali tra loro si
Un indice che misura il grado di indipendenza in media di Y da X è l’ ETA QUADRO :
Il secondo strumento per studiare la dipendenza lineare tra due fenomeni è il coefficiente di correlazione lineare , che quantifica in un certo senso quanto rappresentato nel diagramma di dispersione.
Nel caso di indagini campionarie, la caratteristica di interesse va stimata introducendo il concetto di incertezza. L’ inferenza statistica è la disciplina che partendo da una informazione campionaria riesce a determinare delle affermazioni sulla popolazione da cui il campione è tratto. Campionamento bernoulliano L’operazione di selezione può continuare indefinitamente Probabilità delle successive estrazioni indipendente dal risultato delle precedenti Composizione della popolazione immutata con probabilità di selezione delle unità costanti estrazione per estrazione Variabili casuali campionarie: Parametro: si chiama parametro di una variabile casuale (v.c.) X e viene indicato con θ una funzione dei valori che la v.c. assume su tutte le unità della popolazione e che caratterizza la distribuzione della v.c. stessa Stima: la stima t è una funzione dei dati campionari utilizzata per prevedere il valore incognito dei un parametro θ della v.c. X oggetto di studio nella popolazione di riferimento Stimatore : lo stimatore Tn è la v.c. generata dalle stime calcolate su tutti i campioni Ωn; è quindi una v.c. campionaria. Introduciamo alcune delle principali variabili casuali (v.c.) Media campionaria : se da una popolazione si estrae un campione bernoulliano di dimensione n sulle cui unità si osserva un fenomeno X, si ottengono dei valori campionari x 1 … xn la cui media è: x = (^1) n ∑ i = 1
n
Al variare del campione variano gli n valori ed i relativi xi. Se si considerano tutti i possibili campioni
2
Varianza campionaria : se si calcola la varianza del campione di n elementi ottengo:
n ∙^ ∑ i = 1
n
Al variare del campione, la formula descrive la v.c. variabile casuale (o stimatore) varianza
Considerando invece la quantità: s^2 = (^) n −^11 ∙ ∑ i = 1
n
che al variare del campione genera lo stimatore S^2 , chiamato varianza campionaria corretta , ed il
Proporzione campionaria : considerando un fenomeno che possa avere solo 2 modalità (A ed B), nella popolazione finita ci saranno NA unità con la modalità A e N-NA unità con modalità B. La proporzione con modalità A è quindi p=NA/N Se ora abbiamo un campione di n unità se ne possono osservare x con la modalità A e n-x con la modalità complementare B. Quindi
rappresenta la proporzione campionaria, che è una stima dell’ignoto p.
distribuzione binomiale con valore atteso np e varianza np(1-p ).
Quando si estrae un campione per stimare l’ignoto parametro di una variabile di interesse nella popolazione, si dispone di una sola stima. Come usarla per calcolare l’ignoto parametro?
Con un unico valore spero di azzeccare l’ignoto valore del parametro θ. Uno stimatore è detto consistente (corretto o asintoticamente corretto) se all’aumentare di n la sua varianza tende a 0:
Uno stimatore di dice corretto (o non distorto ) se il suo valore atteso coincide con il parametro oggetto di stima: E (^) ( T (^) n )= θ
A parità di altri parametri, tanto più ampio è l’intervallo di confidenza, tanto più ampio è l’IC (Intervallo di Confidenza). Un IC piccolo è più informativo di uno ampio e l’ampiezza dell’intervallo è un elemento importante per la stima:
a = 2 z 1 − α 2 √^ σn
Intervallo di confidenza con varianza ignota Se la varianza della popolazione non è nota, essa viene stimata con la varianza campionaria s^2 che genera lo stimatore S^2. La formula per il calcolo della probabilità diventa quindi:
P ( X − tn − 1 ; 1 − α 2 √^ Sn < μ < X + tn − 1 ; 1 − α 2 √^ Sn )=( 1 − α )
IC =( X − tn − 1 ; 1 − α 2 √^ Sn , X + tn − 1 ; 1 − α 2 √^ Sn )¿
Negli esercizi vengono di norma forniti:
Se la varianza non è nota si procede a calcolare la varianza campionaria s^2 : s^2 = (^) n −^11 ∙ ∑ i = 1
n
Se n è molto grande, l’IC di una percentuale può essere calcolato approssimando la Media Campionaria alla Normale, per il teorema del limite centrale:
variabile dicotomica:
Da cui ottengo:
2
Per calcolare la dimensione campionaria minima quando il parametro di interesse è una proporzione p, si può determinare:
2
2 1 − α 2
2