





















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Riassunto dispensa di statistica completa per studiare
Tipologia: Appunti
1 / 29
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






















Statistica descrittiva : effettua una sintesi delle informazioni, relative ad un particolare aggregato di dati attraverso tabelle, grafici e indicatori Si divide in due esercizi mentali :
SECONDA BRANCA Probabilità : fornisce strumenti per analizzare e trattare i fenomeni di tipo aleatorio cioè fenomeni il cui risultato non è certo
TERZA BRANCA Statistica Inferenziale : fornisce strumenti per fare inferenza cioè per generalizzare un risultato a partire da un campione (campione estratto secondo criteri probabilistici) Esercizio mentale :
Popolazione : costituita dal totale di soggetti / unità statistiche di interesse in uno studio (N) Campione : sottoinsieme della popolazione di riferimento dello studio (n)
CARATTERE (pag. 46) Il carattere statistico è una particolare proprietà / caratteristica che si rilevata sull’unità statistica, relativa al fenomeno oggetto di indagine
Sintesi tipologie di scale Proprietà
Tipo di scala
Classificazio ne in tipologie
Ordinamnet o gerarchico
Misurazion e di distanze
Misurazion e di rapporti
Variabile corrispondenden te Nominale SI NO NO NO Mutabile sconnessa Ordinale SI SI NO NO Mutabile ordinata Per intervalli
SI SI SI NO Variabile quantitativa Per rapporti
SI SI NO SI Variabile quantitativa
! su caratteri ordinali con punteggi espressi su scale convenzionali ( molto d’accordo, indifferente, contrario ) Non ha senso confrontare le distanze tra le modalità. Sui caratteri quantitativi ha senso calcolare le distanze, si definisce suddiviso in classi, l’operazione consiste nel suddividere l’insieme di valori in intervalli tra loro disgiunti.
Variabili dicotomiche : composte da due sole modalità disgiunte ed esaustive, restano a cavallo tra qualitativo e quantitativo Pensiamo alla modalità Maschio / Femmina incentrando la variabile su F ed esprimendo le modalità in ‘F’ e ‘non F’ agganciando alle modalità i numeri F (1), non F (0), il numero ora identifica un dato oggettivo
Esercizio di lettura dei dati : confronto del peso della stessa modalità in diverse popolazioni Es. Nella classe A (composta da 10 individui) i maschi sono 4 Nella classe B (composta da 15 individui) sono 5 In termini assoluti i maschi sono di più nella classe B Ma nelle dinamiche di classe 5 maschi su 15 è il 30%, mentre 4 su 10 è il 40%
! il confronto tra due variabili statistiche, osservate in popolazioni di diversa dimensione è possibile solo tenendo sotto controllo la numerosità complessiva della popolazione
Le Frequenze Chiamiamo frequenze relative specifiche i rapporti tra le corrispondenti numerosità
∑ i = 1
k
N.B. : K = Numero delle modalità della variabile statistica Le frequenze sono frazioni comprse tra 0 e 1, rendere pari a 1 un valore di N è un criterio per rendere comparabile numerosità specifiche diverse
Frequenze percentuali
Peso delle unità statistiche sul totale Es.
( 47,60 sono uomini )
densità assolute.
Rappresentazione grafica frequenze/numerosità cumulate
quantitative discrete e per classi o Numerosità cumulate ( pag.73) : Per rappresentare graficamente la cumulata di una variabile discreta È una funzione spezzata con la caratteristica forma di una scala per costruire il grafico è sufficiente individuali tre punti incorniciati a partire dalle loro
spezzata perché non raggiunge tutti i punti, tanti punti di discontinuità quante le modalità.
pari alla differenza tra due cumulate successive:
La funzione assume valore anche per le modalità non osservate assume valori anche al di fuori del campo di variazione delle variabili statistiche.
La distribuzione cumulativa di frequenze( funzioni di ripartizione) di una V.S. discreta è
all'estremo superiore di una classe coincide con il punto corrispondente all'estremo inferiore della classe successiva)
La funzione di ripartizione di una VS per classi e una spezzata con congiunge i punti di
Misure di posizione (o misure di centro) Misure di dispersione (o misure di variabilità) Altre misure di forma (misure di simmetria)
Misure di posizione Le misure di posizioni misurano l'attitudine di un fenomeno X a localizzarsi in un intorno delimitato dall'asse reale che siamo indotti a ritenere il valore vero realmente rappresentativo del fenomeno il centro di x. Possiamo chiamare queste misure genericamente medie (modalità che si presenta con maggiore frequenza)
MEDIA M Indice sintetico di una distribuzione statistica che alle diverse modalità del carattere ne sostituisce una sola che per il modo in cui è stata scelta, può ritenersi rappresentativa o tipica. Se la v.s. è quantitativa la media indicherà l'ordine di grandezza del carattere studiato in tal caso definiamo:
media in senso stretto di una V.S. X è una qualsiasi funzione reale delle modalità e numerosità che soddisfi tre proprietà:
della media di x
per c anche la media è moltiplicata per c
La definizione di media in senso stretto è però restrittiva: Può essere soddisfatta da medie calcolate su V.S. quantitative che quindi possono <<coinvolgere in un'unica funzione di sintesi matematica tutti i termine della
Una media calcolata in questo modo si dice anche media analitica Una media che non coinvolge nel calcolo tutti i termini della distribuzione si dice media lasca Alcune medie lasche possono essere calcolate anche per V.S. qualitative ma non potranno non godere della seconda e terza proprietà. Le medie lasche sono la moda e la mediana (Di medie analitiche ce n'è una gran varietà la più naturale e di uso comune è la media aritmetica)
Definiamo medie che: corrispondono alla modalità più osservata moda (media lasca) corrispondono alla modalità di mezzo della popolazione, quella che sta al centro della distribuzione ordinata delle modalità mediana (media lasca) corrispondono a una modalità virtuale che sei sostituita a tutte le modalità di fatto osservate lascia immutata una misura di sintesi della popolazione (media analitica)
Medie che Corrispondono …
Richiedono operazioni di …
Variabili statistiche
Alla modalità più osservata Moda
spoglio delle modalità, di qualunque tipo esse siano
Tutte ( nominali, ordinali, quantitative.)
Alla modalità ‘di mezzo’ Mediana
ordinamento delle modalità in una sequenza crescente o decrescente
Ordinabili (ordinali, quantitative)
Alla modalità che, sostituita alle singole xi, lascia immutata una misura di sintesi
sintesi algebrica (somma) delle caratteristiche/proprietà osservate sulle unità statistiche per determinare la corrispondente caratteristica/ proprietà collettiva
Solo quantitative
MODA Md (es. pag. 96) Il valore centrale più semplice è la moda la modalità che presenta la frequenza o numerosità più alta, questo indice può essere calcolato su qualsiasi tipo di variabile anche per le variabili qualitative con modalità non ordinate, può essere determinata facilmente anche se la distribuzione di frequenza è rappresentata solo attraverso un grafico (perché la barra più alta).
La mediana è una misura robusta dell'ordine di grandezza del fenomeno servato questo la rende preferibile agli altri valori centrali tipici delle variabili quantitative (L'opposto della robustezza e la sensitività) Quantitative mediana Qualitative mediana moda Qualitative non ordinabili moda
QUANTILI (es. da pag. 106 a pag. 114) Se la mediana suddivide la distribuzione ordinata in due distribuzioni parziali che hanno ciascuno 50% dei casi, questa suddivisione può essere eseguita in un numero qualsiasi di distribuzioni parziali Q, aventi ognuna la Q-esima parte della numerosità complessiva delle unità statistiche. La modalità che si pone tra le varie distribuzioni parziali si chiama genericamente quantile. Se Q = 2 quantili = mediana Se Q = 3 quantili = terzili Se Q = 4 quantili = quartili Se Q = 5 quantili = centili o percentili N.B. la mediana corrisponde anche al 2° quartile
Anche per le v.s. per classi il calcolo di un quantile è simile a quello di Me(x). Una volta individuata la ‘cllasse quantile’ si interpola
c-mo quartile Me(x) =
c-mo quintile Me(x) =
- Fk − 1
c-mo decile Me(x) =
c-mo percentile Me(x) =
Come scegliere il valore centrale più adeguato a sintetizzare la distribuzione?
Poiché i caratteri statistici hanno diverse scale di misurazione individuiamo una misura di dispersione per ciascuna delle tre seguenti situazioni:
Range Cogliere la variabilità di un carattere vuol dire vedere quant’è la differenza tra i primi e gli ultimi, tra le unità di analisi che stanno all'inizio e quelle che stanno alla fine della serie ordinata. Range è la differenza tra l'ultima e la prima modalità della serie ordinate
Ma risente di valori anomali. Meglio prendere come estremi su cui valutare il range, non proprio l'osservazione più piccola e più grande ma quelle osservazioni un po’ più interne alla serie, che si situano a uguale distanza dal valore centrale della serie ordinata, cioè a pari distanza dalla mediana. Se prenderemo la differenza tra il terzo e il primo quartile:
Se prendiamo le osservazioni del primo decile e del nono decile prenderemo:
Confrontiamo i range misurando la dispersione con le differenze tra quantili e ugual distanza dalla mediana! Se nel confronto tra due distribuzioni il range interciclico è molto diverso allora le differenze si riscontrano più che altro tra il 75° e il 90° percentile.
Un osservazione viene definita outlier (valore anomalo) se ricade :
Varianza Per una variabile statistica quantitativa partiamo dal fatto che la media aritmetica è la misura di posizione che rende minima una funzione quadratica di perdita di informazioni: E’ quindi ragionevole usare come misure di dispersione la funzione quadratica centrale sulla media aritmetica. La chiamiamo varianza
(^) ∑ i = l
m
una misura di eterogeneità deve quindi basarsi esclusivamente sulle frequenze tale misura deve soddisfare due condizioni:
{
modalità con uguale frequenza 1/m. W ¿^ {
L’indice E di Gini Tra gli indici che soddisfano le due proprietà uno è più semplice degli altri
Ex =∑ i = 1
m
In caso di assenza di eterogeneità tutte le frequenze sono nulle, tranne quella dell’unica modalità osservata che sarà = 1. Quindi E = 1 – 1 = 0
{
∑ i = 1
m
{
Emax = 1 −∑ i = 1
m
(
m )
2
(
(^2) )=
Tre annotazioni:
¿
¿ ha un campo di varianza utile da prendere come riferimento per commentare i risultati ottenuti:
¿
¿
¿ = 0,5 eterogeneità intermedia / discreta (né alta, né bassa )
Normalizzazione La normalizzazione di una misura è una procedura con due significati diversi tra loro connessi.
CV =
CV è sempre > 0
Rende possibile i confronti, se per un indice I si individuano un minimo e un massimo l’indice è sempre trasformabile nel suo equivalente normalizzato. Problema! Confrontare i valori di due o più distribuzioni statistiche che non hanno la stessa unità di misura Si rende necessario << riportare o disporre i valori osservati dei fenomeni sulla stessa unità di misura. Ogni volta che è necessario confrontare la distribuzione di due caratteri quantitativi che hanno medie e deviazioni standard molto differenti bisogna trasformare i valori originari in valori standardizzati cioè in valori che appartengono alla stessa scala la cui unità di misura diventa la deviazione standard.
Standardizzare Chiamiamo standardizzare di una v.s. X l’affiancamento alla sua legge di distribuzione di una trasformata Z:
ha sempre
media nulla e varianza unitaria. (Quando c'è la Z stiamo lavorando con una trasformata) Come standardizzare una variabile:
corrispondenti modalità
trasformate ad esse si affiancano le stesse numerosità o frequenze che non
vengono toccate potete verificare che m(Z) e nulla e che V(Z) calcolata è proprio 1.
! Se la variabile statistica e per classi la frequenza non cambiano ma le densità di frequenza si per il e denominatore della formula della densità di frequenza.
In presenza di potenziali outlier si estendono fino a Q3 + 1,5 * IQR e Q1 – 1,5*IQR gli outler si identificano nel grafico oltre i baffi. Se un’osservazione è più piccola del limite inferiore o più grande del limite superiore è definita outlier. ‘potenziali’ : criterio di identificazione è arbitrario.
Immagina che la curva costruita rappresenti un modello teorico di riferimento utile a valutare come si distribuisce l’altezza entro un campione di studentesse, rigorosamente estratto secondo criteri di casualità. La casualità fa entrare in gioco la probabilità, perché l’altezza che avrà la studentessa estratta non è prevedibile a priori con certezza. La distribuzione normale: Assume tutti i valori nell’insieme dei numeri reali
variabile statistica deterministiche] La normale standard (z): Molti fenomeni sono interpretabili come v.c. con distribuzione normale Per calcolare le probabilità del verificarsi di specifiche realizzazioni bisogna guardare al valore della funzione di ripartizione ovvero all’area sottostante alla funzione di densità della probabilità È possibile standardizzare la variabile e utilizzare i valori delle aree di probabilità già calcolati e riportati entro le tavole della normale standard
√ 2 π
− z^2 2
Tre osservazione sulla normale standard:
Nell’analisi statistica bivariata si studia la variabilità di un fenomeno mediante l’associazione (o la dispersione) con un altro fenomeno, entrambi osservati sul medesimo collettivo di unità statistiche. Studiamo l’associazione o dispersione tramite: La connessione (principalmnete per caratteri qualitativi) per valutare se esiste una associazione statistica tra due caratteri; La correzione e regressione lineare (caratteri quantitativi) per valutare se esiste una forma di dipendenza lineare, o per descrivere analiticamente come un carattere è funzione dell’altro (utile per effettuare previsioni)
I dati per l’analisi statistica della dipendenza sono organizzati in forma di tabella di contingenza o tabelle a doppia entrata. Queste tabelle mostrano il numero di unità statistiche osservate per tutte le possibili combinazioni delle modalità delle due variabili considerate. La tabella a doppia entrata rappresenta la distribuzione statistica congiunta della variabile statistica doppia (x,y)
contemporaneamente la modalità i del carattere x (posizionato ad intestare le righe) e la modalità j del carattere Y ( posizionato ad intestare le colonne) Es.
che <
<
<
Le due colonne ai margini sinistro e destro riproducono la distribuzione univariata X Le due righe ai margini alto e basso della tabella riproducono la distribuzione univariata di Y Il copro centrale della tabella a doppia entrata contiene la distribuzione congiunta della v.s.
Se osserviamo la distribuzione univariata del carattere VOTO all’esame di stat. Soc. notiamo che il numero delle modalità è pari ad 11. Si tratta di un numero eccessivo che richiederebbe una tabella di difficile lettura: genere (2 modalità) X voto ( 11 modalità) = tabella 2x per tale ragione è necessario preliminarmente riclassificare il carattere VOTO per arrivare ad una tabella a doppia entrata come quella che appare di seguito: 2x4.
Y = variabile di risposta o dipendente X = variabile condizionante indipendente Chiediamoci :
Possiamo anche identificare le distribuzioni condizionate per colonna, ovvero le modalità di Y definiscono i gruppi entro cui si osserva la distribuzione della variabile x:
Definizione indipendenza stocastica : c’è indipendenza stocastica di v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare
la proprietà di indipendenza statistica (o stocastica) è simmetrica: l’indipendenza di Y da X implica cioè quella di X da Y.
O dividendo entrambe le parti per N
dovrebbe essere le numerosità congiunte in un caso teorico di indipendenza stocastica.
Condizione necessaria e sufficiente : perché ci sia indipendenza stocastica tra X e
prodotto -diviso per N- delle corrispondenti numerosità marginali, ovvero che le frequenze congiunte siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali. “ condizione necessaria e sufficiente” vuol dire che: a) Se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) Se le frequenze sono fattorizzabili c’è indipendenza stocastica
L’INDICE CHI-QUADRATO - Pearson Una misura soddisfacente del grado di connessione (dipendenza statistica) tra due
x
2 = (^) ∑ i = 1 , j = 1
ij
0
e
2
e
x
2 =∑ i = 1
r ∑ j = 1
ij
0
e
2
e
(^) x^2 =∑ i = 1
r ∑ j = 1
s
0
parte per valutare il grado di connessione esistente.
e =¿^ ¿^ numerosità congiunte <
¿
cij =( nij 0
0 )= contingenze
Per comprendere il significato dell’indice è utile soffermarsi sulla formula con le contingenze:
2 =∑ i = 1
r ∑ j = 1
s
Quattro osservazioni:
e
capitare uno zero)!
e
0 possono venire < 0
Caratteristiche chi-quadrato:
indipendenza stocastica;
congiunta osservata da quella di indipendenza;
2 = (^) ∑ i = 1 , j = 1
r ,s
0
e
2
Normalizzazione di chi quadrati
il numero di colonne, meno 1 e il tutto moltiplicato per N:
2
È intuitivo che il valore massimo, corrispondente alla situazione di massima connessione, si può realizzare solo nel caso in cui la tabella della distribuzione congiunta sia quadrata (r=s) Ma anche con questo lieve difetto il valore massimo ci consente di normalizzare l’indice:
2 ∗¿¿
2
Supponiamo di voler studiare la dipendenza funzionale tra un carattere quantitativo Y e un carattere qualitativo o quantitativo discreto X, nell’ottica della dipendenza del primo dal secondo (e viceversa) Il fatto che Y sia quantitativa, ci permetterà di percorrere un’altra strada per individuare la dipendenza funzionale da X. Ci porterà a calcolare quanta parte dell’intera variabilità di Y, è spiegata scomponendo la popolazione analizzare in più sottopopolazioni, distinte in base alle modalità della variabile explanans. Questa strada richiede di avere a che fare con una variabile da spiegare quantitativa, ma non pone nessun limite sul tipo di carattere dell’altra variabile che può essere anche nominale. Procedimento di scomposizione della varianza Durkheim ha cercato di analizzare la relazione tra due variabili osservate in una popolazione con una logica innovativa. I suoi dati si riferivano alla composizione per credo religioso (x) e al tasso di suicidio x 100000 abitanti (y) in otto province (N) della baviera
Regione X= Presenza cattolici
Y Regione X= Presenza cattolici
Palatinato renano
Minoranza (1) 167 Svevia Maggioranza(2) 118
Franconia centr.
Minoranza (1) 207 Alto Palatinato Quasi totalità 64
Alta Franconia Minoranza (1) 204 Alta Baviera Quasi totalità 114 Bassa Franconia
Maggioranza(2) 157 Bassa Baviera Quasi totalità 49
X : carattere qualitativo ordinale; Y : carattere quantitativo continuo | Durk. Pensava che dove fosse presente la religione ci fosse un grado minore di suicidi |
Traduciamo questi dati sotto forma di distribuzione congiunta in due modi distinti:
I = minoranza 167 204 207 … 3 [167 + 204 + 207]/3 = 192, II = maggioranza 118 157 … … 2 [118 + 157]/2=137, III = Unanimità 49 64 114 … 3 [49,64,114]/3=75,
esima modalità di X (^) { X = xi } è la media della corrispondente distribuzione condizionata
mediamente si riduce tasso di suicidi con maggioranza di cattolici
crescere di X la media condizionata diminuisce sempre. ! si può dimostrare che la media ponderata delle medie condizionate è = M(Y) ovvero:
∑ i
grafico pag. 203
tendenze nascoste nel diagramma. La chiamiamo linea (o spezzata) di regressione
Tot 2 3 3 8
Nota: possiamo calcolare le medie condizionate anche dopo che abbiamo abbiamo riaggregato le coppie di dati osservati in classi. Ovvio che, sostituendo in questo caso a ogni valore osservato il valore centrale della classe corrispondente, il risultato può essere distorto. Grafico 2 pag. 203 Vediamo che la distanza tra uno qualunque dei valori di Y e la M(Y) è la somma di due
Le due dispersioni: la linea delle medie condizionate costituisce una sorta di linea spartiacque o linea divisoria tra due tipi di dispersioni: a) la dispersione delle modalità di Y osservate entro ogni sottogruppo, intorno alla
b) la dispersione delle medie condizionate stesse intorno alla media generale di Y [M(Y)].
Durk. Nota che i dati mostrano due proprietà: a) al crescere di X il carattere Y mediamente diminuisce b) tutte le cifre sono maggiori di quelle del secondo, quelle del secondo maggiori di quelle del terzo, senza la minima irregolarità.. cioè: non solo le medie ‘condizionate’, entro i sottogruppi definiti dal carattere X, crescono con continuità, ma entro ogni sottogruppo i valori osservati di Y sono ben addensati intorno alla loro media: hanno insomma varianza intorno alla media condizionata (cioè varianza condizionata) contenuta, rispetto alla varianza totale di Y (dispersione delle singole modalità di Y dalla M(Y)