Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Formulario Statistica univariata, Formulari di Statistica Applicata

formulario di statistica per l'esame con la professoressa Zanarotti di Scienze Politiche (unicatt)

Tipologia: Formulari

2013/2014
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 07/06/2014

alessandro.procaccidesideri1
alessandro.procaccidesideri1 🇮🇹

3.5

(4)

1 documento

1 / 5

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica Univariata
Caratteri
Ci sono due tipi di caratteri:
Quantitativi (cioè le loro unità statistiche si presentano come numeri) divsi in
Discreti (solo numeri interi, come ad esempio il numero dei figli)
Continui (tutte quelle unità che ammettono i decimali, per esempio le lunghezze, il tempo ecc)
Qualitativi (definiti da aggettivi) divisi in
Sconnessi: cioè senza un ordine logico (come il colore degli occhi, della pelle ecc)
Ordinati: cioè che possono essere messi in un ordine logico (per esempio le fasce di reddito alta
media bassa; le valutazioni su un prodotto: insufficiente, buono, otimo ecc)
Classi e ampiezze
I caratteri quantitativi e, più frequentemente quelli continui, possono essere divisi in classi. È
opportuno calcolare l'ampiezza, che servirà poi per trovare la densità, usata nei grafici.
04 indica che l'estremo inferiore (sinistra) è escluso, il superiore (destra) incluso
04 indica che l'estremo inferiore è incluso e quello superiore escluso
04 indica che sono inclusi ambedue gli estremi
per i primi due casi l'ampiezza si calcola con la formula estremo superiore – estremo inferiore
per l'ultimo, invece, estremo superiore – estremo inferiore + 1
Frequenze e densità
Esistono vari tipi di frequenza: assoluta (nj), relativa (fj), percentuale (pj) e le frequenze cumulate
con le stesse lettere ma maiuscole
frequenze assolute nj: sono le modalità con cui si presentano i caratteri nella tabella e sono date.
Sommate tutte insieme danno la numerosità del collettivo chiamata "n"
Frequenze relative: si ottengono dividendo la nj di una modalità per il numero n. La loro somma è
sempre pari a 1
Frequenze percentuali: si ottengono moltiplicando le fj per 100. la loro somma fa sempre 100
Densità di frequenza di una classe:
si ottiene dividendo la frequenza assoluta di quella classe per la corrispettiva ampiezza. dj=
nj
aj
Indici di posizione: moda media mediana e media aritmetica
Moda: è la modalità con la frequenza assoluta/relativa/percentuale maggiore
in caso di quantitativo diviso per classi la moda è il valore centrale della classe con maggiore
DENSITA', che si ottiene facendo estremo inf + estremo inf tutto /2
Nel caso di quantitativo discreto non raggruppato in classi è semplicemente la modalità con
maggiore numerosità
Mediana: la mediana (me) dipende dalla numerosita' la classe mediana.
Qualitativi: in caso di n dispari, dividendo il collettivo più uno per due: (n+1)/; Se il collettivo è
rappresentato da un numero pari n/2 e (n/2)+1 (due posizioni mediane)
pf3
pf4
pf5
Discount

In offerta

Anteprima parziale del testo

Scarica Formulario Statistica univariata e più Formulari in PDF di Statistica Applicata solo su Docsity!

Statistica Univariata

Caratteri

Ci sono due tipi di caratteri: Quantitativi (cioè le loro unità statistiche si presentano come numeri) divsi in Discreti (solo numeri interi, come ad esempio il numero dei figli) Continui (tutte quelle unità che ammettono i decimali, per esempio le lunghezze, il tempo ecc) Qualitativi (definiti da aggettivi) divisi in Sconnessi: cioè senza un ordine logico (come il colore degli occhi, della pelle ecc) Ordinati: cioè che possono essere messi in un ordine logico (per esempio le fasce di reddito alta media bassa; le valutazioni su un prodotto: insufficiente, buono, otimo ecc) Classi e ampiezze I caratteri quantitativi e, più frequentemente quelli continui, possono essere divisi in classi. È opportuno calcolare l'ampiezza, che servirà poi per trovare la densità, usata nei grafici. 0 4 indica che l'estremo inferiore (sinistra) è escluso, il superiore (destra) incluso 0 4 indica che l'estremo inferiore è incluso e quello superiore escluso 0 4 indica che sono inclusi ambedue gli estremi per i primi due casi l'ampiezza si calcola con la formula estremo superiore – estremo inferiore per l'ultimo, invece, estremo superiore – estremo inferiore + 1 Frequenze e densità Esistono vari tipi di frequenza: assoluta (nj), relativa (fj), percentuale (pj) e le frequenze cumulate con le stesse lettere ma maiuscole frequenze assolute nj: sono le modalità con cui si presentano i caratteri nella tabella e sono date. Sommate tutte insieme danno la numerosità del collettivo chiamata "n" Frequenze relative: si ottengono dividendo la nj di una modalità per il numero n. La loro somma è sempre pari a 1 Frequenze percentuali: si ottengono moltiplicando le fj per 100. la loro somma fa sempre 100 Densità di frequenza di una classe: si ottiene dividendo la frequenza assoluta di quella classe per la corrispettiva ampiezza. dj= nj aj Indici di posizione: moda media mediana e media aritmetica Moda: è la modalità con la frequenza assoluta/relativa/percentuale maggiore in caso di quantitativo diviso per classi la moda è il valore centrale della classe con maggiore DENSITA', che si ottiene facendo estremo inf + estremo inf tutto / Nel caso di quantitativo discreto non raggruppato in classi è semplicemente la modalità con maggiore numerosità Mediana: la mediana (me) dipende dalla numerosita' la classe mediana. Qualitativi: in caso di n dispari, dividendo il collettivo più uno per due: (n+1)/; Se il collettivo è rappresentato da un numero pari n/2 e (n/2)+1 (due posizioni mediane)

si sommano i numeri ottenuti e si divide il risultato per due, ottenendo, cosi' la mediana. Se il carattere è quantitativo

  • Discreto non in classi con lo stesso metodo dei qualitativi
    • Discreto raggruppato in classi: si traccia la colonna delle frequenze cumulate Nj e si vede dove cadono le posizioni mediane. Poi si fa la semisomma degli estremi della classe.
    • Quantitativo continuo: dopo aver trovato le classi mediane si usa questa formula: Med= Linf [^ n 2

− N

med

− 1 ]⋅

amed   nmed  Linf è l'estremo inferiore della classe mediana; Nmed - 1 è la frequenza cumulata della classe che precede quella in cui cadono le posiz mediane, amed è l'ampiezza della classe mediana e nmed la sua numerosita' Media aritmetica: Esiste solo per i caratteri Quantitiativi. si ottiene sommando le xj moltiplicate per le corrispondenti nj e dividendo tutto per la numerosità n 1 n

i = 1 nxjnj  Se il carattere è raggruppato in classe si usa come xj il valore centrale di tale classe:  LinfLsupen Formula per tutte le medie potenziate M(s)= + (^)  1 n

i = 1 k x (^) j s n (^) j   1 s  Media artimetica: si pone S= Media armonica: si pone S= - 1 Media Geometrica: si pone S= lim s  0 Misure di variabilità

Range: ∣ X^ max −^ X^ min ∣

Varianza: indica di quanto le modalita' variano dalla media: Var(X) oppure σ^2 σ 2 =

n

i = 1 nx (^) j – M  2 ⋅ n (^) j ovvero si ottiene sottraendo ad ogni x la media, elevando questo valore al quadrato e moltiplicandolo per il corrispondente nj, sommando poi tutti i valori ottenuti in questo modo e dividendo il risultante per la numerosità n Scarto quadratico medio σ: non è altro che la radice quadrata della varianza, quindi

2 Coefficiente di variazione: serve a confrontare la variabilità di due o più caratteri o dello stesso carattere in più di due collettivi. Si calcola dividendo lo scarto quadratico medio per la media. C.V = σ M Indice di Gini o di eterogeneità: per i caratteri qualitativi, serve a definire quanto un carattere è

eterogeneo ( le sue modalità sono equidistribuite) G =∑

i = 1 k f (^) j ⋅ 1 − f (^) j  si sottrae a 1 le frequenze relative una per una e si moltiplica ogni valore così ottenuto per la corrispondente fj; dopo di ciò si sommano tutti questi valori. Così come è non serve a molto, va normalizzato moltiplicandolo per il rapporto tra il numero delle modalità e il numero delle modalità -

la numerosità n per il più piccolo tra h(numero di righe) e k(numero di colonne) diminuiti di 1 Il χ^2 va normalizzato, per far si che assuma valori tra 0 e 1 χ (^) norm 2 =  χ^2   χmax 2  Dipendenza in media per verificare se due caratteri dipendono in media si utilizza l'indice eta quadro η^2 η^2 (x|y)=  σ (^) Ma 2  xy   σx  2 ovvero il rapporto tra la varianza tra le medie e la varianza di x nel caso sia (y|x) al numeratore andrà la varianza tra le medie condizionate di x e al denominatore la varianza di y. Eta quadro varia tra 0 e 1 !!! Varianza tra le medie: la varianza tra le medie condizionate σ^2 M(X|Y) si ottiene sottraendo a ciascuna media condizionata di x la media totale di x, elevando questo numero al quadrato e dividendolo per il totale marginale. Si sommano tutte le varianze così ottenute e si divide per n totale. Nel caso in cui sia (Y|X) le medie marginali saranno quelle di (y|x), e la media totale è quella di y Teorema di scomposizione della varianza La varianza totale si scompone secondo questa formula σ^2 x= M(σ^2 x|y)+ σ^2 (Me)x|y cioè la varianza totale è uguale alla media delle varianze + la varianza delle medie Ovviamente se si considera la varianza di y bisognerà mettere nella formula la media tra le vaianze di y e la varianza tra le medie di y. Interdipendenza L'interdipendenza è quanto due caratteri sono tra loro concordi o discordi. L'indice che misura questo legame è la covarianza. σxy =

n ⋅∑ i = 1 nyi – M (^) aY ⋅ xiM (^) aX  ovvero il la somma tra il prodotto delle differenze tra ogni y e la media di y e ogni x e la media di x. Un altro indice che misura l'interdipendenza statistica è l'indice di pearson: ρ =^ σxyσxσy  ovvero il rapporto tra la covarianza e il prodotto degli scarti quadratici medi di x e y l'indice ρ oppure r varia tra 0 e 1 se vale 1 c'è legame lineare diretto massimo, se vale -1 c'è massimo legame inverso, se vale 0 i due caratteri sono indipendenti oppure la loro relazione non è una retta ( può essere una parabola, una iperbole ecc) Regressione semplice solo tra caratteri quantitativi!, cerca di costruire un modello di dipendenza tra un carattere e l'altro ( una retta) Y= a + bx X= c+ dy il primo caso è se y dipende da x ( y variabile dipendente), il secondo prevede x come variabile dipendente

per trovare i valori di a e b si usano le seguenti formule caso 1 y dipende da x Y=a+bx b = σxyσ 2  x  a = MY– bMx  caso 2 x dipende da y X= c+dx d = σxyσ 2  y  c = MX − dMYb = d ⋅ σ^2  y   σ 2  x  Bontà di adattamento è semlicemente l'indice r elevato al quadrato, che diventa R^2 Utile teoria Se chi quadrato è =0 allora è zero sia eta quadro e sia l'indice di pearson Se eta quadro è uguale a 0, pero', non è detto che siano 0 il chi quadrato e l'indice di pearson La media dei valori di un carattere standardizzato è sempre 0 e la sua varianza sempre 1