Scarica Prima parte programma statistica e più Appunti in PDF di Statistica solo su Docsity!
La statistica analizza in termini quantitativi i fenomeni collettivi, ossia i fenomeni il
cui studio richiede l'osservazione di un insieme di manifestazioni individuali.
Si definisce unità statistica l'unità elementare su cui vengono osservati caratteri
oggetto di studio. Le unità statistiche possono essere:
semplici: singole persone, un esperimento, il lancio di una moneta;
composte: aggregazioni di unità semplici ossia una famiglia, una convivenza,
un'impresa.
Un insieme di unità statistiche omogenee rispetto a uno più caratteristiche
costituisce un collettivo statistico o una popolazione.
Il collettivo statistico è alla base dello studio di fenomeni collettivi. Si tratta di quei
fenomeni naturali, economici o sociali che necessitano, per la loro conoscenza e
comprensione, dell'osservazione delle diverse unità che fanno parte del collettivo.
Se il collettivo comprende tutte le unità omogenee rispetto a una data caratteristica,
si parla di popolazione; se, al contrario, viene osservato solo un numero ridotto di
unità del collettivo, si parla di campione.
se tutte le unità che costituiscono la popolazione sono effettivamente osservabili, il
collettivo viene detto empirico , altrimenti viene detto teorico. Se l’insieme è
costituito da un numero finito di unità statistiche viene detto finito , altrimenti viene
detto infinito. Sono sempre finiti collettivi concreti, mentre quelli infiniti sono
sempre ipotetici.
Il carattere e l'aspetto dell'unità preso in considerazione, ad esempio il sesso, l'età, il
numero di addetti, il titolo di studio.
La modalità del carattere il modo in cui il carattere si manifesta in una particolare
unità, ad esempio le modalità del carattere sesso sono maschio e femmina.
Il carattere può assumere modalità differenti in corrispondenza delle diverse unità
statistiche del collettivo. Le modalità del carattere devono essere esaustive e non
sovrapposte. Con il termine esaustive si intende che le modalità elencate devono
rappresentare tutti i possibili modi di manifestarsi del carattere. Le modalità si
definiscono non sovrapposte sia ogni unità si può associare una sola modalità.
Quando le modalità sono espresse numericamente, il carattere detto quantitativo
altrimenti è detto qualitativo.
Un carattere qualitativo viene distinto in:
Carattere sconnesso, se date due sue modalità è possibile affermare soltanto
se queste sono uguali o diverse;
carattere ordinato, se esiste un ordinamento naturale tra le diverse modalità
e, quindi, date due modalità è possibile solo dare un ordine, specificando che
una precede l'altra.
I caratteri quantitativi vengono distinti in continui e discreti.
In un carattere quantitativo discreto l'insieme delle modalità assumibili può essere
messo in corrispondenza biunivoca con un sottoinsieme di numeri interi.
Il un carattere quantitativo continuo l'insieme delle modalità assumibili può essere
messo in corrispondenza biunivoca con un sottoinsieme dei numeri reali.
Un carattere viene detto trasferibile se ha senso immaginare che un'unità statistica
possa cedere tutto in parte del carattere posseduto a un'altra unità statistica.
Le indagini
Tra le situazioni di rilevazione in cui lo statistico si trova a operare per l'acquisizione
dei dati bisogna distinguere quelle di tipo sperimentale e quelle osservazionali.
Una situazione di rilevazione sperimentale è caratterizzata da:
Ipotesi di lavoro , costituite da enunciati formalizzati spesso in termini
matematici;
Possibilità di controllare sia le condizioni in cui l'esperimento si svolge, sia le
caratteristiche dell'unità statistiche da impiegare.
In una situazione di rilevazione osservazionale non si ha la possibilità di controllare
le condizioni sotto le quali si svolge l’osservazione e solo in parte si possono
controllare le caratteristiche delle unità statistiche.
Era essenziale tenere sotto controllo le variabili ritenute più importanti nella
determinazione del fenomeno osservato; tali variabili vengono dette fattori.
Possiamo distinguere i fattori sperimentali dai fattori di stratificazione : i primi
riguardano quelle variabili su cui l'esperimento è chiamato a fornire una verifica del
loro diverso effetto e costituiscono spesso l'oggetto principale della ricerca; i secondi
riguardano la composizione dell’insieme delle unità sperimentali. Per effettuare il
controllo diretto dei fattori sperimentali e di stratificazione si utilizza un disegno
sperimentale, il quale specifica la metodologia da impiegare per avere un controllo
diretto su uno più fattori che incidono sul fenomeno di interesse.
esattamente individuabile la popolazione alla quale ci si riferisce e le unità
statistiche che la compongono.
Si deve poi definire il periodo di riferimento , cioè il periodo di tempo al quale
devono essere riferite le informazioni, poiché le informazioni raccolte non sono
contemporanee al periodo di svolgimento dell’indagine.
Per poter svolgere l’indagine abbiamo bisogno di individuare le unità appartenenti
alla popolazione: il mezzo che permette ciò è la lista: un elenco degli elementi
appartenenti alla popolazione di riferimento e rappresenta lo strumento principale
per la scelta delle unità statistiche.
L’individuazione di uno o più elenchi al fine di costituire una lista affidabile è un
aspetto molto importante per la riuscita dell’indagine; tuttavia, in molti casi non è
possibile disporre di nessuna lista affidabile.
Tra i metodi di acquisizione di dati da popolazioni umane, o comunque da
popolazioni le cui unità sono connesse all’organizzazione umana, particolare rilievo
assume l’ intervista. Un’intervista consiste nel rivolgere alcune domande alle unità
che compongono la popolazione di interesse e nel registrare le risposte a tali
domande. Per fare un’intervista le domande vengono raccolte in un apposito
modello detto questionario.
In molti casi rispondere ai quesiti non sono le unità di riferimento della popolazione,
ma dei loro rappresentanti.
Si sono sviluppate diverse tecniche di intervista che si differenziano essenzialmente
nel modo in cui si somministra il questionario agli intervistati. In generale, possono
essere distinte in metodi diretti e metodi indiretti. Nel primo caso l’osservatore
interagisce direttamente con l’unità osservata: è il caso, ad esempio, dell’intervista
faccia a faccia in cui l’intervistatore entra in contatto con l’intervistato e può
controllare direttamente la certezza delle modalità di risposta. Nel secondo caso ci si
avvale di un mezzo di mediazione tra l’osservatore e l’unità, per esempio del
telefono, piuttosto della posta.
La struttura del questionario viene progettata tenendo conto della tecnica di
intervista utilizzata. La scelta della tecnica di intervista è legata agli obiettivi della
ricerca, alle caratteristiche della popolazione di riferimento, ai tempi e alle risorse
disponibili.
Nell’ intervista diretta l’elementi più influente è la presenza fisica dell’intervistatore
ed è proprio la sua presenza a comportare rilevanti aspetti positivi e negativi.
La tecnica dell’ autocompilazione è molto efficace laddove si ritiene che la
popolazione presa in esame sia ben disposta a collaborare alla ricerca. In questo
caso la tecnica dell’autocompilazione permette di ridurre sensibilmente i costi
dell’indagine e ridurre al minimo l’organizzazione del lavoro sul campo.
L’ intervista telefonica ha una notevole diffusione determinata principalmente dalla
presenza del telefono in quasi ogni famiglia.
Un’altra tecnica di intervista che si serve del questionario in forma elettronica è il
CAPI. Con questa tecnica vengono svolte interviste faccia a faccia, nelle quali
l’intervistatore, disponendo di un personal computer, gestisce il questionario
elettronico e inserisce direttamente le risposte.
Le medie
Una volta eseguita la rilevazione statistica, è necessario passare ad elaborazioni dei
dati ottenuti, al fine di sintetizzare una molteplicità di valori in un unico valore che
sappia cogliere l'ordine di grandezza del fenomeno collettivo studiato.
Le medie ( valori medi ) sono valori di tendenza centrale che soddisfano l'esigenza di
esprimere sinteticamente l'intensità di un fenomeno collettivo.
Al fine di ottenere una sintesi dei valori osservati, la strada più logica da seguire -
ovviamente nel caso di variabili quantitative- è quella di fissare delle quantità
invarianti, ossia che rimangano immutate quando, al posto delle modalità osservate,
si ponga il valore medio prescelto.
In termini formali, esprimiamo con:
f ( x 1 , x 2 , … xN )
una generica funzione delle N osservazioni.
Al fine di trovare un valore medio rappresentativo della distribuzione, si deve
sostituire alle modalità osservate la media stessa, mantenendo inalterato il valore
della funzione:
f ( x 1 , x 2 , … xN ) =f ( x , x , … , x )
La media aritmetica
Uguagliando i secondi termini, otteniamo:
x 1 n 1 + x 2 n 2 + …+ xs ns =x n 1 + x n 2 +… x ns ∑ i= 1 s xi ni=∑ i= 1 s x ni ∑ i= 1 s xi ni=x (^) ∑ i= 1 s ni
E infine:
x=μ= ∑ i= 1 s xi ni N
È la formula della media aritmetica ponderata. Il numeratore è l’ammontare o
l’intensità totale del carattere.
Media aritmetica ponderata con pesi pari a
ni N =f (^) i
In generale, data una variabile X alle cui modalità siano associati pesi pi non
negativi, si calcola la media aritmetica ponderata:
xa=x= ∑ i= 1 s xi pi ∑ i= 1 s pi
Media aritmetica ponderata con pesi pari a
pi ∑ i= 1 s pi
Nel caso di una distribuzione di frequenze per un carattere suddiviso in classi, la
media aritmetica si calcola con i valori centrali delle classi:
xa=x= ∑ i= 1 s xi ' ni N
Dove xi
'
xi + xi+ 1 2 Proprietà della media aritmetica Prima proprietà
La somma degli scarti algebrici dalla media aritmetica è uguale a 0.
∑ i= 1 s
( xi −x) ni=^0
Dimostrazione: ∑ i= 1 s ( xi −x) ni=∑ i= 1 s xi ni −∑ i= 1 s x ni=∑ i= 1 s xi ni−x (^) ∑ i= 1 s ni=x N −x N = 0 Seconda proprietà
La somma dei quadrati degli scarti dalla media aritmetica è un minimo (più basso
valore che posso raggiungere), significa che la media aritmetica è il valore più vicino
alla distribuzione quando, per misurare le distanze, si utilizza il quadrato degli scarti.
∑ i= 1 s
( 〖^ xi−x^ ) 〗
2 ni=min Dimostrazione: Per dimostrare questa proprietà, calcoliamo la somma dei quadrati degli scarti da un valore d , diverso da x: d= x -a ∑ i= 1 s
( 〖^ xi−d^ )〗
2 ni=∑ i= 1 s
( 〖^ xi −x+^ a) 〗
2 ni=∑ i= 1 s [( xi−x^ ) 2 +a 2
- 2 a( xi −x) ] ni=∑ i= 1 s
( 〖^ xi−x^ ) 〗
2 ni+∑ i= 1 s a 2 ni +∑ i= 1 s
〖 2 a ( 〗 xi−x )
2 a (^) ∑ i= 1 s ( xi−x^ ) ni ^ per la prima proprietà della media aritmetica è uguale a 0 Giungiamo dunque alla relazione: ∑ i= 1 s
( 〖^ xi−d^ )〗
2 ni=∑ i= 1 s
( 〖^ xi −x) 〗
2 ni + N a 2
y= ∑ i= 1 s yi ni N
∑ i= 1 s bxi ni N
b (^) ∑ i= 1 s xi ni N =b x
La media geometrica
Viene definita come quel valore che, sostituito alle modalità osservate, mantiene invariato in prodotto delle intensità o degli ammontari del carattere. Quando la quantità invariante è il prodotto delle intensità o degli ammontari del carattere, allora poniamo (nel caso di distribuzione unitaria, cioè senza frequenze associate alle modalità):
f ( x 1 , x 2 , … xN ) =x 1 ∙ x 2 ∙ …∙ xN
f ( x , x , … , x )=x ∙ x ∙ … ∙ x E, uguagliando i secondi termini, otteniamo: x 1 ∙ x 2 ∙ … ∙ xN =x ∙ x ∙… ∙ x Ne consegue: ∏ i= 1 N xi =∏ i= 1 N x ∏ i= 1 N xi =x N Ed infine: x=γ=Mg= N
√∏ i= 1
N xi che è la formula della media geometrica semplice.
∏ i= 1 N xi Prodotto delle intensità o degli ammontari del carattere Analogamente a quanto fatto per la media aritmetica semplice, consideriamo il caso di una distribuzione di frequenze:
f ( x 1 , x 2 , … xs )=x 1
n 1 ∙ x 2 n 2 ∙ …∙ xs ns f ( x , x , … , x )=x n 1 ∙ x n 2 ∙ … ∙ x ns Uguagliando i secondi termini, otteniamo: x 1 n 1 ∙ x 2 n 2 ∙ …∙ xs ns =x n 1 ∙ x n 2 ∙ … ∙ x ns ∏ i= 1 s xi ni =x n 1 + n 2 +… ns ∏ i= 1 s xi ni =x N
Ed infine:
x=γ=Mg= N
√∏ i= 1
s xi ni
Media geometrica (ponderata)
Il calcolo della media geometrica può essere semplificato attraverso l’utilizzo dei
logaritmi; abbiamo, infatti:
lo g Mg =log N
∏ i= 1 N xi=
N
∑ i= 1 N lo g xi^ Per la media geometrica semplice lo g Mg =log N
√∏ i= 1
s xi ni =
N
∑ i= 1 s ni log xi ^ Per la media geometrica ponderata Una volta trovato il logaritmo della media geometrica, il risultato sarà trovato semplicemente con l’uso dell’antilogaritmo: M (^) g =e lo g M (^) g
Uguagliando i secondi termini, otteniamo: ∑ i= 1 s (^) n i xi =∑ i= 1 s (^) n i x ∑ i= 1 s (^) n i xi
x ∑ i= 1 s ni Ed infine: x=α=Mar =
N
∑ i= 1 s (^) n i xi È la formula della media armonica ponderata. I momenti Un’espressione generale, per considerare un valore medio, è quella del momento (non centrato) di ordine t : M (^) t = ∑ i= 1 N ( xi−x) t N nel caso di distribuzione unitaria. M (^) t = ∑ i= 1 s ( xi−x)t^ ni N nel caso di distribuzione di frequenze. Si vede molto facilmente che: t=-1 M− 1 =α(la^ media^ armonica) t=0 M^0 =^1 t=1 M^1 =x^ (la^ media^ aritmetica)
t=2 M^2 =Media^ quadratica Quando consideriamo gli scarti dalla media aritmetica, troviamo l’espressione generale del momento centrato di ordine t: M (^) t = ∑ i= 1 N xi t N nel caso di distribuzione unitaria. M (^) t = ∑ i= 1 N xi t ni N nel caso di distribuzione di frequenze. Si vede molto facilmente che: t=0 M^0 =^1 t=1 M^1 =^0 t=2 M^2 =Varianza Le medie lasche Si dicono medie lasche quei valori medi che vengono calcolati basandosi solo su alcuni valori della distribuzione, e principalmente sull’ordinamento preventivo delle modalità osservate. Le principali medie lasche sono il valore centrale , la mediana e la moda. Il valore centrale È la semisomma dei valori estremi della distribuzione, per cui, indicando con xmin e, xmax rispettivamente, il minimo e il massimo valore osservato, abbiamo che:
Nel caso in cui le due modalità mediane siano differenti , e il carattere sia quantitativo , è possibile determinare una mediana unica rappresentata dalla media aritmetica delle due modalità centrali: Me= x ( N 2 )
- x ( N 2 +^1 ) 2 Ricorrendo alla distribuzione di frequenza cumulate la determinazione della mediana è semplificata: indicando con Ni^ la i-esima frequenza cumulata, le posizioni mediane saranno individuate da: Ni ≥ (
N
) per N dispari Ni ≥(
N
2 ) e Ni ≥(
N
- (^1) ) per N pari La mediana sarà la modalità corrispondente a tali frequenze. Per calcolare la mediana per le distribuzioni in classi la formula sarà: Me=xi + xi+ 1 −xi ni (^
N
−Ni− (^1) ) Dove xi e xi+ 1 sono l’estremo inferiore e l’estremo superiore della classe mediana, cioè la prima classe per la quale vale:Ni ≥^
N
2 e^ Ni− 1 è la frequenza cumulata relativa alla classe antecedente a quella mediana. La moda La moda è la modalità che si presenta con la massima frequenza. Qualora vi sia una sola moda, la distribuzione si dice unimodale ; se la distribuzione ha due o più mode, si definisce (rispettivamente) bimodale o plurimodale.
Se la distribuzione riguarda una variabile quantitativa suddivisa in classi, si farà ricorso al calcolo delle densità di frequenze per individuare la classe modale.