






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti secondo parziale statistica clamm unibo agati
Tipologia: Appunti
1 / 11
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







STATISTICA – II
PARTE
INFERENZA INDUTTIVA Ripercorriamo il metodo statistico con un esempio: all’interno di una fabbrica
vengono prodotti pezzi che possono essere più o meno difettosi
censuaria o campionaria; N rappresenta la numerosità della popolazione, mentre n (=200) la
numerosità del campione. Il carattere Y può assumere infatti due modalità y1 = 0 (pezzo senza
difetti) y2= 1 (pezzo difettato). 3. Utilizzo dei modelli (sintesi dei dati): se l’insieme osservato è solo
un campione della popolazione
come si possono estendere i risultati? 4. Inferenza induttiva: costituisce quel passaggio del
processo statistico che consente di conoscere il
comportamento del carattere in popolazione sulla base di informazioni
campionarie. Tornando all’esempio: si è rilevata la frequenza relativa dei pezzi
difettosi del campione:
f (C)
8
200
Le conclusioni circa il
comportamento del carattere in popolazione possono essere tratte in termini di probabilità: f (C)
8
200
(ρ)
Y
N
controllo di ipotesi. L’inferenza è un “ragionamento che parte da premesse per arrivare a
conclusioni”; essa può essere deduttiva (ρ → C con P =1) o induttiva (ρ → C con P = (0;1) ).
VALIDITA’ DEL CAMPIONE Non si può basare la validità del campione sul suo “rispettare” le
proprietà della popolazione. Lo scarto tra il valore medio calcolato sulla popolazione (μ) e il valore
medio calcolato sul campione (y̅), ad esempio, può essere dovuto ad un errore casuale o ad un errore
sistematico:
tendono a bilanciarsi e che decrescono al crescere della numerosità del campione (in popolazione
gli errori casuali spariscono). L’errore casuale è ineliminabile nell’operazione di campionamento
campionaria e di popolazione dovuta a distorsione sistematiche, cioè errori che vanno sempre nella
stessa direzione (=> non si bilanciano) non decrescono all’aumentare della numerosità campionaria.
Un campione viene definito rappresentativo della popolazione se la differenza tra quantità
campionaria e di popolazione è dovuta esclusivamente ad un errore casuale di campionamento.
COME OTTENERE UN CAMPIONE RAPPRESENTATIVO Casualità: Un campione è rappresentativo se è
casuale, cioè quando le unità che lo compongono sono identificate senza effettuare nessuna
operazione di scelta. Esistono due tipi di campioni casuali:
o Campione probabilistico → è un sottoinsieme della popolazione tale che: a) ogni unità della
popolazione ha un’assegnata probabilità P > 0 e nota di essere inclusa nel campione; b) le unità
che vengono incluse nel campione vengono individuate attraverso un meccanismo casuale di
estrazione
o Campione intrinsecamente casuale → es: se per studiare il numero di film visti dagli studenti
nell’ultimo mese si intervistano gli studenti di statura > 1,70, si tratta di un campione intrinsecamente
casuale poiché la statura non è un fattore che influenza il numero di film che sono stati visti.
Numerosità: Perché il campione sia rappresentativo è necessario che la sua numerosità sia
sufficientemente elevata da coprire la variabilità del carattere in popolazione. Più il carattere è
variabile in popolazione maggiore deve essere la numerosità del campione. In altri termini, il campione
è di numerosità sufficientemente elevata quando l’aggiunta di un’unità non modifica sensibilmente i
risultati
STATISTICO
STATISTICA – II PARTE
Si noti inoltre che quando la numerosità del campione è elevata, il caso ha un effetto convergente
(media campionaria si asintotizza rispetto a quella di popolazione); viceversa, il caso ha un effetto
divergente nel caso di numerosità inadeguata.
3
4
→
stesso
frequenza
scarto su un
relativa
numero
di
n
“croce”
di lanci consistente
P (C) = 1
2 non
→ probabilità
teorica
è più “ammissibile” come nel caso di 4 lanci (è probabile che la moneta sia truccata)
Postulato empirico del caso: In un gran numero di prove effettuate in condizioni il più possibile
simili, la frequenza relativa con cui si presenta un certo evento tende ad approssimare la
probabilità teorica dell’evento stesso. L’approssimazione migliora, sebbene con oscillazioni
erratiche, al crescere del numero di prove effettuate.
f(E) → P(E)
Quando n è piccolo ci può essere anche uno scarto elevato. Il caso ha un effetto erratico e
divergente nei piccoli numeri, ma avrà un effetto convergente e stabilizzante nei grandi numeri
→ nei grandi numeri c’è una regolarità degli effetti del caso, tale regolarità è appunto utilizzata
dall’inferenza statistica per indurre le caratteristiche del campione a quelle della popolazione.
Es: film visti dagli studenti nell’ultima settimana
y i f i
Distribuzione di frequenze relative Esperimento di osservazione 1 0,
< -- --- --- 2 0,50 3 0 più 0,
--- --- --- > esperimento aleatorio: probabilità di estrarre uno studente che ha visto un film
nell’ultima settimana. Se n è sufficientemente alto, la probabilità può essere approssimata alla
frequenza relativa. Variabili aleatorie: i valori sono definiti da tutti i possibili esiti di un’estrazione;
non si tratta di variabili osservate (come nel caso delle variabili statistiche).
ESPERIMENTO ALEATORIO Un esperimento è una qualsiasi osservazione che fornisce dei dati;
Evento negazione (E̅): dato da 1 al netto delle probabilità che si
realizzi E
E
MISURE DI PROBABILITÀ (ASPETTO EMPIRICO) Le misure di probabilità da un punto di vista empirico possono
essere distinte in 3 criteri:
1. Criterio classico : se tra n risultati equi-possibili un numero n E realizza l’evento E => si può misurare la prob
rapporto tra il numero di esiti che realizzano l’evento E ed il numero di esiti possibili P(E) =
E
spazio fondamentale siano numerabili e c
numero sia limitato (spazio fondamentale discreto) 2. Criterio frequentista : se l’evento E si è realizzato n E volt
serie di prove in un numero
n sufficientemente alto di prove => si può misurare P(E) come frequenza relativa di n E : f(E) =
E
effettuate deve essere sufficientem
STATISTICA – II PARTE
3. Criterio soggettivo : la probabilità di un evento può essere misurata dal grado di fiducia che un sogget
realizzarsi di E; viene adoperato ogni volta che si hanno eventi non ripetibili
Principali differenze tra criterio classico e criterio frequentista: n: nel criterio classico rappresenta il totale deg
spazio fondamentale, mentre nella formula del criterio frequentista rappresenta il numero di repliche dell’esperimen
classico rappresenta il numero di elementi di E che appartengono allo spazio fondamentale, mentre nel c. frequent
il numero di volte che si realizza l’evento E quando si effettua l’esperimento Si noti quindi che, mentre il criterio clas
priori rispetto al realizzarsi dell’esperimento, il criterio frequentista può essere adoperato solo se si effettua l’esperim
MISURE DI PROBABILITÀ (ASPETTO ASSIOMATICO) Con riferimento all’aspetto assiomatico, la probabilità è co
funzione che assegna ad un qualsiasi evento E un certo grado di avverabilità; la probabilità deve rispettare 3 assio
Kolmogrov):
a) ASSIOMA DI NON NEGATIVITÀ :
P(E) ≥ 0 b) ASSIOMA DI UNITARIETÀ : la probabilità
dell’evento certo è pari a 1
eventi E ed F tra loro incompatibili, cioè tali che la loro intersezione sia un insieme vuoto, la probabilità che si re
due eventi (uno dei due o entrambi) è data dalla somma delle probabilità dei due eventi:
DAGLI ASSIOMI AI TEOREMI:. Se si considerano tre o più eventi, per determinare la probabilità dell’evento unione, e
risultare incompatibili due a due.. La probabilità dell’evento unione di due eventi compatibili è dato dalla somma de
singoli eventi al netto della loro intersezione:
2 Eventi: P(E ∪ F) = P(E) + P(F) − P(E ∩ F)
3 Eventi: P(E ∪ F ∪ G) = P(E) + P(F) + P(G) − P(E ∩ F) − P(E ∩ G) − P(F ∩ G) + P(E ∩ F ∩ G)
STATISTICA – II PARTE
PROBABILITA’ CONDIZIONATA Dati due eventi compatibili E ed F, la probabilità che si realizzi l’evento E dato
realizzato l’evento F (probabilità condizionata di E dato F), dove E quindi è l’evento condizionato mentre F è l’ev
condizionante, è data dalla probabilità dell’intersezione dei due eventi rapportata alla probabilità che si realizzi l’
condizionante (F):
P(F) Nb: è necessario che F non sia un evento impossibile, cioè che la sua probabilità non sia P(F) = 0 La prob
condizionata di E dato F può essere minore/maggiore/uguale rispetto alla probabilità (incondizionata) dell’event
alle diverse situazioni configurabili possiamo distinguere 3 tipo di eventi:
dall’avverarsi dell’altro. Si noti che la relazione di indipendenza di due eventi è simmetrica, cioè: P(E|F) = P(E) <
Nel caso di eventi dipendenti la probabilità dell’evento intersezione è data da:
P(E ∩ F) = P(E|F)x P(F) Nel caso di eventi indipendenti, la probabilità dell’evento intersezione è data da:
P(E ∩ F) = P(E) x P(F) TAVOLA CONDIZIONATA Esempio: 600 impiegati di una ditta sono suddivisi per età (X) e p
M F [20; 45) 36 52 88 [45; 65) 109 117 226 [65; o più) 126 160 286 271 329 600
Esperimento aleatorio: viene estratto con criterio casuale un soggetto tra i 600 dipendenti:
117
329
Si noti che il calcolo corrisponde a quello della frequenza relativa condizionata - Probabilità che sia m
sapendo che ha tra i 20 e 45 anni → → P (M |20I—45) =
36
88
Se due eventi E ed F sono ind
sono sicuramente indipendenti anche:
E̅ e F; E e F̅; E̅ e F̅ Si noti quindi che la dipendenza vale anche per le combinazioni di eventi negati Indipendenz
relazione di indipendenza non gode della proprietà transitiva: Se E ed F sono due eventi indipendenti e anche F
loro indipendenti ciò non è sufficiente per considerare E e G come eventi indipendenti; in questo caso è necess
l’indipendenza.
RELAZIONE DI INCOMPATIBILITÀ E DI INDIPENDENZA A CONFRONTO
dei due eventi esclude il realizzarsi dell’altro in una stessa prova aleatoria. La relazione di incompatibilità può es
a priori, è sufficiente mettere a confronto gli elementi che compongono
STATISTICA – II PARTE
i due insiemi (cioè mettere a confronto quali esiti realizzano E e quali F). La relazione di incompatibilità è rilevan
calcolo della probabilità dell’unione di E ed F
dell’esperimento X = {0,1} → valori che può assumere la variabilezz<i
ESEMPI PROVE DI BERNOULLI: 1 – lancio del dado: S = punteggio ≤ 4; I = punteggio ≥ 5 2 – estrazione casuale d
componente elettronico:
S = componente difettoso P(S) = p = 0,02 I = componente non difettoso; P(I) = q = 0,98 3 – estrazione casuale
campione di aria per vedere se un certo allergene è presente oppure no: S = campione contenente l’allergene p
campione che non contiene l’allergene q = 0,
DISTRIBUZIONE DELLA PROBABILITÀ DELLA VARIABILE ALEATORIA:
P(X) 0 1 - p 1 p
1 − p p
x
1
f(x) = P(X = x) = p
x
(1 − p)
1−x
→ funzione di probabilità della variabile aleatoria X assegna ad ogni possibile valore della variabile un valore di
essa assume valori per X = 0 e X = 1
Se x = 0 => f(x) = P(X = 0) = p
0
(1 − p)
1−
= 1 − p Se x = 1 => f(x) = P(X = 1) = p
1
(1 − p)
1−
= p La probabilità
di Bernoulli assuma valori x ≠ 0;1 è pari a 0; in altri termini, per tutti gli altri valori reali, la funzione di probabilità è pari a 0.
⇨ {O
p x ⋅ (1 − p)
1−x x = 0 ; 1 altrimenti
X ~ B (p) → la funzione si distribuisce come una Bernoulli di parametro p. p rappresenta un parametro della
perché è quel valore che si deve conoscere per poter assegnare le probabilità ai diversi valori della variabile.
STATISTICA – II PARTE
Strumenti di sintesi:
dell’evento): E(X) = ∑x ∙ f(x) = μ (= p) - > media della variabile aleatoria - Varianza
V(X) = ∑(x − μ)
2
∙ f(x) = p(1 − p)
VARIABILE BINOMIALE La variabile binomiale proviene da un esperimento che consiste in n prove di Bernoulli, tu
indipendenti, con probabilità p di successo che sia costante da prova a prova.
Funzione di probabilità:
f(x) = P(X = x) = (
x
x
(1 − p)
n−x
X = n° di successi nelle n prove X = {0,1,2,.. .,n} → valori che può assumere la variabile Nb: (
n
x
n!
x!(n−x)! Nb2: quando p = 0,5 → p
x
(1 − p)
n−x
= p
n
X ~ B (n,p) → la funzione si distribuisce come una Bernoulli di parametri n e p
Strumenti di sintesi:
Esempio: 4 clienti effettuano un ordine online n = 4 S = cliente che ha superato il proprio limite di credito → p =
cliente che non ha superato la soglia → q = 0,95 Come capire se si tratta di un esperimento binomiale: n prove: i 4
possono essere considerati come le n prove (esperimento ripetuto 4 volte) prove indipendenti: si tratta di prove
poiché il fatto che il cliente abbia superato il proprio limite di credito non influenza la probabilità che un altro clie
superato o meno la soglia probabilità costante: P(S) = p è costante per costruzione (in base alle info dei dati de
= n° di clienti che hanno superato il limite di credito Quesito 1 : probabilità che 3 clienti abbiano superato il limit
f(x) = P(X = 3) = (
3
1
n
x
p
x
(1 − p)
n−x
→ probabilità della ge
sequenza
Quesito 2 : probabilità che 2 o più clienti (su 4) abbiano superato il proprio limite di credito
0
1
(0,95)
3
= 0,
Quesito 3 : numero atteso di clienti che superano il limite di credito
STATISTICA – II PARTE
E(X) = 4(0,05) = 0,20 → ci si aspetta che 0,20 clienti superino il limite di credito
VARIABILE DI POISSON La variabile di Poisson viene utilizzata quando si ha un numero di manifestazioni di un ev
dato intervallo di tempo o in una data regione di spazio. La variabile di Poisson può essere utilizzata se sussisto
condizioni:
1. La probabilità che il fenomeno si manifesti esattamente una volta è uguale per tutti gli intervalli di
tempo della stessa lunghezza 2. La probabilità che il fenomeno si manifesti più di una volta in un dato arco di te
irrilevante
(prossima allo 0) 3. Il numero di manifestazioni dell’evento in un dato intervallo di tempo è indipendente dal num
manifestazioni in un qualsiasi altro intervallo di tempo (=> indipendenza)
Funzione di probabilità:
f(x) = P(X = x) =
−λ
∙ λ
x
x!
X = n° di manifestazioni nell’intervallo di tempo considerato (o nella regione di spazio) Nb: la variabile X non ha
superiore finito: X = {0,1,2,....}; λ: λ ≥ 0
X ~ P ( λ) → la funzione si distribuisce come una Poisson di parametro λ
Strumenti di sintesi: - E(X) = λ - V(X) = λ
Esempio: il numero medio di clienti che arrivano in banca in 1 minuto tra le 14:00 e le 15:00 (intervallo di tempo cons
a 3. Quesito 1 :si determini la probabilità che in 1 minuto entrino esattamente due clienti. f(x) = P(X = 2) =
e − 3 ∙ 3
2
2!
Quesito 2 : si determini la
che il numero di clienti che entrano in 1 minuto sia maggiore di 2:
f(x) = P(X > 2) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)] =
− 3
0
− 3
1
− 3
2
VARIABILI ALEATORIE CONTINUE Una variabile aleatoria continua è l’esito di un’operazione di misura, pertan
assumere qualunque valore reale all’interno di un determinato intervallo.
La probabilità associata ad uno specifico valore con precisione infinita è pari a 0. Una probabilità ≠ 0 è associata
esclusivamente ad intervalli (ad esempio ad a;b). X → integrale f(X) → funzione di densità (di probabilità); corris
funzione integrata tra gli estremi a e b per determinare la probabilità che la x sia compresa tra questi due valori.
STATISTICA – II PARTE
n
2
→ la costate campionaria viene legata a quella di popolazione attraverso questa distribuzione
TEST NORMALE Il test normale viene utilizzato per confrontare le medie (quella in popolazione e quella campiona
Estraendo un qualsiasi campione il valore della media x può variare da campione a campione, può quindi regist
differenza che, a livello di popolazione dovrebbe sparire (il caso ha un effetto convergente nei grandi numeri! ). I
divario della media nel campione è dovuto all’errore casuale di campionamento; se invece le medie osservate in
dovessero essere effettivamente diverse => le medie osservate nel campione differiscono non solo per via dell’e
di campionamento, ma anche a causa di un errore sistematico.
Esempio: si studia X cioè il tempo medio d’evasione di un ordine in due aziende A e B Si estraggono da A e
campioni di ordini rispettivamente di numerosità, media e deviazione standard A → B → nn 1 2 = = 120 100 x̅̅̅ x̅̅̅ 1
2
0:
1
2
1:
1
2
campionamento ma anche ad un fattore sistematico
0 per verificare se la differenza riscontrata a livello camp
abbastanza forte da abbattere le ipotesi iniziali, cioè se la differenza riscontrata legittima a rifiutare H 0 → “i dati s
un’evidenza empirica sufficientemente forte per scardinare l’ipotesi iniziale?” Dopo aver esaminato i dati e fissa
necessario procedere come segue per effettuare il test:
STATISTICA – II PARTE
c
|x̅̅̅−x̅
12
√n
s
1 1 +n
s
2 2
2. Fissare l’intervallo di significatività del test: Poiché un risultato è necessario impossibile verificare sotto l
c sotto l’ipotesi H 0 , non avendo d
La soglia viene stabilita fissando una probabilità massima di commettere un errore, cioè rifiutare H 0 quando in r
grafico di una variabile normale standard: si determina teorico (z t ), quel valore di z cioè un valore soglia che
del sulla quale coda si destra considera un’area poco pari probabile a
α
2
il
quando H 0 è vera. Nb: se il rischio massimo di errore è suddiviso tra le due code si rifiutano anche i valori
negativo simmetrico. Si può sbagliare rifiutando H 0 , però è misurabile l’errore attraverso la probabilità m
3. Confrontare il valore concreto con il valore teorico:
significativo , poiché il risult
significativo della presenza di fattori di variabilità che si aggiungono all’errore casuale di campionamento e co
generare la differenza osservata a livello campionario
Si rifiuta l’ipotesi inziale sulla base del così detto
Il principio di semplice disgiunzione fa si che quando il valore concreto è maggiore di quello teorico, si possa rifi
quanto o si è realizzato un evento raro e H 0 è vera oppure H 0 è da rifiutare in quanto falsa
TEST NORMALE E TEST “T” DI STUDENT Il test normale (vedi sopra) si utilizza nel caso in cui i campioni considera
numerosità n ≥ 30. Nel caso di campioni di numerosità n ≤ 30 è necessario utilizzare un altro tipo di test, cioè il
student. La “t” di student è una variabile che ha un unico parametro ν, che rappresenta il numero di gradi di lib
converge alla variabile normale Z. questa variabile consente di lavorare sui piccoli campioni. Per un numero di g
= 30 la t converge alla variabile normale Z. In questo caso il valore concreto della statistica test è pari a: t c =
s
∗
√ n
1
1
1
2
→
∗
s 2
1 (n1−1)+sn1+n2−2 2 2 (n2−1)
→ al numeratore si ha la somma delle devianze mentre al denominatore la
somma dei pesi
⇨ confronto tra valore concreto e valore teorico:
STATISTICA – II PARTE
0 non può essere rifiutata
Il valore teorico t t viene calcolato attraverso l’utilizzo delle tavole statistiche (vedi tavola 2) considerando come valore
assegnato alla probabilità massima di commettere l’errore cioè il valore dato ad α e come valore di riga il numero d
(= n1 + n2 − 2) , trovando poi l’incrocio dato da valore colonna e valore riga. Ad esempio, se α = 0,050 e ν = 20 => il va
a t t
TEST A DUE CODE E TEST AD UNA CODA