Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Probabilità e Statistica: Esercizi e Quiz, Appunti di Statistica

appunti secondo parziale statistica clamm unibo agati

Tipologia: Appunti

2019/2020

Caricato il 18/12/2020

lorenzino-34
lorenzino-34 🇮🇹

4.2

(5)

9 documenti

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA II
PARTE
INFERENZA INDUTTIVA Ripercorriamo il metodo statistico con un esempio: all’interno di una fabbrica
vengono prodotti pezzi che possono essere più o meno difettosi
1. Studio del carattere Y all’interno della popolazione ρ 2. Dati indagine: scelta tra indagine
censuaria o campionaria; N rappresenta la numerosità della popolazione, mentre n (=200) la
numerosità del campione. Il carattere Y può assumere infatti due modalità y1 = 0 (pezzo senza
difetti) y2= 1 (pezzo difettato). 3. Utilizzo dei modelli (sintesi dei dati): se l’insieme osservato è solo
un campione della popolazione
come si possono estendere i risultati ? 4. Inferenza induttiva: costituisce quel passaggio del
processo statistico che consente di conoscere il
comportamento del carattere in popolazione sulla base di informazioni
campionarie. Tornando all’esempio: si è rilevata la frequenza relativa dei pezzi
difettosi del campione:
f(C) = 8200 → frequenza relativa campionaria Le conclusioni circa il
comportamento del carattere in popolazione possono essere tratte in termini di probabilità: f(C) =
8200 → P(ρ) = YN → frequenza relativa sulla popolazione → H:P < 0,03 → ipotesi statistica
• La statistica inferenziale si concentra su problemi di stima (può essere intervallare o puntuale) e di
controllo di ipotesi. L’inferenza è un “ragionamento che parte da premesse per arrivare a
conclusioni”; essa può essere deduttiva (ρ → C con P =1) o induttiva (ρ → C con P = (0;1) ).
VALIDITA’ DEL CAMPIONE Non si può basare la validità del campione sul suo “rispettare” le
proprietà della popolazione. Lo scarto tra il valore medio calcolato sulla popolazione (μ) e il valore
medio calcolato sul campione (y
), ad esempio, può essere dovuto ad un errore casuale o ad un errore
sistematico:
• Errore casuale: la differenza è dovuta all’operazione di campionamento casuale; sono errori che
tendono a bilanciarsi e che decrescono al crescere della numerosità del campione (in popolazione
gli errori casuali spariscono). L’errore casuale è ineliminabile nell’operazione di campionamento
• Errore sistematico: distorsione sistematica nella fase di campionamento. Differenza tra quantità
campionaria e di popolazione dovuta a distorsione sistematiche, cioè errori che vanno sempre nella
stessa direzione (=> non si bilanciano) non decrescono all’aumentare della numerosità campionaria.
Un campione viene definito rappresentativo della popolazione se la differenza tra quantità
campionaria e di popolazione è dovuta esclusivamente ad un errore casuale di campionamento.
COME OTTENERE UN CAMPIONE RAPPRESENTATIVO Casualità: Un campione è rappresentativo se è
casuale, cioè quando le unità che lo compongono sono identificate senza effettuare nessuna
operazione di scelta. Esistono due tipi di campioni casuali:
o Campione probabilistico è un sottoinsieme della popolazione tale che: a) ogni unità della
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Introduzione alla Probabilità e Statistica: Esercizi e Quiz e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA – II

PARTE

INFERENZA INDUTTIVA Ripercorriamo il metodo statistico con un esempio: all’interno di una fabbrica

vengono prodotti pezzi che possono essere più o meno difettosi

  1. Studio del carattere Y all’interno della popolazione ρ 2. Dati indagine: scelta tra indagine

censuaria o campionaria; N rappresenta la numerosità della popolazione, mentre n (=200) la

numerosità del campione. Il carattere Y può assumere infatti due modalità y1 = 0 (pezzo senza

difetti) y2= 1 (pezzo difettato). 3. Utilizzo dei modelli (sintesi dei dati): se l’insieme osservato è solo

un campione della popolazione

come si possono estendere i risultati? 4. Inferenza induttiva: costituisce quel passaggio del

processo statistico che consente di conoscere il

comportamento del carattere in popolazione sulla base di informazioni

campionarie. Tornando all’esempio: si è rilevata la frequenza relativa dei pezzi

difettosi del campione:

f (C)

8

200

→ frequenza relativa campionaria

Le conclusioni circa il

comportamento del carattere in popolazione possono essere tratte in termini di probabilità: f (C)

8

200

→ P

(ρ)

Y

N

→ frequenza relativa sulla popolazione → H:P < 0,03 → ipotesi statistica

  • La statistica inferenziale si concentra su problemi di stima (può essere intervallare o puntuale) e di

controllo di ipotesi. L’inferenza è un “ragionamento che parte da premesse per arrivare a

conclusioni”; essa può essere deduttiva (ρ → C con P =1) o induttiva (ρ → C con P = (0;1) ).

VALIDITA’ DEL CAMPIONE Non si può basare la validità del campione sul suo “rispettare” le

proprietà della popolazione. Lo scarto tra il valore medio calcolato sulla popolazione (μ) e il valore

medio calcolato sul campione (y̅), ad esempio, può essere dovuto ad un errore casuale o ad un errore

sistematico:

  • Errore casuale: la differenza è dovuta all’operazione di campionamento casuale; sono errori che

tendono a bilanciarsi e che decrescono al crescere della numerosità del campione (in popolazione

gli errori casuali spariscono). L’errore casuale è ineliminabile nell’operazione di campionamento

  • Errore sistematico: distorsione sistematica nella fase di campionamento. Differenza tra quantità

campionaria e di popolazione dovuta a distorsione sistematiche, cioè errori che vanno sempre nella

stessa direzione (=> non si bilanciano) non decrescono all’aumentare della numerosità campionaria.

Un campione viene definito rappresentativo della popolazione se la differenza tra quantità

campionaria e di popolazione è dovuta esclusivamente ad un errore casuale di campionamento.

COME OTTENERE UN CAMPIONE RAPPRESENTATIVO Casualità: Un campione è rappresentativo se è

casuale, cioè quando le unità che lo compongono sono identificate senza effettuare nessuna

operazione di scelta. Esistono due tipi di campioni casuali:

o Campione probabilistico → è un sottoinsieme della popolazione tale che: a) ogni unità della

popolazione ha un’assegnata probabilità P > 0 e nota di essere inclusa nel campione; b) le unità

che vengono incluse nel campione vengono individuate attraverso un meccanismo casuale di

estrazione

o Campione intrinsecamente casuale → es: se per studiare il numero di film visti dagli studenti

nell’ultimo mese si intervistano gli studenti di statura > 1,70, si tratta di un campione intrinsecamente

casuale poiché la statura non è un fattore che influenza il numero di film che sono stati visti.

Numerosità: Perché il campione sia rappresentativo è necessario che la sua numerosità sia

sufficientemente elevata da coprire la variabilità del carattere in popolazione. Più il carattere è

variabile in popolazione maggiore deve essere la numerosità del campione. In altri termini, il campione

è di numerosità sufficientemente elevata quando l’aggiunta di un’unità non modifica sensibilmente i

risultati

• CAMPIONE IN EQUILIBRIO

STATISTICO

STATISTICA – II PARTE

Si noti inoltre che quando la numerosità del campione è elevata, il caso ha un effetto convergente

(media campionaria si asintotizza rispetto a quella di popolazione); viceversa, il caso ha un effetto

divergente nel caso di numerosità inadeguata.

POSTULATO EMPIRICO DEL CASO Esempio: lancio di una moneta n = 4 lanci → 3 C e 1 T n = 40

lanci → 30 C e 10 T n = 400 lanci → 300 C e 100 T f (C) → = Lo

3

4

stesso

frequenza

scarto su un

relativa

numero

di

n

“croce”

di lanci consistente

P (C) = 1

2 non

→ probabilità

teorica

è più “ammissibile” come nel caso di 4 lanci (è probabile che la moneta sia truccata)

Postulato empirico del caso: In un gran numero di prove effettuate in condizioni il più possibile

simili, la frequenza relativa con cui si presenta un certo evento tende ad approssimare la

probabilità teorica dell’evento stesso. L’approssimazione migliora, sebbene con oscillazioni

erratiche, al crescere del numero di prove effettuate.

f(E) → P(E)

Quando n è piccolo ci può essere anche uno scarto elevato. Il caso ha un effetto erratico e

divergente nei piccoli numeri, ma avrà un effetto convergente e stabilizzante nei grandi numeri

→ nei grandi numeri c’è una regolarità degli effetti del caso, tale regolarità è appunto utilizzata

dall’inferenza statistica per indurre le caratteristiche del campione a quelle della popolazione.

Es: film visti dagli studenti nell’ultima settimana

y i f i

Distribuzione di frequenze relative Esperimento di osservazione 1 0,

< -- --- --- 2 0,50 3 0 più 0,

--- --- --- > esperimento aleatorio: probabilità di estrarre uno studente che ha visto un film

nell’ultima settimana. Se n è sufficientemente alto, la probabilità può essere approssimata alla

frequenza relativa. Variabili aleatorie: i valori sono definiti da tutti i possibili esiti di un’estrazione;

non si tratta di variabili osservate (come nel caso delle variabili statistiche).

ESPERIMENTO ALEATORIO Un esperimento è una qualsiasi osservazione che fornisce dei dati;

Evento negazione (E̅): dato da 1 al netto delle probabilità che si

realizzi E

E

MISURE DI PROBABILITÀ (ASPETTO EMPIRICO) Le misure di probabilità da un punto di vista empirico possono

essere distinte in 3 criteri:

1. Criterio classico : se tra n risultati equi-possibili un numero n E realizza l’evento E => si può misurare la prob

rapporto tra il numero di esiti che realizzano l’evento E ed il numero di esiti possibili P(E) =

n

E

n Vincoli per l’uti

per applicare il criterio classico è necessario che gli elementi dello

spazio fondamentale siano numerabili e c

numero sia limitato (spazio fondamentale discreto) 2. Criterio frequentista : se l’evento E si è realizzato n E volt

serie di prove in un numero

n sufficientemente alto di prove => si può misurare P(E) come frequenza relativa di n E : f(E) =

n

E

n Vincoli u

frequentista: l’esperimento deve essere ripetibile e il numero di prove

effettuate deve essere sufficientem

STATISTICA – II PARTE

3. Criterio soggettivo : la probabilità di un evento può essere misurata dal grado di fiducia che un sogget

realizzarsi di E; viene adoperato ogni volta che si hanno eventi non ripetibili

Principali differenze tra criterio classico e criterio frequentista: n: nel criterio classico rappresenta il totale deg

spazio fondamentale, mentre nella formula del criterio frequentista rappresenta il numero di repliche dell’esperimen

classico rappresenta il numero di elementi di E che appartengono allo spazio fondamentale, mentre nel c. frequent

il numero di volte che si realizza l’evento E quando si effettua l’esperimento Si noti quindi che, mentre il criterio clas

priori rispetto al realizzarsi dell’esperimento, il criterio frequentista può essere adoperato solo se si effettua l’esperim

MISURE DI PROBABILITÀ (ASPETTO ASSIOMATICO) Con riferimento all’aspetto assiomatico, la probabilità è co

funzione che assegna ad un qualsiasi evento E un certo grado di avverabilità; la probabilità deve rispettare 3 assio

Kolmogrov):

a) ASSIOMA DI NON NEGATIVITÀ :

P(E) ≥ 0 b) ASSIOMA DI UNITARIETÀ : la probabilità

dell’evento certo è pari a 1

P(Ω) = 1

  • L’unione dei due assiomi restituisce la seguente proprietà della probabilità: P(E) ∈ [0;1] c) ASSIOMA DI ADDI

eventi E ed F tra loro incompatibili, cioè tali che la loro intersezione sia un insieme vuoto, la probabilità che si re

due eventi (uno dei due o entrambi) è data dalla somma delle probabilità dei due eventi:

E ∩ F = ∅ ⇒ P(E ∪ F) = P(E) + P(F)

DAGLI ASSIOMI AI TEOREMI:. Se si considerano tre o più eventi, per determinare la probabilità dell’evento unione, e

risultare incompatibili due a due.. La probabilità dell’evento unione di due eventi compatibili è dato dalla somma de

singoli eventi al netto della loro intersezione:

2 Eventi: P(E ∪ F) = P(E) + P(F) − P(E ∩ F)

3 Eventi: P(E ∪ F ∪ G) = P(E) + P(F) + P(G) − P(E ∩ F) − P(E ∩ G) − P(F ∩ G) + P(E ∩ F ∩ G)

STATISTICA – II PARTE

PROBABILITA’ CONDIZIONATA Dati due eventi compatibili E ed F, la probabilità che si realizzi l’evento E dato

realizzato l’evento F (probabilità condizionata di E dato F), dove E quindi è l’evento condizionato mentre F è l’ev

condizionante, è data dalla probabilità dell’intersezione dei due eventi rapportata alla probabilità che si realizzi l’

condizionante (F):

P(E|F) =

P(E ∩ F)

P(F) Nb: è necessario che F non sia un evento impossibile, cioè che la sua probabilità non sia P(F) = 0 La prob

condizionata di E dato F può essere minore/maggiore/uguale rispetto alla probabilità (incondizionata) dell’event

alle diverse situazioni configurabili possiamo distinguere 3 tipo di eventi:

  • P(E|F) > P(E) → eventi positivamente dipendenti
  • P(E|F) < P(E) → eventi negativamente dipendenti
  • P(E|F) = P(E) → eventi indipendenti Due eventi si dicono indipendenti se il realizzarsi di uno non risulta modifi

dall’avverarsi dell’altro. Si noti che la relazione di indipendenza di due eventi è simmetrica, cioè: P(E|F) = P(E) <

P(F)

Nel caso di eventi dipendenti la probabilità dell’evento intersezione è data da:

P(E ∩ F) = P(E|F)x P(F) Nel caso di eventi indipendenti, la probabilità dell’evento intersezione è data da:

P(E ∩ F) = P(E) x P(F) TAVOLA CONDIZIONATA Esempio: 600 impiegati di una ditta sono suddivisi per età (X) e p

M F [20; 45) 36 52 88 [45; 65) 109 117 226 [65; o più) 126 160 286 271 329 600

Esperimento aleatorio: viene estratto con criterio casuale un soggetto tra i 600 dipendenti:

  • Probabilità che abbia tra i 45 e 65 anni sapendo che è femmina → P (45I—65 | F) =

117

329

Si noti che il calcolo corrisponde a quello della frequenza relativa condizionata - Probabilità che sia m

sapendo che ha tra i 20 e 45 anni → → P (M |20I—45) =

36

88

Indipendenza: nb

Se due eventi E ed F sono ind

sono sicuramente indipendenti anche:

E̅ e F; E e F̅; E̅ e F̅ Si noti quindi che la dipendenza vale anche per le combinazioni di eventi negati Indipendenz

relazione di indipendenza non gode della proprietà transitiva: Se E ed F sono due eventi indipendenti e anche F

loro indipendenti ciò non è sufficiente per considerare E e G come eventi indipendenti; in questo caso è necess

l’indipendenza.

RELAZIONE DI INCOMPATIBILITÀ E DI INDIPENDENZA A CONFRONTO

INCOMPATIBILITÀ : E ed F si dicono incompatibili se la loro intersezione è un insieme vuoto, ciò significa che il rea

dei due eventi esclude il realizzarsi dell’altro in una stessa prova aleatoria. La relazione di incompatibilità può es

a priori, è sufficiente mettere a confronto gli elementi che compongono

STATISTICA – II PARTE

i due insiemi (cioè mettere a confronto quali esiti realizzano E e quali F). La relazione di incompatibilità è rilevan

calcolo della probabilità dell’unione di E ed F

INDIPENDENZA : E ed F sono indipendenti quando il realizzarsi di uno dei due non influenza il realizzarsi dell’altro

dell’esperimento X = {0,1} → valori che può assumere la variabilezz<i

ESEMPI PROVE DI BERNOULLI: 1 lancio del dado: S = punteggio ≤ 4; I = punteggio ≥ 5 2 – estrazione casuale d

componente elettronico:

S = componente difettoso P(S) = p = 0,02 I = componente non difettoso; P(I) = q = 0,98 3 – estrazione casuale

campione di aria per vedere se un certo allergene è presente oppure no: S = campione contenente l’allergene p

campione che non contiene l’allergene q = 0,

DISTRIBUZIONE DELLA PROBABILITÀ DELLA VARIABILE ALEATORIA:

X P(X)

P(X) 0 1 - p 1 p

1 − p p

x

Funzione di probabilità:

1

f(x) = P(X = x) = p

x

(1 − p)

1−x

→ funzione di probabilità della variabile aleatoria X assegna ad ogni possibile valore della variabile un valore di

essa assume valori per X = 0 e X = 1

Se x = 0 => f(x) = P(X = 0) = p

0

(1 − p)

1−

= 1 − p Se x = 1 => f(x) = P(X = 1) = p

1

(1 − p)

1−

= p La probabilità

di Bernoulli assuma valori x ≠ 0;1 è pari a 0; in altri termini, per tutti gli altri valori reali, la funzione di probabilità è pari a 0.

⇨ {O

p x ⋅ (1 − p)

1−x x = 0 ; 1 altrimenti

X ~ B (p) → la funzione si distribuisce come una Bernoulli di parametro p. p rappresenta un parametro della

perché è quel valore che si deve conoscere per poter assegnare le probabilità ai diversi valori della variabile.

STATISTICA – II PARTE

Strumenti di sintesi:

  • Media → il valore media di una variabile aleatoria è dato dal valore atteso (inteso come realizzazione

dell’evento): E(X) = ∑x ∙ f(x) = μ (= p) - > media della variabile aleatoria - Varianza

V(X) = ∑(x − μ)

2

∙ f(x) = p(1 − p)

VARIABILE BINOMIALE La variabile binomiale proviene da un esperimento che consiste in n prove di Bernoulli, tu

indipendenti, con probabilità p di successo che sia costante da prova a prova.

Funzione di probabilità:

f(x) = P(X = x) = (

n

x

)p

x

(1 − p)

n−x

X = n° di successi nelle n prove X = {0,1,2,.. .,n} → valori che può assumere la variabile Nb: (

n

x

n!

x!(n−x)! Nb2: quando p = 0,5 → p

x

(1 − p)

n−x

= p

n

X ~ B (n,p) → la funzione si distribuisce come una Bernoulli di parametri n e p

Strumenti di sintesi:

  • E(X) = n ∙ p - V(X) = n ∙ p(1 − p) - S(X) = √np(1 − p)

Esempio: 4 clienti effettuano un ordine online n = 4 S = cliente che ha superato il proprio limite di credito → p =

cliente che non ha superato la soglia → q = 0,95 Come capire se si tratta di un esperimento binomiale: n prove: i 4

possono essere considerati come le n prove (esperimento ripetuto 4 volte) prove indipendenti: si tratta di prove

poiché il fatto che il cliente abbia superato il proprio limite di credito non influenza la probabilità che un altro clie

superato o meno la soglia probabilità costante: P(S) = p è costante per costruzione (in base alle info dei dati de

= n° di clienti che hanno superato il limite di credito Quesito 1 : probabilità che 3 clienti abbiano superato il limit

(P(X=3) = ?)

f(x) = P(X = 3) = (

3

1

n

x

) → n° di sequenze costituite da “x” successi e “n-x” insuccessi

p

x

(1 − p)

n−x

probabilità della ge

sequenza

Quesito 2 : probabilità che 2 o più clienti (su 4) abbiano superato il proprio limite di credito

P(X ≥ 2) = P(X = 2) + P(X = 3) + P(X = 4) = 1 − P(X ≤ 1) = 1 − [P(X = 0) + P(X = 1)] = 1 − (

0

1

(0,95)

3

= 0,

Quesito 3 : numero atteso di clienti che superano il limite di credito

STATISTICA – II PARTE

E(X) = 4(0,05) = 0,20 → ci si aspetta che 0,20 clienti superino il limite di credito

VARIABILE DI POISSON La variabile di Poisson viene utilizzata quando si ha un numero di manifestazioni di un ev

dato intervallo di tempo o in una data regione di spazio. La variabile di Poisson può essere utilizzata se sussisto

condizioni:

1. La probabilità che il fenomeno si manifesti esattamente una volta è uguale per tutti gli intervalli di

tempo della stessa lunghezza 2. La probabilità che il fenomeno si manifesti più di una volta in un dato arco di te

irrilevante

(prossima allo 0) 3. Il numero di manifestazioni dell’evento in un dato intervallo di tempo è indipendente dal num

manifestazioni in un qualsiasi altro intervallo di tempo (=> indipendenza)

Funzione di probabilità:

f(x) = P(X = x) =

e

−λ

∙ λ

x

x!

X = n° di manifestazioni nell’intervallo di tempo considerato (o nella regione di spazio) Nb: la variabile X non ha

superiore finito: X = {0,1,2,....}; λ: λ ≥ 0

X ~ P ( λ) → la funzione si distribuisce come una Poisson di parametro λ

Strumenti di sintesi: - E(X) = λ - V(X) = λ

Esempio: il numero medio di clienti che arrivano in banca in 1 minuto tra le 14:00 e le 15:00 (intervallo di tempo cons

a 3. Quesito 1 :si determini la probabilità che in 1 minuto entrino esattamente due clienti. f(x) = P(X = 2) =

e − 3 ∙ 3

2

2!

= 0,224 → la probabilità che 1 minuto entrino esattamente due clienti è del 22,4%

Quesito 2 : si determini la

che il numero di clienti che entrano in 1 minuto sia maggiore di 2:

f(x) = P(X > 2) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)] =

e

− 3

0

− e

− 3

1

− e

− 3

2

VARIABILI ALEATORIE CONTINUE Una variabile aleatoria continua è l’esito di un’operazione di misura, pertan

assumere qualunque valore reale all’interno di un determinato intervallo.

La probabilità associata ad uno specifico valore con precisione infinita è pari a 0. Una probabilità ≠ 0 è associata

esclusivamente ad intervalli (ad esempio ad a;b). X → integrale f(X) → funzione di densità (di probabilità); corris

funzione integrata tra gli estremi a e b per determinare la probabilità che la x sia compresa tra questi due valori.

STATISTICA – II PARTE

n

2

→ la costate campionaria viene legata a quella di popolazione attraverso questa distribuzione

TEST NORMALE Il test normale viene utilizzato per confrontare le medie (quella in popolazione e quella campiona

Estraendo un qualsiasi campione il valore della media x può variare da campione a campione, può quindi regist

differenza che, a livello di popolazione dovrebbe sparire (il caso ha un effetto convergente nei grandi numeri! ). I

divario della media nel campione è dovuto all’errore casuale di campionamento; se invece le medie osservate in

dovessero essere effettivamente diverse => le medie osservate nel campione differiscono non solo per via dell’e

di campionamento, ma anche a causa di un errore sistematico.

Esempio: si studia X cioè il tempo medio d’evasione di un ordine in due aziende A e B Si estraggono da A e

campioni di ordini rispettivamente di numerosità, media e deviazione standard A → B → nn 1 2 = = 120 100 x̅̅̅ x̅̅̅ 1

2

Le medie nelle due popolazioni possono essere: Hcampionamento

0:

1

2

→ nel campione si è rilevata una differenza che è dovuta all’errore casuale di

H

1:

1

2

→ le cause che hanno determinato la differenza a livello campionario sono dovute non solo all’error

campionamento ma anche ad un fattore sistematico

Il TEST STATISTICO indaga elabora le conseguenze di H

0 per verificare se la differenza riscontrata a livello camp

abbastanza forte da abbattere le ipotesi iniziali, cioè se la differenza riscontrata legittima a rifiutare H 0 → “i dati s

un’evidenza empirica sufficientemente forte per scardinare l’ipotesi iniziale?” Dopo aver esaminato i dati e fissa

necessario procedere come segue per effettuare il test:

  1. Calcolare il valore concreto della statistica test

STATISTICA – II PARTE

z

c

|x̅̅̅−x̅

12

√n

s

1 1 +n

s

2 2

→ valore realizzato da una variabile normale standard = valore concreto della statistica test

2. Fissare l’intervallo di significatività del test: Poiché un risultato è necessario impossibile verificare sotto l

sia iniziale probabile si devono che si stabilire realizzi il delle valore soglie z

c sotto l’ipotesi H 0 , non avendo d

La soglia viene stabilita fissando una probabilità massima di commettere un errore, cioè rifiutare H 0 quando in r

genere si fissano valori come: α = 0,05 ; 0,01 ; 0,1 Questo rischio massimo viene diviso equamente tra le

grafico di una variabile normale standard: si determina teorico (z t ), quel valore di z cioè un valore soglia che

del sulla quale coda si destra considera un’area poco pari probabile a

α

2

. Questo rappresenta un valore

il

quando H 0 è vera. Nb: se il rischio massimo di errore è suddiviso tra le due code si rifiutano anche i valori

negativo simmetrico. Si può sbagliare rifiutando H 0 , però è misurabile l’errore attraverso la probabilità m

3. Confrontare il valore concreto con il valore teorico:

  • se z c < z t → non si rifiuta H 0
  • se z c ≥ z t → si rifiuta H 0

In questo caso si dice che il test è statisticamente

significativo , poiché il risult

significativo della presenza di fattori di variabilità che si aggiungono all’errore casuale di campionamento e co

generare la differenza osservata a livello campionario

Si rifiuta l’ipotesi inziale sulla base del così detto

PRINCIPIO DI SEMPLICE DISGIUNZIONE (Fisher) :

Il principio di semplice disgiunzione fa si che quando il valore concreto è maggiore di quello teorico, si possa rifi

quanto o si è realizzato un evento raro e H 0 è vera oppure H 0 è da rifiutare in quanto falsa

TEST NORMALE E TEST “T” DI STUDENT Il test normale (vedi sopra) si utilizza nel caso in cui i campioni considera

numerosità n ≥ 30. Nel caso di campioni di numerosità n ≤ 30 è necessario utilizzare un altro tipo di test, cioè il

student. La “t” di student è una variabile che ha un unico parametro ν, che rappresenta il numero di gradi di lib

converge alla variabile normale Z. questa variabile consente di lavorare sui piccoli campioni. Per un numero di g

= 30 la t converge alla variabile normale Z. In questo caso il valore concreto della statistica test è pari a: t c =

s

√ n

1

1

  • n

1

2

s

s 2

1 (n1−1)+sn1+n2−2 2 2 (n2−1)

→ al numeratore si ha la somma delle devianze mentre al denominatore la

somma dei pesi

⇨ confronto tra valore concreto e valore teorico:

STATISTICA – II PARTE

  • se t c < t t

→ H

0 non può essere rifiutata

  • se t c ≥ t t → si rifiuta H 0

Il valore teorico t t viene calcolato attraverso l’utilizzo delle tavole statistiche (vedi tavola 2) considerando come valore

assegnato alla probabilità massima di commettere l’errore cioè il valore dato ad α e come valore di riga il numero d

(= n1 + n2 − 2) , trovando poi l’incrocio dato da valore colonna e valore riga. Ad esempio, se α = 0,050 e ν = 20 => il va

a t t

TEST A DUE CODE E TEST AD UNA CODA