Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: specchietto, Schemi e mappe concettuali di Statistica

Uno specchietto sui concetti fondamentali di statistica con formule. Anno accademico 2023-2024

Tipologia: Schemi e mappe concettuali

2023/2024

In vendita dal 29/05/2024

Continentediplastica
Continentediplastica 🇮🇹

5

(2)

3 documenti

1 / 13

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
SPECCHIETTO STATISTICA
Variabile Qualitativa: sono quelle che consentono la classificazione delle unità statistiche
sulla base di alcuni attributi, caratteristiche o qualità.
Variabile Quantitativa: sono quelle che forniscono una caratteristica numerica delle unità
statistiche.
Modalità: le singole caratteristiche delle variabili (quantitative e qualitative).
Variabili discrete: variabili quantitative le cui modalità assumono un numero infinito o
un’infinità numerabile di valori.
Variabili continue: variabili quantitative le cui modalità assumono un numero infinito di
possibili valori che non sono numerabili (misurate e non contate).
Campionamento rappresentativo: se e solo se la scelta degli individui da campionare si basa
sulla casualità piuttosto che sulla comodità.
Campionamento non probabilistico: o di convenienza, è un campione nel quale gli individui
inclusi nell’indagine sono selezionati in maniera non casuale.
Campione casuale semplice: un campione di grandezza n è ottenuto attraverso il
campionamento casuale semplice da una popolazione di grandezza N se ogni possibile campione
di grandezza n ha una medesima probabilità di essere selezionato.
Campione casuale con reinserimento: quando gli individui, una volta selezionati, vengono
reinseriti nella popolazione in mod da poter essere scelti una seconda volta.
Errore di campionamento: le tecniche usate per selezionare gli individui da includere nel
campione tendono a favorire una parte della popolazione piuttosto che un’altra.
Errore di sotto copertura: quando la lista di campionamento usata è incompleta o non
rappresentativa della popolazione.
Distribuzione di frequenze assolute: elenca tutte le tipologie di modalità, riportando, per
ciascuna di esse, il corrispondente numero di occorrenze osservate.
Distribuzione di frequenze relative: elenca ciascuna categoria o modalità assieme alla
corrispondente frequenza relativa.
Frequenza relativa: corrisponde alla proporzione o percentuale di osservazioni appartenenti
ad una determinata categoria rispetto al totale delle osservazioni.
FREQ. REL.: 𝑛 = 𝑓
(𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑎 )
𝑁
(𝑠𝑜𝑚𝑚𝑎 𝑡𝑜𝑡𝑎𝑙𝑒 𝑓𝑟𝑒𝑞. 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑒)
Frequenza cumulata: numero di variabilità statistiche che presentano una certa modalità o
una di quelle precedenti (solo per variabili qualitative ordinali o quantitative discrete).
Grafico a barre: uno dei sistemi più comuni per rappresentare graficamente i dati
qualitativi-> sull’asse orizzontale si indicano le modalità e su quello verticale si rappresentano
le frequenze assolute o relative-> le barre non si toccano l’una con l’altra.
Grafico a barre unificate: quando si confrontano differenti insiemi di dati.
Grafico a torta: utilizzati per presentare le frequenze relative di un carattere qualitativo,
che può essere di tipo nominale o ordinale-> l’area di ciascun settore è proporzionata alla
frequenza relativa della categoria corrispondente.
Istogramma per dati discreti: si costruisce disegnando un rettangolo per ciascuna classe di
dati-> altezza rettangolo rappresenta la frequenza assoluta/relativa della corrispondente
classe di dati, mentre l’ampiezza è uguale per tutte le modalità ed è tale che i rettangoli si
tocchino fra loro.
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Anteprima parziale del testo

Scarica Statistica: specchietto e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

SPECCHIETTO STATISTICA

Variabile Qualitativa : sono quelle che consentono la classificazione delle unità statistiche sulla base di alcuni attributi, caratteristiche o qualità. Variabile Quantitativa: sono quelle che forniscono una caratteristica numerica delle unità statistiche. Modalità: le singole caratteristiche delle variabili (quantitative e qualitative). Variabili discrete: variabili quantitative le cui modalità assumono un numero infinito o un’infinità numerabile di valori. Variabili continue: variabili quantitative le cui modalità assumono un numero infinito di possibili valori che non sono numerabili (misurate e non contate). Campionamento rappresentativo: se e solo se la scelta degli individui da campionare si basa sulla casualità piuttosto che sulla comodità. Campionamento non probabilistico: o di convenienza, è un campione nel quale gli individui inclusi nell’indagine sono selezionati in maniera non casuale. Campione casuale semplice: un campione di grandezza n è ottenuto attraverso il campionamento casuale semplice da una popolazione di grandezza N se ogni possibile campione di grandezza n ha una medesima probabilità di essere selezionato. Campione casuale con reinserimento: quando gli individui, una volta selezionati, vengono reinseriti nella popolazione in mod da poter essere scelti una seconda volta. Errore di campionamento: le tecniche usate per selezionare gli individui da includere nel campione tendono a favorire una parte della popolazione piuttosto che un’altra. Errore di sotto copertura: quando la lista di campionamento usata è incompleta o non rappresentativa della popolazione. Distribuzione di frequenze assolute: elenca tutte le tipologie di modalità, riportando, per ciascuna di esse, il corrispondente numero di occorrenze osservate. Distribuzione di frequenze relative: elenca ciascuna categoria o modalità assieme alla corrispondente frequenza relativa. Frequenza relativa: corrisponde alla proporzione o percentuale di osservazioni appartenenti ad una determinata categoria rispetto al totale delle osservazioni.

FREQ. REL.: 𝑛 =

𝑓 (𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑎) 𝑁 (𝑠𝑜𝑚𝑚𝑎 𝑡𝑜𝑡𝑎𝑙𝑒 𝑓𝑟𝑒𝑞. 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑒) Frequenza cumulata: numero di variabilità statistiche che presentano una certa modalità o una di quelle precedenti (solo per variabili qualitative ordinali o quantitative discrete). Grafico a barre: uno dei sistemi più comuni per rappresentare graficamente i dati qualitativi-> sull’asse orizzontale si indicano le modalità e su quello verticale si rappresentano le frequenze assolute o relative-> le barre non si toccano l’una con l’altra. Grafico a barre unificate: quando si confrontano differenti insiemi di dati. Grafico a torta: utilizzati per presentare le frequenze relative di un carattere qualitativo, che può essere di tipo nominale o ordinale-> l’area di ciascun settore è proporzionata alla frequenza relativa della categoria corrispondente. Istogramma per dati discreti: si costruisce disegnando un rettangolo per ciascuna classe di dati-> altezza rettangolo rappresenta la frequenza assoluta/relativa della corrispondente classe di dati, mentre l’ampiezza è uguale per tutte le modalità ed è tale che i rettangoli si tocchino fra loro.

Classi: se i dati sono continui o discreti, ma le variabili assumono un numero sufficientemente elevato di valori differenti, allora i dati devono essere accorpati in un intervallo. ESCLUSO ---| COMPRESO Limite inferiore di classe: il più piccolo valore della classe. Limite superiore di classe: il più elevato valore della classe. Ampiezza di classe: pari alla differenza tra il limite inferiore di quella classe e il limite inferiore di quella successiva. Media aritmetica: avviene solo su dati quantitativi-> si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Media aritmetica di una popolazione () : si calcola utilizzando tutte le unità della popolazione.

𝐾 𝑖= 1 Media aritmetica di un campione (x): media campionaria si calcola utilizzando le osservazioni del campione

𝐾 𝑖= 1 Mediana: avviene su dati quantitativi-> indica il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente (M). Mediana di un campione: ordinare i dati in ordine crescente; determinare il numero di osservazioni (n); determinare l’osservazione che occupa la posizione centrale nei dati-> se il numero di osservazioni che occupa è pari la mediana è la media delle due osservazioni centrali della distribuzione - > Mediana= media delle osservazioni che occupano le posizioni 𝑛 ⁄ 2 𝑒^

⁄ 2 +^1. Se il numero delle osservazioni è dispari, la mediana è il valore che occupa esattamente la posizione centrale della distribuzione =

⁄ 2. È possibile calcolare la mediana anche su dati qualitativi, ma devono essere misurati su scala ordinale. Moda: può essere calcolata per dati quantitativi e qualitativi indica l’osservazione che si presenta all’interno della distribuzione con la frequenza più alta. Distribuzione bimodale: quando i dati presentano due mode Distribuzione multimodale: quando una distribuzione ha tre o più valori che si presentano con la stessa frequenza più alta. Statistica robusta: quando una misura di sintesi non risulta particolarmente sensibile ai valori estremi (molto grandi o molto piccoli) di una distribuzione-> Moda/Mediana è robusta, mediano. Media, mediana e moda sono misure di tendenza centrale. Misure di dispersione: indica l’ammontare di dispersione della variabile-> grado di variabilità dei dati. Intervallo di variazione (Range, R): avviene su dati quantitativi è dato dalla differenza tra l’intensità (valore) più grande e l’intensità più piccola. R= intensità grande – intensità piccola È influenzato dai valori estremi della distribuzione-> non è robusto. Varianza: misura della distanza media di ciascuna osservazione dalla media aritmetica. Varianza della popolazione: è la somma delle deviazioni al quadrato dalla media della popolazione di uso per il numero di osservazioni nella popolazione, N

IQR=𝑄 3 - 𝑄 1

Quanto più variabile una distribuzione, tanto più alto sarà il valore assunto dall’intervallo interquartile. Outlier di una distribuzione: valori molto distanti da quelli che caratterizzano la distribuzione. Sintesi dei 5 numeri: coinvolge l’osservazione più piccola. Il primo quartile, la mediana, il terzo quartile e l’osservazione più grande. MIN 𝑄 1 M 𝑄 3 MAX Box Plot: costruzione di un grafico che usa la sintesi dei 5 numeri per descrivere la forma di una distribuzione (p.102). Variabile risposta o indipendente: indica la variabile i cui valori possono essere spiegati attraverso i valori della variabile esplicativa o indipendente. Diagramma a dispersione: è un grafico che mostra la relazione tra due variabili quantitative misurate sul medesimo individuo-> ciascun soggetto nel campione o nella popolazione è rappresentato da un punto nel diagramma a dispersione. Variabile concordante: se aumentando o diminuendo i valori di una variabile, aumentando o diminuiscono anche i valori dell’altra. Variabile discordante: se aumentando il valore di una variabile, diminuisce il valore dell’altra. Coefficienti di correlazione lineare: è una misura dell’intensità e della direzione della relazione lineare esistente tra le due variabili quantitative-> è sempre compreso tra - 1 e 1, estremi inclusi. Coefficienti di correlazione lineare di una popolazione (ρ) Coefficienti di correlazione lineate di un campione (r)

 Se r =+1 allora esiste una perfetta relazione lineare positiva tra le due variabili;  Se r =-1 allora esiste una perfetta relazione lineare negativa tra le due variabili;  Se r = 0, o valori vicini, la relazione lineare è molto debole o nulla-> non implica l’assenza di relazione, ma solo relazione lineare;  Più il valore di r si avvicina a +1 più forte diventa la concordanza tra le due variabili;  Più il valore di r di avvicina a - 1 più forte diventa la discordanza tra le due variabili. Retta dei minimi quadrati: la retta che minimizza la somma degli errori o residui al quadrato

  • minimizza la somma dei quadrati della distanza verticale tra i valori y osservati e quelli previsti dalla retta y. Equazione di una retta ai minimi quadrati

Dove 𝒚 = 𝒂 + 𝒃𝒙

𝒚

𝝈𝒚 𝒙𝒚

e dove 𝒂 = 𝝁𝒚 − 𝒃𝝁

𝒙 y - > variabile di risposta o dipendente a - > è l’intercetta della retta ai minimi quadrati b - > è il coefficiente angolare o la pendenza della retta x - > variabile esplicativa o indipendente

La notazione y è utilizzata nelle rette ai minimi quadrati e ricorda che il valore che otteniamo corrisponde al valore di y previsto per un dato valore di x. Tabella di contingenza/a due vie: si riferisce a due variabili - > variabile di riga e di colonna. Cella: ogni casella all’interno della tabella; essa contiene la frequenza assoluta della categoria. Distribuzione marginale: è una distribuzione di frequenza della variabile di riga e di colonna nella tabella della contingenze. Per creare la distribuzione marginale di una variabile, occorre calcolare i totali di riga (o di colonna) per ogni categoria della variabile - > i totali delle righe rappresentano la distribuzione marginale di riga - > i totali delle colonne quella di colonna. Distribuzione condizionata: elenca la frequenza relativa di ogni modalità della variabile risposta (dipendente), dato un valore specifico della variabile esplicativa (indipendenti) nella tabella delle contingenze. Probabilità: misura della possibilità che un fenomeno casuale possa verificarsi - > descrive l’incertezza nel breve periodo di un risultato che nel lungo periodo è certo. Legge dei grandi numeri: all’aumentare del numero di ripetizioni di un esperimento probabilistico, la proporzione con la quale uno specifico risultato si osserva, tende ad essere più vicina alla probabilità di ottenere lo specifico risultato. Esperimento: qualsiasi processo dai risultati incerti che può essere ripetuto - > il risultato di ogni singolo tentativo dell’esperimento non è noto dall’inizio. Evento: insieme di risultati derivanti da un esperimento probabilistico - > può comprendere un unico risultato o più risultati - > indicheremo con “ e ”; gli eventi con un unico risultato, o eventi semplici - > in generale gli eventi sono indicati utilizzando lettere maiuscole come “ E ”. Eventi disgiunti: se i due eventi non hanno possibili risultati in comune  mutualmente esclusivi.

P (E o F) = 𝑃(𝐸)+ 𝑃(𝐹) – P (E e F)

Regole della probabilità: la probabilità che un evento E accada i 𝑃(𝐸), deve essere maggiore

o uguale a 0 e minore o uguale a, ovvero 0 ≤ 𝑃(𝐸)≤ 1.

La somma delle probabilità di tutti i possibili risultati (𝑒𝑖) di un evento E deve essere pari a 1. Evento impossibile: la probabilità che esso accada è pari a 0. Evento certo: la probabilità che esso accada è pari a 1. Calcolo della probabilità col metodo frequentista o empirico: la probabilità di un evento (E) è pari circa al numero di volte che l’evento E è stato osservato rapportato al numero di ripetizioni dell’esperimento.

Calcolo della probabilità co metodo classico: se un esperimento ha “n” possibili risultati equiprobabili e se il numero dei modi in cui un evento e può accadere è pari a “m” allora la probabilità di ottenere l’evento “E” è pari a:

𝑛° 𝑚𝑜𝑑𝑖 𝑖𝑛 𝑐𝑢𝑖 𝑒 𝑝𝑢ò 𝑎𝑐𝑐𝑎𝑑𝑒𝑟𝑒

Eventi indipendenti: due eventi E e F si dicono indipendenti se la probabilità che l’evento “E” accada non influenza la probabilità di accadimento dell’evento “F”. Eventi dipendenti: se la probabilità di accadimento dell’evento “E” influenza la probabilità di accadimento di “F”. Regola della moltiplicazione per eventi indipendenti

P (E e F) = 𝑃(𝐸)∙ 𝑃(𝐹)

  1. Determinare l’area alla sinistra/destra di uno z-score ignoto;
  2. Cercare nella tabella l’area più vicina all’area determinare nello step 2 e memorizzare e lo z-score che corrisponde all’area più vicina. AREA ALLA SINISTRA/DESTRA = 1-AREA ALLA DESTRA/SINISTRA Distribuzione campionaria: è una distribuzione di probabilità associata a tutti i possibili valori della statistica calcolati per un campione di ampiezza n. Distribuzione della media campionaria: x è la distribuzione di probabilità associata a tutti i possibili valori della variabile casuale x calcolati in corrispondenza di un campione di ampiezza n estratto da una popolazione con media  e dell’azione standard σ. Deviazione standard della distribuzione campionaria di x

La deviazione standard della distribuzione campionarie di x, 𝜎𝑥 è detta Errore standard della media. Forma della distribuzione campionaria di x se x è normale: se una variabile casuale X è distribuita normalmente, la distribuzione della media campionaria (x) è anch’essa distribuita normalmente. Teorema del limite centrale: indipendentemente della forma della distribuzione un esame, la distribuzione campionaria di x si approssima alla normale al crescere della numerosità campionaria n. Frequenza relativa campionaria: è una statistica che stima la proporzione della popolazione, p

X è il numero di individui nel campione che hanno la particolare caratteristica. Distribuzione campionaria di p: per un campione casuale semplice di ampiezza n con frequenza relativa della popolazione  La media della distribuzione campionaria di p è𝜇𝑝 = 𝑝;

 La deviazione standard della distribuzione campionaria di p è 𝜎𝑝 = √

𝑝( 1 −𝑝) 𝑛

Stima puntuale: è il valore di una statistica che fornisce il valore di un parametro - > la media campionaria, x, è una stima puntuale della media della popolazione . Intervallo di confidenza: per un parametro ignoro consiste in un intervallo di numeri. Livello di confidenza: con un elevato numero di campioni, rappresenta la proporzione prevista di intervalli che contengono il parametro oggetto di studio - > è indicato con:

Le stime degli intervalli di confidenza per la media della popolazione hanno la seguente forma STIMA PUNTUALE ± MARGINE D’ERRORE Margine d’errore: misura quanto è accurata la stima puntuale e dipende da tre fattori:

  1. Livello di confidenza - > all’aumentare del livello il margine d’errore aumenta;
  2. Ampiezza campionaria-> all’aumentare dell’ampiezza del campione casuale, il margine d’errore diminuisce-> conseguenza della legge dei grandi numeri-> all’aumentare dell’ampiezza campionaria la differenza fra la statistica e il parametro diminuisce;
  3. Deviazione standard della popolazione - > a parità della numerosità campionaria e livello di confidenza, quanto maggiore è la variabilità della popolazione, tanto più ampio sarà l’intervallo ottenuto.

La media della distribuzione della media campionaria coincide con la media della popolazione->

La deviazione standard della media campionaria (errore standard) coincide con la deviazione

standard della popolazione divisa per la radice dell’ampiezza campionaria 𝜎𝑥 =

Procedura per calcolare il valore di una variabile casuale normale corrispondente ad una data percentuale, probabilità o percentuale:

  1. Disegnare una curva normale e tratteggiare l’area corrispondente alla percentuale cercata;
  2. Utilizzare la tabella V dell’appendice A per calcolare lo z-score corrispondente all’area tratteggiata;

3. Ottenere il valore normale dalla formula 𝑥 = 𝜇 + 𝑧𝜎^2.

La notazione 𝑍𝛼 è usata per rappresentare il valore di z tale che l’area sia . Valore critico della distruzione: è quel valore di z tale che alla sua destra/sinistra si trovi quel tot. % di area sotto la curva normale standard 𝑍𝛼 ⁄ 2. La tabella mostra alcuni dei valori critici maggiormente utilizzati nella costruzione degli intervalli di confidenza. Livello di confidenza Area in ogni coda 𝜶 ⁄𝟐^ Valore critico^ 𝒁𝜶 ⁄𝟐 90% 0,05 1, 95% 0,025 1, 99% 0,005 2, Interpretazione di un intervallo di confidenza: un intervallo di confidenza all’ (1-) ∙ 100% indica che l’ ( 1 - ) ∙ 100% di tutti i campioni casuali semplici di ampiezza “n” estratti da una popolazione il cui parametro è ignoto conterrà il parametro stesso. Costruire un intervallo di confidenza all’ (1-) ∙ 100% perconnoto: supponiamo che un campione casuale semplice di ampiezza “n” sia estratto da una popolazione con media non nota,  e con deviazione standard nota, σ - > un intervallo di confidenza all’ (1-) ∙ 100% per  è dato da

LIMITE INFERIORE 𝑋 − 𝑍𝛼 ⁄ 2 ∙

𝜎 √𝑛

LIMITE SUPERIORE 𝑋 + 𝑍𝛼 ⁄ 2 ∙

𝜎 √𝑛^

𝑍𝛼 ⁄ 2 è il valore critico Z

L’ampiezza campionaria deve essere elevata (n ≥30) o la popolazione deve essere distribuita normalmente. L’ampiezza dell’intervallo è determinata dal margine d’errore. Margine d’errore (E): in un intervallo di confidenza all’ (1-) ∙ 100% nel quale σ è noto, è dato

da 𝐸 = 𝑍𝛼 ⁄ 2 ∙

𝜎 √𝑛 (n = ampiezza campionaria). Determinare l’ampiezza campionaria “n”: l’ampiezza campionaria richiesta per stimare per la media della popolazione  con un livello di confidenza (1-) ∙ 100% in corrispondenza di uno specifico margine d’errore E è dato da

⁄ 2 ∙^ 𝜎

)^2 (n è arrotondato per eccesso all’intero più vicino)

Distribuzione “t” di student: la statistica “t” rappresenta il numero di deviazioni standard che separano la media campionaria da  - > la forma della distribuzione “t” dipende dall’ampiezza campionaria “n”.

2. Raccogliere le prove (i dati campionari) per verificare l’affermazione; 3. Analisi dei dati per verificare la plausibilità dell’affermazione. Ipotesi nulla ed ipotesi alternativa (sistema di ipotesi):Ipotesi nulla: indicato con 𝐻 0 , rappresenta l’affermazione che si vuole testare. L’ipotesi nulla è l’ipotesi di nessun cambiamento, nessun effetto o nessuna differenza, ed è ritenuta vera salvo venga smentita dalla prova campionaria;  Ipotesi alternativa: indicati con 𝐻 1 , rappresenta l’affermazione che si cerca di sostenere attraverso una prova campionaria l’ipotesi nulla è l’affermazione di uno status quo oppure di nessuna differenza e contiene sempre un’affermazione di uguaglianza-> l’ipotesi nulla si assume vero fino a prova contraria si cerca la prova che possa sostenere l’ipotesi alternativa. **3 modi per formulare le ipotesi

  1. Test a due code o bilaterale** 𝐻 0 - > parametro = determinato valore 𝐻 1 - > parametro ≠ determinato valore 2. Test unilaterale con coda a sinistra 𝐻 0 - > parametro = determinato valore 𝐻 1 - > parametro < determinato valore 3. Test unilaterale con coda a destra 𝐻 0 - > parametro = determinato valore 𝐻 1 - > parametro > determinato valore Quattro risultati di una verifica di ipotesi
  2. Rifiutare l’ipotesi nulla quando l’ipotesi alternativa è vera questa decisione sarebbe corretta;
  3. Accettare l’ipotesi nulla quando l’ipotesi nulla è vera questa decisione sarebbe corretta;
  4. Rifiutare l’ipotesi nulla quando l’ipotesi nulla è vera questa decisione sarebbe sbagliata e si commette errore di I tipo ;
  5. Accettare l’ipotesi nulla quando l’ipotesi alternativa è vera questa decisione sarebbe sbagliata e si commette errore II tipo. Realtà 𝐻 0 è vera 𝐻 1 è vera Accetto 𝐻 0 Conclusione corretta Errore di II tipo Rifiuto 𝐻 0 Errore di I tipo Conclusione corretta  = P (errore I tipo) = P (rifiutare 𝐻 0 quando 𝐻 0 è vera);  = P (errore II tipo) = p (accettare 𝐻 0 quando 𝐻 1 è vera) Livello di significatività: , la probabilità di commettere un errore del I tipo. All’aumentare di un errore di I tipo, la probabilità di errore di II tipo diminuisce e viceversa. Verifica di ipotesi riguardante la media della popolazione quando la deviazione standard della popolazione (σ) è nota, utilizzando il metodo classico. STEP 1: determinare l’ipotesi nulla e l’ipotesi alternativa Bilaterale Unilaterale sinistro Unilaterale destro 𝐻 0 - >  = 𝜇 0 𝐻 0 - >  =𝜇 0 𝐻 0 - >  =𝜇 0 𝐻 1 - >  ≠ 𝜇 0 𝐻 1 - >  <𝜇 0 𝐻 1 - >  > 𝜇 0 𝜇 0 è il valore assunto come media della popolazione (status quo)

STEP 2: selezionare un livello di significatività , basato sulla gravità do commettere un errore di I tipo; STEP 3: la distribuzione della media campionaria x è normale con media 𝜇 0 e deviazione standard 𝜎 √𝑛^

. Quindi

rappresenta la distanza della media Campionaria dalla media assunta 𝜇 0 , espressa in numero di deviazione standard. Questo valore è chiamato Statistica Test. STEP 4: il livello di significatività è usato per determinare il valore critico - > n° massimo di deviazioni standard, ossia la distanza tra la media campionaria e 𝜇 0 prima di rifiutare l’ipotesi nulla. La regione ombreggiata rappresenta la regione critica (o di rifiuto). La regione critica o di rifiuto è l’insieme dei valori per cui si rifiuta l’ipotesi nulla. Nel caso di test bidirezionale le regioni di rifiuto saranno due zone ombreggiate. STEP 5: Confronto del valore critico con la statistica test Bilaterale Unilaterale sx Unilaterale dx Se 𝑍 0 < - 𝑍𝛼 ⁄ 2 Se 𝑍 0 < - 𝑍  Se 𝑍 0 > - 𝑍  Se 𝑍 0 > 𝑍𝛼 ⁄ 2 Rifiuto ipotesi nulla Rifiuto ipotesi nulla Rifiuto ipotesi nulla Il confronto tra la statistica test e il valore critico è detto Regola di decisione. STEP 6: Formulare la conclusione Verificare le ipotesi riguardanti la media della popolazione utilizzano il p-value: per verificare le ipotesi riguardanti la media della popolazione con σ noto possiamo utilizzare i sei step seguenti a condizione che siano soddisfatti i due requisiti:

  1. Il campione sia estratto con campionamento casuale semplice;
  2. Il campione non presenta valori anomali oppure la numerosità campionaria (n) sia sufficientemente elevata (n ≥ 30). STEP 1: Determinare l’ipotesi nulla e quella alternativa (vedi lo step 1 sopra); STEP 2: In base alla gravità di commettere un errore di I tipo, selezionare il livello di significatività ;

STEP 3: Calcolare la statistica test 𝑍 0 =

STEP 4: Determinare il p-value: Bilaterale p-value P (Z < - |𝑍 0 | o Z > |𝑍 0 |) = 2P (Z > |𝑍 0 |)) Unilaterale sinistro P (Z < 𝑍 0 ) Unilaterale destro P (Z > 𝑍 0 ) STEP 5: Rifiutare l’ipotesi nulla se il p-value è inferiore al livello di significatività  - > il confronto fra la statistica test e il valore critico è detto Regola di decisione; STEP 6: Formulare la conclusione. Distinguere tra significatività statistica e significatività pratica: la numerosità campionaria elevata può determinare risultati statisticamente significativi, nonostante il fatto che la differenza tra la statistica e il parametro nell’ipotesi nulla non sia sufficiente per essere considerato significativo dal lato pratico. Verifica di ipotesi per la media della popolazion con σ non noto: sia il metodo classico che il metodo p-value alla verifica di ipotesi sulla media di una popolazione con σ non noto seguono

assumiamo sempre che l’ipotesi nulla sia vera-> quindi stiamo assumendo che la proporzione della popolazione sia 𝑝 0. Caratteristiche della distribuzione chi-quadrato ( 𝝌𝟐 )

  1. Non è simmetrica;
  2. La forma della distribuzione chi-quadrato dipende dai gradi di libertà, proprio come la distribuzione “t” di student;
  3. Al crescere del numero dei gradi di libertà, la distribuzione chi-quadrato si avvicina ad una distribuzione simmetrica;
  4. I valori del 𝝌𝟐^ sono non negativi; i valori del 𝝌𝟐^ sono sempre maggiori o uguali a zero. Useremo la notazione 𝝌 𝟐^ per denotare il valore critico del 𝝌𝟐^ tale che l’area sottostante la distribuzione 𝝌𝟐^ a destra di 𝝌𝟐^ sia pari ad . Test di indipendenza del chi-quadrato: viene impiegato per stabilire se c’è associazione tra una variabile riga ed una variabile colonna di una tabella di contingenza costruita con dati campionari-> l’ipotesi nulla è che le variabili non sono associate = variabili indipendenti. L’ipotesi alternativa è che le variabili sono associate = dipendenti. Ricordiamo che se due eventi E ed F sono indipendenti allora P (E ed F) = P(E) ∙ P(F) - > si può usare la regola della moltiplicazione per eventi indipendenti per ottenere la proporzione attesa di osservazione all’interno di ciascuna cella sotto l’ipotesi di indipendenza-> per ottenere il numero atteso di osservazioni, si moltiplica questo risultato per “n”, la dimensione del campione. Frequenze attese in un test chi-quadrato di indipendenza: per trovare le frequenze attese di ciascuna cella quando si conduce un test chi-quadrato di indipendenza, moltiplicare il totale di riga che contiene la cella per il totale di colonna della colonna che contiene la cella e dividere il risultato per la dimensione del campione 𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑒 𝑎𝑡𝑡𝑒𝑠𝑒 =

Statistica test per il test di indipendenza: 𝝌𝟐^ = ∑

𝑘 𝑖= 1

𝑂𝑖= frequenze osservate nella cella i-esima;

𝐸𝑖 = frequenze attese nella cella i-esima;

Segue approssimativamente una distribuzione chi-quadrato con (r-1) (c-1) gradi di libertà. r= numero di righe; c= numero di colonne. A condizione che tutte le frequenze attese siano maggiori o uguali a 1 e non più del 20% delle frequenze attese sia inferiore a 5.