











Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa dei concetti fondamentali della statistica descrittiva e inferenziale. Partendo dalla definizione di inferenza e dati, esplora le unità statistiche, le popolazioni e i campioni. Approfondisce le analisi statistiche descrittive e inferenziali, evidenziando l'importanza della forma della distribuzione, delle misure di tendenza centrale (media, mediana, moda) e della variabilità dei dati. Vengono inoltre trattati i percentili, i quartili, la deviazione standard e il coefficiente di variazione, fornendo esempi pratici e spiegazioni dettagliate per una comprensione approfondita dei concetti chiave. Infine, vengono introdotti i concetti di probabilità, distribuzioni di probabilità per variabili discrete e continue, e la distribuzione normale, essenziali per l'inferenza statistica. Il documento si conclude con una panoramica delle distribuzioni campionarie e delle stime puntuali, fornendo una solida base per l'analisi statistica dei dati.
Tipologia: Appunti
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












La sta&s&ca è l'insieme dei metodi per
Da/: osservazioni (raccolta di informazioni) prese su determinate caraBeris&che di interesse
unità sta/s/che: en&tà che vengono osservate in una ricerca
Popolazione : totale dei soggeE di interesse in uno studio (questa può essere reale o conce)uale/ipote/ca )
Campione: soBoinsieme della popolazione di riferimento
Parametro : sintesi numerica delle caraBeris&che della popolazione
Sta/s/ca: una sintesi numerica dei da& campionari
(Nelle applicazioni, il principale obbieEvo è quello di conoscere il valore assunto dai parametri)
Un’analisi sta&s&ca viene classificata come: (a seconda del suo obbieEvo principale)
Descri<va: obbieEvo della sta&s&ca è descrivere, è impiegata per sinte&zzare le informazioni raccolte in un’indagine
Inferenziale: obbieEvo della sta&s&ca è fare previsioni, è impiegata per oBenere previsioni su una popolazione sulla
base di informazioni raccolte su un campione selezionato da essa.
Matrice dei Da/
Ciascuna riga con&ene le osservazioni riferite ad un
par&colare soggeBo del campione (unità sta&s&che).
Ciascuna colonna con&ene le osservazioni raccolte nel
campione per ognuna delle caraBeris&che esaminate.
Variabile: qualunque caraBeris&ca misurata su un
ciascun soggeBo. Assume valori diversi tra le unità
sta&s&che/soggeE del campione o della popolazione.
Possiamo dividere le variabili in due principali soBogruppi:
Var. Quan/ta/ve sono quelle i cui valori osserva&
sono numeri.
Se le modalità di una variabile sono registrate in un
dataset con dei numeri non è deBo che sia una Vab
quan&ta&va (like numero di matricola o CAP di
residenza).
Var. Qualita/ve o Categoriali sono categorie,
espressioni verbali.
È possibile calcolare la media per una variabile
quan&ta&va ma non per una qualita&va.
Scala di INTERVALLI: viene formata dai possibili valori numerici assun& da una variabile quan&ta&va. Sono
caraBerizzate da specifiche distanze numeriche (intervalli). Per le variabili misurate su questa scala possiamo
effeBuare confron& considerando quanto una di esse è più grande o più piccola di un’altra.
Variabili categoriali formano due /pi di scale:
Scala NOMINALE: Due osservazioni possono essere uguali o diverse se vengono misurate con lo stesso termine
verbale o meno. Like Maschio e Femmina sono diversi, Laureato e Laureato sono uguali. La scala è deBa nominale in
quanto il confronto tra due osservazioni si concentra solo sul faBo che le stesse appartengono o meno alla stessa
categoria. Nel caso delle var. Nominali non possiamo stabilire che una certa var. è più grande o più piccola.
Scala ORDINALE: (via di mezzo tra le prime due scale): è formata da una scala di var. Che ha un ordinamento naturale
dei suoi valori. Si usa per variabili categoriali per le quali è possibile confrontare le categorie in termini di maggiore e
minore (like gradi militari o classe sociale).
Vab .DISCRETE: quando i suoi possibili valori formano un conteggio (like n. di auto possedute)
Vab. CONTINUE: quando può assumere come valori ogni possibile numero reale incluso in un con&nuum infinito (like
reddito).
CAMPIONAMENTO: quando si ha la necessità di effeBuare un'indagine su una popolazione ma si u&lizza solo una
parte di essa. Per scegliere un buon campione viene usata la casualizzazione: meccanismo/principio per conseguire
una buona rappresenta&vità del campione.
Un campione casuale SEMPLICE è tale se a ogni possibile campione di pari numerosità che poteva essere
estraBo esso ha la stessa probabilità di selezione. Per poi scegliere uno dei possibili campioni si deve fare una
lista di campionamento che elenchi tuE i soggeE della popolazione e assegnarli un n., l’impiego di n.casuali
per la selezione del campione garan&sce che ogni soggeBo della popolazione abbia un’eguale probabilità di
essere selezionato.
Nel Campione STRATIFICATO la popolazione viene suddivisa in gruppi dis&n& chiama& stra&;
successivamente da ogni strato viene selezionato un campione casuale da ogni strato.
Gli STRATI sono gruppi di soggeE dis&n& per opportune caraBeris&che.
(vantaggio principale rispeBo ad un campione casuale semplice è che con il campionamento stra&ficato si
oBengono s&me più efficien&.
Camp.str. proporzionale : i gruppi sono presenta& con lo stesso peso che hanno nella popolazione
Camp.str. non proporzionale : le proporzioni campionarie non corrispondono a quelle della
popolazione. È u&le quando si vuole rappresentare in modo numericamente rilevante uno strato
poco rappresentato a livello di popolazione.
Campione a GRAPPOLO si applicano quando si devono effeBuare delle rilevazioni in determinate aree
geografiche. Per la selezione di un campione a grappolo la popolazione deve essere suddivisa in un gran
numero di grappoli e poi si seleziona un campione casuale di ques& grappoli e si impiegano nello studio tuE i
soggeE contenu& nel grappolo.
Talvolta il campione a grappolo non è applicabile, data la numerosità unità interne a ciascun grappolo. Si parla di
campione a PIÙ STADI se i momen& di rilevazione sono più di due.
Raccolta dei da/ a)raverso:
Un’ INDAGINE CAMPIONARIA: viene selezionato e intervistato un campione di individui da una popolazione.
La rilevazione dei da& può avvenire secondo alcune modalità:
Intervista faccia a faccia
Per i da/ categoriali, la rappresentazione tabellare
prevede un elenco delle categorie della variabile con
accanto la frequenza assoluta: cioè il n. di osservazioni
che hanno presentato quel valore/categoria della
variabile nel colleEvo.
Per rendere più agevole il controllo fra le categorie
possiamo riportare nella tabella anche le rispeEve
frequenze rela/ve ( proporzioni) e le frequenze
percentuali ( percentuali ).
o Proporzione= n.di osservazioni in una categoria diviso il
n.totale di osservazioni
o Percentuale = proporzione mol&plicata per 100.
Distribuzione di frequenze: è una lista di tuE i possibili
valori di una variabile a ciascuno dei quali è associato un n.
che rappresenta quante volte quel valore viene osservato nei
da& in esame.
Per oBenere una più competa percezione delle informazioni
di una distribuzione è u&le rappresentare le frequenze rela&ve con un grafico like:
GRAFICO A BARRE: l’altezza di ciascuna barra indica la frequenza rela&va.
Le barre sono tra loro separate neBamente per enfa&zzare che la variabile è
categoriale piuBosto che quan&ta&va: la composizione delle famiglie è una
variabile nominale, non esiste alcun ordinamento naturale fra le categorie.
ISTOGRAMMA: ogni intervallo viene rappresentato con una barra la cui area
rappresenta il n. di osservazioni nell’intervallo.
FORMA della distribuzione, descrivere la forma di un campione o di una popolazione:
A mano a mano che l'ampiezza campionaria aumenta le proporzioni campionarie in ciascun intervallo si
approssimano sempre di più alle vere proporzioni della popolazione: la distribuzione dei da& campionari diventa
sempre più simile alla distribuzione di popolazione.
Distribuzioni SIMMETRICHE : lato sx e dx della distribuzione sono uguali
Distribuzioni ASIMMETRICA POSITIVA o ASIMMETRICA NEGATIVA
Esempio di istogrammi che corrispondono a distribuzioni asimmetriche
Descrivere il CENTRO dei da 5.
Misure di tendenza centrale: servono per sinte&zzare la distribuzione dei da&, sono sta&s&che che descrivono il
dentro di una distribuzione di frequenze definita per una variabile quan&ta&va, mostrano la /picità della
distribuzione: MEDIA,MEDIANA,MODA
Più usata misura del centro di una distribuzione è la MEDIA : somma dei valori assun& dalle osservazioni
divisa per il totale delle osservazioni.
La numerosità campionaria è indicata con “n.”.
Le n. osservazioni di una variabile Y vengono indicate con y1 per la prima
osservazione, Y2 per la seconda è così via..
La media della variabile è indicata con y (y-barrato)
La media di una variabile
rappresenta il valore di quella variabile che ogni unità sta&s&ca assumerebbe in caso di perfe)a uguaglianza
nella distribuzione della variabile stessa (assenza di variabilità) lasciando inalterato il totale.
La MEDIANA divide in due par& il campione ordinato in maniera crescente, ciascuna parte con&ene un
iden&co numero di osservazioni.
È il valore della variabile assunto dall’osservazione centrale del campione ordinato.
o Quando l’ampiezza campionaria n è pari, si hanno due osservazioni centrali e la mediana è il valore
centrale tra i due
Cara 4 eris 5 che della media:
Il calcolo della media è appropriato
solo per le variabili quan/ta/ve
Il valore assunto dalla media può
essere notevolmente influenzato da
un’osservazione che assume un
valore molto al di soBo o al di sopra
di quello assunto dalla maggioranza
delle restan& osservazioni, tale
valore si chiama outlier ( valore
anomalo ).
La media tende a spostarsi nella
direzione della coda più lunga della
distribuzione.
La media è il punto di equilibrio
nella linea in cui sono riporta& tuE i
valori di una distribuzione.
Campo di variazione (range): è la differenza tra il valore più
grande (alto) e quello più piccolo (basso) di una distribuzione.
È il modo più semplice per descrivere la variabilità.
Il campo di variazione non è sensibile ad altre caraBeris&che
della variabilità dei da&.
Un altro modo per descrivere una distribuzione è aBraverso le misure di posizione , queste forniscono
informazioni sul valore al di soBo del quale ricade una certa percentuale di osservazioni della distribuzione.
La mediana è una grandezza che appar&ene a un insieme di misure di posizione chiamate Percen/li
Il p-esimo percen/le è il valore nella distribuzione al di soBo del quale ricade p% delle osservazioni e al di
sopra del quale ricade il (100 – p)% delle osservazioni
Il 25esimo percen&le è chiamato primo quar/le e il 75esimo percen&le terzo quar/le. Un quarto delle
osservazioni ricade al di soBo del primo quar&le e un quarto ricade al di sopra del terzo.
Lo scarto Interquar/le descrive la dispersione delle osservazioni
centrali della distribuzione ed è la differenza tra il terzo e primo
quar&le della distribuzione.
A differenza del campo di variazione non è influenzato dai valori
anomali perché scarta il 25% più basso e il 25% più alto della
distribuzione + indica la variazione massima osservata nel 50%
centrale della distribuzione.
Deviazioni standard. Un altro modo per misurare una posizione in
una distribuzione è di contare quante deviazioni standard dalla media ricade una certa osservazione.
La deviazione di un’osservazione Yi dalla media campionaria y-barrato è la differenza tra i due valori.
Ogni osservazione ha una deviazione
Si ha una deviazione posi/va quando l’osservazione ha un valore al di sopra della media. La somma di tuBe
le deviazioni dalla media è pari a zero. Per questo mo&vo le misure di variabilità usato i valori
assolu& delle deviazioni o dei loro quadra&.
Proprietà della deviazione standar:
Come tuBe le misure di variabilità, s ≥ 0 e s = 0 solo quando tuBe le
osservazioni hanno lo stesso valore.
Più grande è la variabilità intorno alla media, maggiore è il valore di s.
La deviazione standard (standard devia&on, sd) viene spesso chiamata
anche scarto quadra&co medio (sqm)
La ragione per cui si u&lizza (n - 1) piuBosto che n nel denominatore di s (e di s2)
riguarda l'inferenza per i parametri della popolazione.
Quando abbiamo da& riferi& ad un'intera popolazione, sos&tuiamo (n - 1) con l'effeEva ampiezza della
popolazione, n: la varianza della popolazione è, allora, esaBamente la media delle deviazioni al quadrato.
in tal caso, la deviazione standard non può essere più grande della metà del campo di variazione
Se sui da& viene effeBuata una trasformazione di scala (es., si passa da reddi& misura& in dollari a reddi&
misura& in migliaia di dollari), anche le deviazioni standard vengono trasformate.
Esempio di calcolo con deviazione standard
Interpretare la grandezza s
Regola Empirica : Se l'istogramma della distribuzione ha una forma approssima&vamente campanulare:
Coefficiente di Variazione CV
Uno svantaggio della deviazione standard (e della varianza) è che non può essere usata per confrontare la
variabilità di variabili misurate con diverse unità di misura (es. reddi& e altezze) ma anche su diverse scale
(cioè se le medie sono diverse). Per questo si ricorre al coefficiente di variazione:
CV è una misura la variabilità rela&va rispeBo alla media.
È un numero puro (espresso in % ma non ha massimo)
Consente il confronto tra la variabilità di fenomeni:
- in unità di misura non omogenee (es. in una popolazione c’è più variabilità nelle altezze o nei reddi&?)
L’obieEvo principale di una analisi mul/variata è quello di studiare
l’associazione fra variabili: esiste associazione fra due variabili se una variabile
tende ad assumere cer& valori allorché l’altra variabile cambia il suo valore
Analisi Bivariata in quanto coinvolge 2 variabili.
Una variabile assume il ruolo di variabile indipendente ( o var. esplica/va ): i
suoi valori definiscono i i gruppi che meEamo a confronto per valutare le
differenze che esistono tra loro rispeBo ai valori assun& dalla var. Risposta /
l’altra è la variabile dipendente (o var. risposta ): i suoi valori vengono
confronta& per i diversi valori assun& dall’altra variabile.
La Tabella di Con/ngenza (o a doppia entrata ) mostra, per due variabili
categoriali, quante osservazioni vengono registrate per le diverse combinazioni di valori delle variabili. In queste
tabelle per ogni combinazione di modalità di due variabili categoriche si riporta la frequenza assoluta o rela&va.
Le frequenze rela&ve (o percentuali) possono essere calcolate su totale generale, sui totali di colonna o su quelli di
riga.
SCATTERPLOT (o diagramma a dispersione )
Sono usa& per osservazioni accoppiate rela&ve a due variabili
numeriche. Una variabile viene rappresentata sull’asse ver&cale e
l’altra variabile viene rappresentata sull’asse orizzontale. Serve per
dare un’idea sulla possibile relazione (lineare) esistente tra le due
variabili.
STATISTICHE CAMPIONARIE descrive una caraBeris&ca del
campione mentre un parametro descrive una caraBeris&ca della popolazione da cui quel campione è stato estraBo.
La deviazione standard descrive la variabilità delle osservazioni della popolazione intorno alla media.
Le le)ere minuscole greche sono u&lizzate per indicare i parametri di una popolazione mentre le le)ere la/ne per le
sta&s&che campionarie.
Le leBere greche mi è sigma indicano la media è la deviazione standard di una variabile nella popolazione.
Esperimento aleatorio: processo che porta ad un risultato prevedibile con certezza like giochi di sorte (es lancio
moneta), esperimen/ di laboratorio, misurazioni fisiche (temperatura minima in un certo momento), fenomeni
economici e sociali (n.di pc prodoE da un impresa).
Evento elementare: possibile risultato di un esperimento aleatorio
Spazio campionario: è l’insieme di tuE i possibili risulta& di un esperimento aleatorio
Evento : qualsiasi soBoinsieme di even& elementari di uno spazio campionario
Spazio campionario: in un esperimento aleatorio, lo s.c., è l'insieme S di tuE i possibili risulta/. Tali possibili risulta&
sono deE even/ elementari. (Es. Esempio: lanciando una moneta S = {T, C}).
Even/: Dato uno spazio campionario S, un evento è un soBoinsieme di S, quindi è cos&tuito da uno o più even&
elementari (a parte il caso dell’evento impossibile, denotato con il simbolo dell’insieme vuoto (Ø).
Un evento E si verifica (si realizza) quando il risultato dell’esperimento casuale è un qualsiasi evento elementare di E;
in caso contrario E non si verifica. (Es. lanciando un dado S = {1, 2, ...,6}, alcuni dei possibili even& sono: – A =
{Numero pari} = {2,4,6}; – B = {Numero minore o uguale a 3} = {1,2,3}; se ad esempio esce il 4: A si verifica, B non si
verifica
Diagramma di Venn:
Lo spazio campionario S è rappresentato da un reBangolo è un
evento E è rappresentato da una figura ivi contenuta.
Probabilità: per un campione o esperimento casuale, la probabilità di un ossservazione è la proporzione di volte in cui
essa dovrebbe verificarsi in una lunghissima sequenza di osservazioni, è la la possibilità che un evento incerto si
manifes& (sempre tra 0 e 1).
Un evento può essere una modalità di una variabile o un insieme di
modalità (ad esempio intervalli di valori).
Nella definizione classica la probabilità è vista come rapporto tra casi favorevoli su casi possibili.
È basata su una conoscenza delle caraBeris&che dell’esperimento indipendentemente dalla sua effeEva
realizzazione.
Es. nel lancio di un dado, qual è la probabilità che esca un numero pari? A = {2,4,6}
Un evento può essere una modalità di una variabile o un insieme di modalità (ad esempio intervalli di valori)
Approccio classico a priori: assumendo che ogni risultato possibile abbia la stessa probabilità (cioè che il dado sia
bilanciato) e che abbiano stessa probabilità gli even& elementari dello spazio campionario S={1,2,3,4,5,6}:
Probabilità di un numero pari = 3 / 6 = 0.
Definizione frequen/sta: è basata sulla sola osservazione dei da/ , in assenza di informazioni preesisten& sulle
modalità dell’esperimento. In questo caso, dato un numero elevato di prove, la probabilità di un’osservazione è
calcolata come frequenza rela/va : numero di prove in cui si verifica quella osservazione diviso il totale delle prove
faBe.
Probabili come lunga serie di frequenze rela/ve : Per un campione casuale o un esperimento casuale, la probabilità
di un’osservazione è la proporzione di volte in cui essa dovrebbe verificarsi in una lunghissima sequenza di
osservazioni. Quanto più il numero di osservazioni è elevato, tanto più la frequenza rela&va tenderà ad approssimare
bene la probabilità.
Es. pensate al lancio di una moneta. Quante più volte si lancia la moneta, tanto più la frequenza rela&va di «teste»
tenderà a 0.5 che è il vero valore della probabilità (nel caso di una moneta bilanciata).
Sia P(A) probabilità di un possibile evento o di un insieme di even& indica& dalla leBera A, allora:
P(nonA) = 1-P(A)
se la probabilità del verificarsi di un evento è nota, allora la probabilità che esso non si verifichi è pari a 1
meno quella probabilità.
Se A e B sono due possibili risulta/ (che non si sovrappongono ovvero non si verificano mai insieme),
allora P(A oB) = P(A) + P(B)
Es.: Siano A e B, rispeEvamente, l'uscita di 2 e di 4 nel lancio di un dado. Qual è la probabilità che lanciando
una volta il dado esca 2 oppure 4?
P(A)= 1/6, P(B)=1/6 quindi P(A o B) = 1/6 + 1/6= 1/
P(A e B) = P(A) x P(B dato A)
La media di una distribuzione di probabilità per una variabile discreta y descrive la tendenza centrale:
La deviazione standard di una distribuzione di probabilità per una variabile discreta y descrive la variabilità:
è la radice quadrata della somma dei quadra& degli scar& tra ciascun
valore y osservato e la media aritme&ca (uguale a 2.45).
Distribuzione di PROBABILITÀ NORMALE
È distribuzione di probabilità con&nua più importante nella sta&s&ca inferenziale.
La distribuzione normale è simmetrica , campanulare e caraBerizzata da una media μ e da una deviazione
standard o.
La probabilità che un'osservazione ricada all'interno di un intervallo definito dalla media μ più o meno un
certo numero di deviazioni standard è la stessa per tuBe le distribuzioni normali. Tale probabilità è pari a
0.68 entro 1 deviazione standard, 0.95 entro 2 deviazioni
standard e 0.997 entro 3 deviazioni standard.
Al variare dei dei parametri media μ e deviazione standard σ si avranno
differen/ distribuzioni normali.
Per ogni distribuzione normale la probabilità compresa tra μ ± z σ è sempre la stessa, qualunque sia il valore
di z. La tavola delle probabilità so&ese alle code di una distribuzione normale da l’area soBesa alla curva
normale a destra di un certo punto z.
z-score e distribuzione normale standardizzata
Lo z-score per un valore y di una variabile è il numero di deviazioni standard tra y e la media. Tale valore è
pari a:
Il principale vantaggio dell'u&lizzo degli z-score sta nel faBo che si elimina l'unità di misura della variabile
considerata (e si può u&lizzare la tavola vista in precedenza!)
ü Se una variabile ha distribuzione normale con una certa media e deviazione standard e i suoi valori sono
trasforma& in z-score, i valori risultan& avranno una distribuzione normale standardizzata (cioè con media 0 e
deviazione standard, e varianza, pari ad 1)
Applicazioni della simmetria
Intervalli simmetrici intorno alla media definiscono la stessa area soBo la curva.
Le DISTRIBUZIONI CAMPIONARIE
Una distribuzione campionaria di una sta&s&ca è la distribuzione di probabilità che fornisce la probabilità per
i possibili valori che la sta&s&ca può assumere. Queste, non sono note a priori cioè non conosciamo a priori
come si distribuiscono i valori della variabile stessa.
U&lizzando i da& campionari possiamo inferire sulla popolazione. Tale operazione avviene aBraverso la s&ma
dei parametri di interesse (media o proporzione). L'operazione di s&ma si basa sulle informazioni
proveniente dall'unico campione disponibile.
Se potessimo disporre di tuE i possibili campioni di pari ampiezza n, oBerremmo un certo numero di s&me,
cioè la distribuzione campionaria delle s&me. Ciascuna s&ma ha una propria probabilità e l'insieme delle
s&me e delle corrisponden& probabilità cos&tuisce la distribuzione campionaria di una sta&s&ca.
Distribuzione campionaria della media campionaria
Ciascun campione ha la propria media y, i cui valori saranno ± grandi di u. Pertanto l'insieme delle medie e
delle corrisponden& probabilità cos&tuisce la distribuzione campionaria della media. L’l'ampiezza della
distribuzione campionaria della media, cioè il suo errore standard indicato da o.
La formula dell'errore standard (che è una misura di variabilità della distribuzione campionaria) è:
U&lizzare i da& campionari per s&mare i parametri della popolazione: per le variabili quan&ta&ve take parametro è la
media della popolazione.
Esistono due metodi di s&ma dei parametri:
s&me puntuali della media della popolazione u , della deviazione standard σ e della proporzione pgreco sono i
valori campionari u-barrato, s e pgreco^.
quale si ri&ene ricada il valore del parametro. Gli intervalli di confidenza per una media della popolazione μ
e per una proporzione della popolazione pgreco hanno la forma: s/ma puntuale +- margine di errore ; con
margine di errore = score x (se), dove se è l’errore standard s&mato.
Il termine s/matore si riferisce a un par&colare &po di sta&s&ca impiegato per s&mare un parametro (è una
variabile ).
Il termine s/ma (puntuale) indica il valore oBenuto applicando lo s&matore ad uno specifico campione (è la
modalità della variabile. s&matore realizzatasi in un determinato campione).
Un buon s&matore di un parametro ha una distribuzione campionaria che deve essere:
il parametro è la media della popolazione μ e la media della distribuzione campionaria di coincide con μ,
allora y-barrato è uno s&matore correBo per la media della popolazione μ.
Per ciascun campione, la media campionaria può soBos&mare o sovras&mare μ, tuBavia, se si calcolasse
ripetutamente la media campionaria su campioni diversi le sovras&me tenderebbero a controbilanciare le
soBos&me.
Al contrario, uno s/matore distorto tende, in media, a soBos&mare o a sovras&mare il parametro.
piccolo. Uno s&matore che ha un errore standard più piccolo di quello di altri s&matori (tuE devono essere
correE) è definito efficiente. Uno s&matore efficiente determina s&me del parametro più vicine al vero
valore, in media, rispeBo ad altri s&matori.
S/matori della media, della deviazione standard e della proporzione
È abbastanza comune, seppure non necessario, u&lizzare come s&matore una sta&s&ca che «corrisponda» al
parametro della popolazione.
Ad esempio: per s&mare una proporzione della popolazione, si adoBa la proporzione campionaria; per s&mare una
media della popolazione μ, si usa la media campionaria; per s&mare la deviazione standard della popolazione σ si
usa la deviazione standard campionaria s. Sono tuE e tre s&matori correE ed efficien&.
Il simbolo “^” posto sulla le)era che iden/fica il parametro è u&lizzato per rappresentare la s&ma di un parametro.
“^” è chiamato caret e viene leBo cappello. (Ad esempio, si legge mi-cappello. indica una s&ma della media della
popolazione μ).
L’intervallo di confidenza come s/ma puntuale ± un margine di errore
Per fornire realmente una correBa informazione, l'inferenza su un certo parametro dovrebbe basarsi non solo sulla
s&ma puntuale ma dovrebbe indicare, anche, quanto precisa sia la s/ma rispe)o al vero valore del parametro.
Le indicazioni sulla precisione della s&ma puntuale sono basate sull'ampiezza della s/ma intervallare di un
parametro. Poiché le s&me intervallari contengono il parametro con un certo livello di fiducia, essi vengono indica&
come intervalli di confidenza.
Un intervallo di confidenza per un parametro è un intervallo di valori entro cui si ri&ene ricada il valore di un
parametro. La probabilità associata al faBo che l'intervallo con&ene il parametro è denominata livello di
confidenza. Questo è un numero prossimo ad 1, come 0.95 o 0.99.
L'aspeBo cruciale nella costruzione di un intervallo di confidenza è insito nella distribuzione campionaria dello
s&matore puntuale. Per costruire un intervallo di confidenza, si aggiunge e si soBrae dalla s&ma puntuale qualche
mul&plo (uno z-score) del suo errore standard. Questo mul&plo dell'errore standard è il margine di errore.
Un intervallo di confidenza assume la forma:
s/ma puntuale ± margine di errore ovvero: s&ma puntuale ± z * errore standard
Per costruire un intervallo di confidenza che ha il “95% di confidenza” si prende la s&ma puntuale e si aggiunge e si
soBrae un margine di errore pari a 1.96 errori standard.
La proporzione campionaria e il suo errore standard
Intervallo di confidenza per una proporzione nel caso di grandi campioni
Poiché la proporzione campionaria è una media campionaria, trova applicazione il Teorema del Limite Centrale : Per
campioni casuali di ampiezza elevata, la distribuzione campionaria di è approssima&vamente normale intorno al
parametro π oggeBo di s&ma.
La distribuzione t presenta un'ampiezza leggermente diversa per ciascun differente valore dei gdl e si applicano,
quindi, differen& t-scores per ciascun valore dei gdl.
La distribuzione t presenta aree sulle code più grandi ed è più dispersa rispe&o alla distribuzione normale
standardizzata
Quanto più elevato è il valore dei gdl tanto più la distribuzione tenderà a rassomigliare a una normale standardizzata.
Un t-score mol&plicato per l'errore standard s&mato fornisce il margine di errore per un intervallo di confidenza per
la media.