Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Classificazione dei Fenomeni Statistici e Scale di Modalità - Prof. Mecatti, Dispense di Statistica

Una panoramica completa dei fenomeni statistici, classificandoli in qualitativi (ordinali e categoriali) e quantitativi (discreti e continui). Esplora le scale di modalità, i principi di esaustività e mutua esclusività, e le fasi dell'analisi statistica, dalla rilevazione all'elaborazione dei dati. Approfondisce le rappresentazioni grafiche, le proprietà della media aritmetica, le misure di variabilità e dispersione, e l'analisi delle relazioni statistiche tra fenomeni. Introduce concetti come indipendenza statistica, covarianza e correlazione lineare, variabili casuali discrete e continue, e la variabile casuale normale, essenziale per l'inferenza statistica. Infine, tratta la variabilità campionaria e le proprietà degli stimatori, offrendo una guida dettagliata per l'analisi statistica dei dati.

Tipologia: Dispense

2023/2024

Caricato il 22/08/2025

poison-nobru
poison-nobru 🇮🇹

3 documenti

1 / 15

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA TEORIA
Primo parziale
Definizione Statistica = insieme di metodologie e strumenti formali per la trattazione
quantitativa dei fenomeni osservabili nella realtà sociale, in natura o in laboratorio.
Definizione Unità statistiche = supporti delle diverse manifestazioni del fenomeno statistico
presso cui è possibile osservare e registrare i dati, cioè rilevarli.
L’insieme delle unità statistiche sulle quali interessa studiare il fenomeno è chiamato
popolazione statistica o universo di riferimento (in inglese target).
Il numero di unità statistiche che compongono la popolazione statistica di riferimento è
chiamato numerosità o dimensione di U. I fenomeni di interesse nelle scienze sociali si
manifestano in genere su popolazioni umane e finite. N può rappresentare un attributo, una
categoria o un numero.
Classificazione dei fenomeni statistici e Scale di modalità
1) Fenomeni Qualitativi: si manifestano attraverso qualità
a) Ordinali: si possono ordinare secondo un criterio oggettivo
i) Scala qualitativa ordinale (=, ≠, <, >)
b) Categoriali: non esiste un ordine fra categorie
i) Scala qualitativa categoriale (=, ≠)
2) Fenomeni Quantitativi: si manifestano attraverso quantità
a) Discreti: si possono contare
b) Continui: si possono misurare
i) Scala quantitativa rapporto: lo 0 corrisponde all’assenza del fenomeno
(=, ≠, <, >, +, -, x, ÷)
ii) Scala quantitativa non rapporto: lo 0 non è assoluto, ma è
convenzionale (=, ≠, <, >, +, -)
Rilevazione di X su U = è il processo di creazione dei dati. In genere consiste nel recarsi
fisicamente presso le unità statistiche per osservare e registrare le N manifestazioni x di X. Il
tipico strumento con il quale si effettua la rilevazione è il questionario.
Scala delle modalità o scala di rilevazione = insieme di tutte le diverse manifestazioni di X
osservabili su U. È necessario che siano rispettati due principi generali, che sono proprietà
di cui deve essere dotata la scala per produrre dati di qualità:
- Esaustività: la scala deve prevedere tutte le possibili manifestazioni di X che
potenzialmente si possono osservare su U
- Mutua esclusività: la scala deve prevedere solo modalità che si escludono a vicenda,
senza possibilità di confusione o sovrapposizioni
Fasi dell’analisi statistica
1) Osservare le manifestazioni: recarsi fisicamente presso le unità statistiche della U di
interesse per registrare le diverse manifestazioni del fenomeno o dei fenomeni; si
producono dati grezzi ed è la fase della rilevazione
2) Organizzare il risultato della rilevazione; è la fase della strutturazione dei dati
mediante la costruzione di variabili statistiche e di distribuzioni di frequenza
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Classificazione dei Fenomeni Statistici e Scale di Modalità - Prof. Mecatti e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA TEORIA

Primo parziale

Definizione Statistica = insieme di metodologie e strumenti formali per la trattazione quantitativa dei fenomeni osservabili nella realtà sociale, in natura o in laboratorio. Definizione Unità statistiche = supporti delle diverse manifestazioni del fenomeno statistico presso cui è possibile osservare e registrare i dati, cioè rilevarli. L’insieme delle unità statistiche sulle quali interessa studiare il fenomeno è chiamato popolazione statistica o universo di riferimento (in inglese target). Il numero di unità statistiche che compongono la popolazione statistica di riferimento è chiamato numerosità o dimensione di U. I fenomeni di interesse nelle scienze sociali si manifestano in genere su popolazioni umane e finite. N può rappresentare un attributo, una categoria o un numero. Classificazione dei fenomeni statistici e Scale di modalità

  1. Fenomeni Qualitativi: si manifestano attraverso qualità a) Ordinali: si possono ordinare secondo un criterio oggettivo i) Scala qualitativa ordinale (=, ≠, <, >) b) Categoriali: non esiste un ordine fra categorie i) Scala qualitativa categoriale (=, ≠)
  2. Fenomeni Quantitativi: si manifestano attraverso quantità a) Discreti: si possono contare b) Continui: si possono misurare i) Scala quantitativa rapporto: lo 0 corrisponde all’assenza del fenomeno (=, ≠, <, >, +, - , x, ÷) ii) Scala quantitativa non rapporto: lo 0 non è assoluto, ma è convenzionale (=, ≠, <, >, +, - ) Rilevazione di X su U = è il processo di creazione dei dati. In genere consiste nel recarsi fisicamente presso le unità statistiche per osservare e registrare le N manifestazioni x di X. Il tipico strumento con il quale si effettua la rilevazione è il questionario. Scala delle modalità o scala di rilevazione = insieme di tutte le diverse manifestazioni di X osservabili su U. È necessario che siano rispettati due principi generali, che sono proprietà di cui deve essere dotata la scala per produrre dati di qualità:
  • Esaustività: la scala deve prevedere tutte le possibili manifestazioni di X che potenzialmente si possono osservare su U
  • Mutua esclusività: la scala deve prevedere solo modalità che si escludono a vicenda, senza possibilità di confusione o sovrapposizioni Fasi dell’analisi statistica
  1. Osservare le manifestazioni: recarsi fisicamente presso le unità statistiche della U di interesse per registrare le diverse manifestazioni del fenomeno o dei fenomeni; si producono dati grezzi ed è la fase della rilevazione
  2. Organizzare il risultato della rilevazione; è la fase della strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza
  1. Elaborare dati strutturati; è la fase in cui si sintetizzano i dati attraverso la costruzione di indici e valori sintetici e si studiano le eventuali relazioni statistiche
  2. Comunicare i risultati; marcata interdisciplinarietà Statistica descrittiva ● Monovariata: ha per oggetto un solo fenomeno singolarmente rilevato ● Bivariata: l’oggetto è una coppia di fenomeni congiuntamente rilevati sulla stessa U ● Multivariata: i fenomeni rilevati sulla stessa U sono più di due Frequenza assoluta di ciascuna modalità osservata xi = numero di unità statistiche che manifesta quella modalità xi di X. La somma di tutte le frequenze assolute riproduce la numerosità N di U. Una variabile statistica è un insieme di k coppie del tipo “modalità, frequenza”. Frequenza relativa associata alla modalità xi = rapporto tra la frequenza assoluta di xi e la numerosità N di U. Sono sempre comprese fra 0 e 1 e la loro distribuzione è confrontabile fra popolazioni con dimensioni diverse. Normalizzazione = procedimento di trasformazione di una quantità statistica assoluta in una percentuale. Si può attuare solo se esistono un massimo e un minimo ed è un numero sempre compreso fra 0 e 1. Frequenze cumulate = somma delle frequenze associate alle modalità inferiori. Possono essere sia assolute che relative.
  • X deve essere almeno ordinale e le somme vanno calcolate partendo dal minimo e arrivando al massimo
  • La frequenza cumulata della prima modalità equivale alla sua frequenza assoluta (o relativa)
  • La frequenza cumulata assoluta dell’ultima modalità equivale alla numerosità di N
  • La frequenza cumulata relativa dell’ultima modalità equivale a 1 Modalità di ripartizione della frequenza negli intervalli (fenomeni continui)
  1. Assunto del valore centrale: assegnare a ciascuna delle fi unità statistiche che cadono nell’intervallo un unico punto che corrisponde al valore centrale dell’intervallo
  2. Assunto di distribuzione uniforme: si considera alla pari ogni possibilità di distribuzione della frequenza, quindi si distribuiscono le unità statistiche in modo uniforme ed equidistante lungo tutto l’intervallo Ampiezza di un intervallo = differenza tra l’estremo superiore e l’estremo inferiore Densità di frequenza dell’intervallo = frequenza depurata dall’influenza dell’ampiezza (se le classi hanno tutte la stessa ampiezza non serve calcolare la densità). Rappresentazioni grafiche dei fenomeni ● Caratteri qualitativi nominali → grafico A TORTA ● Caratteri qualitativi ordinali → grafico A BARRE ● Caratteri quantitativi discreti → grafico A BASTONCINI ● Caratteri quantitativi continui → ISTOGRAMMA ○ b = ampiezza intervallo ○ h = densità intervallo ○ A = frequenza assoluta

Coefficiente di variazione = è un indice puro, cioè senza unità di misura; si costruisce ponendo a rapporto la deviazione standard con la media aritmetica. È confrontabile tra fenomeni con diverso ordine di grandezza e diversa unità di misura e tra fenomeni rilevati su popolazioni diverse. È valutabile come percentuale della media.

Secondo Parziale

Statistica bivariata si occupa della rilevazione congiunta di una coppia di fenomeni statistici sulla stessa U. L’obiettivo diventa la descrizione del comportamento congiunto di X e Y su U e l’analisi dell’eventuale relazione statistica esistente fra i due fenomeni. Il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata in cui sono presenti due nuovi indici: indice i con riferimento al fenomeno X e indice j con riferimento al fenomeno Y. Sulle righe si pongono le k modalità xi e sulle colonne le h modalità yj di Y. Sulla tabella a doppia entrata si leggono informazioni sia di tipo bivariato, cioè che riguardano X e Y congiuntamente, sia di tipo monovariato, cioè che riguardano X e Y presi singolarmente. Frequenze congiunte = frequenza con cui si manifesta ciascuna coppia di modalità (xi, yj) all’incrocio fra la i-esima riga e la j-esima colonna. L’interno della tabella a doppia entrata costituisce la variabile statistica doppia che è lo strumento base della statistica descrittiva bivariata. La somma di tutte le frequenze congiunte riproduce la numerosità N di U. Frequenze marginali = frequenze che riguardano i fenomeni X e Y considerati singolarmente e separatamente. Si aggiunge un punto in sostituzione dell’indice dell’altro fenomeno (quello che marginalmente non è considerato). Frequenze condizionate = frequenze che permettono di analizzare il comportamento di un fenomeno condizionatamente all’altro e vengono chiamate percentuali di riga e percentuali di colonna. Sono frequenze relative ottenute dal rapporto tra le frequenze congiunte e la frequenza marginale della modalità con cui si condiziona. Fissando l’attenzione sulle singole righe o sulle singole colonne separatamente si costruiscono le variabili statistiche condizionate. Il fenomeno condizionante è chiamato variabile esplicativa o variabile indipendente e il fenomeno condizionato è chiamato variabile risposta o variabile dipendente. Se fra X e Y non esiste alcuna relazione statistica allora essi sono statisticamente indipendenti. Condizione di indipendenza statistica = se tutte le k serie di frequenze condizionate sono uguali fra loro e uguali alla marginale, significa che, sia condizionatamente alle k modalità xi di X sia marginalmente, Y si comporta allo stesso modo. È simmetrica, cioè biunivoca: se X è indipendente statisticamente da Y, allora anche Y è indipendente statisticamente da X. Le frequenze teoriche di indipendenza statistica realizzano la condizione di indipendenza statistica. Ad ogni tabella osservata di dati rilevati nella realtà si può accostare la corrispondente tabella teorica di indipendenza statistica. Quando la condizione di indipendenza statistica è verificata, le due tabelle coincidono. Se si conclude che X e Y non sono statisticamente indipendenti, allora fra essi esiste una connessione. È necessario misurare il grado di connessione per poterla utilizzare come evidenza empirica a supporto di successive interpretazioni e decisioni.

L’indice di connessione è il metodo più utilizzato per misurare la connessione. Si considera la differenza fra le frequenze congiunte e le frequenze teoriche di indipendenza statistica. Se fra X e Y esiste indipendenza statistica, tutte queste differenze sono nulle. Se le differenze sono vicine a 0 indicano che la connessione è bassa, quindi che i due fenomeni sono connessi ma si influenzano poco l’un l’altro. Quanto più è ampia questa distanza, tanto più i due fenomeni si influenzano sensibilmente. Il valore assoluto dell’indice non consente la valutazione, cioè non è interpretabile, quindi serve normalizzarlo. E per normalizzarlo serve trovare il suo massimo. Valore massimo del χ² = il valore che assumerebbe in caso di massima connessione fra i due fenomeni. È il valore pari a N moltiplicato per il più piccolo fra il numero delle righe k e il numero delle colonne h meno 1. DIMOSTRAZIONE Indice di connessione normalizzato è sempre comoreso fra 0 e 1 e moltiplicato per 100 è interpretabile come percentuale di connessione. Quando almeno uno dei due fenomeni congiuntamente osservati su U è quantitativo, è possibile aumentare il livello di analisi introducendo quattro nuovi indici di sintesi di analisi delle distribuzioni che sono: Media marginale di Y, Varianza marginale di Y, Media condizionata di Y dato xi, Varianza condizionata di Y dato xi. (valgono anche al contrario per X) Associatività delle medie condizionate = la media aritmetica delle medie condizionate, ponderata con le numerosità delle sotto-popolazioni, coincide con la media marginale. Scomposizione della varianza marginale = la varianza marginale di Y si scompone nella somma di due componenti:

  • Varianza NEI: media delle varianze condizionate → misura la variabilità di Y che non dipende da X
  • Varianza FRA: varianza delle medie condizionate → misura la variabilità di Y che dipende da X Indipendenza in media = Y è indipendente in media da X se le medie condizionate risultano tutte uguali fra loro al variare di X e uguali alla media marginale. È asimmetrica perché si basa sulle medie condizionate (NON è biunivoca). Rapporto tra indipendenza statistica e indipendenza in media = l’indipendenza statistica implica l’indipendenza in media di ciascun fenomeno. L’i.s. è una condizione più forte. Due fenomeni statisticamente indipendenti sono fenomeni che non presentano alcuna relazione statistica. Indice di dipendenza o rapporto di correlazione di Pearson: assume valori compresi fra 0 e 1, infatti è un indice normalizzato che moltiplicato per 100 è interpretabile come percentuale di dipendenza. La varianza marginale è il valore massimo assumibile dalla varianza FRA (quando la varianza NEI è uguale a 0). L’indice di dipendenza vale 0 se la varianza FRA vale 0 e vale 1 se la varianza FRA è uguale alla varianza marginale. Diagramma a dispersione = strumento grafico bivariato per la rappresentazione della distribuzione congiunta di una coppia di fenomeni quantitativi. È un diagramma cartesiano con gli assi intestati alle modalità dei due fenomeni. Le coppie di valori osservati (xi, yj) sono viste come coordinate di punti e sono rappresentati sul diagramma come una nuvola di punti.

Metodo dei minimi quadrati = criterio con cui viene scelta la retta che meglio approssima la spezzata di regressione. Consiste nell’esprimere in una formula la distanza fra i dati osservati e la retta di regressione e nell’assegnare ai parametri del modello il valore che rende minima tale distanza. Sostituendo le soluzioni dei minimi quadrati nella retta di regressione si ottiene la retta dei minimi quadrati, che rende minima la distanza totale fra i dati osservati e il modello. Una volta sostituiti i parametri a e b con le soluzioni dei minimi quadrati, la distanza totale fra i valori reali osservati e la retta ci dà il residuo totale della retta, chiamato anche devianza residua. Il residuo è nullo quando sono nulle tutte le distanze fra i valori osservati e i valori teorici del modello, cioè quando la retta si adatta perfettamente ai dati reali. È la parte di variabilità di Y che non è catturata dalla retta dei minimi quadrati. Devianza spiegata = è la parte di variabilità spiegata dalla retta dei minimi quadrati Devianza totale = si scompone nella somma delle due parti, residua e spiegata. Bontà di adattamento della retta = percentuale che misura quanto è buono il modello costruito, cioè l’adattamento della retta dei minimi quadrati ai dati osservati. Con il coefficiente di correlazione lineare Rho si misura la correlazione lineare fra X e Y. Quando assume valore 0 (DS=0) la retta lascia tutto residuo e non spiega niente della variabilità di Y. Quando assume valore 1 (DR=0) la retta non lascia alcun residuo e spiega perfettamente la variabilità di Y. La retta di regressione dei m.q. passa sempre per il punto di coordinate X medio e Y medio che ne rappresenta il baricentro. Annullamento degli scarti del modello di regressione = gli scarti ponderati non elevati al quadrato ma presi con il loro segno, quando non sono nulli, possono essere positivi o negativi e se vengono sommati si ottiene sempre 0. In media gli scarti ponderati si compensano sempre.

Terzo parziale

L’osservazione esaustiva della popolazione di U è chiamata censimento, mentre l’osservazione parziale di una parte di U è detta rilevazione campionaria. La rilevazione campionaria è preferibile al censimento per ragioni di budget e di precisione. L’inferenza indica il generico processo logico di passaggio dalla premessa alla conclusione. L’inferenza statistica è un’inferenza induttiva che procede dal campione alla popolazione. Essa si basa sui campioni casuali, cioè selezionati senza criteri o sistematicità. La casualità del campione è granzia della sua rappresentatività. Teoria delle probabilità = lo strumento scientifico per trattare il caso e i suoi effetti, in modo da controllare e valutare il rischio che deriva delle incertezze. Situazione deterministica = è noto l’intero insieme di circostanze che determinano E, che quindi è prevedibile a priori con certezza. Situazione casuale = l’insieme di circostanze che determinano E è noto solo parzialmente. Esperimento casuale = esperimento condotto sotto l’effetto del caso, cioè quando è nota solo una parte delle circostanze che consentirebbero di prevederne il risultato con certezza a priori, cioè prima di effettuare fisicamente l’esperimento. Evento elementare = ciascuno dei possibili esiti di un esperimento casuale. Spazio campionario = l’insieme di tutti i possibili esiti di un esperimento casuale, quindi l’insieme di tutti gli eventi elementari elencabili a priori.

Evento casuale = un qualunque sottoinsieme dello spazio campionario. È un concetto più generale del concetto di evento elementare. La probabilità di un evento casuale E è un numero associato a E che ne quantifica a priori il grado di incertezza ovvero la possibilità di realizzazione. Probabilità, definizione classica = P(E) è il rapporto fra il numero di casi favorevoli a E e il numero di tutti i casi possibili.

  • Ambiguità: si richiede che i casi possibili siano tutti ugualmente possibili ed è necessario contare sia il numero di casi favorevoli che il numero dei casi possibili Probabilità, definizione frequentista = P(E) è il valore intorno al quale tende a stabilizzarsi la frequenza relativa dopo un numero sufficientemente grande di prove. Si riferisce alla legge empirica del caso = una regola che non si può dimostrare matematicamente ma che si osserva sistematicamente nella pratica. Variabile casuale = strumento matematico che permette di concentrarsi sulle sole caratteristiche dell’esperimento che interessano e che trasforma gli eventi casuali in numeri reali, conservandone comunque la probabilità. Prende gli elementi dello spazio campionario e suoi sottoinsiemi e li trasforma in numeri reali, cioè in valori della variabile casuale. Variabile casuale discreta = assume un numero finito di valori x che di solito sono numeri interi. Funzione di probabilità di X = è associata a una variabile casuale discreta e ne descrive completamente le probabilità e ha sempre somma 1 Funzione di ripartizione = è la probabilità che la variabile casuale X assuma valori minori o uguali a un generico valore X. Media o valore atteso della v.c. di X = definita e calcolata come per la variabile statistica ma usando le probabilità al posto delle frequenze. Varianza = definita e calcolata come per la variabile statistica ma usando le probabilità al posto delle frequenze. Variabile casuale binomiale = è una particolare v.c. discreta che deve soddisfare sempre 3 caratteristiche:
  1. L’esperimento casuale consiste in un numero di prove n che devono essere fra loro indipendenti → l’esito di ciascuna prova non influenza l’esito della prova successiva e non è influenzato dall’esito della prova precedente
  2. Ciascuna prova può avere come esito uno solo fra due eventi fra loro contrari ed esaustivi detti successo e insuccesso
  3. La probabilità del successo, chiamata p, è nota e costante Funzione di probabilità = formula che permette di calcolare la probabilità di ottenere x successi sulle n prove con probabilità di successo p. Attraverso il coefficiente binomiale si tiene conto si tutti i possibili diversi ordinamenti in cui può presentarsi una n.upla contenente x successi e (n-x) insuccessi. La v.c. binomiale ha le seguenti proprietà:
  • Media
  • Varianza
  • Standard deviation Variabile casuale continua = necessaria per fare inferenza statistica su fenomeni statistici continui. Assume infiniti valori, infatti occorre fare riferimento ad intervalli.

Per controllare l’errore di stima dobbiamo tener conto di tutte le possibili stime ottenibili da tutti i possibili campioni che potrebbero capitare, serve quindi lo stimatore. Stimatore = è la v.c. che interpreta tutti i possibili valori della stima su tutti i possibili campioni estraibili da U; è definito sull’intero spazio campionario. La stima è un numero, lo stimatore è una variabile casuale. Media campionaria = media degli n dati campionari necessaria a stimare l’ignota media Mu di U. Proprietà statistiche di uno stimatore servono a controllare l’errore campionario e interpretano formalmente i concetti di bontà, affidabilità, accuratezza e precisione.

  • Non distorsione = uno stimatore è non distorto se il suo valore atteso coincide con il parametro oggetto di stima. Non deve avere la tendenza né a sovra-stimare né a sotto-stimare.
  • Consistente = richiesta che lo stimatore sia sempre più preciso, riducendo l’errore di stima, all’aumentare dell’ampiezza campionaria.
  • Efficienza = lo stimatore con MSE inferiore è detto il più efficiente fra i due o più disponibili e quindi è quello preferibile. Se si tratta di stimatori non distorti l’MSE coincide con la varianza e quindi il confronto avviene fra le varianze dei due o più stimatori. Lo stimatore non distorto con varianza inferiore è il più efficiente fra i due o più a disposizione. DIMOSTRAZIONE Non distorsione della media campionaria = il corrispondente stimatore è non distorto per Mu perché il suo valore atteso coincide esattamente con Mu. Consistenza della media campionaria = la media campionaria, oltre che non distorta, è anche consistente per Mu perché è tanto più precisa quanto più è grande il campione. Efficienza della media campionaria = lo stimatore X medio è il più efficiente fra tutti i possibili stimatori non distorti per Mu. Stima della varianza = il parametro ignoto dell’inferenza è ora la varianza del fenomeno X di interesse nella popolazione MA il corrispondente stimatore è distorto per Sigma² perché ha tendenza a sotto-stimare. Per ottenere uno stimatore non distorto basta dividere per (n-1) anziché n nel calcolo della varianza del campione e si ottiene la varianza campionaria corretta con i gradi di libertà. Stima della percentuale (frequenza relativa campionaria) = stima più naturale per l’ignota frequenza relativa p di soggetti classificabili nella categoria di interesse, cioè la corrispondente frequenza relativa del campione. È una v.c. binomiale in cui per ciascun soggetto estratto possiamo chiamare successo il fatto di essere classificabile nella categoria di interesse e insuccesso il fatto di essere non classificabile. Precisione o accuratezza di uno stimatore = misurare l’errore campionario associato all’inferenza nel processo di stima, cioè l’errore di stima. Errore Quadratico Medio MSE = errore totale dato dalla differenza fra X medio e Mu, tenendo conto di tutti i possibili campioni e facendo riferimento allo stimatore X medio. Se uno stimatore è non distorto, il suo MSE coincide con la varianza. Errore quadratico medio della media campionaria equivale alla sua varianza perché è uno stimatore non distorto. L’errore di stima della media campionaria è tanto maggiore quanto più grande è la varianza.

L’errore di stima della media campionaria è tanto minore quanto più è grande il campione. Standard error dello stimatore = stima dell’errore medio di stima. Lo SE è un numero calcolato sul campione che stima l’errore medio che si commette sostituendo all’ignoto parametro la stima calcolata sul medesimo campione.

Quarto parziale

Pro stima puntuale = è un metodo generale sempre applicabile ed è semplice. Contro stima puntuale = è difficile avvicinarsi e azzeccare l’ignoto valore del parametro (può dare una falsa impressione di precisione). A livello pratico l’errore medio di stima lo si può solo stimare con lo standard error Pro e contro stima intervallare = è meno precisa ma più affidabile, produce un insieme di possibili valori ragionevolmente sostituibili all’ignoto parametro. Intervallo di confidenza = è un intervallo di valori calcolato sui dati campionari, per il quale si può confidare, a un prescelto livello probabilistico, che contenga l’ignoto valore del parametro oggetto di stima. L’affidabilità della stima intervallare è quantificata con una probabilità. Condizioni per il calcolo degli intervalli di confidenza: A) Il fenomeno di interesse è ben interpretato da una v.c. Normale B) La numerosità del campione n è sufficientemente grande da potersi riferire al caso dei grandi campioni Tipologie di intervalli di confidenza:

  • Esatti (media) → variabile normale
  • Approssimati (media, percentuale)→ grandi campioni Cinque step per la costruzione di un IC per la media con popolazione normale e varianza nota:
  1. Estrazione di un campione bernoulliano di ampiezza n e ci si procura i dati campionari
  2. Si calcola la stima puntuale per Mu, cioè la media del campione
  3. Si decide il livello di precisione per la stima intervallare, si decide la probabilità di sbagliare Alfa, cioè di costruire un IC che non contiene Mu. Allora la probabilità di fare bene, cioè di costruire un IC che effettivamente contiene l’ignoto parametro Mu equivale a 1-Alfa. Di solito 90/95/99%
  4. Troviamo gli Z-score che sono l’area sotto le due code della campana. Si deve standardizzare X medio per ottenere la variabile casuale Z Normale standard di cui sappiamo calcolare la probabilità grazie alle tavole.
  5. Partendo dagli estremi dell’intervallo si sostituiscono i valori campionari e si ottiene l’Intervallo di Confidenza con il livello di confidenza scelto Cinque step per la costruzione di un IC per la media con popolazione normale e varianza ignota:
  6. Estrazione di un campione bernoulliano di ampiezza n e ci si procura i dati campionari
  7. Si calcolano le stime puntuali per Mu, cioè la media del campione e per la varianza campionaria corretta con i gradi di libertà
  • A parità di ampiezza campionaria n, un aumento del l.c. (1-Alfa) provoca una diminuzione di precisione
  • A parità di l.c. (1-Alfa), un aumento della numerosità campionaria n provoca un aumento della precisione Pianificazione di n per la stima della media e della percentuale = decidere quanto deve essere grande il campione per commettere un errore assoluto non superiore a un certo margine massimo tollerato. La variabilità di X su U è la fonte principale di incertezza da controllare. Si può utilizzare la formula solo se si dispone di informazioni ausiliarie a priori sulla variabilità del fenomeno X nella popolazione U di interesse. Verifica di ipotesi mediante i test statistici = contesto applicativo che permette di formulare un’ipotesi circa il valore dell’ignoto parametro in U. I dati campionari sono impiegati per stabilire se tale ipotesi è ragionevolmente accettabile o rifiutabile in termini probabilistici. Ipotesi statistica = è una congettura riguardante una qualche caratteristica statistica del fenomeno oggetto di studio nella U di riferimento. Tale congettura è formulata a priori, cioè prima di estrarre il campione. Ipotesi nulla = è la formalizzazione, cioè la traduzione in simboli e formule, dell’ipotesi statistica che abbiamo congetturato e che vogliamo sottoporre a verifica come un test statistico. Verifica di ipotesi = metodologia inferenziale che, a partire dai dati campionari, porta a decidere se rifiutare o meno l’ipotesi nulla, controllando probabilisticamente l’errore campionario. Errore di I specie = errato rifiuto → rifiutare una ipotesi nulla vera con probabilità Alfa Si sbaglia rifiutando l’ipotesi nulla quando sull’intera U di studio l’ipotesi nulla è vera, ma ci è capitato un campione che ci ha dato indicazione contraria. Errore di II specie = errata accettazione → accettare una ipotesi nulla falsa Si sbaglia accettando l’ipotesi nulla quando sull’intera U di studio l’ipotesi nulla è falsa, ma ci è capitato un campione che ci ha dato indicazione contraria. Z-test per la verifica di ipotesi su Mu per popolazione normale e varianza nota
  1. Estrazione di un campione bernoulliano di ampiezza n e ci si procura i dati campionari
  2. Si calcola la stima puntuale per p, cioè la frequenza relativa del campione
  3. Si sceglie la probabilità Alfa di sbagliare, cioè di commettere l’errore di I specie. Quindi la probabilità di fare bene è pari a (1-Alfa)
  4. Attraverso il calcolo degli Z-score si divide l’area sottesa alla curva in Zona di accettazione che racchiude i valori intorno allo 0 e Zone di rifiuto che includono i valori lontani da 0 corrispondenti alle due code della campana. I valori che identificano la soglia fra la zona di accettazione e la regione critica sono detti valori critici.
  5. Si determina il valore che la Statistica test assume sul campione che ci è capitato, chiamato valore sperimentale.
  1. Vedere se i dati campionari indicano di rifiutare o accettare H0 ipotesi nulla (controllare se il valore sperimentale cade nelle regioni critiche o nella zona di accettazione) T-test per la verifica di ipotesi su Mu per popolazione normale e varianza ignota
  2. Estrazione di un campione bernoulliano di ampiezza n e ci si procura i dati campionari
  3. Si calcolano le stime puntuali per Mu, cioè la media del campione e per la varianza campionaria corretta con i gradi di libertà
  4. Si sceglie la probabilità Alfa di sbagliare, cioè di commettere l’errore di I specie. Quindi la probabilità di fare bene è pari a (1-Alfa)
  5. Attraverso il calcolo dei T-score si divide l’area sottesa alla curva in Zona di accettazione che racchiude i valori intorno allo 0 e Zone di rifiuto che includono i valori lontani da 0 corrispondenti alle due code della campana. I valori che identificano la soglia fra la zona di accettazione e la regione critica sono detti valori critici.
  6. Si determina il valore che la Statistica test assume sul campione che ci è capitato, chiamato valore sperimentale.
  7. Vedere se i dati campionari indicano di rifiutare o accettare H0 ipotesi nulla (controllare se il valore sperimentale cade nelle regioni critiche o nella zona di accettazione) Test a una coda Si seguono i 6 step come nei casi precedenti, ma la zona di rifiuto è una sola, infatti si mantiene Alfa e non si divide in Alfa/2. Per verificare se il valore sperimentale cade nella zona di accettazione bisogna tener conto anche del verso della disequazione dell’ipotesi nulla. Il valore critico è positivo se H0 prevede “minore o uguale” ed è negativo se H0 prevede “maggiore o uguale”. Test approssimati per grandi campioni In mancanza della normalità della popolazione è necessario compensare con una quantità di dati campionari sufficientemente grande. Solo se il campione è sufficientemente grande possiamo applicare i TCL per ottenere risultati approssimati. Si usano sempre gli Z-score. Z-test per grandi campioni per la verifica di ipotesi sulla frequenza relativa p
  8. Estrazione di un campione bernoulliano di ampiezza n e ci si procura i dati campionari, che saranno dicotomici
  9. Si calcola la stima puntuale per p, cioè la frequenza relativa del campione
  10. Si sceglie la probabilità Alfa di sbagliare, cioè di commettere l’errore di I specie. Quindi la probabilità di fare bene è pari a (1-Alfa)
  11. Attraverso il calcolo degli Z-score si divide l’area sottesa alla curva in Zona di accettazione che racchiude i valori intorno allo 0 e Zone di rifiuto che includono i valori lontani da 0 corrispondenti alle due code della campana. I valori che identificano la soglia fra la zona di accettazione e la regione critica sono detti valori critici.