Scarica corso di statistica sociale e più Appunti in PDF di Statistica solo su Docsity!
STATISTICA
È la scienza che permette di raccogliere, presentare,
organizzare, analizzare le informazioni al fine di pervenire a una
o più conclusioni. Essa fornisce risposte specifiche a domande
di ricerca e una misura di probabilità associata ad ogni
conclusione raggiunta.
CENSIMENTO: dati sulla popolazione totale.
- (^) si utilizza un campione—> rappresentativo della popolazione Obiettivo fondamentale:
- variabilità (caratteristica delle popolazioni; se non ci fosse ci porremmo tutti su un valore medio—> come se fossimo tutti uguali-> la statistica non esisterebbe) dei fenomeni
- (^) l’ incertezza (si lavora con la probabilità) degli eventi ES. Cambiamento climatico-> entro quando potrebbe accadere con un certo margine di errore. Natalità: se il tasso è basso può avere delle conseguenze anche sul lavoro La statistica ti consente bene di vedere oggi per avere un certo livello di produzione. La statistica può essere di 2 tipi:
- (^) DESCRITTIVA: sintetizzare dati attraverso degli indici analitici, rappresentazioni tabellari e grafiche
- (^) INFERENZIALE: si parte da una conoscenza limitata di un fenomeno/del campione per ottenere informazioni sull’intera popolazione utilizzando dei modelli matematici di probabilità—> ottenere informazioni che non sono certe PROCESSO STATISTICO:
- Identificare obiettivo di ricerca-> in maniera precisa
- Raccogliere i dati per fornire una risposta alle domande (fase più critica del processo perché se è fatta male i dati non hanno più senso)
- Descrivere i dati
- Fare inferenza: generalizzare (usare i dati del campione per tutta la popolazione-> con un certo margine di errore) (BIG DATA: dati sulle modalità di consumo che vengono raccolti da delle società e rivenduti a carissimo prezzo alle aziende che producono oggi) DOMANDE DA PORSI:
- DA DOVE PROVENGONO I DATI?
- COME SONO STATI RACCOLTI? POPOLAZIONE: insieme di tutte le unità su cui cerchiamo informazioni, la popolazione N può essere grande o infinita CAMPIONE: n, sottoinsieme della popolazione che osserviamo realmente
UNITÀ STATISTICA : è ogni elemento del campione (persone) VARIABILE : ogni caratteristica di interesse che viene rilevata sul campione (analizzare) PARAMETRO : sintesi numerica della popolazione STATISTICA: sintesi numerica (media) del campione, è una misura del campione, fare inferenza, cerco di ottenere informazioni sul parametro della popolazione. Infatti scoprire il parametro di una popolazione è troppo costoso o addirittura impossibile se questa è infinita. OSSERVAZIONE : valore assunto (es. età presa in esame) dalla variabile relativo ad un unità statistica DATASET : insieme di tutti i valori (dati) di ogni variabile (es. età/numero) che è rilevata sugli elementi del campione (es. età—> nella classe ci sono 58 età diverse) MISSING VALUES : valori mancanti all’interno di un dataset
CAMPIONAMENTO: raccolta dei dati (non probabilistico/
affidabile)
- CASUALE SEMPLICE—> più importante, probabilistico (affidabile)
- (^) Usato per selezionare un campione di n oggetti da una popolazione in modo tale che ciascun campione sia scelto a caso e abbia le stesse opportunità di essere scelto
- (^) Procedimento che va a pescare le unità statistiche a caso—> è più probabile che sia un’eterogeneità di una popolazione
- (^) Può essere con reimmissione (avere sempre più probabilità di essere pescati) o senza, dipende da quanto è grande la popolazione
- CAMPIONE STRATIFICATO: si ottiene separando la popolazione in gruppi non sovrapposti chiamati strati e ottenendo in seguito un CCS (campionamento casuale semplice) da ogni strato. Gli individui all’interno di ogni strato dovrebbero essere omogenei rispetto a certe caratteristiche. - (^) Criterio di proporzionalità —> numero degli elementi per ogni campione deve essere proporzionale alla dimensione dello strato rispetto alla popolazione. (Es. valutazione sulle misure di sicurezza dell’università ci sono diverse tipologie di strati: uno sono gli studenti che vivono fuori dal campus, uno quelli che vivono dentro, tecnici, docenti; tot. 4 strati) Ci sono vantaggi evidenti per popolazioni eterogenee—> si assicura una partecipazione omogenea di ogni strato al campione finale La stratificazione riduce gli errori dovuti allo sbilanciamento (partecipazione insufficiente dei suoi elementi) del campione - CAMPIONE A GRAPPOLO: - (^) Per popolazioni molto vaste - (^) Gli elementi non vengono estratti uno alla volta ma per sottogruppi (grappoli) legati da criteri comuni (es. negozi di una certa zona) - (^) Meno affidabile di quello casuale semplice, ma è meno costoso
- (^) Risposte travisate (intervistatore la recepisce in maniera diversa)
- (^) Formulazione domande
- (^) Ordinamento domande e parole
- Errore legato all'inserimento dei dati: errori di distrazione (es. 69 può essere trascritto come 96)—> questionari cartacei Bisogna esprimere sempre bene i limiti della nostra ricerca. VARIABILE: caratteristica che andiamo ad analizzare sulla popolazione che può essere osservata o misurata (variabile quantitativa), assume almeno due valori (sesso, grado di istruzione, reddito) SCALA DI MISURA: per capire di che tipo di variabile mi sto occupando
- (^) Variabili qualitative (categoriali, possono essere ordinate una rispetto all'altra ma non hanno significato numerico):
- (^) Nominali: identificano delle categorie, ossia delle caratteristiche o qualità del soggetto (es. sesso, colore occhi..), le uniche operazioni matematiche sono quelle di uguaglianza: uguale o diverso Variabile Dicotomica è un particolare tipo di variabile nominale (es. sesso->quesito si/no)
- (^) Ordinali: possono essere messe in una relazione d’ordine o gerarchica (es. titolo di studio, grado di soddisfazione, scala cromatica di verdi); sono possibili le operazioni di maggiore o minore senza poter dire quanto un valore sia maggiore o minore di un altro
- (^) Variabili quantitative o numeriche: (es. reddito), vengono misurate sulla base di un’unità di misura, permettono di applicare le 4 operazioni aritmetiche( + - x : )
- (^) Discrete: assumono un numero finito o un'infinità numerabile di valori (es. numero di figli). Differenza tra discrete e ordinali: es. lesioni maligne (variabile numerica discreta) e stadi tumorali (variabile ordinale)
- (^) Continue: assumono un numero infinito di possibili valori che sono non numerabili all’interno di un intervallo definito, sono il risultato di una misura. Essere trasformata in una variabile discreta dividendo l'intervallo dei suoi possibili valori in due o più sottointervalli (es. età: <30, 30-60, >60) ESEMPIO INDAGINE SOCIALE:
- 20 famiglie—> unità statistica
- Stato civile—> variabile qualitativa nominale
- Grado di scolarità—>variabile qualitativa ordinale
- Numero di figli—> variabile quantitativa discreta
- Reddito—> variabile quantitativa continua RAPPRESENTARE I DATI: significa dare un’immagine di come si distribuiscono. Una distribuzione di frequenza elenca ogni categoria di dati e il numero di occorrenze osservate per ognuna delle categorie, noi possiamo solo ricavare la distribuzione di frequenza dalla variabile su un campione e descrivere questa distribuzione (statistica descrittiva)
Una volta che abbiamo analizzato il campione si può provare a montare un modello sopra il campione e vedere quanto è rappresentativo della popolazione (statistica inferenziale) I dati raccolti attraverso il questionario devono essere organizzati in una forma gestibile, i modi in cui possono essere organizzati i dati:
- (^) Tabelle
- (^) Grafici
- (^) Sintesi numeriche La distribuzione di frequenza elenca ogni categoria di dati e il numero di volte in cui la categoria si presenta. Es. colori M&M in una bustina (campione)
- ASSOLUTA: numero di volte che si presenta un certo dato
- RELATIVA: proporzione o percentuale di osservazioni appartenenti a una determinata categoria rispetto al totale dell’osservazione, si ricava facendo un rapporto tra il numero di osservazioni per una certa modalità con cui si esprime una certa categoria e il numero totale dell’osservazione ( frequenza assoluta)—> es. caramelle rosse sul totale delle caramelle, 12/45= frequenza relativa- 12/45x100= percentuale DIAGRAMMA A BARRE: È costruito indicando ogni categoria dei dati sull'asse orizzontale o verticale e la frequenza assoluta o relativa della categoria sull'altro asse, i rettangoli hanno stessa ampiezza mentre l'altezza rappresenta la frequenza della categoria DIAGRAMMA A TORTA: sottolinea la proporzione delle frequenze in ciascuna categoria, l'area di ciascun settore circolare è proporzionale alla frequenza corrispondente
Se n è pari, la mediana è la media delle osservazioni che occupano le posizioni n/ e n/2+ Es. voti di laurea (pari) Step 1: 62, 68,71,74,77,82,84,88,90, Step 2: n= 10 osservazioni Step 3: M= 77+82/2= 79. Es. numero di scarpe (dispari) Step 1: 37, 37,38,38,38,39, Step 2: n= Step 3: 7+1/2= 4—> quindi il numero da prendere è il 38 Media: sensibile ai valori estremi, stimatore non robusto Mediana: non è sensibile ai valori estremi
MODA : osservazione che si presenta all’interno di una distribuzione con la
frequenza + alta Le distribuzioni possono non avere moda, avere una sola moda o più di una moda Media: si usa quando i dati sono quantitativi e la distribuzione è simmetrica Mediana: si usa quando i dati sono quantitativi o qualitativi ordinali e la distribuzione di frequenza è asimmetrica Moda: si usa quando l’osservazione più frequente è la misura di tendenza centrale preferita o quando i dati sono qualitativi
MEDIA PONDERATA : quando alcuni dati hanno una maggiore importanza di
altri si calcola la media pesata Wi= peso della i-esima osservazione Xi= valore assunto dalla i-esima osservazione INDICI DI DISPERSIONE: servono per descrivere sinteticamente le distribuzioni statistiche quantitative
- (^) RANGE : è la differenza tra l'osservazione più grande e quella più piccola in un insieme di dati, deve assumere sempre valori maggiori di zero quindi dobbiamo considerare il valore assoluto
- (^) VARIANZA : è una misura della distanza media di ciascuna osservazione dalla media aritmetica Si basa sulla deviazione della media:
- Per una popolazione (Xi-μ)
- Per un campione (Xi-x̄) La somma di tutte le deviazioni dalla media è uguale a zero, per questo si usa la deviazione al quadrato (σ^2:minuscola del sigma)—> varianza della popolazione Risultato al quadrato: si fa la radice quadrata e si torna a una deviazione standard VARIANZA DEL CAMPIONE: (s^2) è la somma delle differenze al quadrato tra ciascuna osservazione e la media del campione divisa per la dimensione campione n-
GRADI DI LIBERTÀ: le prime n-1 osservazioni sono libere di assumere qualsiasi valore a differenza dell’n-esima osservazione
DEVIAZIONE STANDARD : è la radice quadrata della varianza della
popolazione o del campione—> vantaggi: a differenza della varianza è espressa nell’unità di misura originale
MISURE DI POSIZIONE: indicano la posizione relativa assunta da
determinati valori di una variabile nella distribuzione
- Z-SCORE: distanza di ciascun valore dalla media, modo di standardizzare la distribuzione delle osservazioni, si ottiene sottraendo la media dal valore della variabile e dividendo il risultato per la deviazione standard. Popolazione: z= Xi-μ/σ campione: z= Xi-x̄/s Non ha unità di misura, ha media 0 e deviazione standard 1
- Se un valore osservato è maggiore della media lo Z-score sarà positivo
- Se un valore osservato è minore della media lo Z-score sarà negativo
- (^) PERCENTILI : valore tale per cui il k per cento delle osservazioni cadono al di sotto di (o sono uguali a) esso, sono usati per indicare la posizione relativa occupata da un’osservazione, dividono una distribuzione ordinata in senso crescente in 100 parti—> 99 percentili, la mediana corrisponde al 50 percentile
- (^) QUARTILI : dividono una distribuzione in quarti (4 parti uguali) Primo quartile Q1: si trova nella posizione 0.25n Secondo quartine Q2: si trova nella posizione 0.50n Terzo quartale Q3: si trova nella posizione 0.75n Es. età di un campione di 18 studenti Q1—> 0.25x n= 0.25x18= 4.5-> 5 Q3—> 0.75x18= 13.5 o 9+5= 14 (mediana+ il primo quartile) Mediana= 9 —> n/2= 18/2; n/2+1= 9+1= 10
- (^) INTERVALLO INTERQUARTILE : contiene il 50% delle osservazioni centrali, è robusto ai valori estremi, è la differenza tra il terzo e il primo quartile IQR= Q3-Q1 es. 25-20=
- (^) OUTLIER : sono i valori estremi Origine: presenza casuale o risultato di errori durante la misurazione della variabile o in fase di immissione di campionamento Come controllare la loro presenza: Step 1: determinare il primo e terzo quartile Step 2: calcolare l’intervallo interquartile Step 3: determinare i limiti oltre i quali abbiamo gli outlier: Limite inferiore= Q1-1.5x(IQR) Limite superiore= Q3+1.5x(IQR) Se un’osservazione è più piccola del limite inferiore o più grande del limite superiore allora viene considerata un outlier
DIFFERENZA TRA CORRELAZIONE E CAUSALITÀ:
Causalità significa che una specifica azione porta ad una specifica conseguenza, quindi stabilire una relazione causale significa tracciare la relazione precisa tra l'intervento e risultato ottenuto. Come si stima effetto causale? Esperimento casuale controllato STUDIO CONTROLLATO RANDOMIZZATO: È controllato perché l'esperimento è condotto impiegando un control group (che non riceve il trattamento) oltre al treatment group È randomizzato perché il trattamento è assegnato in modo random e ciò garantisce che i due gruppi differiscano solo per la loro esposizione al trattamento Es. Nello studio delle dimensioni delle classi, possiamo immaginare di assegnare in modo random il trattamento “classi di dimensioni diverse” a diversi gruppi di studenti. In questo caso l'esperimento stimerebbe l'effetto sui punteggi del test dovuto ad una riduzione della dimensione della classe CORRELAZIONE: esistenza di una relazione associativa tra due variabili Due variabili possono presentare una forte correlazione in assenza di un rapporto di causalità nelle seguenti circostanze: 1.Entrambe le variabili sono collegate da un nesso di causalità con una terza variabile. 2.Entrambe le variabili si modificano nel tempo. 3.La correlazione è dovuta all’esistenza di diversi fattori che operano congiuntamente sulla variabile risposta 4.L’associazione può essere pura coincidenza A seconda del tipo di indagine distinguiamo fra:
- (^) Dati sperimentali: provengono da esperimenti fatti per valutare un trattamento o per investigare l'effetto causale
- (^) Dati osservazionali: raccolti usando questionari e archivi amministrativi EQUAZIONE GENERICA PER TROVARE UNA RETTA DATO UN PUNTO: y-yP=m(x-xP) RETTA DI REGRESSIONE LINEARE SEMPLICE: esprime la dipendenza in media della variabile dipendente Y dalla variabile indipendente X
b0—> intercetta b1—> coefficiente angolare: rapporto tra la variazione della variabile Y e della variabile X —> b1= Δy/Δx RETTA DEI MINIMI QUADRATI: minimizza la somma degli errori al quadrato, ossia la somma dei quadrati della distanza verticale tra i valori Y osservati e quelli previsti dalla retta ŷ Ŷ= b0+ b1Xi
b1= COV(X,Y)/VAR(X)= r Sy/Sx b0= ȳ-b1x̄ COEFFICIENTE DI DETERMINAZIONE: (R^2: valore compreso tra 0 e 1) misura la proporzione di variabilità totale della variabile risposta y che è spiegata dalla retta ai minimi quadrati (più è alto più la retta è in grado di spiegare la maggiore devianza totale possibile)
Da statistica descrittiva a statistica inferenziale
PROBABILITÀ:
La teoria della probabilità ci aiuta a valutare le probabilità degli eventi
- (^) Grado di fiducia che un individuo razionale attribuisce al verificarsi di eventi
- (^) Concetto chiave per la comprensione del caso
- (^) Tentativo di attribuire un valore numerico a un valore incerto ESPERIMENTO ALEATORIO: Descrive una situazione il cui esito è incerto:
- Giochi di sorte (lancio di una moneta, estrazione numero al lotto)
- Esperimenti di laboratorio (somministrazione di un principio attivo ad una cavia)
- Misurazioni fisiche (temperatura minima secondo il meteo)
- Fenomeni economici e sociali (PIL italiano tra 5 anni) SPAZIO CAMPIONARIO: Dato un esperimento aleatorio è l'insieme S di tutti i possibili risultati (punti campionari o eventi elementari) esaustivi e mutuamente esclusivi dell'esperimento Es. lanciando una moneta S= (T,C) Se l'esperimento aleatorio viene ripetuto k volte lo spazio campionario è dato dal prodotto: S x S x….x S k volte Es. lanciando 2 volte una moneta lo spazio campionario complessivo è: (T,C) x (T,C), I cui punti campionari sono TT, TC, CT, CC Esempi:
- (^) Un soggetto chiede finanziamento a una banca—> S= (concesso, rifiutato)
- (^) Estrazione di un numero al lotto—> S= (1, 2,…, 90) cardinalità finita
- (^) Numero di casi di influenza nel prossimo anno—> S= (0, 1, 2,…) cardinalità infinita numerabile
Es. lancio di un dado A: numero pari= (2, 4, 6) B: numero minore o uguale a 3= (1, 2, 3) Unione= (1,2,3,4,6) Intersezione= (2) Due eventi A e B sono:
- (^) Disgiunti quando A ∩ B=∅
- (^) Collettivamente esaustivi quando A U B= S PROBABILITÀ: valore compreso tra 0 e 1—> 0 (impossibile), 1 (certo) Proporzione con cui un evento si realizza tra tutti i possibili risultati Distribuzione della probabilità: individuo mette insieme tutti i risultati degli eventi possibili Approcci per determinare il valore della probabilità:
- Classico
- Frequentista
- Soggettivo APPROCCIO CLASSICO: equa probabilità che gli eventi accadano, rapporto tra numero di casi favorevoli e numero di casi possibili Es. lancio di una coppia di dadi:
- Probabilità di ottenere 7—> 6/36= 1/
- Probabilità di ottenere 2—> 1/ APPROCCIO FREQUENTISTA: Quando si osserva una serie di prove e si assume che esse siano ripetizioni indipendenti e in identiche condizioni di un certo esperimento aleatorio Numero di prove in cui si è verificato E / numero totale di prove Es. lancio di un dado A: numero pari= (2,4,6) Esperimento aleatorio è ripetuto 50 volte, in 23 delle quali è uscito numero pari e quindi si è verificato A—> P(A)=23/50= 0, Esperimento aleatorio è ripetuto altre 50 volte, in 26 delle quali l'evento si verifica —> (23+26)/(50+50)= 0, Al crescere del numero di prove la stima diventa sempre più precisa
- (^) Spesso non è giustificabile nelle situazioni reali perché si basa su ripetizioni indipendenti e in identiche condizioni
- (^) In statistica è molto usato perché il campionamento è un processo aleatorio che si svolge in modo controllato APPROCCIO SOGGETTIVO:
- (^) Grado di fiducia che un individuo razionale attribuisce al verificarsi di un evento evento
- (^) Si verifica quando si pone l'individuo di fronte ad un'operazione di scommessa chiedendo quanto è disposto a puntare nel caso in cui l'evento in questione si realizzi
- (^) Si può usare sempre ma è davvero importante quando gli approcci classico e frequentista non sono utilizzabili perché:
- Lo spazio campione S non è costituito da un insieme finito di punti equi probabili —> l'approccio classico è inutilizzabile
- Non si dispone di osservazioni indipendenti e in identiche condizioni—> l'approccio frequentista è inutilizzabile Es. qual è la probabilità che la Fiorentina vinca la prossima partita? DEFINIZIONE ASSIOMATICA DELLA PROBABILITÀ: Dal punto di vista matematico la probabilità è una funzione d'insieme P definita nello spazio campione S con le seguenti proprietà (assiomi):
- La probabilità che un evento accada, P(E), deve essere maggiore o uguale a 0 e minore uguale a 1
- La somma delle probabilità di tutti i possibili risultati di un evento E deve essere uguale a 1 CONSEGUENZE DEGLI ASSIOMI:
- P(∅)=
- Se A U B=S allora P(A U B)=
- Se A ∩ B=∅ allora P(A U B)= P(A)+P(B) La definizione assiomatica non prescrive un metodo per assegnare la probabilità agli eventi, si limita a fornire regole per fare calcoli con probabilità una volta assegnate. REGOLA DELLA SOMMA PER EVENTI DISGIUNTI: Se A e B sono incompatibili—> P(A U B)= P(∅)=0, si ha P(A ∩ B)= P(A)+P(B) Es. si sceglie una carta dentro un mazzo di 52 carte:
- Probabilità di estrarre un re (E)—> 4/52=1/
- Probabilità P(A)=P(E U F), dove F=estrarre una regina—> 1/13+1/13= 2/
- Probabilità P(B)=P(E U F U G), dove G=estrarre un jack—> 3/ REGOLA GENERALE DELL’ADDIZIONE: Per due qualsiasi eventi non disgiunti A e B la probabilità dell'unione di due eventi: P(A U B)= P(A)+P(B)-P(A ∩ B) Es. si sceglie una carta dentro un mazzo di 52 carte
- Probabilità di estrarre un re (E)—> 4/
- Probabilità di estrarre una carta di quadri (F)—> 13/
- Probabilità P(A)=P(E U F)—> 4/52+13/52-1/52=16/52=4/ REGOLA DELL’EVENTO COMPLEMENTARE: Se A rappresenta qualsiasi evento e A’ rappresenta il complemento di E allora: P(A’)=1-P(A) ovvero P(A)+P(A’)= Es. 52 carte A: carta è un asso B: carta è rossa P(NON asso)=1-P(asso)=1-4/52=48/
Dominio: sottoinsieme di R (numeri reali) Es. distinzione tra variabili casuali discrete e continue a) Il numero di lampadine che si bruciano in una stanza con 10 lampadine nel prossimo anno—> discreta b) Il numero di foglie di una quercia scelta a caso—> discreta c) Il tempo trascorso tra una chiamata e l'altra al 911—> continua Es. la V.C. X può assumere valori da 0 a 3 Il Valore X=0 è associato al solo evento elementare CCC—> P(X=0)= 1/ Tabella-> funzione di probabilità FUNZIONE DI PROBABILITÀ: Schema con cui si associano ai valori di X i livelli di probabilità—> distribuzione di probabilità Per una V.C. discreta X avente K valori, la distribuzione è rappresentata da 𝑥1,𝑥2,...,𝑥k che sono i possibili valori della variabile casuale e 𝑝1, 𝑝2,…,𝑝k le rispettive probabilità: F(x)= P(X=x), x= x1,x2,…,xk
- (^) Assume valore compreso tra 0 e 1-> primo e secondo quadrante; x può assumere valori negativi, ma le probabilità sono sempre positive
- (^) Somma di tutte le probabilità è uguale a 1 FUNZIONE DI RIPARTIZIONE: descrive la variabile aleatoria Si ottiene associando ad ogni valore x la somma delle probabilità corrispondenti a x e a tutti i valori inferiore F(x)= P(X< x)
- 𝐹(𝑥) è definita per qualsiasi 𝑥 dell’intervallo (−∞, +∞)
- 0 ≤ 𝐹(𝑥) ≤ 1
- Se a<b allora 𝐹(𝑎) ≤ 𝐹(𝑏)
- Definita nell’insieme dei numeri reali Es. Slide 20 x<1—> f(x)= 1 < x< 2—> f(x)=0.2=f(1) 2 < x< 3—> f(x)= 0.45= f(1)+ f(2) MEDIA O VALORE ATTESO: 𝜇 Media che ci attendiamo di trovare su un gran numero di prove VARIANZA: 𝜎^
- Sempre positiva
- Nulla solo quando assume un valore con probabilità 1
- Radice quadrata della varianza è la deviazione standard
FUNZIONE DI DENSITÀ:
Una variabile casuale X è detta continua se esiste una funzione 𝑓(𝑥) tale che la funzione di ripartizione 𝐹(𝑋) = P(X ≤ 𝑥) è data dall’area sottesa a 𝑓(𝑥) a sinistra di 𝑥
- Non può assumere valori negativi (grafico deve essere al di sopra dell’asse orizzontale)
- L’area totale sottesa alla funzione è pari a 1
- Calcola la probabilità che la v.c. assuma un valore compreso all’interno di un intervallo
- Ci possono essere 3 funzioni di densità di probabilità:
- (^) Normale
- (^) Uniforme
- (^) Esponenziale VARIABILI CASUALI CONTINUE:
- Alcuni tipici fenomeni sono l’altezza, peso, tempo necessario per servire cliente in negozio VARIABILE DI BERNOULLI: Il risultato X di un esperimento casuale può essere classificato:
- (^) Successo =1—> p
- (^) Insuccesso =0—> 1-p (evento complementare)
- Il valore p è il parametro della v.c. di Bernoulli
- Si indica con X~𝐵𝑒𝑟 ( p)
- Valore atteso è: E(X)= p
- Varianza: VAR(X)= p(1-p) VARIABILE ALEATORIA BINOMIALE: Se io ripeto n volte un esperimento bernoulliano, quante volte (x) su n ripetizioni otterrò un evento “successo”? Qual è la probabilità di un certo numero di successi per n prove? Passaggi:
- Bisogna individuare numero di sequenze ordinate in cui i successi si verificano su n prove: con n= numero di prove e x= numero di successi, questo numero è dato dal coefficiente binomiale
- A questo punto si può calcolare la probabilità
Risultato: mi dice quanto il valore è deviante in media rispetto alla media della popolazione La distribuzione normale standardizzata si usa per facilitare il calcolo La distribuzione normale descrive la realtà di molti fenomeni Es. Z=0 Z=1. P(1.96)-P(0)= 0.975-0.5=0. Se vogliamo calcolare l’area a dx di z-> 1-0.975=0. MEDIA CAMPIONARIA: variabile aleatoria Stimatore non distorto (corretto, valore atteso dell’errore di stima è nullo) del parametro della media della popolazione, in alcuni campioni sovrastima, in altri sottostima, ma nell’insieme dei campioni sovrastime e sottostime si compensano, per cui lo stimatore non ha una tendenza sistematica né alla sovrastima né alla sottostima Interessa sapere con che margine di errore le stime si approssimano al parametro Posso avere diverse stime della popolazione che si ottengono attraverso uno stimatore DISTRIBUZIONE DELLA MEDIA CAMPIONARIA: 𝑥̅ Distribuzione di probabilità associata a tutti i possibili valori della variabile casuale 𝑥̅ calcolati in corrispondenza di un campione di ampiezza n estratto da una popolazione con media 𝜇 e deviazione standard 𝜎 Come si ottiene?
- (^) Step 1: ottenere campione casuale semplice di ampiezza n
- (^) Step 2: calcolare media campionaria
- (^) Step 3: ripetere step 1 e 2 fino ad ottenere un certo numero di campioni (con diversi valori) Informazioni sulla distribuzione campionaria:
- Forma: è normale se la popolazione è normale, è approssimativamente normale se la popolazione non è normale ma l’ampiezza campionaria è elevata (n≥30)
- Media: coincide con la media della popolazione
- Deviazione standard: dipende dalla numerosità del campione (n) e coincide con la deviazione standard della popolazione divisa per la radice quadrata dell’ampiezza campionaria—> 𝜎/√ n
TEOREMA DEL LIMITE CENTRALE:
Indipendentemente dalla forma della popolazione, la forma della distribuzione della media campionaria diventa normale all’aumentare della dimensione campionaria n DISTRIBUZIONE DELLA FREQUENZA RELATIVA: 𝑝̂= x/n Dove x è il numero di individui nel campione che hanno una certa caratteristica La frequenza relativa campionaria è una statistica che stima la proporzione della caratteristica nella popolazione p
- Forma—> 𝑛𝑝 (1 − 𝑝) ≥ 10
- Media—> p
- Deviazione standard—> √ p(1-p)/n 𝑛𝑝 (1 − 𝑝) ≥ 10 𝑛 ≤ 0,05𝑁 (minore o uguale al 5% della numerosità della popolazione) Queste condizioni devono essere entrambe verificate perché lo stimatore non sia distorto-> quando si estrae: nell’osservazione si deve avere la stessa probabilità di estrazione per quella successiva STATISTICA INFERENZIALE: Obiettivo-> utilizzare le informazioni ottenute da un campione ed estendere i risultati alla popolazione oggetto di studio
- (^) Campionamento: modalità di estrazione del campione della popolazione
- (^) Inferenza: processo di generalizzazione per il quale i risultati ottenuti su un campione vengono estesi alla popolazione Inferenza statistica -> usare statistiche per stimare parametri incogniti nella popolazione, porta a conclusioni incerte (la stima non coincide con il parametro obiettivo), quantifica l'incertezza associata al processo induttivo STIMA PER INTERVALLO: Obiettivo-> quantificare l’incertezza derivante dalla variabilità campionaria, cioè il fatto che la stima varia a seconda del campione estratto Non interessa la stima del singolo campione, ma come varia da campione a campione Un modo per quantificare l’incertezza (capire con che margine di errore noi approssimiamo) è quello di associare alla stima puntuale (es. 𝑥̅= 10) un intervallo-> intervallo di confidenza (intorno, IC) che contenga il parametro da stimare con una probabilità controllata, detta livello di confidenza-> 1−α