







Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Uno specchietto sui concetti fondamentali di statistica con formule. Anno accademico 2023-2024
Tipologia: Schemi e mappe concettuali
1 / 13
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!








Variabile Qualitativa : sono quelle che consentono la classificazione delle unità statistiche sulla base di alcuni attributi, caratteristiche o qualità. Variabile Quantitativa: sono quelle che forniscono una caratteristica numerica delle unità statistiche. Modalità: le singole caratteristiche delle variabili (quantitative e qualitative). Variabili discrete: variabili quantitative le cui modalità assumono un numero infinito o un’infinità numerabile di valori. Variabili continue: variabili quantitative le cui modalità assumono un numero infinito di possibili valori che non sono numerabili (misurate e non contate). Campionamento rappresentativo: se e solo se la scelta degli individui da campionare si basa sulla casualità piuttosto che sulla comodità. Campionamento non probabilistico: o di convenienza, è un campione nel quale gli individui inclusi nell’indagine sono selezionati in maniera non casuale. Campione casuale semplice: un campione di grandezza n è ottenuto attraverso il campionamento casuale semplice da una popolazione di grandezza N se ogni possibile campione di grandezza n ha una medesima probabilità di essere selezionato. Campione casuale con reinserimento: quando gli individui, una volta selezionati, vengono reinseriti nella popolazione in mod da poter essere scelti una seconda volta. Errore di campionamento: le tecniche usate per selezionare gli individui da includere nel campione tendono a favorire una parte della popolazione piuttosto che un’altra. Errore di sotto copertura: quando la lista di campionamento usata è incompleta o non rappresentativa della popolazione. Distribuzione di frequenze assolute: elenca tutte le tipologie di modalità, riportando, per ciascuna di esse, il corrispondente numero di occorrenze osservate. Distribuzione di frequenze relative: elenca ciascuna categoria o modalità assieme alla corrispondente frequenza relativa. Frequenza relativa: corrisponde alla proporzione o percentuale di osservazioni appartenenti ad una determinata categoria rispetto al totale delle osservazioni.
𝑓 (𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑎) 𝑁 (𝑠𝑜𝑚𝑚𝑎 𝑡𝑜𝑡𝑎𝑙𝑒 𝑓𝑟𝑒𝑞. 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑒) Frequenza cumulata: numero di variabilità statistiche che presentano una certa modalità o una di quelle precedenti (solo per variabili qualitative ordinali o quantitative discrete). Grafico a barre: uno dei sistemi più comuni per rappresentare graficamente i dati qualitativi-> sull’asse orizzontale si indicano le modalità e su quello verticale si rappresentano le frequenze assolute o relative-> le barre non si toccano l’una con l’altra. Grafico a barre unificate: quando si confrontano differenti insiemi di dati. Grafico a torta: utilizzati per presentare le frequenze relative di un carattere qualitativo, che può essere di tipo nominale o ordinale-> l’area di ciascun settore è proporzionata alla frequenza relativa della categoria corrispondente. Istogramma per dati discreti: si costruisce disegnando un rettangolo per ciascuna classe di dati-> altezza rettangolo rappresenta la frequenza assoluta/relativa della corrispondente classe di dati, mentre l’ampiezza è uguale per tutte le modalità ed è tale che i rettangoli si tocchino fra loro.
Classi: se i dati sono continui o discreti, ma le variabili assumono un numero sufficientemente elevato di valori differenti, allora i dati devono essere accorpati in un intervallo. ESCLUSO ---| COMPRESO Limite inferiore di classe: il più piccolo valore della classe. Limite superiore di classe: il più elevato valore della classe. Ampiezza di classe: pari alla differenza tra il limite inferiore di quella classe e il limite inferiore di quella successiva. Media aritmetica: avviene solo su dati quantitativi-> si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Media aritmetica di una popolazione ( ) : si calcola utilizzando tutte le unità della popolazione.
𝐾 𝑖= 1 Media aritmetica di un campione (x): media campionaria si calcola utilizzando le osservazioni del campione
𝐾 𝑖= 1 Mediana: avviene su dati quantitativi-> indica il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente (M). Mediana di un campione: ordinare i dati in ordine crescente; determinare il numero di osservazioni (n); determinare l’osservazione che occupa la posizione centrale nei dati-> se il numero di osservazioni che occupa è pari la mediana è la media delle due osservazioni centrali della distribuzione - > Mediana= media delle osservazioni che occupano le posizioni 𝑛 ⁄ 2 𝑒^
⁄ 2 +^1. Se il numero delle osservazioni è dispari, la mediana è il valore che occupa esattamente la posizione centrale della distribuzione =
⁄ 2. È possibile calcolare la mediana anche su dati qualitativi, ma devono essere misurati su scala ordinale. Moda: può essere calcolata per dati quantitativi e qualitativi indica l’osservazione che si presenta all’interno della distribuzione con la frequenza più alta. Distribuzione bimodale: quando i dati presentano due mode Distribuzione multimodale: quando una distribuzione ha tre o più valori che si presentano con la stessa frequenza più alta. Statistica robusta: quando una misura di sintesi non risulta particolarmente sensibile ai valori estremi (molto grandi o molto piccoli) di una distribuzione-> Moda/Mediana è robusta, mediano. Media, mediana e moda sono misure di tendenza centrale. Misure di dispersione: indica l’ammontare di dispersione della variabile-> grado di variabilità dei dati. Intervallo di variazione (Range, R): avviene su dati quantitativi è dato dalla differenza tra l’intensità (valore) più grande e l’intensità più piccola. R= intensità grande – intensità piccola È influenzato dai valori estremi della distribuzione-> non è robusto. Varianza: misura della distanza media di ciascuna osservazione dalla media aritmetica. Varianza della popolazione: è la somma delle deviazioni al quadrato dalla media della popolazione di uso per il numero di osservazioni nella popolazione, N
Quanto più variabile una distribuzione, tanto più alto sarà il valore assunto dall’intervallo interquartile. Outlier di una distribuzione: valori molto distanti da quelli che caratterizzano la distribuzione. Sintesi dei 5 numeri: coinvolge l’osservazione più piccola. Il primo quartile, la mediana, il terzo quartile e l’osservazione più grande. MIN 𝑄 1 M 𝑄 3 MAX Box Plot: costruzione di un grafico che usa la sintesi dei 5 numeri per descrivere la forma di una distribuzione (p.102). Variabile risposta o indipendente: indica la variabile i cui valori possono essere spiegati attraverso i valori della variabile esplicativa o indipendente. Diagramma a dispersione: è un grafico che mostra la relazione tra due variabili quantitative misurate sul medesimo individuo-> ciascun soggetto nel campione o nella popolazione è rappresentato da un punto nel diagramma a dispersione. Variabile concordante: se aumentando o diminuendo i valori di una variabile, aumentando o diminuiscono anche i valori dell’altra. Variabile discordante: se aumentando il valore di una variabile, diminuisce il valore dell’altra. Coefficienti di correlazione lineare: è una misura dell’intensità e della direzione della relazione lineare esistente tra le due variabili quantitative-> è sempre compreso tra - 1 e 1, estremi inclusi. Coefficienti di correlazione lineare di una popolazione (ρ) Coefficienti di correlazione lineate di un campione (r)
Se r =+1 allora esiste una perfetta relazione lineare positiva tra le due variabili; Se r =-1 allora esiste una perfetta relazione lineare negativa tra le due variabili; Se r = 0, o valori vicini, la relazione lineare è molto debole o nulla-> non implica l’assenza di relazione, ma solo relazione lineare; Più il valore di r si avvicina a +1 più forte diventa la concordanza tra le due variabili; Più il valore di r di avvicina a - 1 più forte diventa la discordanza tra le due variabili. Retta dei minimi quadrati: la retta che minimizza la somma degli errori o residui al quadrato
minimizza la somma dei quadrati della distanza verticale tra i valori y osservati e quelli previsti dalla retta y. Equazione di una retta ai minimi quadrati
𝒚
𝝈𝒚 𝒙𝒚
𝒙 y - > variabile di risposta o dipendente a - > è l’intercetta della retta ai minimi quadrati b - > è il coefficiente angolare o la pendenza della retta x - > variabile esplicativa o indipendente
La notazione y è utilizzata nelle rette ai minimi quadrati e ricorda che il valore che otteniamo corrisponde al valore di y previsto per un dato valore di x. Tabella di contingenza/a due vie: si riferisce a due variabili - > variabile di riga e di colonna. Cella: ogni casella all’interno della tabella; essa contiene la frequenza assoluta della categoria. Distribuzione marginale: è una distribuzione di frequenza della variabile di riga e di colonna nella tabella della contingenze. Per creare la distribuzione marginale di una variabile, occorre calcolare i totali di riga (o di colonna) per ogni categoria della variabile - > i totali delle righe rappresentano la distribuzione marginale di riga - > i totali delle colonne quella di colonna. Distribuzione condizionata: elenca la frequenza relativa di ogni modalità della variabile risposta (dipendente), dato un valore specifico della variabile esplicativa (indipendenti) nella tabella delle contingenze. Probabilità: misura della possibilità che un fenomeno casuale possa verificarsi - > descrive l’incertezza nel breve periodo di un risultato che nel lungo periodo è certo. Legge dei grandi numeri: all’aumentare del numero di ripetizioni di un esperimento probabilistico, la proporzione con la quale uno specifico risultato si osserva, tende ad essere più vicina alla probabilità di ottenere lo specifico risultato. Esperimento: qualsiasi processo dai risultati incerti che può essere ripetuto - > il risultato di ogni singolo tentativo dell’esperimento non è noto dall’inizio. Evento: insieme di risultati derivanti da un esperimento probabilistico - > può comprendere un unico risultato o più risultati - > indicheremo con “ e ”; gli eventi con un unico risultato, o eventi semplici - > in generale gli eventi sono indicati utilizzando lettere maiuscole come “ E ”. Eventi disgiunti: se i due eventi non hanno possibili risultati in comune mutualmente esclusivi.
La somma delle probabilità di tutti i possibili risultati (𝑒𝑖) di un evento E deve essere pari a 1. Evento impossibile: la probabilità che esso accada è pari a 0. Evento certo: la probabilità che esso accada è pari a 1. Calcolo della probabilità col metodo frequentista o empirico: la probabilità di un evento (E) è pari circa al numero di volte che l’evento E è stato osservato rapportato al numero di ripetizioni dell’esperimento.
Calcolo della probabilità co metodo classico: se un esperimento ha “n” possibili risultati equiprobabili e se il numero dei modi in cui un evento e può accadere è pari a “m” allora la probabilità di ottenere l’evento “E” è pari a:
Eventi indipendenti: due eventi E e F si dicono indipendenti se la probabilità che l’evento “E” accada non influenza la probabilità di accadimento dell’evento “F”. Eventi dipendenti: se la probabilità di accadimento dell’evento “E” influenza la probabilità di accadimento di “F”. Regola della moltiplicazione per eventi indipendenti
La deviazione standard della distribuzione campionarie di x, 𝜎𝑥 è detta Errore standard della media. Forma della distribuzione campionaria di x se x è normale: se una variabile casuale X è distribuita normalmente, la distribuzione della media campionaria (x) è anch’essa distribuita normalmente. Teorema del limite centrale: indipendentemente della forma della distribuzione un esame, la distribuzione campionaria di x si approssima alla normale al crescere della numerosità campionaria n. Frequenza relativa campionaria: è una statistica che stima la proporzione della popolazione, p
X è il numero di individui nel campione che hanno la particolare caratteristica. Distribuzione campionaria di p: per un campione casuale semplice di ampiezza n con frequenza relativa della popolazione La media della distribuzione campionaria di p è𝜇𝑝 = 𝑝;
𝑝( 1 −𝑝) 𝑛
Stima puntuale: è il valore di una statistica che fornisce il valore di un parametro - > la media campionaria, x, è una stima puntuale della media della popolazione . Intervallo di confidenza: per un parametro ignoro consiste in un intervallo di numeri. Livello di confidenza: con un elevato numero di campioni, rappresenta la proporzione prevista di intervalli che contengono il parametro oggetto di studio - > è indicato con:
Le stime degli intervalli di confidenza per la media della popolazione hanno la seguente forma STIMA PUNTUALE ± MARGINE D’ERRORE Margine d’errore: misura quanto è accurata la stima puntuale e dipende da tre fattori:
La media della distribuzione della media campionaria coincide con la media della popolazione->
La deviazione standard della media campionaria (errore standard) coincide con la deviazione
Procedura per calcolare il valore di una variabile casuale normale corrispondente ad una data percentuale, probabilità o percentuale:
La notazione 𝑍𝛼 è usata per rappresentare il valore di z tale che l’area sia . Valore critico della distruzione: è quel valore di z tale che alla sua destra/sinistra si trovi quel tot. % di area sotto la curva normale standard 𝑍𝛼 ⁄ 2. La tabella mostra alcuni dei valori critici maggiormente utilizzati nella costruzione degli intervalli di confidenza. Livello di confidenza Area in ogni coda 𝜶 ⁄𝟐^ Valore critico^ 𝒁𝜶 ⁄𝟐 90% 0,05 1, 95% 0,025 1, 99% 0,005 2, Interpretazione di un intervallo di confidenza: un intervallo di confidenza all’ (1-) ∙ 100% indica che l’ ( 1 - ) ∙ 100% di tutti i campioni casuali semplici di ampiezza “n” estratti da una popolazione il cui parametro è ignoto conterrà il parametro stesso. Costruire un intervallo di confidenza all’ (1- ) ∙ 100% per con noto: supponiamo che un campione casuale semplice di ampiezza “n” sia estratto da una popolazione con media non nota, e con deviazione standard nota, σ - > un intervallo di confidenza all’ (1-) ∙ 100% per è dato da
𝜎 √𝑛
𝜎 √𝑛^
L’ampiezza campionaria deve essere elevata (n ≥30) o la popolazione deve essere distribuita normalmente. L’ampiezza dell’intervallo è determinata dal margine d’errore. Margine d’errore (E): in un intervallo di confidenza all’ (1-) ∙ 100% nel quale σ è noto, è dato
𝜎 √𝑛 (n = ampiezza campionaria). Determinare l’ampiezza campionaria “n”: l’ampiezza campionaria richiesta per stimare per la media della popolazione con un livello di confidenza (1-) ∙ 100% in corrispondenza di uno specifico margine d’errore E è dato da
⁄ 2 ∙^ 𝜎
Distribuzione “t” di student: la statistica “t” rappresenta il numero di deviazioni standard che separano la media campionaria da - > la forma della distribuzione “t” dipende dall’ampiezza campionaria “n”.
2. Raccogliere le prove (i dati campionari) per verificare l’affermazione; 3. Analisi dei dati per verificare la plausibilità dell’affermazione. Ipotesi nulla ed ipotesi alternativa (sistema di ipotesi): Ipotesi nulla: indicato con 𝐻 0 , rappresenta l’affermazione che si vuole testare. L’ipotesi nulla è l’ipotesi di nessun cambiamento, nessun effetto o nessuna differenza, ed è ritenuta vera salvo venga smentita dalla prova campionaria; Ipotesi alternativa: indicati con 𝐻 1 , rappresenta l’affermazione che si cerca di sostenere attraverso una prova campionaria l’ipotesi nulla è l’affermazione di uno status quo oppure di nessuna differenza e contiene sempre un’affermazione di uguaglianza-> l’ipotesi nulla si assume vero fino a prova contraria si cerca la prova che possa sostenere l’ipotesi alternativa. **3 modi per formulare le ipotesi
STEP 2: selezionare un livello di significatività , basato sulla gravità do commettere un errore di I tipo; STEP 3: la distribuzione della media campionaria x è normale con media 𝜇 0 e deviazione standard 𝜎 √𝑛^
. Quindi
rappresenta la distanza della media Campionaria dalla media assunta 𝜇 0 , espressa in numero di deviazione standard. Questo valore è chiamato Statistica Test. STEP 4: il livello di significatività è usato per determinare il valore critico - > n° massimo di deviazioni standard, ossia la distanza tra la media campionaria e 𝜇 0 prima di rifiutare l’ipotesi nulla. La regione ombreggiata rappresenta la regione critica (o di rifiuto). La regione critica o di rifiuto è l’insieme dei valori per cui si rifiuta l’ipotesi nulla. Nel caso di test bidirezionale le regioni di rifiuto saranno due zone ombreggiate. STEP 5: Confronto del valore critico con la statistica test Bilaterale Unilaterale sx Unilaterale dx Se 𝑍 0 < - 𝑍𝛼 ⁄ 2 Se 𝑍 0 < - 𝑍 Se 𝑍 0 > - 𝑍 Se 𝑍 0 > 𝑍𝛼 ⁄ 2 Rifiuto ipotesi nulla Rifiuto ipotesi nulla Rifiuto ipotesi nulla Il confronto tra la statistica test e il valore critico è detto Regola di decisione. STEP 6: Formulare la conclusione Verificare le ipotesi riguardanti la media della popolazione utilizzano il p-value: per verificare le ipotesi riguardanti la media della popolazione con σ noto possiamo utilizzare i sei step seguenti a condizione che siano soddisfatti i due requisiti:
STEP 4: Determinare il p-value: Bilaterale p-value P (Z < - |𝑍 0 | o Z > |𝑍 0 |) = 2P (Z > |𝑍 0 |)) Unilaterale sinistro P (Z < 𝑍 0 ) Unilaterale destro P (Z > 𝑍 0 ) STEP 5: Rifiutare l’ipotesi nulla se il p-value è inferiore al livello di significatività - > il confronto fra la statistica test e il valore critico è detto Regola di decisione; STEP 6: Formulare la conclusione. Distinguere tra significatività statistica e significatività pratica: la numerosità campionaria elevata può determinare risultati statisticamente significativi, nonostante il fatto che la differenza tra la statistica e il parametro nell’ipotesi nulla non sia sufficiente per essere considerato significativo dal lato pratico. Verifica di ipotesi per la media della popolazion con σ non noto: sia il metodo classico che il metodo p-value alla verifica di ipotesi sulla media di una popolazione con σ non noto seguono
assumiamo sempre che l’ipotesi nulla sia vera-> quindi stiamo assumendo che la proporzione della popolazione sia 𝑝 0. Caratteristiche della distribuzione chi-quadrato ( 𝝌𝟐 )
Statistica test per il test di indipendenza: 𝝌𝟐^ = ∑
𝑘 𝑖= 1
Segue approssimativamente una distribuzione chi-quadrato con (r-1) (c-1) gradi di libertà. r= numero di righe; c= numero di colonne. A condizione che tutte le frequenze attese siano maggiori o uguali a 1 e non più del 20% delle frequenze attese sia inferiore a 5.