























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa dei concetti fondamentali della statistica, spaziando dalla distinzione tra variabili univariate e multivariate alle tecniche di statistica descrittiva e inferenziale. Approfondisce le relazioni tra variabili, lineari e non lineari, e le tipologie di variabili categoriali. Concetti chiave come scarto quadratico medio, z-score, funzioni di probabilità e densità, culminando nella distribuzione normale e nel teorema del limite centrale. Vengono inoltre trattati gli intervalli di confidenza, la verifica di ipotesi e l'ampiezza del campione, fornendo una solida base per l'analisi statistica. Il documento si conclude con un'analisi degli errori di i e ii tipo e delle verifiche di ipotesi su proporzioni e varianze, offrendo una guida completa per lo studio della statistica.
Tipologia: Schemi e mappe concettuali
1 / 31
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
























o 30 domande (per ogni domanda sono previste 4 opzioni di risposta e solo una è quella vera
o corretta)
Per ogni risposta corretta > 1 Punto
Per ogni risposta sbagliata > -0,25 punti
Per ogni risposta mancante > 0 punti
*Il punteggio complessivo viene poi trasformato in una valutazione su una scala
decimale (da 1 a 10) in modo proporzionale.
o DURATA: 40 min
o 3 esercizi da svolgere in aula (gli esercizi riguardano distribuzioni di frequenza,
probabilità ed intervallo di confidenza)
*La prova è unica e indivisibile. Alla prima parte vengono assegnati 10 punti e alla seconda parte
20 punti. il voto finale deriva semplicemente dalla somma dei punteggi acquisiti in ciascuna delle
due. Tuttavia alla seconda parte (ESERCIZI) si potrà accedere avendo acquisito almeno un
punteggio di 6/10 nella prima. Per lo svolgimento degli esercizi si potrà chiedere di utilizzare un
foglio elettronico. Gli studenti che avranno acquisito un punteggio complessivo di 29/30 o 30/
possono chiedere un’ integrazione orale per il miglioramento della valutazione o il conseguimento
della lode.
- Durante il corso verranno proposte delle esercitazioni che saranno obbligatorie per potere
accedere all’esame finale.
o Le esercitazioni potranno prevedere solo una valutazione formativa a campione.
- CAPITOLO 5: DISTRIBUZIONI DI PROBABILITÀ E VARIABILI ALEATORIE DISCRETE (escluso
paragrafo 5.5)
- CAPITOLO 8: PROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE (escluso paragrafo 8.4) - CAPITOLO 9: PROBLEMI DI STIMA: ULTERIORI ARGOMENTI (solo paragrafi 9.1 e 9.2) - CAPITOLO 10: VERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE (escluso paragrafo 10.4) - CAPITOLO 11: VERIFICA DI IPOTESI: ULTERIORI ARGOMENTI (escluso paragrafo 11.2)
Definizione
comprensione di uno o più fenomeni, singolarmente o congiuntamente considerati, che si
presentano nella realtà con un insieme di diverse manifestazioni, osservabili totalmente
o parzialmente.
Etimologia
constatazione per cui le prime informazioni su fenomeni reali sono state raccolte ed
organizzate ad opera degli organismi statali che ne erano anche i principali utilizzatori.
Storia
1. Le tracce più antiche di rilevazioni statistiche ufficiali risalgono ai Sumeri ( IV-II
millennio a.c ).
2. Nell'antico Egitto ci sono testimonianze di una attiva misurazione quantitativa dei
fenomeni sociali e della venerazione di una dea dei libri e dei conti.
3. Fa parte della Bibbia il “Libro dei Numeri”, dove si parla anche del censimento di Mosè
su ordine divino.
4. Ci sono prove di rilevazioni statistiche ufficiali nell'antica Cina (2238 AC) e
naturalmente nell'antica Roma (Madonna non partorì a casa sua a Nazareth (in
Galilea), ma in una stalla sulla strada per Betlemme (in Giudea) dove stava andando
per registrarsi al censimento di Augusto).
5. La fase metodologica si fa inziare con A. Quetelet (1796-1874) a cui dobbiamo
l'unificazione sotto un'unica visione di diversi ambiti di ricerca riconducibili alla
Statistica (la demografia, la teoria degli errori accidentali e il calcolo delle probabilità).
E' da questo momento che la statistica si caratterizza come metodo scientifico.
6. I metodi e i concetti su cui si fonda il moderno ragionamento statistico appaiono nel
XX secolo (con i contributi classici di Pearson, Fischer, Gosset, Neyman, Gini, Chisini, De
Finetti, etc.)
7. Dall ’inizio del ‘900 anche la Fisica si fa Statistica! 8. Dal dopoguerra la Statistica entra come supporto metodologico alla ricerca e alla
pratica in ogni ambito di ricerca scientifica: chimica, biologia, ingegneria, medicina,
psicologia e... molto recentemente nell’educazione.
Legge dei Grandi Numeri e Indipendenza Statistica
esperimento, che tende all’infinito, la probabilità di un determinato evento tende a coincidere
con la sua frequenza.”
“Sulla ruota di Venezia da tre anni non esce il 56, quindi lo gioco, per la legge dei
grandi numeri ci sono buone probabilità che esca”
La Legge dei Grandi Numeri ci dice che in un numero molto grande di prove
(tendenti all’infinito) il 56 uscirà circa con una frequenza di 1/90! Ma
Rispetto alle tecniche di calcolo
o Analitica
o Computazionale
Rispetto alle definizioni
o Frequentista (basa il concetto di probabilità sulla frequenza con cui si verificano gli eventi)
o Bayesiana (introduce all’interno della probabilità anche le aspettative soggettive della
persona che sta facendo delle indagini; si parte dalla conoscenza a priori)
Rispetto al tempo
o Time dependent > Time Series (il bollettino quotidiano di infezione
o Time Indipendent
o Statistica : è una caratteristica del campione (es. la media età di un campione della
popolazione).
o Parametro : è una caratteristica specifica della popolazione (es. la media età della
popolazione).
o Affidabilità statistica: è il grado di sicurezza associato all’intervallo entro il quale si
presume cada il valore sconosciuto dell’universo rispetto al valore ottenuto dal campione.
o Popolazione: è l’insieme completo di tutte le unità oggetto di studio. Si indica con N e può
avere valore molto grande o infinito; l’insieme degli oggetti che vogliamo studiare.
Nomi di tutti gli elettori registrati in Italia
Reddito di tutte le famiglie con residenza nella città di Reggio Emilia
Numero di CFU conseguiti da tutti gli studenti di UNIMORE
o Il campione : è il sottoinsieme delle unità osservate nella popolazione e la sua dimensione
viene indicata con n.
Quanti campioni esistono in una popolazione? Non sono infiniti, ma possono essere
tanti (calcolo combinatorio per determinare i campioni che si possono estrararre da
una popolazione)
Da ogni campione possiamo misurare statistiche diverse
o Campionamento casuale semplice (o bernoulliano) : è il procedimento utilizzato per
selezionare un campione di n oggetti da una popolazione, in modo che ciascuna unità della
popolazione sia scelta rigorosamente a caso e abbia le stesse opportunità di essere scelta;
è la modalità più efficace per scegliere un campione.
Differenti campionamenti casuali possono essere estratti dalla popolazione
o Campionamento sistematico: prevede di selezionare regolarmente un oggetto all’interno
di una spefica sequenza.
Posizionamento casuale
o Campionamento stratificato per celle : è una tecnica in cui la popolazione viene suddivisa
in “celle” rappresentanti ottogruppi omogenei per determinate caratteristiche.
Un campione viene costruito rappresentando la stessa struttura delle “celle” della
popolazione o mediante un campionamento casuale per ogni singola cella o mediante un
campionamento sistematico per ogni singola cella.
Le fasi di un indagine statistica
1. Acquisire i dati 2. Processare i dati
3. Sintetizzare (summizare) i dati 4. Analizzare i dati 5. Interpretare i dati
*Dati, informazioni e conoscenze
Modalità
Come acquisire i dati:
o Costruire ed erogare un questionario (survey)
o Attendibilità del campione
o Significatività e rappresentatività del campione
o Reperirli da fonti
o Attendibilità della fonte (non è detto che una fonte attendibile produca dati
statisticamente attendibili)
o Attendibilità statistica
Fonti
o Il tema dell’attendibilità della fonte
o Fonti istituzionali : Eurostat, Istat, Istituti Statistici territoriali, Istituti Scientifici, Enti/Servizi
Amministrativi
o Dati amministrativi, Censimenti e Indagini campionarie
o Facebook NON è una fonte attendibile!
o I giornali NON sono una fonte attendibile (spesso)!
Questionari
La costruzione di un questionario è una scienza in sè che, tuttavia richiede un attento disegno
sperimentale e una profonda conoscenza del fenomeno;
MODI PER SOMMINISTRARE UN QUESTIONARIO (Survey)
o Cartacei
o On-line (Google Forms, SurveyMonkey, LimeSurvey
*Che differenza c’è tra Survey e Poll? (il termine survey fa riferimento a più di una domanda, di
solito anche a scelta multilpla, mentre il poll fa riferimento ad una domanda posta alle persone, di
solito con scelta multipla.
Decidere in condizioni di incertezza
Descrizione grafica dei dati
Rappresentazioni grafiche per descrivere variabili categoriali (o qualitative)
La colonna di sinistra (che contiene le modalità o classi di misura) comprende tutte le possibili
risposte relative alla variabile oggetto di studio, la colonna di destra contiene l’elenco delle
frequenze (numero di osservazioni) per ogni classe.
*Distribuzione di frequenza relativa
*Distribuzione di frequenza assoluta
- Diagrammi a barre : miglior tipo di gragico per confrontare due serie di dati categorici - Diagrammi a torta: visualizzare le distribuzioni di un’unica variabile
difettosità.
diagramma è utilizzato per separare le “poche cause rilevanti” dalle “numerose cause
irrilevanti”.
*Ordine decrescente
Rappresentazioni grafiche per descrivere serie storiche :
Grafico lineare per punti : si considera come asse orizzontale l’asse del tempo e l’asse verticale
come l’asse delle quantità numeriche oggetto della misurazione. Il grafico si ottiene
congiungendo i vari punti con una linea spezzata.
Rappresentazioni grafiche per descrivere le variabili numeriche (quantitative)
contiene le modalità o classi di misura) comprende tutte le possibili risposte relative alla
variabile oggetto di studio, la colonna di destra contiene l’elenco delle frequenze (numero di
osservazioni) per ogni classe.
o In questo caso bisogna seguire alcune regole per costruirla:
o Regola 1) il numero di classi si decide in modo arbitrario
o Regola 2) ampiezza delle classi: si calcola ampiezza (w) = (valore massimo – valore
minimo) / numero di classi
o Regola 3) classi collettivamente esaustive e mutuamente esclusive: cioè senza
sovrapposizioni. Esempio se facciamo la classe 20-30 e 30-40, il 30 dove lo mettiamo?
- Distribuzione delle frequenze relative: è ottenuta dividendo ciascuna frequenza per il numero
complessivo delle osservazioni: la somma delle frequenze relative è 1.
- Distribuzione delle frequenze percentuali: si ottiene moltiplicando le frequenze relative per
- Distribuzione delle frequenze cumulat e: si ottiene sommando alla frequenza della classe
corrente le frequenze di tutte le classi precedenti.
- Distribuzione delle frequenze relative cumulate : si ottiene sommando alla frequenza relativa
della classe corrente le frequenze relative di tutte le classi precedenti.
- Distribuzione delle frequenze percentuali cumulate: si ottiene moltiplicando per 100 le
frequenze relative cumulate.
- Istogramma: è un grafico composto da rettangoli verticali adiacenti - Ogiva: anche chiamata curva delle **frequenze cumulate
I dati sono raggruppati secondo le loro cifre più significative (i rami), mentre le cifre meno
significative di ogni osservazione (le foglie) sono elencate a destra di ogni ramo,
separatamente ed in ordine non decrescente.
- Scatter plot: ci consente di rappresentare congiuntamente due variabili
Rappresentazioni per descrivere relazioni tra variabili :
Diagramma a dispersione: viene usato per verificare l’eventuale relazione tra variabili
quantitative.
Tabelle a doppia entrata: elenca la frequenza delle osservazioni per ogni combinazione di classi
di misura di due variabili.
Tabella di contingenza: quando entrambe le variabili sono qualitative.
l’osservazione Q3, terzo quartile (o 75-esimo percentile) e l’osservazione Q1, primo quartile (o
25-esimo percentile).
*Enfasi nei valori centrali
Quindi: IQR = Q3 – Q
2
è la somma delle differenze, al quadrato, tra ciascuna osservazione e la media
della popolazione, divisa per la dimensione della popolazione.
usati dati sporchi.
σ
2
= (^) ∑
i = 1
N
( xi – μ )
2
sulla popolazione (^) s
2
= (^) ∑
i = 1
x
( xi – x )
2
n − 1
sul campione
radice quadrata della varianza.
*Se è grande i dati sono dispersi; se è piccola i dati sono concentrati
*Misura più comunemente usata nel calcolo
*Ha la stessa unità di misura dei dati, mentre la varianza no perché è al quadrato
***** Ogni osservazione viene usata nel calcolo; non è così svantaggioso perché potrebbero essere
usati dati sporchi.
σ =√ σ
2
sulla popolazione (^) s = √ s
2
sul campione
σ
μ
della media (purchè la media non sia nulla).
σ
x 100% con σ ≠ 0 coefficiente di variazione della popolazione
x 100% con σ ≠ 0 coefficiente di variazione del campione
k > 1 , la percentuale di osservazioni che appartengono all’intervallo ( μ − k σ ; μ + k σ ) è: almeno
100[1-(1/ k
2
)]%
o K=1 55.6%
o K=2 75%
o K=3 89%
o K=1 68%
o K=2 95%; ( μ − 2 σ ; μ + 2 σ ): è uno degli intervalli più utilizzati
o K=3 99.7%
*Dove k rappresenta il fattore moltiplicativo dello scarto quadratico medio.
*È indipendente da come i dati sono distribuiti
indica il numero di deviazioni standard che separano il dato dalla media della distribuzione.
z= =
Xi − μ
σ
o Se è positivo il valore dell’osservazione è più grande della media; se è negativo il valore
dell’osservazione è minore della media; se è 0 il valore dell’osservazione è uguale alla
media.
Misure di sintesi per dati raggruppati
w 1 x 1 + w 2 x 2 + … + wnxn
w 1 + w 2 + … + wn
con wi = peso dell’ i-esima osservazione.
Misure delle relazioni tra variabili
o Un valore positivo indica una relazione diretta o positiva e un valore negativo indica
una relazione inversa o negativa; se la covarianza è 0 le due variabili sono indipendenti.
*La covarianza non ci dà una relazione causale tra due variabili
Cov (x, y) = σ^ x , y
∑
i = 1
N
x i
− μ
y i
− μ
Covarianza della popolazione
Cov (x, y) = s x , y
∑
i = 1
n
i
i
n − 1
Covarianza campionaria
prodotto degli scarti quadratici medi delle due variabili.
*È un numero puro
*Ha valori tra -1 e +
*Più ci avviciniamo a -1 più avremo una dipendenza lineare negativa
*Più ci avviciniamo a 0 più debole è la dipendenza lineare positiva o negativa
p =
Cov ( x , y )
σ x
σ y
coefficiente di correlazione lineare della popolazione
r =
Cov ( x , y )
s x
s y
coefficiente di correlazione lineare del campione
Esempio:
o r=-1; retta decrescente
o r= -0,6 retta decrescente, ma non riesce ad intercettare tutti i dati; riesce però a
descriverne un andamento
o r=
o r=+1 retta crescente
o r=+
2
= (^) r
2
Termini importanti
risultati senza che si possa prevedere quale di questi si realizzerà.
Non sappiamo quale sarà l’esito (outcome).
o Es. lancio una moneta
o Es. Lancio di un dado
elementari e l’insieme degli eventi elementari è chiamato spazio campionario : per indicare lo
spazio campionario si usa S.
o Es. E: < 4
o Es. E: numero pari
sono detti mutuamente esclusivi (o incompatibili) e la loro intersezione è impossibile.
elementari appartenenti a S ma non ad A viene detto complementare di A ed è indicato con A.
La probabilità ed i suoi assiomi
totali.
*Probabilità che un certo evento accaada
*SECONDO POSTULATO: la probabilità che si verifica un evento è uguale alla somma delle
probabilità che si verifichino i singoli esiti.
*TERZO POSTULATO: la probabilutà che si verifichi un evento dello spazio campionario è 1.
Definizione classica di probabilità: tutti gli esiti siano equi-probabili
Probabilità frequentista: è la frequenza relativa (funziona bene se il valore totale delle prove è
molto elevato)
Probabilità soggettiva: quanto noi stimiamo che un evento si verifichi con una certa probabilità
n!
n 1_! n_ 2_! n_ 3_!_
n
=
n!
( (^) n − k ) (^)!
*L’ordine è importante
= (^) n
k
volta (combinazione di n oggetti di classe k):
k
n
= ( k
n
) =
n!
k! (^ n − k )^!
*L’ordine non è importante
( n + k − 1 )!
( n − 1 )! k!
Regole della probabilità
Siano A e B due eventi mutuamente esclusivi P( A ∪ B ) = P(A) + P(B)
Siano A e B due eventi NON mutuamente esclusivi P( A ∪ B ) = P(A) + P(B) – P( A ∩ B )
- Probabilità condizionale: siano A e B due eventi. La probabilità condizionale dell’evento A,
sapendo che l’evento B si è verificato, è identificata dal simbolo P(A|B) e si ricava come segue:
con P(B) > 0 allo stesso modo P(B|A) =
con P(A) > 0
- Regola moltiplicativa della probabilità:
P( A ∩ B ) = P(A|B)P(B) ed allo stesso modo P( A ∩ B ) = P(B\A)P(A)
P( A ∩ B ) = P(A)*P(B) se gli eventi sono statisticamente indipendenti
dell’evento e la probabilità dell’evento complementare.
Vengono usati ad esempio nelle scommesse.
L’ odds ratio è un rapporto tra rischi
Odds ratio : misure di associazione
Odds =
con P(B) > 0 P(B|A) =
con P(A) > 0
Sia X una variabile aleatoria discreta con funzione di probabilità P(x) e sia g(X) una qualunque
funzione di X, allora il suo valore atteso E[g(X)] è definito come:
E[g(X)] =
∑
x
g (^ x )^ P ( x )
E(a) = a
scarti al quadrato dalla media ( (^) X − μ )
2
è chiamato varianza indicato con (^) σ
2
σ
2
=Var(X) = E[( X − μ )
2
] =
∑
x
( X − μ )
2
P(x) vale anche = E( X
2
) – μ
2
=
∑
x
2
P(x) – μ
2
Var(a)=
Sia X una variabile aleatoria con media μ x
e varianza σ x
2
e siano a e b due costanti assegnate. Si
definisca la nuova variabile aleatoria Y come a +bX. La media e la varianza di Y sono:
μ y
= E (a + bX) = a + b μ x
σ y
2
= Var (a + bX) = b
2
σ x
2
- Distribuzione binomiale – modello di Bernoulli : quando un esperimento casuale può presentare
solo due risultati: successo o insuccesso.
P(0) = (1 – P) insuccesso - P(1) = P
o Es. probabilità di avere un evento avverso o di avere un evento fatale
P(x) =
n!
x! ( n − x )!
x
( 1 − P )
n − x
μ = E ( x )= nP Media
σ
2
= nP ( 1 − P ) Varianza
σ = √
nP ( 1 − P ) Deviazione standard
Coefficiente di correlazione
ρ =
Cov ( x , y )
σ x
σ y
E ( x , y )− μ x
μ y
σ x
σ y
tutti.
*Se nP ( n valore grande e P valore piccolo )= è un valore abbastanza moderato la distrivuzione
binomiale si approssima ad una. Distribuzione di Poisson
determinare la probabilità di variabili aleatorie caratterizzate dal numero di successi in un certo
inervallo continuo (di tempo, di superficie, di lunghezza).
La variabile X è una variabile aleatoria di Poisson se la sua funzione di probabilità è
e
− λ
λ
x
x!
Per x = 0, 1, 2, etc….
P(x) = probabilità di x successi in un dato intervallo di tempo o di spazio
λ = numero atteso di successi nell’intervallo dato, λ > 0; media che conosciamo a priori; λ = nP
e ≅ 2,
o Es. probabilità di avere un certo numero di telefonate in un giorno conoscendo la media
delle chiamate giornaliere.
*La distribuzione di Poisson è asimmetrica
*La distribuzione di Poisson è il limite per n molto grande della distribuzione binomiale.
Variabili aleatorie continue
Esempi:
probabilità che X non superi x0, come funzione di x0.
F(x0) = P( X ≤ x0 ) − ∞ < x 0 <+ ∞
È una funzione crescente e va da 0 a 1
che permette di calcolare la probabilità che X appartenga ad un determinato intervallo e che
ha un’utile rappresentazione grafica.
P(x) = 0 P ( a ≤ x ≤ b ) = F(b) – F(a )
- Proprietà della funzione di densità di probabilità:
1) F(x) > 0
di X vale 1. ∫
− ∞
∞
f ( x ) dx = 1
funzione di densità sull’intervallo (^) ∫
a
b
f ( x ) dx cioè F(b) – F(a)
E(X) = μ = np
Var(X) = σ
2
= np(1-p)
np(1-p)>
√ Var^ (^ X^ )^
X − np
√ np (^1 −^ p^ )
P(a ≤ X ≤ b ) = P
(
a − np
√ np (^1 −^ p^ )^
b − np
√ np (^1 −^ p^ )^
)
un certo evento accada all’interno di un determinato periodo).
positivi e la sua distribuzione non è simmetrica.
F(t) = (^) λe
− λt
for t > 0
λ (^) = è una costante positiva=media di arrivi per unità di tempo
La funziona di ripartizione è F(t) = 1 - (^) e
− λ t
per t > 0
La media e la varianza della distribuzione esponenziale sono date da:
λ
Var (T) =
λ
2
Stima
Esempio stimare la media del peso corporeo utilizzando la media del peso corporeo di un campione.
Test di ipotesi
Il processo di stima viene associato ad un test di ipotesi.
Esempio la stima ha indicato che la media è 120 pounds. Quanto questa stima è valida?
La distribuzione campionaria
La distribuzione campionaria è la distribuzione delle medie campionarie ottenute su tutti i possibili
campioni, della stessa ampiezza, estratti dalla popolazione.
Media campionaria
∑
i = 1
n
Xi
Errore standard delle medie campionarie/standard error per campioni indipendenti
X = σ^ x
σ
√ n
Errore standard delle medie campionarie/ standard error per campioni non indipendenti
σ x
σ
N − n
Var( X ) =
σ
2
n
N − n
Fattore di correzione per popolazioni finite :
N − n
*La deviazione standard delle medie campionarie è più piccola
Distribuzione standardizzata della media campionaria
X − μ
σ
2
X
X − μ
σ
√ n
Teorema del limite centrale
distribuzione delle medie campionarie segue approssimativamente una normale.
Intervalli di accettazione
μ ± Z α / 2
σ X
Proporzione campionaria
n
P proporzione campionaria di successi in un campione casuale estratto da una popolazione con
proporzione di successi p.
P ) = p media della proporzione campionaria
σ ^ p
ρ ( 1 − ρ )
n
deviazione standard o standard error della proporzione campionaria
P − ρ
σ ^ p
Varianza campionaria
2
=
n − 1
∑
i = 1
n
i
2
Distribuzione Chi Quadrato
n − 1
2
=
( n − 1 ) s
2
σ
2