











Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti del corso di statistica eseguiti nell'anno 2021, presi durante le lezioni dei professori Ruggiero e De Blasi, con grafici, tabelle, tutte le formule e definizioni
Tipologia: Appunti
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












Chiamiamo DATI, l’insieme delle misurazioni disponibili per l’analisi.
L’analisi di statistica si articola in due fasi:
elaborare i dati in modo da trasformarli in informazioni)
trasformare le informazioni in conoscenza)
La Popolazione è l’insieme completo di tutte le unità oggetto di studio. Indicato con N che può essere di
dimensione grande o addirittura infinita.
Il Campione è il sottoinsieme delle unità osservate nella popolazione e la sua dimensione viene indicata con n,
dove n < N.
Il campionamento è il procedimento con cui il campione viene selezionato tra la popolazione, si chiama casuale
semplice se ogni unità della popolazione ha la stessa possibilità di essere selezionata.
Il Parametro è una caratteristica specifica della popolazione che è oggetto di studio.
La Statistica è una caratteristica specifica del campione.
Individuato l’oggetto di studio, l’informazione disponibile è data da:
Le variabili si distinguono in:
Riassumere le informazioni presenti nei dati a fini di rappresentazione grafiche o per il calcolo di indici di sintesi.
Definiamo:
frequenza assoluta delle modalità i-esima
Spesso utile (o necessario) trasformare le frequenze relative in relazione alla numerosità del campione
(normalizzazione). Se ci interessala numerosità relativa (per ni la quota) riferita alla modalità dobbiamo rendere la
frequenza indipendente dall’ampiezza del campione.
DEFINIZIONE. Sia n la dimensione del campione osservata e siano n…, nk le frequenze assolute delle k modalità
osservate; Si definisce frequenza relativa della modalità i-esima la quantità 𝑓𝑖 =
𝑛𝑖
𝑛
per ogni i=1, …, k
Infine
È un cerchio diviso in spicchi di aerea (o angolo) proporzionale alla frequenza associata stabiliamo l’angolo
Αi=360°
𝑛𝑖
𝑛
Composto da barre di uguale ampiezza (una per modalità) con altezza pari alla frequenza osservata
È un diagramma a barre con:
decrescenti
delinea le % calcolate
0
100
200
300
400
500
600
PROFESSIONI
OPERAIO
IMPIEGATO
FUNZIONARIO
DIPENDENTE
25%
50%
20%
5%
OPERAIO
IMPEGATO
FUNZIONARIO
DIPENDENTE
RAPPRESENTAZIONI PER RELAZIONI TRA VARIABILI
Studio l’associazione tra due variabili
Considero 2 variabili x e y e dati raccolti a coppie (x i
,y i
) i=1, …, k
Se ho variabili categoriche, la tabella si dice tabella di contigenza , dalla tabella posso ricavare le distribuzioni univariate di x e y
dette distribuzioni marginali.
DIAGRAMMI DI DISPERSIONE
Il diagramma di dispersione rappresenta i dati bivariati come coppia di coordinate cartesiane
Associazione: dipendenza tra x e y quella lineare è dettata da 𝑦 = 𝛽 0
1
𝑥
DESCRIZIONE NUMERICA DEI DATI
Ricordiamo che:
, …, x n
)
LA MODA
DEFINIZIONE Data una distribuzione per variabili categoriche o numeriche discrete si definisce moda la modalità che si presenta
con frequenza (f i
) più alta.
La moda può non essere unica e può non esistere.
LA MEDIA
DEFINIZIONE Si definisce media aritmetica la somma delle osservazioni disponibili diviso per il n° di osservazioni. Se i dati si
riferiscono all’intera popolazione, la media della popolazione è il parametro
𝜇 =
1
𝑁
× ∑ 𝑥𝑖
𝑁
𝑖= 1
∑ 𝒙
𝒊
𝒘
𝒊
𝒏
𝒊=𝟏
∑ 𝒘
𝒊
𝒏
𝒊=𝟏
DEFINIZIONE Definiamo media geometrica dei valori (x 1
, …, x n
) la quantità 𝑚𝑔 = (
𝑖
𝑛
𝑖= 1
1
𝑛
DEFINIZIONE La media armonica è definita come il valore che sostituito ad ogni osservazione lascia invariata la
𝑛
∑
1
𝑥𝑖
𝑛
𝑖= 1
DEFINIZIONE La mediana è l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente.
Date n osservazioni ordinate la mediana è l’osservazione di posizione 0.5(n+1) e in particolare se:
𝑛+ 1
2
𝑥(
𝑛
2
)+𝑥(
𝑛
2
2
Proprietà della mediana: ROBUSTEZZA
DEFINIZIONE Si definisce k-esimo percentile , o percentile di ordine k , l’osservazione di posizione
𝑘
100
( 𝑛 + 1
) nei dati
ordinati
Casi particolari:
25
100
(𝑛 + 1 ) = 0. 25 (𝑛 + 1 )
75
100
(𝑛 + 1 ) = 0. 75 (𝑛 + 1 )
DEFINIZIONE. Si definisce range o campo di variazione, la differenza tra il massimo e il minimo del campione.
Dunque, possiamo definire 𝑅 = 𝑥 𝑛
1
DEFINIZIONE. Si definisce differenza interquartile (D.I.) o Range interquartile 𝐷. 𝐼. = 𝑄 3 − 𝑄 1
DEFINIZIONE I cinque numeri di sintesi si riferiscono a cinque misure descrittive: il minimo, il primo quartile, la
mediana, il terzo quartile e il massimo.
Minimo ≤ Q1 ≤ Mediana ≤ Q3 ≤ Massimo
DEFINIZIONE. Definiamo varianza della popolazione, il parametro dato dalla media dei quadrati degli scarti della
media della popolazione cioè 𝜎
2
2
𝑛
𝑛− 1
𝑖
2
2
𝑘
𝑖= 1
2
DEFINIZIONE. Definiamo deviazione standard o scarto quadratico medio della popolazione (SQM) 𝑠 = √𝑠
2
2
𝑁
𝑖= 1
2
𝑛
𝑛− 1
( 2 )
2
) ossia
( 𝑚𝑒𝑑𝑖𝑎 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖 − 𝑚𝑒𝑑𝑖𝑎 𝑎𝑙 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑜
)
DEFINIZIONE. Il Coefficiente di variazione (CV) è una misura di variabilità che esprime lo SQM come
percentuale della media (purché la media non sia nulla). Il CV della popolazione è
DESCRIZIONE GRAFICA della FORMA DI UNA DISTRIBUZIONE
DEFINIZIONE. Per ogni popolazione con media 𝜇, SQM 𝜎 e K> 1, la percentuale di osservazioni che
appartengono all’intervallo (𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎) è:
almeno 100[1-(1/k
2
)]% dove k rappresenta il fattpore moltiplicativo dello SQM.
La uso se N è piccolo : (𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎)
Prop. Unità esterne 1/k
2
Prop. Unità interne 1-1/k
2
La uso se N è grande
DEFINIZIONE. Definiamo indice di simmetria per i dati x 1
, …, x n
1
𝑛
∑ ( 𝑥𝑖−𝑥
̅ )
3
𝑛
𝑖= 1
𝑠
3
Nella statistica descrittiva una volta raccolti dati questi sono fissati, le decisioni reali sono però prese in
condizioni di incertezza. Tale contesto è detto aleatorio e ha il significato di casuale.
DEFINIZIONE Il n° di permutazioni di n oggetti è il n° dei loro possibili ordinamenti, indicato dal simbolo n!
letto “n fattoriale” dato da n! =n(n-1) (n-2) … il prodotto dei primi n interi, dove per definizione 0! = 1
DEFINIZIONE Il n° di disposizioni di n oggetti di classe k è il n° di scelte ordinate di k oggetti scelti tra n, dato
da:
𝑘
𝑛
DEFINIZIONE Il n° di combinazioni di n oggetti di classe k è il n° di scelte di k oggetti tra n senza tenere
conto dell’ordine dato:
𝑘
𝑛
Esperimento casuale qualsiasi fenomeno per il quale vi è più di un risultato possibile e il cui esito è incerto
Evento elementare ogni possibile risultato dell’esperimento
Spazio campionario l’insieme indicato con S costituito da tutti gli eventi elementari
Evento un qualsiasi sottoinsieme di S, indicato con A, B, C, …
Diremo che l’elemento A si verifica se l’esito dell’esperimento è un elemento di A.
In particolare:
esclusivi
Ipotizza che i risultati dell’esperimento siano ugualmente possibili. Se definiamo:
𝑁𝑎
𝑁
Se è complesso contare il n° di eventi, uso il calcolo combinatorio
Si basa sull’idea di ripetizione dell’esperimento
del verificarsi dell’evento A su n prove totali. Definisco
𝑛→∞
𝑎
La probabilità esprime una valutazione fatta dal soggetto interessato, ma per essere ammissibile deve
soddisfare le cosiddette regole di coerenza
Permette di superare il dibattito su quale sia la migliore definizione fornendo uno strumento operativo
che prescinde dall’interpretazione di cosa sia (in ultima analisi). La probabilità postula o degli assiomi,
proposizioni auto evidenti o accettate senza necessità di dimostrazione, sulla base dei quali si
dimostrano tutti gli enunciati necessari. La moderna teoria della probabilità si basa sull’approccio
assiomatico che si deve al matematico russo Kolmogrov
DEFINIZIONE Sia S lo spazio campionario e siano O i
i suoi elementi elementari. Si definisce probabilità
una funzione P il cui argomento è un evento A contenuto in S tale che:
(A.1) 0≤P(A)≤1 sempre compresa tra 0 e 1
(A.2) P(A) = unione di elementi appartenenti ad A
Se mutuamente esclusivi (additività per eventi incompatibili)
𝐶
Regola additiva della probabilità
In ambiti come le scommesse, le probabilità di due eventi alternativi (A, A
C
) sono comunicate tramite gli
odds.
DEFINIZIONE Definiamo odds in favore di un evento A il rapporto tra P(A) e P(A
C
Probabilità CONDIZIONATA
Calcolare la probabilità di eventi sulla base di informazione parziale, cioè per cui il risultato è
parzialmente noto.
DEFINIZIONE Siano A e B due eventi. Si definisce probabilità condizionata di A dato B la quantità
Regola moltiplicativa
Se confronto P(A) e 𝑃
posso verificare se il fatto che B si sia realizzato influisce sulla probabilità di
A, dico che sono indipendenti.
Proprietà GENERALI DELLA f.d.r.
𝑛→−∞
= 0 in - ∞ non ho ancora probabilità da cumulare
𝑛→+∞
= 1 in +∞ ho cumulato tutta la massa di probabilità disponibile
DEFINIZIONE Data una v.a. X discreta con realizzazioni possibili x1, …, xk con probabilità p(x1), …, p(xk) si
definisce valore atteso di X e il numero reale indicato con E(x) dato da
𝑘
𝑖= 1
DEFINIZIONE Dato una v.a. discreta X, si definisce momento X di ordine k (o momento k-esimo)
𝑘
𝑘
𝑖≥ 1
La media delle potenze di ordine k delle realizzazioni possibili di x
DEFINIZIONE Sia X una v.a. discreta con media 𝜇 = 𝐸(𝑥). Si definisce varianza di x il valore atteso degli
scarti dalla media al quadrato, dunque
2
2
E definisce deviazione standard di X la quantità 𝜎 = ඥ𝑉𝑎𝑟(𝑥)
2
2
DEFINIZIONE. Definiamo trasformata lineare di una v.a. discreta X, una v.a. data da 𝛾 = 𝑎 + 𝑏𝑥
Prof. De Blasi
DISTRIBUZIONE BINOMIALE (con reimissione)
Sia X una variabile aleatoria può assumere il valore 1 quando il risultato dell’esperimento è il “successo” e
0 in caso contrario. La funzione di probabilità di questa variabile aleatoria è:
P (0) = (1-p) e P(1) = p
In alternativa
𝑥
1 −𝑥
2
2
Formula ridotta 𝑣𝑎𝑟(𝑥) = 𝑝( 1 - p)
Definiamo quindi
𝑥
𝑛−𝑥
𝑛!
𝑥!(𝑛−𝑥)!
che corrisponde al numero di combinazioni di x
elementi tra n. Il numero di modi di scegliere tra n senza tener conto dell’ordine è
𝑛
𝒏
𝒙=𝟎
𝑋~𝑏𝑖𝑛𝑜𝑚(𝑛, 𝑝) (Numero di successi su n prove bernoulliane, indipendenti e con uguale probabilità di
successo)
DISTRIBUZIONE IPERGEOMETRICA ( estrazione senza reimissione )
Si tratta di un’estrazione senza reimissione
DEFINIZIONE. Una variabile aleatoria X ha distribuzione ipergeometrica di parametri N,S,n con S≤N e n≤N,
indicato con
Se X ha funzione di probabilità
La distribuzione geometrica si applica a esperimenti in cui abbiamo una successione, potenzialmente infinita di
prove bernoulliane, prove cioè indipendenti tra un uguale probabilità di successo
DEFINIZIONE. Una variabile aleatoria X ha distribuzione geometrica di parametro 0≤p≤
x- 1
Si tratta di un modello di distribuzione per esperimenti aleatori che riguardano il numero di volte che un
“evento” si verifica in un intervallo di tempo
Variabile aleatoria X con valori x=0,1,2, …
Si utilizza quando sono soddisfatte le seguenti quattro condizioni:
un sotto intervallo è molto piccola
intervallo
quella che l’evento si verifichi una sola volta
X = numero di eventi che si verificano in un intervallo di tempo
Nelle v.a. continue non è possibile numerare le loro realizzazioni (a differenza delle v.a. discrete)
la probabilità associata a una singola realizzazione è sempre pari a zero
la probabilità si determina ad intervalli
si parla di v.a. continue quando la funzione di ripartizione F(x) è continua su R; spesso è utile lavorare
con la derivata della f.d.r detta funzione di densità
DEFINIZIONE Una v.a. si dice continua se assume valori in un intervallo (limitato o illimitato) e la sua
distribuzione di probabilità è determinata da f: R→ R+ (x→f(x)>=0) che soddisfa le seguenti proprietà:
La distribuzione esponenziale è utile a modellare durata e tempo di attesa
Una v.a X ha distribuzione esponenziale se la funzione di densità è data da f(x
{
𝜆𝑒
−𝜆𝑥
𝑥 ≥ 0
0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
Dove λ>0 è detto tasso (“rate”), il parametro della distribuzione
𝑋~𝐸𝑥𝑝(𝜆)
Sia il valore atteso che la varianza diminuiscono all’aumentare del valore del parametro λ.
E(X)= 1/ p 𝑉𝑎𝑟
( 𝑋
1 −𝑝
𝑝
2
DISTRIBUZIONE NORMALE
Si adatta a variabili laddove valori intorno alla media sono più probabili di valori lontani dalla media. In particolare la
funzione di densità è SIMMETRICA rispetto alla media.
E(x)=μ (corrisponde anche alla moda cioè al valore di x con massima densità , “x maggiormente probabile)
Var(x)= 𝜎
2
𝑋~𝑁(𝜇, 𝜎
2
)
I valori della f.d.r. della distribuzione normale standard sono riportati nelle tavole della normale
DISTRIBUZIONE NORMALE STANDARD
𝑍~𝑁(𝜇 = 0 , 𝜎
2
= 1 )
funzione di densità: Φ
1
√ 2 𝜋
−𝑧
2
2
funzione di ripartizione: Φ
=P(Z<=z)=-x(u)du i valori sono riportati nelle tavole
se Φ
Trasformazione lineare: se E(X)= 0 , Var(X)= 1 e a,b appartengono ad R
Y=a+bX soddisfa
{
E(X) = E(a + bX) = a + bμ
Var(Y) = Var(a + bX) = 𝑏
2
𝜎
2
Se 𝑋~𝑁
( 𝜇, 𝜎
2
) allora Y= a+bX~N(a+bμ, 𝑏
2
𝜎
2
)
DEFINIZIONE Data una v.a. continua X, si definisce QUARTILE SUPERIORE di ordine 1-α, α appartiene a (0,1),
la quantità x:F(x)= 1- α. x è detto anche quartile superiore di livello α.
Notazione:
𝑍𝛼: 1 − Φ(𝑍𝛼) = 𝛼, 𝛼 < 0. 5
Campione aleatorio di ampiezza n
X1, … , Xn~iid F
Popolazione con media 𝜇 e varianza 𝜎
2
. In particolare la varianza è il valore atteso
2
2
Il che suggerisce di stimare 𝜎
2
attraverso una “media” aritmetica di (𝑥
𝑖
2
estesa a tutte e b le osservazioni.
Se la media è incognita useremo la media campionaria al punto della media della popolazione, giungiamo alla
formula della varianza campionaria che abbiamo introdotto in statistica descrittiva
2
2
𝑛
𝑖= 1
DISTRIBUZIONE CHI-QUADRATO
DEFINIZIONE Siano Z 1
, … ,Z ν
iid da N(0,1), 𝜈 ∈ ℕ. La v.a.
𝜈 2
𝑖= 1
ha distribuzione chi-quadrato Χ
2
𝑐𝑜𝑛 𝜈 gradi di
libertà.
2
𝜈
𝑖= 1
𝜈
2
La distribuzione chi-quadrato è unimodale e asimmetrica, con realizzazione positiva. Abbiamo che
2
𝜈
𝑖= 1
2
𝜈
𝑖= 1
ν=n- 1
Due tipi di stima:
parametro da stimare)[Intervallo di confidenza]
Stima puntuale attraverso statistiche campionarie, cioè v.a. espresse in funzione del campione aleatorio X1,
....,Xn~iid F
ESEMPI DI STATISTICHE CAMPIONARIE:
̂
2
Per scegliere quale preferire in generale utilizziamo le proprietà degli stimatori che fanno riferimento alla loro
distribuzione campionaria:
Uno stimatore 𝐸 𝜃
= 𝜃 La mediana è uno stimatore non distorto di μ
(Con varianza nota) L’intervallo aleatorio (A,B) è definito stimatore per intervallo a un livello di confidenza 1-α
per il parametro θ e la stima per intervallo (a, b) viene chiamato intervallo di confidenza di livello 1- α.
Margine errore (ME)=𝑍𝛼
2
⁄
𝜎
√𝑛
Minore n, maggiore è ME
Maggiore 𝜎, maggiore è ME
Maggiore 1- α, maggiore è ME
(varianza non nota) Si considera quindi la standardizzazione che si ottiene sostituendo 𝜎 = √𝜎
2
con
2
, s
2
varianza campionaria 𝑇 =
𝑥̅ −𝜇
𝑆
√𝑛
⁄
DISTRIBUZIONE DI T-STUDENT Definizione al variare del parametro “gradi di libertà”
L’intervallo di confidenza è dato da:
𝑛− 1
𝑛− 1
Intervallo di confidenza dato da
2
⁄
2
⁄
DEFINIZIONE ipotesi= affermazioni sulla popolazione formulate sul valore di un parametro che ne determina la
distribuzione (media, varianza o proporzione)
Le due ipotesi H 0
“nulla” e H 1
“alternativa”, devono essere stabilite in modo che ci siano due opzioni:
e accettare H 1
e rifiutare H 1
0
e H 1
devono essere tra loro auto escludenti. Un'ipotesi, sia nulla che alternativa, può specificare un singolo
valore.
Si parlerà di ipotesi semplice. Un'ipotesi che specifica valori grandi (rispettivamente valori piccoli) per il
parametro è detta ipotesi unilaterale. H: 𝜇 > 𝜇𝑜
TEST DI LIVELLO α SULLA MEDIA 𝜇 𝐶𝑂𝑁 𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴 𝜎
2
𝑁𝑂𝑇𝐴 Test (approssimato) di livello α sulla proporzione p