












































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti di statistica con slide e formule
Tipologia: Appunti
1 / 52
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!













































Statistica : è un descrittore numerico calcolato dai dati campionari ed è
usato per descrivere il campione. Le statistiche, di norma, si rappresentano
con lettere romane.
Parametro : è un descrittore numerico usato per descrivere la
popolazione. I parametri, di norma, si rappresentano con lettere greche.
Campo di variazione (range), R : è la differenza fra l’osservazione
maggiore e quella minore del campione:
Il simbolo sigma è una notazione sintetica, utilizzata per scrivere formule
statistiche. Deriva dalla lettera maiuscola dell’alfabeto greco
Dato un campione di dimensione n, molte formule richiedono la somma dei dati
raccolti:
Usando il simbolo Σ possiamo scrivere:
Si legge «la sommatoria delle xi per i che va da 1 a n», dove i è chiamato indice.
La media aritmetica sintetizza la posizione (tendenza centrale) della
distribuzione d’un insieme di dati. Si trova sommando tutti i valori dei dati e
dividendo per il numero totale delle osservazioni:
La media è la misura più comune ed è influenzata dai valori più estremi.
Con l’aumento della dimensione del campione, aumenta anche la probabilità di
avere valori estremi.
Per grandi dimensioni campionarie, è logico definire una misura di quanto dista
ogni osservazione dal valore centrale dei dati.
In altre parole, vogliamo sapere quanto, in media, i valori variano dal valore
centrale → scarto quadratico medio.
La varianza campionaria, s
2
è la media dei quadrati degli scarti tra ciascun
valore e la media campionaria.
Lo scarto quadratico medio s è la radice quadrata positiva della varianza.
La varianza della popolazione e lo scarto quadratico medio e si indicano
rispettivamente con σ
2
(sigma) e σ.
Istruttore di golf decide di calcolare il valore standardizzato per accertarsi che non ci
siano valori anomali.
Considera il valore massimo e minimo su cui calcola il punteggio Z.
Se i due valori non sono anomali, non lo saranno neanche gli altri.
I punteggi z cadono nell’intervallo 2-3, per cui i valori estremi non sono anomali.
Lo scarto quadratico medio non è così intuitivo come il campo di variazione che
fornisce un quadro immediato di quanti dati siano distribuiti o dispersi introno al
valore centrale. Un modo per capire quali informazioni dà lo scarto quadratico
medio è la regola empirica.
Come interpretare lo scarto quadratico medio?
La regola empirica dice che per una distribuzione simmetrica “a campana”:
medio della media.
della media.
quadratici medi della media.
La maggior parte dei valori (>99%) dovrebbe rientrare in ± tre scarti quadratici
medi della media.
Possiamo usare questa nozione per indicare quanto un valore sia “standard”.
Il valore standardizzato (z) misura di quanti “scarti quadratici medi” un valore
dista dalla media:
scarto di un valore della media / scarto quadratico medio
Un valore standardizzato positivo indica che il valore è sopra la media mentre
un valore standardizzato negativo indica che il valore è sotto la media.
Un valore anomalo (outlier) è un valore che ha una probabilità molto bassa di
verificarsi.
Il primo quartile Q1 è un valore tale che il 25% dei dati è inferiore o uguale a
esso.
Un grafico a scatola è una rappresentazione grafica che utilizza le statistiche di
sintesi per rappresentare la distribuzione di un insieme di dati.
Esempio : Trova il primo quartile
Dati ordinati nel campione: 1 12 13 16 16 17 18 21 22
⇑ (n = 9)
Q1 = 0.25(9 + 1) = 2.5 position
quindi uso il valore a metà strada tra il 2° ed il 3° valore
Quando i dati sono simmetrici , la media e la mediana coincidono e sono
posizionate sulla gobba della distribuzione che decresce gradualmente allo
stesso modo sui due lati.
Se i dati sono simmetrici, la mediana è posizionata a metà strada tra i due quartili
e i baffi devono avere la stessa lunghezza.
Quando i dati sono asimmetrici , la mediana è posizionata vicino alla gobba e un
lato della distribuzione decresce più lentamente dell’altro.
Esempio
Quando i valori anomali vengono aggiunti, l’asimmetria dell’istogramma diventa ancor
più evidente.
Almeno due osservazioni sono molto diverse dalle altre.
Esempio
Come consulenti statistici di palline da golf, presentate all’istruttore un quadro sintetico
del problema palline usando boxplot per ogni modello di pallina.
gittata 255-
1) Se A è qualunque evento nello spazio S, allora:
2) Siano A un evento nello spazio S e Oi possibili risultati, allora:
L’ intersezione di eventi - se A e B sono due eventi in uno spazio campionario S,
allora intersezione (A ∩ B) è l’insieme di tutti i risultati in S tali che appartengono
ad A e a B.
Se A e B sono due eventi in uno spazio campionario S, allora l’unione (A ∪ B) è
l’insieme di tutti i risultati in S tali che appartengono ad A o a B.
non hanno risultati in comune. → i.e. (A ∩ B) è vuoto.
In altre parole, la probabilità di un evento è data dal suo complemento e
viceversa.
La probabilità condizionata è la probabilità di un evento A dato che un altro
evento B si sia già verificato.
La formula per la probabilità condizionata P(A|B) è data da:
Due eventi sono indipendenti A ⊥ B se la probabilità che un evento A si verifichi
non è influenzata o modificata dal verificarsi dell’evento B.
uguale al prodotto delle singole probabilità:
condizionata otteniamo:
Il teorema di Bayes consente di calcolare la probabilità condizionata di un
evento A dato un evento B:
Dove:
È particolarmente utile quando si tratta di rivedere la probabilità condizionata
sulla base di nuove informazioni disponibili.
Quando A è l’evento i-esimo di una partizione di eventi (k eventi a due a
due incompatibili e collettivamente esaustivi), per ottenere la probabilità a
denominatore si può applicare la regola della probabilità composta (o
teorema delle probabilità totali):
Rappresenta un possibile valore numerico prodotto dall’esperimento aleatorio.
Può assumere solo un insieme numerabile di valori.
Le singole probabilità si sommano a 1:
La notazione indica che la sommatoria si estende a tutti i possibili valori di x.
Valore atteso (o media) di una distribuzione discreta (Media Pesata)
Definiamo la variabile aleatoria X:
x=1 se successo, x=0 se insuccesso
Allora la Funzione di Probabilità di Bernoulli
Per n = 10, non è difficile calcolare P (X > 4), ma per n = 100 il calcolo diventa
molto faticoso, poiché è necessario sommare molti più termini il cui valore è
estremamente piccolo.
Notiamo che man mano che n aumenta, la curva diventa più liscia.
Per le variabili continue con più di 100 possibili valori, la distribuzione di
probabilità è funzione di densità di probabilità.
Si Applica la distribuzione di Poisson quando:
intervallo continuo.
ed è la stessa per tutti i sotto intervalli.
dal numero di eventi che si verificano in un altro sotto intervallo.
intervalli.
Dove:
x = numero di successi per unità
λ = numero atteso di successi per unità
e = base dei logaritmi naturali (2.71828...)
Una funzione di densità della probabilità, f (x), è una curva della probabilità,
regolare (senza angoli, smussata) che rappresenta la distribuzione f (x) di
probabilità di una variabile casuale continua.
Probabilità rappresentata da un’area sotto la curva
La tabella di probabilità si divide in due parti: una per i valori negativi di Z ed
una per i valori positivi.
I valori di Z sono arrotondati a 2 decimali nel formato X. XX.
Le righe della tabella riportano le prime due cifre X.X e le colonne l’ultima cifra
decimale 0.0X.
La probabilità corrispondente è posizionata all’incrocio dell’appropriata riga e
colonna:
Cercare entrambi i valori e sottrarre il più piccolo dal più grande:
Dove:
Dove X ≈ N (μ, σ) e Z ≈ N (0, 1)
usato per stimare un parametro della popolazione.
suoi possibili valori dipendono dai campioni estratti.
Uno stimatore non distorto produce una stima corretta, cioè non sovrastima né
sottostima il parametro in modo sistematico.
Ad esempio:
distribuzione normale
La distribuzione di probabilità di uno stimatore puntuale è chiamata
distribuzione campionaria.
campionaria di uno stimatore puntuale. Misura quanto lo stimatore
puntuale o la statistica campionaria varia da campione a campione.
con associata una probabilità o livello di confidenza, 1 – a. La probabilità
quantifica la possibilità che l’intervallo contenga il vero parametro della
popolazione.