Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


appunti di statistica, Appunti di Statistica

appunti di statistica con slide e formule

Tipologia: Appunti

2024/2025

Caricato il 02/04/2026

greta-guglieri
greta-guglieri 🇮🇹

1 documento

1 / 52

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
STATISTICA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34

Anteprima parziale del testo

Scarica appunti di statistica e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

CAPITOLO 1: ANALISI DESCRITTIVA

DEI DATI

1.DEFINIZIONI

Statistica : è un descrittore numerico calcolato dai dati campionari ed è

usato per descrivere il campione. Le statistiche, di norma, si rappresentano

con lettere romane.

Parametro : è un descrittore numerico usato per descrivere la

popolazione. I parametri, di norma, si rappresentano con lettere greche.

Campo di variazione (range), R : è la differenza fra l’osservazione

maggiore e quella minore del campione:

2.IL SIMBOLO DI SOMMATORIA

Il simbolo sigma è una notazione sintetica, utilizzata per scrivere formule

statistiche. Deriva dalla lettera maiuscola dell’alfabeto greco

Dato un campione di dimensione n, molte formule richiedono la somma dei dati

raccolti:

Usando il simbolo Σ possiamo scrivere:

Si legge «la sommatoria delle xi per i che va da 1 a n», dove i è chiamato indice.

3.LA MEDIA

La media aritmetica sintetizza la posizione (tendenza centrale) della

distribuzione d’un insieme di dati. Si trova sommando tutti i valori dei dati e

dividendo per il numero totale delle osservazioni:

  • La media della popolazione è indicata dalla lettera greca μ (mu).
  • La media del campione è indicata da x barrata come nella formula sopra.

La media è la misura più comune ed è influenzata dai valori più estremi.

6.SCARTO QUADRATICO MEDIO

Con l’aumento della dimensione del campione, aumenta anche la probabilità di

avere valori estremi.

Per grandi dimensioni campionarie, è logico definire una misura di quanto dista

ogni osservazione dal valore centrale dei dati.

In altre parole, vogliamo sapere quanto, in media, i valori variano dal valore

centrale → scarto quadratico medio.

7.VARIANZA

La varianza campionaria, s

2

è la media dei quadrati degli scarti tra ciascun

valore e la media campionaria.

Lo scarto quadratico medio s è la radice quadrata positiva della varianza.

La varianza della popolazione e lo scarto quadratico medio e si indicano

rispettivamente con σ

2

(sigma) e σ.

 VARIANZA CAMPIONARIA

ESEMPIO

Istruttore di golf decide di calcolare il valore standardizzato per accertarsi che non ci

siano valori anomali.

Considera il valore massimo e minimo su cui calcola il punteggio Z.

Se i due valori non sono anomali, non lo saranno neanche gli altri.

I punteggi z cadono nell’intervallo 2-3, per cui i valori estremi non sono anomali.

8.REGOLA EMPIRICA

Lo scarto quadratico medio non è così intuitivo come il campo di variazione che

fornisce un quadro immediato di quanti dati siano distribuiti o dispersi introno al

valore centrale. Un modo per capire quali informazioni dà lo scarto quadratico

medio è la regola empirica.

Come interpretare lo scarto quadratico medio?

La regola empirica dice che per una distribuzione simmetrica “a campana”:

  • Circa il 68% delle osservazioni si trovano entro ± uno scarto quadratico

medio della media.

  • Circa il 95% delle osservazioni si trovano entro ± due scarti quadratici medi

della media.

  • Quasi tutte (più di 99%) le osservazioni si trovano entro ± tre scarti

quadratici medi della media.

9.VALORE STANDARDIZZATO

La maggior parte dei valori (>99%) dovrebbe rientrare in ± tre scarti quadratici

medi della media.

Possiamo usare questa nozione per indicare quanto un valore sia “standard”.

Il valore standardizzato (z) misura di quanti “scarti quadratici medi” un valore

dista dalla media:

scarto di un valore della media / scarto quadratico medio

Un valore standardizzato positivo indica che il valore è sopra la media mentre

un valore standardizzato negativo indica che il valore è sotto la media.

Un valore anomalo (outlier) è un valore che ha una probabilità molto bassa di

verificarsi.

10. QUARTILI E BOXPLOT

Il primo quartile Q1 è un valore tale che il 25% dei dati è inferiore o uguale a

esso.

12. MEDIA E MEDIANA IN UNA DISTRIBUZIONE

SIMMETRICA

13. MEDIA E MEDIANA PER DISTRIBUZIONI

ASIMMETRICHE

14. IL BOXPLOT (GRAFICO A SCATOLA)

Un grafico a scatola è una rappresentazione grafica che utilizza le statistiche di

sintesi per rappresentare la distribuzione di un insieme di dati.

Esempio : Trova il primo quartile

Dati ordinati nel campione: 1 12 13 16 16 17 18 21 22

⇑ (n = 9)

Q1 = 0.25(9 + 1) = 2.5 position

quindi uso il valore a metà strada tra il 2° ed il 3° valore

→ Q1 = 12.

 GLI ELEMENTI DEL BOXPLOT

Il valore di riferimento inferiore di un grafico a scatola è posizionato a Q1 – 1,
(SIQ) e quello superiore a Q3 + 1,5 (SIQ)

 L’ASIMMETRIA NEL BOXPLOT

Quando i dati sono simmetrici , la media e la mediana coincidono e sono

posizionate sulla gobba della distribuzione che decresce gradualmente allo

stesso modo sui due lati.

Se i dati sono simmetrici, la mediana è posizionata a metà strada tra i due quartili

e i baffi devono avere la stessa lunghezza.

Quando i dati sono asimmetrici , la mediana è posizionata vicino alla gobba e un

lato della distribuzione decresce più lentamente dell’altro.

Esempio

Quando i valori anomali vengono aggiunti, l’asimmetria dell’istogramma diventa ancor

più evidente.

Almeno due osservazioni sono molto diverse dalle altre.

Esempio

Come consulenti statistici di palline da golf, presentate all’istruttore un quadro sintetico

del problema palline usando boxplot per ogni modello di pallina.

  • 50% centrale delle palline M1 ha gittata 256-260 metri VS. 50% centrale di M2 ha

gittata 255-

2.LE LEGGI DI PROBABILITÁ

1) Se A è qualunque evento nello spazio S, allora:

2) Siano A un evento nello spazio S e Oi possibili risultati, allora:

3.INTERSEZIONE E UNIONE

L’ intersezione di eventi - se A e B sono due eventi in uno spazio campionario S,

allora intersezione (A ∩ B) è l’insieme di tutti i risultati in S tali che appartengono

ad A e a B.

Se A e B sono due eventi in uno spazio campionario S, allora l’unione (A ∪ B) è

l’insieme di tutti i risultati in S tali che appartengono ad A o a B.

  • Due eventi A e B sono detti mutuamente esclusivi o incompatibili se

non hanno risultati in comune. → i.e. (A ∩ B) è vuoto.

La regola del complemento

In altre parole, la probabilità di un evento è data dal suo complemento e

viceversa.

La probabilità dell’unione di due eventi

4.LA PROBABILITÁ CONDIZIONATA

La probabilità condizionata è la probabilità di un evento A dato che un altro

evento B si sia già verificato.

La formula per la probabilità condizionata P(A|B) è data da:

5.L’INDIPENDENZA

Due eventi sono indipendenti A ⊥ B se la probabilità che un evento A si verifichi

non è influenzata o modificata dal verificarsi dell’evento B.

  • Se A e B sono indipendenti , allora la probabilità della loro intersezione è

uguale al prodotto delle singole probabilità:

  • Se, invece, A e B non sono indipendenti , dalla formula della probabilità

condizionata otteniamo:

6.TEOREMA DI BAYES

Il teorema di Bayes consente di calcolare la probabilità condizionata di un

evento A dato un evento B:

Dove:

  • P(A|B) è la probabilità condizionata di A dato B.
  • P(B|A) è la probabilità condizionata di B dato A.
  • P(A) e P(B) sono probabilità marginali di A e B, rispettivamente.

È particolarmente utile quando si tratta di rivedere la probabilità condizionata

sulla base di nuove informazioni disponibili.

Quando A è l’evento i-esimo di una partizione di eventi (k eventi a due a

due incompatibili e collettivamente esaustivi), per ottenere la probabilità a

denominatore si può applicare la regola della probabilità composta (o

teorema delle probabilità totali):

Rappresenta un possibile valore numerico prodotto dall’esperimento aleatorio.

 VARIABILE ALEATORIA DISCRETA

Può assumere solo un insieme numerabile di valori.

3.DISTRIBUZIONI DI PROBABILITA

 DISTRIBUZIONI DI PROBABILITA DISCRETE

Proprietà

P ( x ) ≥ 0 per ogni valore di x

Le singole probabilità si sommano a 1:

La notazione indica che la sommatoria si estende a tutti i possibili valori di x.

Media o valore atteso

Valore atteso (o media) di una distribuzione discreta (Media Pesata)

4.DISTRIBUZIONE DI PROBABILITA BINOMIALE

 DISTRIBUZIONE BERNOUILLI

  • Sia P la probabilità di successo.
  • Sia 1-P la probabilità di insuccesso.

Definiamo la variabile aleatoria X:

x=1 se successo, x=0 se insuccesso

Allora la Funzione di Probabilità di Bernoulli

 DISTRIBUZIONE DI BERNOUILLI MEDIA E VARIANZA

  • La media è μ = P

Distribuzioni binomiali per grandi valori di n

Per n = 10, non è difficile calcolare P (X > 4), ma per n = 100 il calcolo diventa

molto faticoso, poiché è necessario sommare molti più termini il cui valore è

estremamente piccolo.

Notiamo che man mano che n aumenta, la curva diventa più liscia.

Per le variabili continue con più di 100 possibili valori, la distribuzione di

probabilità è funzione di densità di probabilità.

5.DISTRIBUZIONE DI POISSON

Si Applica la distribuzione di Poisson quando:

  • Desideri contare il numero di volte un evento si verifica in un dato

intervallo continuo.

  • La probabilità che un evento si verifichi in un sotto intervallo è molto bassa

ed è la stessa per tutti i sotto intervalli.

  • Il numero di eventi che si verificano in un sotto intervallo è indipendente

dal numero di eventi che si verificano in un altro sotto intervallo.

  • L’evento non si può verificare più di una volta in ciascuno dei sotto

intervalli.

  • Il numero medio di eventi per unità è λ.

Formula

Dove:

x = numero di successi per unità

λ = numero atteso di successi per unità

e = base dei logaritmi naturali (2.71828...)

Caratteristiche

  • Media
  • Varianza e Squarto Quadratico Medio:

6.DISTRIBUZIONI DI PROBABILITA CONTINUE

Una funzione di densità della probabilità, f (x), è una curva della probabilità,

regolare (senza angoli, smussata) che rappresenta la distribuzione f (x) di

probabilità di una variabile casuale continua.

Probabilità rappresentata da un’area sotto la curva

La tabella di probabilità si divide in due parti: una per i valori negativi di Z ed

una per i valori positivi.

I valori di Z sono arrotondati a 2 decimali nel formato X. XX.

Le righe della tabella riportano le prime due cifre X.X e le colonne l’ultima cifra

decimale 0.0X.

La probabilità corrispondente è posizionata all’incrocio dell’appropriata riga e

colonna:

  • Nel testo, la tabella si riferisce a P (Z < z) - P (Z > z) = 1 − P (Z < z)

Confronto tra le probabilità delle code di destra e di sinistra

Trovare l’area compresa tra due valori di Z

Cercare entrambi i valori e sottrarre il più piccolo dal più grande:

Trasformare variabile casuale X in variabile normale

standard Z

Dove:

  • Z è la variabile standardizzata.
  • X è la variabile casuale originale.
  • μ è la media della distribuzione di X.
  • σ è la deviazione standard della distribuzione di X

Dove X ≈ N (μ, σ) e Z ≈ N (0, 1)

CAPITOLO 4: DISTRIBUZIONI

CAMPIONARIE E INTERVALLI DI

CONFIDENZA

1.DEFINIZIONE STIMA

  • Una stima puntuale è un singolo numero calcolato dai dati campionari. È

usato per stimare un parametro della popolazione.

  • Uno stimatore puntuale è a sua volta una variabile casuale in quanto i

suoi possibili valori dipendono dai campioni estratti.

 PROPRIETA STIMATORE NON DISTORTO

Uno stimatore non distorto produce una stima corretta, cioè non sovrastima né

sottostima il parametro in modo sistematico.

Ad esempio:

  • La media campionaria X è uno stimatore non distorto
  • La mediana è uno stimatore non distorto solo se la popolazione ha una

distribuzione normale

2.DEFINIZIONE DISTRIBUZIONE CAMPIONARIA

La distribuzione di probabilità di uno stimatore puntuale è chiamata

distribuzione campionaria.

  • L’errore standard è lo scarto quadratico medio della distribuzione

campionaria di uno stimatore puntuale. Misura quanto lo stimatore

puntuale o la statistica campionaria varia da campione a campione.

  • L’intervallo di confidenza o stima intervallare è un intervallo di valori

con associata una probabilità o livello di confidenza, 1 – a. La probabilità

quantifica la possibilità che l’intervallo contenga il vero parametro della

popolazione.

ESEMPIO