Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


STATISTICA-appunti del corso, Appunti di Statistica

Appunti del corso di statistica eseguiti nell'anno 2021, presi durante le lezioni dei professori Ruggiero e De Blasi, con grafici, tabelle, tutte le formule e definizioni

Tipologia: Appunti

2020/2021

In vendita dal 12/05/2021

giorgia-caporale
giorgia-caporale 🇮🇹

4.7

(15)

16 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
Chiamiamo DATI, l’insieme delle misurazioni disponibili per l’analisi.
L’analisi di statistica si articola in due fasi:
- STATISTICA DESCRITTIVA (analisi dei dati, metodi grafici e numerici utilizzati per sintetizzare ed
elaborare i dati in modo da trasformarli in informazioni)
- STATISTICA INFERENZIALE (fornisce le basi per le previsioni e per le stime che consentono di
trasformare le informazioni in conoscenza)
1.2 IL CAMPIONAMENTO
La Popolazione è l’insieme completo di tutte le unità oggetto di studio. Indicato con N che può essere di
dimensione grande o addirittura infinita.
Il Campione è il sottoinsieme delle unità osservate nella popolazione e la sua dimensione viene indicata con n,
dove
n
<
N.
Il campionamento è il procedimento con cui il campione viene selezionato tra la popolazione, si chiama casuale
semplice se ogni unità della popolazione ha la stessa possibilità di essere selezionata.
Il Parametro è una caratteristica specifica della popolazione che è oggetto di studio.
La Statistica è una caratteristica specifica del campione.
1. CLASSIFICAZIONE DELLE VARIABILI
Individuato l’oggetto di studio, l’informazione disponibile è data da:
- Unità statistiche: singole entità che compongono la popolazione
- Variabili statistiche: le quantità e le qualità misurate
- Modalità di una variabile: l’insieme di tutti i valori potenzialmente osservabili pe tale variabile.
Le variabili si distinguono in:
- CATEGORICHE (se assumono valori espressi come nomi o attributi)
- NUMERICHE se assumono valori numerici suddivisi in: DISCRETE e CONTINUE
SCALE DI MISURAZIONE
- SCALA NOMINALE non è previsto un ordinamento, si usano nomi/ attributi associati arbitrariamente
- SCALA ORDINALE è previsto un ordinamento naturale, ma non ha interpretazione la distanza tra i valori
- SCALA AD INTERVALLI se ha interpretazione la distanza, ma non i rapporti. Lo zero è stabilito convenzionalmente
- SCALA DI RAPPORTO i rapporti tra misurazioni hanno interpretazione, lo zero è assoluto
DISTRIBUZIONI DI FREQUENZE
Riassumere le informazioni presenti nei dati a fini di rappresentazione grafiche o per il calcolo di indici di sintesi.
Definiamo:
- FREQUENZA ASSOLUTA di una modalità, il n° di volte in cui tale modalità si presenta nei dati e indichiamo ni la
frequenza assoluta delle modalità i-esima
- DISTRIBUZIONE DI FREQUENZE ASSOLUTE una tabella che riporta le modalità e le frequenze assolute associate
DISTRIBUZIONI DI FREQUENZE RELATIVE
Spesso utile (o necessario) trasformare le frequenze relative in relazione alla numerosità del campione
(normalizzazione). Se ci interessala numerosità relativa (per ni la quota) riferita alla modalità dobbiamo rendere la
frequenza indipendente dall’ampiezza del campione.
DEFINIZIONE. Sia n la dimensione del campione osservata e siano n…, nk le frequenze assolute delle k modalità
osservate; Si definisce frequenza relativa della modalità i-esima la quantità 𝑓𝑖=𝑛𝑖
𝑛 per ogni i=1, …, k
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica STATISTICA-appunti del corso e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

Chiamiamo DATI, l’insieme delle misurazioni disponibili per l’analisi.

L’analisi di statistica si articola in due fasi:

  • STATISTICA DESCRITTIVA (analisi dei dati, metodi grafici e numerici utilizzati per sintetizzare ed

elaborare i dati in modo da trasformarli in informazioni)

  • STATISTICA INFERENZIALE (fornisce le basi per le previsioni e per le stime che consentono di

trasformare le informazioni in conoscenza)

1.2 IL CAMPIONAMENTO

La Popolazione è l’insieme completo di tutte le unità oggetto di studio. Indicato con N che può essere di

dimensione grande o addirittura infinita.

Il Campione è il sottoinsieme delle unità osservate nella popolazione e la sua dimensione viene indicata con n,

dove n < N.

Il campionamento è il procedimento con cui il campione viene selezionato tra la popolazione, si chiama casuale

semplice se ogni unità della popolazione ha la stessa possibilità di essere selezionata.

Il Parametro è una caratteristica specifica della popolazione che è oggetto di studio.

La Statistica è una caratteristica specifica del campione.

1. CLASSIFICAZIONE DELLE VARIABILI

Individuato l’oggetto di studio, l’informazione disponibile è data da:

  • Unità statistiche: singole entità che compongono la popolazione
  • Variabili statistiche: le quantità e le qualità misurate
  • Modalità di una variabile: l’insieme di tutti i valori potenzialmente osservabili pe tale variabile.

Le variabili si distinguono in:

  • CATEGORICHE (se assumono valori espressi come nomi o attributi)
  • NUMERICHE se assumono valori numerici suddivisi in: DISCRETE e CONTINUE
SCALE DI MISURAZIONE
  • SCALA NOMINALE non è previsto un ordinamento, si usano nomi/ attributi associati arbitrariamente
  • SCALA ORDINALE è previsto un ordinamento naturale, ma non ha interpretazione la distanza tra i valori
  • SCALA AD INTERVALLI se ha interpretazione la distanza, ma non i rapporti. Lo zero è stabilito convenzionalmente
  • SCALA DI RAPPORTO i rapporti tra misurazioni hanno interpretazione, lo zero è assoluto
DISTRIBUZIONI DI FREQUENZE

Riassumere le informazioni presenti nei dati a fini di rappresentazione grafiche o per il calcolo di indici di sintesi.

Definiamo:

  • FREQUENZA ASSOLUTA di una modalità, il n° di volte in cui tale modalità si presenta nei dati e indichiamo ni la

frequenza assoluta delle modalità i-esima

  • DISTRIBUZIONE DI FREQUENZE ASSOLUTE una tabella che riporta le modalità e le frequenze assolute associate
DISTRIBUZIONI DI FREQUENZE RELATIVE

Spesso utile (o necessario) trasformare le frequenze relative in relazione alla numerosità del campione

(normalizzazione). Se ci interessala numerosità relativa (per ni la quota) riferita alla modalità dobbiamo rendere la

frequenza indipendente dall’ampiezza del campione.

DEFINIZIONE. Sia n la dimensione del campione osservata e siano n…, nk le frequenze assolute delle k modalità

osservate; Si definisce frequenza relativa della modalità i-esima la quantità 𝑓𝑖 =

𝑛𝑖

𝑛

per ogni i=1, …, k

RAPPRESENTAZIONI GRAFICHE
PER VARIABILI CATEGORICHE
  • Diagramma a torta
  • Diagramma a barre
  • Diagramma di Pareto
PER VARIABILI NUMERICHE
  • Ogiva
  • Istogramma
  • Box plot

Infine

  • Grafici per serie storiche
  • Diagrammi a dispersione (relazione tra due variabili)
GRAFICI PER VARIABILI CATEGORICHE
DIAGRAMMA A TORTA

È un cerchio diviso in spicchi di aerea (o angolo) proporzionale alla frequenza associata stabiliamo l’angolo

Αi=360°

𝑛𝑖

𝑛

DIAGRAMMA A BARRE

Composto da barre di uguale ampiezza (una per modalità) con altezza pari alla frequenza osservata

DIAGRAMMA DI PARETO

È un diagramma a barre con:

  • Modalità ordinate con frequenza %

decrescenti

  • Una spezzata (sovrapposta) che

delinea le % calcolate

0

100

200

300

400

500

600

PROFESSIONI

OPERAIO

IMPIEGATO

FUNZIONARIO

DIPENDENTE

25%

50%

20%

5%

Vendite

OPERAIO

IMPEGATO

FUNZIONARIO

DIPENDENTE

RAPPRESENTAZIONI PER RELAZIONI TRA VARIABILI

Studio l’associazione tra due variabili

Considero 2 variabili x e y e dati raccolti a coppie (x i

,y i

) i=1, …, k

Se ho variabili categoriche, la tabella si dice tabella di contigenza , dalla tabella posso ricavare le distribuzioni univariate di x e y

dette distribuzioni marginali.

DIAGRAMMI DI DISPERSIONE

Il diagramma di dispersione rappresenta i dati bivariati come coppia di coordinate cartesiane

Associazione: dipendenza tra x e y quella lineare è dettata da 𝑦 = 𝛽 0

  • 𝛽

1

𝑥

DESCRIZIONE NUMERICA DEI DATI

Ricordiamo che:

  • Un parametro è una quantità che rappresenta una caratteristica specifica della popolazione di N unità
  • Una statistica è quantità che rappresenta una caratteristica di n elementi, cioè una funzione f(x 1

, …, x n

)

LA MODA

DEFINIZIONE Data una distribuzione per variabili categoriche o numeriche discrete si definisce moda la modalità che si presenta

con frequenza (f i

) più alta.

La moda può non essere unica e può non esistere.

LA MEDIA

DEFINIZIONE Si definisce media aritmetica la somma delle osservazioni disponibili diviso per il n° di osservazioni. Se i dati si

riferiscono all’intera popolazione, la media della popolazione è il parametro

𝜇 =

1

𝑁

× ∑ 𝑥𝑖

𝑁

𝑖= 1

DEFINIZIONE Definiamo media ponderata 𝒙̅ =

∑ 𝒙

𝒊

𝒘

𝒊

𝒏

𝒊=𝟏

∑ 𝒘

𝒊

𝒏

𝒊=𝟏

DEFINIZIONE Definiamo media geometrica dei valori (x 1

, …, x n

) la quantità 𝑚𝑔 = (

𝑖

𝑛

𝑖= 1

1

𝑛

DEFINIZIONE La media armonica è definita come il valore che sostituito ad ogni osservazione lascia invariata la

funzione 𝑚𝑎 =

𝑛

1

𝑥𝑖

𝑛

𝑖= 1

LA MEDIANA

DEFINIZIONE La mediana è l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente.

Date n osservazioni ordinate la mediana è l’osservazione di posizione 0.5(n+1) e in particolare se:

  • n è dispari, è l’osservazione centrale 𝑀𝑒𝑑 = 𝑥

𝑛+ 1

2

  • n è pari, è la media aritmetica delle due osservazioni centrali 𝑀𝑒𝑑 =

𝑥(

𝑛

2

)+𝑥(

𝑛

2

  • 1 )

2

Proprietà della mediana: ROBUSTEZZA

QUARTILI E PERCENTILI

DEFINIZIONE Si definisce k-esimo percentile , o percentile di ordine k , l’osservazione di posizione

𝑘

100

( 𝑛 + 1

) nei dati

ordinati

Casi particolari:

  • primo quartile si trova al

25

100

(𝑛 + 1 ) = 0. 25 (𝑛 + 1 )

  • terzo quartile si trova al

75

100

(𝑛 + 1 ) = 0. 75 (𝑛 + 1 )

INDICI DI VARIABILITÀ
RANGE E DIFFERENZA INTERQUARTILE DEI DATI

DEFINIZIONE. Si definisce range o campo di variazione, la differenza tra il massimo e il minimo del campione.

Dunque, possiamo definire 𝑅 = 𝑥 𝑛

1

DEFINIZIONE. Si definisce differenza interquartile (D.I.) o Range interquartile 𝐷. 𝐼. = 𝑄 3 − 𝑄 1

DEFINIZIONE I cinque numeri di sintesi si riferiscono a cinque misure descrittive: il minimo, il primo quartile, la

mediana, il terzo quartile e il massimo.

Minimo ≤ Q1 ≤ Mediana ≤ Q3 ≤ Massimo

VARIANZA

DEFINIZIONE. Definiamo varianza della popolazione, il parametro dato dalla media dei quadrati degli scarti della

media della popolazione cioè 𝜎

2

2

𝑛

𝑛− 1

𝑖

2

2

𝑘

𝑖= 1

2

SCARTO QUADRATICO

DEFINIZIONE. Definiamo deviazione standard o scarto quadratico medio della popolazione (SQM) 𝑠 = √𝑠

2

2

𝑁

𝑖= 1

FORMULA RIDOTTA PER LA VARIANZA: 𝑆

2

𝑛

𝑛− 1

( 2 )

2

) ossia

( 𝑚𝑒𝑑𝑖𝑎 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖 − 𝑚𝑒𝑑𝑖𝑎 𝑎𝑙 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑜

)

COEFICCIENTE DI VARIAZIONE

DEFINIZIONE. Il Coefficiente di variazione (CV) è una misura di variabilità che esprime lo SQM come

percentuale della media (purché la media non sia nulla). Il CV della popolazione è

× 100%

DESCRIZIONE GRAFICA della FORMA DI UNA DISTRIBUZIONE

DISUGUAGLIANZA DI CHEBYCHEV

DEFINIZIONE. Per ogni popolazione con media 𝜇, SQM 𝜎 e K> 1, la percentuale di osservazioni che

appartengono all’intervallo (𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎) è:

almeno 100[1-(1/k

2

)]% dove k rappresenta il fattpore moltiplicativo dello SQM.

La uso se N è piccolo : (𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎)

Prop. Unità esterne 1/k

2

Prop. Unità interne 1-1/k

2

REGOLA EMPIRICA

La uso se N è grande

INDICE DI SIMMETRIA

DEFINIZIONE. Definiamo indice di simmetria per i dati x 1

, …, x n

la quantità 𝛾 =

1

𝑛

∑ ( 𝑥𝑖−𝑥

̅ )

3

𝑛

𝑖= 1

𝑠

3

CALCOLO DELLE PROBABILITÀ

Nella statistica descrittiva una volta raccolti dati questi sono fissati, le decisioni reali sono però prese in

condizioni di incertezza. Tale contesto è detto aleatorio e ha il significato di casuale.

DEFINIZIONE Il n° di permutazioni di n oggetti è il n° dei loro possibili ordinamenti, indicato dal simbolo n!

letto “n fattoriale” dato da n! =n(n-1) (n-2) … il prodotto dei primi n interi, dove per definizione 0! = 1

DEFINIZIONE Il n° di disposizioni di n oggetti di classe k è il n° di scelte ordinate di k oggetti scelti tra n, dato

da:

𝑘

𝑛

DEFINIZIONE Il n° di combinazioni di n oggetti di classe k è il n° di scelte di k oggetti tra n senza tenere

conto dell’ordine dato:

𝑘

𝑛

ESPRIMENTI CASUALI ED EVENTI

Esperimento casuale qualsiasi fenomeno per il quale vi è più di un risultato possibile e il cui esito è incerto

Evento elementare ogni possibile risultato dell’esperimento

Spazio campionario l’insieme indicato con S costituito da tutti gli eventi elementari

Evento un qualsiasi sottoinsieme di S, indicato con A, B, C, …

Diremo che l’elemento A si verifica se l’esito dell’esperimento è un elemento di A.

In particolare:

  • A=S è detto evento certo dato che si verifica sicuramente
  • A=∅ è detto evento impossibile non contiene nessun evento elementare
  • Ogni altro sottoinsieme è un evento possibil
PRINCIPALI OPERAZIONI SUGLI INSIEMI
  • Unione
  • Eventi collettivamente esaustivi
  • Intersezione
    • Eventi incompatibili/mutuamente

esclusivi

  • Evento complementare
  • Partizione
APPROCCI ALLA DEFINIZIONE DI PROBABILITÀ
1. CLASSICO

Ipotizza che i risultati dell’esperimento siano ugualmente possibili. Se definiamo:

  • Na il n° di eventi elementari che verificano A (casi favorevoli)
  • N il n° di eventi elementari di S (casi possibili)

La definizione classica di possibilità di un evento A⊂ 𝑆 è 𝑃(𝐴) =

𝑁𝑎

𝑁

Se è complesso contare il n° di eventi, uso il calcolo combinatorio

2. FREQUENTISTA

Si basa sull’idea di ripetizione dell’esperimento

  • Successione idealmente infinita di prove identiche
  • Considero la frequenza assoluta n a

del verificarsi dell’evento A su n prove totali. Definisco

= lim

𝑛→∞

𝑎

3. SOGGETTIVISTA

La probabilità esprime una valutazione fatta dal soggetto interessato, ma per essere ammissibile deve

soddisfare le cosiddette regole di coerenza

4. ASSIOMATICA

Permette di superare il dibattito su quale sia la migliore definizione fornendo uno strumento operativo

che prescinde dall’interpretazione di cosa sia (in ultima analisi). La probabilità postula o degli assiomi,

proposizioni auto evidenti o accettate senza necessità di dimostrazione, sulla base dei quali si

dimostrano tutti gli enunciati necessari. La moderna teoria della probabilità si basa sull’approccio

assiomatico che si deve al matematico russo Kolmogrov

DEFINIZIONE Sia S lo spazio campionario e siano O i

i suoi elementi elementari. Si definisce probabilità

una funzione P il cui argomento è un evento A contenuto in S tale che:

(A.1) 0≤P(A)≤1 sempre compresa tra 0 e 1

(A.2) P(A) = unione di elementi appartenenti ad A

(A.3) P(S)=
REGOLE DELLA PROBABILITÀ

Se mutuamente esclusivi (additività per eventi incompatibili)

𝐶

Regola additiva della probabilità

ODDS

In ambiti come le scommesse, le probabilità di due eventi alternativi (A, A

C

) sono comunicate tramite gli

odds.

DEFINIZIONE Definiamo odds in favore di un evento A il rapporto tra P(A) e P(A

C

Probabilità CONDIZIONATA

Calcolare la probabilità di eventi sulla base di informazione parziale, cioè per cui il risultato è

parzialmente noto.

DEFINIZIONE Siano A e B due eventi. Si definisce probabilità condizionata di A dato B la quantità

Regola moltiplicativa

INDIPENDENZA

Se confronto P(A) e 𝑃

posso verificare se il fatto che B si sia realizzato influisce sulla probabilità di

A, dico che sono indipendenti.

Proprietà GENERALI DELLA f.d.r.

  • 0≤F(x)≤1 ∀𝑥 ∈ ℝ
  • Comportamenti al bordo di ℝ
  • lim

𝑛→−∞

= 0 in - ∞ non ho ancora probabilità da cumulare

  • lim

𝑛→+∞

= 1 in +∞ ho cumulato tutta la massa di probabilità disponibile

  • F è non decrescente
  • F è continua da destra nei punti di salto e continua negli altri punti

DEFINIZIONE Data una v.a. X discreta con realizzazioni possibili x1, …, xk con probabilità p(x1), …, p(xk) si

definisce valore atteso di X e il numero reale indicato con E(x) dato da

𝑘

𝑖= 1

MOMENTI

DEFINIZIONE Dato una v.a. discreta X, si definisce momento X di ordine k (o momento k-esimo)

𝑘

𝑘

𝑖≥ 1

La media delle potenze di ordine k delle realizzazioni possibili di x

DEFINIZIONE Sia X una v.a. discreta con media 𝜇 = 𝐸(𝑥). Si definisce varianza di x il valore atteso degli

scarti dalla media al quadrato, dunque

2

= 𝐸[

2

E definisce deviazione standard di X la quantità 𝜎 = ඥ𝑉𝑎𝑟(𝑥)

FORMULA RIDOTTA

2

2

DEFINIZIONE. Definiamo trasformata lineare di una v.a. discreta X, una v.a. data da 𝛾 = 𝑎 + 𝑏𝑥

Prof. De Blasi

DISTINGUIAMO MODELLI IN BASE AL NUMERO DI VALORI CHE PUÒ ASSUMERE X:
NUMERO FINITO
  • Binomiale
  • Ipergeometrica
NUMERO INFINITO
  • Geometrico
  • Poisson

DISTRIBUZIONE BINOMIALE (con reimissione)

DISTRIBUZIONE DI BERNOULLI

Sia X una variabile aleatoria può assumere il valore 1 quando il risultato dell’esperimento è il “successo” e

0 in caso contrario. La funzione di probabilità di questa variabile aleatoria è:

P (0) = (1-p) e P(1) = p

In alternativa

𝑥

1 −𝑥

VALORE ATTESO 𝐸

2

2

Formula ridotta 𝑣𝑎𝑟(𝑥) = 𝑝( 1 - p)

Definiamo quindi

𝑥

𝑛−𝑥

Coefficiente binomiale è la quantità (

𝑛!

𝑥!(𝑛−𝑥)!

che corrisponde al numero di combinazioni di x

elementi tra n. Il numero di modi di scegliere tra n senza tener conto dell’ordine è

𝑛

𝒏

𝒙=𝟎

𝑋~𝑏𝑖𝑛𝑜𝑚(𝑛, 𝑝) (Numero di successi su n prove bernoulliane, indipendenti e con uguale probabilità di

successo)

DISTRIBUZIONE IPERGEOMETRICA ( estrazione senza reimissione )

Si tratta di un’estrazione senza reimissione

DEFINIZIONE. Una variabile aleatoria X ha distribuzione ipergeometrica di parametri N,S,n con S≤N e n≤N,

indicato con

Se X ha funzione di probabilità

DISTRIBUZIONE GEOMETRICA

La distribuzione geometrica si applica a esperimenti in cui abbiamo una successione, potenzialmente infinita di

prove bernoulliane, prove cioè indipendenti tra un uguale probabilità di successo

DEFINIZIONE. Una variabile aleatoria X ha distribuzione geometrica di parametro 0≤p≤

Se ha funzione di probabilità p(x) =P(X=x) =(1-p)

x- 1

DISTRIBUZIONE DI POISSON

Si tratta di un modello di distribuzione per esperimenti aleatori che riguardano il numero di volte che un

“evento” si verifica in un intervallo di tempo

Variabile aleatoria X con valori x=0,1,2, …

Si utilizza quando sono soddisfatte le seguenti quattro condizioni:

  1. Se l’intervallo è diviso in un numero grande di sotto intervalli, la probabilità di verificarsi di un evento in

un sotto intervallo è molto piccola

  1. La probabilità che si verifichi solo un evento in un sotto intervallo è proporzionale all’ampiezza del sotto

intervallo

  1. La probabilità che si verifichi l’evento più di una volta in un sotto intervallo è trascurabile rispetto a

quella che l’evento si verifichi una sola volta

  1. Eventi che si verificano in sotto intervalli disgiunti sono indipendenti

X = numero di eventi che si verificano in un intervallo di tempo

VARIABILI ALEATORIE CONTINUE

 Nelle v.a. continue non è possibile numerare le loro realizzazioni (a differenza delle v.a. discrete)

 la probabilità associata a una singola realizzazione è sempre pari a zero

 la probabilità si determina ad intervalli

 si parla di v.a. continue quando la funzione di ripartizione F(x) è continua su R; spesso è utile lavorare

con la derivata della f.d.r detta funzione di densità

DEFINIZIONE Una v.a. si dice continua se assume valori in un intervallo (limitato o illimitato) e la sua

distribuzione di probabilità è determinata da f: R→ R+ (x→f(x)>=0) che soddisfa le seguenti proprietà:

  • ∞+∞f(x)dx=1 e P(a DISTRIBUZIONE ESPONENZIALE

La distribuzione esponenziale è utile a modellare durata e tempo di attesa

Una v.a X ha distribuzione esponenziale se la funzione di densità è data da f(x

{

𝜆𝑒

−𝜆𝑥

𝑥 ≥ 0

0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

Dove λ>0 è detto tasso (“rate”), il parametro della distribuzione

𝑋~𝐸𝑥𝑝(𝜆)

Sia il valore atteso che la varianza diminuiscono all’aumentare del valore del parametro λ.

E(X)= 1/ p 𝑉𝑎𝑟

( 𝑋

)

1 −𝑝

𝑝

2

DISTRIBUZIONE NORMALE

Si adatta a variabili laddove valori intorno alla media sono più probabili di valori lontani dalla media. In particolare la

funzione di densità è SIMMETRICA rispetto alla media.

E(x)=μ (corrisponde anche alla moda cioè al valore di x con massima densità , “x maggiormente probabile)

Var(x)= 𝜎

2

𝑋~𝑁(𝜇, 𝜎

2

)

I valori della f.d.r. della distribuzione normale standard sono riportati nelle tavole della normale

DISTRIBUZIONE NORMALE STANDARD

𝑍~𝑁(𝜇 = 0 , 𝜎

2

= 1 )

funzione di densità: Φ

1

√ 2 𝜋

−𝑧

2

2

funzione di ripartizione: Φ

=P(Z<=z)=-x(u)du i valori sono riportati nelle tavole

se Φ

Trasformazione lineare: se E(X)= 0 , Var(X)= 1 e a,b appartengono ad R

Y=a+bX soddisfa

{

E(X) = E(a + bX) = a + bμ

Var(Y) = Var(a + bX) = 𝑏

2

𝜎

2

Se 𝑋~𝑁

( 𝜇, 𝜎

2

) allora Y= a+bX~N(a+bμ, 𝑏

2

𝜎

2

)

DEFINIZIONE Data una v.a. continua X, si definisce QUARTILE SUPERIORE di ordine 1-α, α appartiene a (0,1),

la quantità x:F(x)= 1- α. x è detto anche quartile superiore di livello α.

Notazione:

𝑍𝛼: 1 − Φ(𝑍𝛼) = 𝛼, 𝛼 < 0. 5

DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA

Campione aleatorio di ampiezza n

X1, … , Xn~iid F

Popolazione con media 𝜇 e varianza 𝜎

2

. In particolare la varianza è il valore atteso

2

= 𝐸[(𝑋 − 𝜇)

2

]

Il che suggerisce di stimare 𝜎

2

attraverso una “media” aritmetica di (𝑥

𝑖

2

estesa a tutte e b le osservazioni.

Se la media è incognita useremo la media campionaria al punto della media della popolazione, giungiamo alla

formula della varianza campionaria che abbiamo introdotto in statistica descrittiva

2

2

𝑛

𝑖= 1

DISTRIBUZIONE CHI-QUADRATO

DEFINIZIONE Siano Z 1

, … ,Z ν

iid da N(0,1), 𝜈 ∈ ℕ. La v.a.

𝜈 2

𝑖= 1

ha distribuzione chi-quadrato Χ

2

𝑐𝑜𝑛 𝜈 gradi di

libertà.

2

𝜈

𝑖= 1

𝜈

2

La distribuzione chi-quadrato è unimodale e asimmetrica, con realizzazione positiva. Abbiamo che

2

𝜈

𝑖= 1

2

𝜈

𝑖= 1

ν=n- 1

PROBLEMI DI STIMA DI UNA SINGOLA POPOLAZIONE

Due tipi di stima:

  • Puntuale (attraverso un singolo valore)
  • Per intervallo (attraverso un intervallo di valori all’interno dei quali si potrà verosimilmente trovare il

parametro da stimare)[Intervallo di confidenza]

STIMA PUNTUALE

Stima puntuale attraverso statistiche campionarie, cioè v.a. espresse in funzione del campione aleatorio X1,

....,Xn~iid F

ESEMPI DI STATISTICHE CAMPIONARIE:

  • Media campionaria 𝑥̅
  • Proporzione campionaria 𝑃

̂

  • Varianza campionaria 𝑆

2

Per scegliere quale preferire in generale utilizziamo le proprietà degli stimatori che fanno riferimento alla loro

distribuzione campionaria:

NON DISTORSIONE

Uno stimatore 𝐸 𝜃

= 𝜃 La mediana è uno stimatore non distorto di μ

EFFICIENZA DELLO STIMATORE
INTERVALLI DI CONFIDENZA DELLA MEDIA

(Con varianza nota) L’intervallo aleatorio (A,B) è definito stimatore per intervallo a un livello di confidenza 1-α

per il parametro θ e la stima per intervallo (a, b) viene chiamato intervallo di confidenza di livello 1- α.

Margine errore (ME)=𝑍𝛼

2

𝜎

√𝑛

 Minore n, maggiore è ME

 Maggiore 𝜎, maggiore è ME

 Maggiore 1- α, maggiore è ME

(varianza non nota) Si considera quindi la standardizzazione che si ottiene sostituendo 𝜎 = √𝜎

2

con

2

, s

2

varianza campionaria 𝑇 =

𝑥̅ −𝜇

𝑆

√𝑛

DISTRIBUZIONE DI T-STUDENT Definizione al variare del parametro “gradi di libertà”

L’intervallo di confidenza è dato da:

𝑛− 1

𝑛− 1

INTERVALLI DI CONFIDENZA PER LA PROPORZIONE

Intervallo di confidenza dato da

2

2

VERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE

DEFINIZIONE ipotesi= affermazioni sulla popolazione formulate sul valore di un parametro che ne determina la

distribuzione (media, varianza o proporzione)

Le due ipotesi H 0

“nulla” e H 1

“alternativa”, devono essere stabilite in modo che ci siano due opzioni:

  • Rifiutare H 0

e accettare H 1

  • Accettare H 0

e rifiutare H 1

REGOLA 1
H

0

e H 1

devono essere tra loro auto escludenti. Un'ipotesi, sia nulla che alternativa, può specificare un singolo

valore.

H: 𝜇 = 𝜇𝑜

Si parlerà di ipotesi semplice. Un'ipotesi che specifica valori grandi (rispettivamente valori piccoli) per il

parametro è detta ipotesi unilaterale. H: 𝜇 > 𝜇𝑜

TEST DI LIVELLO α SULLA MEDIA 𝜇 𝐶𝑂𝑁 𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴 𝜎

2

𝑁𝑂𝑇𝐴 Test (approssimato) di livello α sulla proporzione p