Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti di Statistica: Variabili, Distribuzioni e Inferenza, Schemi e mappe concettuali di Statistica

Una panoramica completa dei concetti fondamentali della statistica, spaziando dalla distinzione tra variabili univariate e multivariate alle tecniche di statistica descrittiva e inferenziale. Approfondisce le relazioni tra variabili, lineari e non lineari, e le tipologie di variabili categoriali. Concetti chiave come scarto quadratico medio, z-score, funzioni di probabilità e densità, culminando nella distribuzione normale e nel teorema del limite centrale. Vengono inoltre trattati gli intervalli di confidenza, la verifica di ipotesi e l'ampiezza del campione, fornendo una solida base per l'analisi statistica. Il documento si conclude con un'analisi degli errori di i e ii tipo e delle verifiche di ipotesi su proporzioni e varianze, offrendo una guida completa per lo studio della statistica.

Tipologia: Schemi e mappe concettuali

2019/2020

Caricato il 16/07/2025

64gvvwzv2q
64gvvwzv2q 🇮🇹

2 documenti

1 / 31

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
MODALITÀ ESAME
- PARTE DI TEORIA
o30 domande (per ogni domanda sono previste 4 opzioni di risposta e solo una è quella vera
o corretta)
Per ogni risposta corretta > 1 Punto
Per ogni risposta sbagliata > -0,25 punti
Per ogni risposta mancante > 0 punti
*Il punteggio complessivo viene poi trasformato in una valutazione su una scala
decimale (da 1 a 10) in modo proporzionale.
oDURATA: 40 min
- PARTE DI PRATICA
o3 esercizi da svolgere in aula (gli esercizi riguardano distribuzioni di frequenza,
probabilità ed intervallo di confidenza)
Per gli esercizi potrà essere richiesto l’uso di CALC o Excel ed il tempo a
disposizione verrà definito in funzione della complessità della prova
*La prova è unica e indivisibile. Alla prima parte vengono assegnati 10 punti e alla seconda parte
20 punti. il voto finale deriva semplicemente dalla somma dei punteggi acquisiti in ciascuna delle
due. Tuttavia alla seconda parte (ESERCIZI) si potrà accedere avendo acquisito almeno un
punteggio di 6/10 nella prima. Per lo svolgimento degli esercizi si potrà chiedere di utilizzare un
foglio elettronico. Gli studenti che avranno acquisito un punteggio complessivo di 29/30 o 30/30
possono chiedere un’ integrazione orale per il miglioramento della valutazione o il conseguimento
della lode.
- Durante il corso verranno proposte delle esercitazioni che saranno obbligatorie per potere
accedere all’esame finale.
oLe esercitazioni potranno prevedere solo una valutazione formativa a campione.
ORGANIZZAZIONE STUDIO
- CAPITOLO 1: PERCHÈ STUDIARE LA STATISTICA?
- CAPITOLO 2: DESCRIZIONE GRAFICA DEI DATI
- CAPITOLO 3: DESCRIZIONE NUMERICA DEI DATI
- CAPITOLO 4: PROBABILITÀ
- CAPITOLO 5: DISTRIBUZIONI DI PROBABILITÀ E VARIABILI ALEATORIE DISCRETE (escluso
paragrafo 5.5)
- CAPITOLO 6: DISTRIBUZIONI DI PROBABILITÀ E VARIABILI ALEATORIE CONTINUE
- CAPITOLO 7: CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE
- CAPITOLO 8: PROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE (escluso paragrafo 8.4)
- CAPITOLO 9: PROBLEMI DI STIMA: ULTERIORI ARGOMENTI (solo paragrafi 9.1 e 9.2)
- CAPITOLO 10: VERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE (escluso paragrafo 10.4)
- CAPITOLO 11: VERIFICA DI IPOTESI: ULTERIORI ARGOMENTI (escluso paragrafo 11.2)
- CAPITOLO 12: NO
- *CAPITOLO 13: TEST SULLA BONTÀ DI ADATTAMENTO E TABELLE DI CONTINGENZA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Anteprima parziale del testo

Scarica Appunti di Statistica: Variabili, Distribuzioni e Inferenza e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

STATISTICA

MODALITÀ ESAME

- PARTE DI TEORIA

o 30 domande (per ogni domanda sono previste 4 opzioni di risposta e solo una è quella vera

o corretta)

 Per ogni risposta corretta > 1 Punto

 Per ogni risposta sbagliata > -0,25 punti

 Per ogni risposta mancante > 0 punti

*Il punteggio complessivo viene poi trasformato in una valutazione su una scala

decimale (da 1 a 10) in modo proporzionale.

o DURATA: 40 min

- PARTE DI PRATICA

o 3 esercizi da svolgere in aula (gli esercizi riguardano distribuzioni di frequenza,

probabilità ed intervallo di confidenza)

 Per gli esercizi potrà essere richiesto l’uso di CALC o Excel ed il tempo a

disposizione verrà definito in funzione della complessità della prova

*La prova è unica e indivisibile. Alla prima parte vengono assegnati 10 punti e alla seconda parte

20 punti. il voto finale deriva semplicemente dalla somma dei punteggi acquisiti in ciascuna delle

due. Tuttavia alla seconda parte (ESERCIZI) si potrà accedere avendo acquisito almeno un

punteggio di 6/10 nella prima. Per lo svolgimento degli esercizi si potrà chiedere di utilizzare un

foglio elettronico. Gli studenti che avranno acquisito un punteggio complessivo di 29/30 o 30/

possono chiedere un’ integrazione orale per il miglioramento della valutazione o il conseguimento

della lode.

- Durante il corso verranno proposte delle esercitazioni che saranno obbligatorie per potere

accedere all’esame finale.

o Le esercitazioni potranno prevedere solo una valutazione formativa a campione.

ORGANIZZAZIONE STUDIO

- CAPITOLO 1: PERCHÈ STUDIARE LA STATISTICA?

- CAPITOLO 2: DESCRIZIONE GRAFICA DEI DATI

- CAPITOLO 3: DESCRIZIONE NUMERICA DEI DATI

- CAPITOLO 4: PROBABILITÀ

- CAPITOLO 5: DISTRIBUZIONI DI PROBABILITÀ E VARIABILI ALEATORIE DISCRETE (escluso

paragrafo 5.5)

- CAPITOLO 6: DISTRIBUZIONI DI PROBABILITÀ E VARIABILI ALEATORIE CONTINUE

- CAPITOLO 7: CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE

- CAPITOLO 8: PROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE (escluso paragrafo 8.4) - CAPITOLO 9: PROBLEMI DI STIMA: ULTERIORI ARGOMENTI (solo paragrafi 9.1 e 9.2) - CAPITOLO 10: VERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE (escluso paragrafo 10.4) - CAPITOLO 11: VERIFICA DI IPOTESI: ULTERIORI ARGOMENTI (escluso paragrafo 11.2)

- CAPITOLO 12: NO

- *CAPITOLO 13: TEST SULLA BONTÀ DI ADATTAMENTO E TABELLE DI CONTINGENZA

CAPITOLO 1: PERCHÉ STUDIARE LA STATISTICA

Definizione

  • La STATISTICA è un insieme di metodi e di tecniche per la conoscenza quantitativa, l'analisi e la

comprensione di uno o più fenomeni, singolarmente o congiuntamente considerati, che si

presentano nella realtà con un insieme di diverse manifestazioni, osservabili totalmente

o parzialmente.

Etimologia

  • L'etimologia della parola “statistica” deriva dal vocabolo “Stato” e fa riferimento alla

constatazione per cui le prime informazioni su fenomeni reali sono state raccolte ed

organizzate ad opera degli organismi statali che ne erano anche i principali utilizzatori.

Storia

1. Le tracce più antiche di rilevazioni statistiche ufficiali risalgono ai Sumeri ( IV-II

millennio a.c ).

2. Nell'antico Egitto ci sono testimonianze di una attiva misurazione quantitativa dei

fenomeni sociali e della venerazione di una dea dei libri e dei conti.

3. Fa parte della Bibbia il “Libro dei Numeri”, dove si parla anche del censimento di Mosè

su ordine divino.

4. Ci sono prove di rilevazioni statistiche ufficiali nell'antica Cina (2238 AC) e

naturalmente nell'antica Roma (Madonna non partorì a casa sua a Nazareth (in

Galilea), ma in una stalla sulla strada per Betlemme (in Giudea) dove stava andando

per registrarsi al censimento di Augusto).

5. La fase metodologica si fa inziare con A. Quetelet (1796-1874) a cui dobbiamo

l'unificazione sotto un'unica visione di diversi ambiti di ricerca riconducibili alla

Statistica (la demografia, la teoria degli errori accidentali e il calcolo delle probabilità).

E' da questo momento che la statistica si caratterizza come metodo scientifico.

6. I metodi e i concetti su cui si fonda il moderno ragionamento statistico appaiono nel

XX secolo (con i contributi classici di Pearson, Fischer, Gosset, Neyman, Gini, Chisini, De

Finetti, etc.)

7. Dall ’inizio del ‘900 anche la Fisica si fa Statistica! 8. Dal dopoguerra la Statistica entra come supporto metodologico alla ricerca e alla

pratica in ogni ambito di ricerca scientifica: chimica, biologia, ingegneria, medicina,

psicologia e... molto recentemente nell’educazione.

Legge dei Grandi Numeri e Indipendenza Statistica

  • La legge dei grandi numeri dice che, per un numero di ripetizioni identiche dello stesso

esperimento, che tende all’infinito, la probabilità di un determinato evento tende a coincidere

con la sua frequenza.”

  • Legge dei Grandi Numeri e Indipendenza Statistica

“Sulla ruota di Venezia da tre anni non esce il 56, quindi lo gioco, per la legge dei

grandi numeri ci sono buone probabilità che esca”

- FALSO!

La Legge dei Grandi Numeri ci dice che in un numero molto grande di prove

(tendenti all’infinito) il 56 uscirà circa con una frequenza di 1/90! Ma

Rispetto alle tecniche di calcolo

o Analitica

o Computazionale

Rispetto alle definizioni

o Frequentista (basa il concetto di probabilità sulla frequenza con cui si verificano gli eventi)

o Bayesiana (introduce all’interno della probabilità anche le aspettative soggettive della

persona che sta facendo delle indagini; si parte dalla conoscenza a priori)

Rispetto al tempo

o Time dependent > Time Series (il bollettino quotidiano di infezione

o Time Indipendent

ALTRI CONCETTI CAPITOLO 1

o Statistica : è una caratteristica del campione (es. la media età di un campione della

popolazione).

o Parametro : è una caratteristica specifica della popolazione (es. la media età della

popolazione).

o Affidabilità statistica: è il grado di sicurezza associato all’intervallo entro il quale si

presume cada il valore sconosciuto dell’universo rispetto al valore ottenuto dal campione.

o Popolazione: è l’insieme completo di tutte le unità oggetto di studio. Si indica con N e può

avere valore molto grande o infinito; l’insieme degli oggetti che vogliamo studiare.

 Nomi di tutti gli elettori registrati in Italia

 Reddito di tutte le famiglie con residenza nella città di Reggio Emilia

 Numero di CFU conseguiti da tutti gli studenti di UNIMORE

o Il campione : è il sottoinsieme delle unità osservate nella popolazione e la sua dimensione

viene indicata con n.

 Quanti campioni esistono in una popolazione? Non sono infiniti, ma possono essere

tanti (calcolo combinatorio per determinare i campioni che si possono estrararre da

una popolazione)

 Da ogni campione possiamo misurare statistiche diverse

o Campionamento casuale semplice (o bernoulliano) : è il procedimento utilizzato per

selezionare un campione di n oggetti da una popolazione, in modo che ciascuna unità della

popolazione sia scelta rigorosamente a caso e abbia le stesse opportunità di essere scelta;

è la modalità più efficace per scegliere un campione.

 Differenti campionamenti casuali possono essere estratti dalla popolazione

o Campionamento sistematico: prevede di selezionare regolarmente un oggetto all’interno

di una spefica sequenza.

 Posizionamento casuale

o Campionamento stratificato per celle : è una tecnica in cui la popolazione viene suddivisa

in “celle” rappresentanti ottogruppi omogenei per determinate caratteristiche.

Un campione viene costruito rappresentando la stessa struttura delle “celle” della

popolazione o mediante un campionamento casuale per ogni singola cella o mediante un

campionamento sistematico per ogni singola cella.

Le fasi di un indagine statistica

1. Acquisire i dati 2. Processare i dati

3. Sintetizzare (summizare) i dati 4. Analizzare i dati 5. Interpretare i dati

*Dati, informazioni e conoscenze

Modalità

Come acquisire i dati:

o Costruire ed erogare un questionario (survey)

o Attendibilità del campione

o Significatività e rappresentatività del campione

o Reperirli da fonti

o Attendibilità della fonte (non è detto che una fonte attendibile produca dati

statisticamente attendibili)

o Attendibilità statistica

Fonti

o Il tema dell’attendibilità della fonte

o Fonti istituzionali : Eurostat, Istat, Istituti Statistici territoriali, Istituti Scientifici, Enti/Servizi

Amministrativi

o Dati amministrativi, Censimenti e Indagini campionarie

o Facebook NON è una fonte attendibile!

o I giornali NON sono una fonte attendibile (spesso)!

Questionari

La costruzione di un questionario è una scienza in sè che, tuttavia richiede un attento disegno

sperimentale e una profonda conoscenza del fenomeno;

MODI PER SOMMINISTRARE UN QUESTIONARIO (Survey)

o Cartacei

o On-line (Google Forms, SurveyMonkey, LimeSurvey

*Che differenza c’è tra Survey e Poll? (il termine survey fa riferimento a più di una domanda, di

solito anche a scelta multilpla, mentre il poll fa riferimento ad una domanda posta alle persone, di

solito con scelta multipla.

Decidere in condizioni di incertezza

  • La statistica è la scienza dell’ incertezza

Descrizione grafica dei dati

  • Descrivere un fenomeno in una forma immediata.

Rappresentazioni grafiche per descrivere variabili categoriali (o qualitative)

TABELLE

  • Distribuzione di frequenza: è una tabella per organizzare i dati.

La colonna di sinistra (che contiene le modalità o classi di misura) comprende tutte le possibili

risposte relative alla variabile oggetto di studio, la colonna di destra contiene l’elenco delle

frequenze (numero di osservazioni) per ogni classe.

*Distribuzione di frequenza relativa

*Distribuzione di frequenza assoluta

GRAFICI

- Diagrammi a barre : miglior tipo di gragico per confrontare due serie di dati categorici - Diagrammi a torta: visualizzare le distribuzioni di un’unica variabile

  • Cross table (tabelle a doppia entrata): permettono di rappresentare 2 variabili congiuntamente
  • Diagrammi di Pareto: è un diagramma a barre che rappresenta le frequenze delle cause di

difettosità.

  • Le barre di sinistra indicano le cause più frequenti e a destra quelle meno frequenti. Il

diagramma è utilizzato per separare le “poche cause rilevanti” dalle “numerose cause

irrilevanti”.

*Ordine decrescente

Rappresentazioni grafiche per descrivere serie storiche :

Grafico lineare per punti : si considera come asse orizzontale l’asse del tempo e l’asse verticale

come l’asse delle quantità numeriche oggetto della misurazione. Il grafico si ottiene

congiungendo i vari punti con una linea spezzata.

Rappresentazioni grafiche per descrivere le variabili numeriche (quantitative)

  • Distribuzione di frequenza: è una tabella per organizzare i dati. La colonna di sinistra (che

contiene le modalità o classi di misura) comprende tutte le possibili risposte relative alla

variabile oggetto di studio, la colonna di destra contiene l’elenco delle frequenze (numero di

osservazioni) per ogni classe.

o In questo caso bisogna seguire alcune regole per costruirla:

o Regola 1) il numero di classi si decide in modo arbitrario

o Regola 2) ampiezza delle classi: si calcola ampiezza (w) = (valore massimo – valore

minimo) / numero di classi

o Regola 3) classi collettivamente esaustive e mutuamente esclusive: cioè senza

sovrapposizioni. Esempio se facciamo la classe 20-30 e 30-40, il 30 dove lo mettiamo?

- Distribuzione delle frequenze relative: è ottenuta dividendo ciascuna frequenza per il numero

complessivo delle osservazioni: la somma delle frequenze relative è 1.

- Distribuzione delle frequenze percentuali: si ottiene moltiplicando le frequenze relative per

- Distribuzione delle frequenze cumulat e: si ottiene sommando alla frequenza della classe

corrente le frequenze di tutte le classi precedenti.

- Distribuzione delle frequenze relative cumulate : si ottiene sommando alla frequenza relativa

della classe corrente le frequenze relative di tutte le classi precedenti.

- Distribuzione delle frequenze percentuali cumulate: si ottiene moltiplicando per 100 le

frequenze relative cumulate.

- Istogramma: è un grafico composto da rettangoli verticali adiacenti - Ogiva: anche chiamata curva delle **frequenze cumulate

  • Diagramma ramo-foglia** : è un metodo di analisi esplorativa dei dati alternativo all’istogramma.

I dati sono raggruppati secondo le loro cifre più significative (i rami), mentre le cifre meno

significative di ogni osservazione (le foglie) sono elencate a destra di ogni ramo,

separatamente ed in ordine non decrescente.

- Scatter plot: ci consente di rappresentare congiuntamente due variabili

Rappresentazioni per descrivere relazioni tra variabili :

Diagramma a dispersione: viene usato per verificare l’eventuale relazione tra variabili

quantitative.

Tabelle a doppia entrata: elenca la frequenza delle osservazioni per ogni combinazione di classi

di misura di due variabili.

Tabella di contingenza: quando entrambe le variabili sono qualitative.

l’osservazione Q3, terzo quartile (o 75-esimo percentile) e l’osservazione Q1, primo quartile (o

25-esimo percentile).

*Enfasi nei valori centrali

Quindi: IQR = Q3 – Q

  • Varianza: (^) σ

2

è la somma delle differenze, al quadrato, tra ciascuna osservazione e la media

della popolazione, divisa per la dimensione della popolazione.

  • Ogni osservazione viene usata nel calcolo; non è così svantaggioso perché potrebbero essere

usati dati sporchi.

σ

2

= (^) ∑

i = 1

N

( xi – μ )

2

N

sulla popolazione (^) s

2

= (^) ∑

i = 1

x

( xi – x )

2

n − 1

sul campione

  • Scarto quadratico medio (o deviazione standard): misura variazioni attorno alla media; è la

radice quadrata della varianza.

*Se è grande i dati sono dispersi; se è piccola i dati sono concentrati

*Misura più comunemente usata nel calcolo

*Ha la stessa unità di misura dei dati, mentre la varianza no perché è al quadrato

***** Ogni osservazione viene usata nel calcolo; non è così svantaggioso perché potrebbero essere

usati dati sporchi.

σ =√ σ

2

sulla popolazione (^) s = √ s

2

sul campione

  • Variazione relativa :

σ

μ

  • Coefficiente di variazione (CV): esprime lo scarto quadratico medio come una percentuale

della media (purchè la media non sia nulla).

CV =

σ

x 100% con σ ≠ 0 coefficiente di variazione della popolazione

CV =

S

| X |

x 100% con σ ≠ 0 coefficiente di variazione del campione

  • Disuguaglianza di Chebychev: per ogni popolazione con media μ , scarto quadratico medio σ e

k > 1 , la percentuale di osservazioni che appartengono all’intervallo ( μk σ ; μ + k σ ) è: almeno

100[1-(1/ k

2

)]%

o K=1 55.6%

o K=2 75%

o K=3 89%

  • Regole empiriche (si utilizzano per popolazioni molto grandi)

o K=1 68%

o K=2 95%; ( μ − 2 σ ; μ + 2 σ ): è uno degli intervalli più utilizzati

o K=3 99.7%

*Dove k rappresenta il fattore moltiplicativo dello scarto quadratico medio.

*È indipendente da come i dati sono distribuiti

  • z-Score: indica la posizione di un valore rispetto alla media: è un valore standarizzato che

indica il numero di deviazioni standard che separano il dato dalla media della distribuzione.

z= =

Xiμ

σ

o Se è positivo il valore dell’osservazione è più grande della media; se è negativo il valore

dell’osservazione è minore della media; se è 0 il valore dell’osservazione è uguale alla

media.

Misure di sintesi per dati raggruppati

  • Media ponderata: x =

w 1 x 1 + w 2 x 2 + + wnxn

w 1 + w 2 + + wn

con wi = peso dell’ i-esima osservazione.

Misure delle relazioni tra variabili

  • Covarianza: è una misura della relazione lineare tra due variabili.

o Un valore positivo indica una relazione diretta o positiva e un valore negativo indica

una relazione inversa o negativa; se la covarianza è 0 le due variabili sono indipendenti.

*La covarianza non ci dà una relazione causale tra due variabili

Cov (x, y) = σ^ x , y

i = 1

N

x i

μ

x )^ (^

y i

μ

y )

N

Covarianza della popolazione

Cov (x, y) = s x , y

i = 1

n

( x

i

− x ) ( y

i

− y )

n − 1

Covarianza campionaria

  • Coefficiente di correlazione lineare (Pearson) : è calcolato dividendo la covarianza per il

prodotto degli scarti quadratici medi delle due variabili.

*È un numero puro

*Ha valori tra -1 e +

*Più ci avviciniamo a -1 più avremo una dipendenza lineare negativa

  • Più ci avviciniamo a +1 più avremo una dipendenza lineare positiva

*Più ci avviciniamo a 0 più debole è la dipendenza lineare positiva o negativa

p =

Cov ( x , y )

σ x

σ y

coefficiente di correlazione lineare della popolazione

r =

Cov ( x , y )

s x

s y

coefficiente di correlazione lineare del campione

Esempio:

o r=-1; retta decrescente

o r= -0,6 retta decrescente, ma non riesce ad intercettare tutti i dati; riesce però a

descriverne un andamento

o r=

o r=+1 retta crescente

o r=+

  • Coefficiente di determinazione = (^) p

2

= (^) r

2

CAPITOLO 4: PROBABILITÀ

Termini importanti

  • Esperimento aleatorio o casuale (random experiment): è un processo che porta a due o più

risultati senza che si possa prevedere quale di questi si realizzerà.

Non sappiamo quale sarà l’esito (outcome).

o Es. lancio una moneta

o Es. Lancio di un dado

  • Spazio campionario: i possibili risultati di un esperimento casuale sono chiamati eventi

elementari e l’insieme degli eventi elementari è chiamato spazio campionario : per indicare lo

spazio campionario si usa S.

  • Un evento è è un qualsiasi sottoinsieme di esiti di uno spazio campionario.

o Es. E: < 4

o Es. E: numero pari

  • Mutuamente esclusivi: se gli eventi A e B non hanno in comune alcun evento elementare,

sono detti mutuamente esclusivi (o incompatibili) e la loro intersezione è impossibile.

  • Collettivamente esaustivi: se l’unione degli eventi coincide con lo spazio campionario S.
  • Evento complementare: sia A un evento dello spazio campionario S. L’insieme degli eventi

elementari appartenenti a S ma non ad A viene detto complementare di A ed è indicato con A.

La probabilità ed i suoi assiomi

  • Probabilità (di un evento E): è il rapporto fra il numero di casi favorevoli a A e il numero di casi

totali.

*Probabilità che un certo evento accaada

* PRIMO POSTULATO: 0 ≤ P(A) ≤ 1

*SECONDO POSTULATO: la probabilità che si verifica un evento è uguale alla somma delle

probabilità che si verifichino i singoli esiti.

*TERZO POSTULATO: la probabilutà che si verifichi un evento dello spazio campionario è 1.

P(A) =

NA

N

Definizione classica di probabilità: tutti gli esiti siano equi-probabili

Probabilità frequentista: è la frequenza relativa (funziona bene se il valore totale delle prove è

molto elevato)

Probabilità soggettiva: quanto noi stimiamo che un evento si verifichi con una certa probabilità

  • Permutazione : Pn= n!
  • Permutazione con ripetizione: P Rn

n!

n 1_! n_ 2_! n_ 3_!_

  • Disposizione semplice: D k

n

=

n!

( (^) nk ) (^)!

*L’ordine è importante

  • Disposizione con ripetizione : Dr n , k

= (^) n

k

  • Combinazione semplice: si usa per calcolare il numero di combinazioni di n oggetti presi k alla

volta (combinazione di n oggetti di classe k):

C

k

n

= ( k

n

) =

n!

k! (^ nk )^!

*L’ordine non è importante

  • Combinazione con ripetizione: Cr n , k

( n + k − 1 )!

( n − 1 )! k!

Regole della probabilità

  • Regola dell’evento complementare: Sia A un evento e A il suo complementare. Allora P( A ) = 1
    • P(A) che equivale a 1 = P(A) + P( A ) - Regola additiva della probabilità:

Siano A e B due eventi mutuamente esclusivi P( A ∪ B ) = P(A) + P(B)

Siano A e B due eventi NON mutuamente esclusivi P( A ∪ B ) = P(A) + P(B) – P( A ∩ B )

- Probabilità condizionale: siano A e B due eventi. La probabilità condizionale dell’evento A,

sapendo che l’evento B si è verificato, è identificata dal simbolo P(A|B) e si ricava come segue:

P(A|B) =

P ( A ∩ B )

P ( B )

con P(B) > 0 allo stesso modo P(B|A) =

P ( A ∩ B )

P ( A )

con P(A) > 0

- Regola moltiplicativa della probabilità:

P( A ∩ B ) = P(A|B)P(B) ed allo stesso modo P( A ∩ B ) = P(B\A)P(A)

P( A ∩ B ) = P(A)*P(B) se gli eventi sono statisticamente indipendenti

  • Odds (quote) in favore di un particolare evento sono dati dal rapporto tra la probabilità

dell’evento e la probabilità dell’evento complementare.

Vengono usati ad esempio nelle scommesse.

L’ odds ratio è un rapporto tra rischi

Odds ratio : misure di associazione

Odds =

P ( A )

1 − P ( A )

P ( A )

P ( A )

  • Teorema di Bayes

P(A|B) =

P ( B ∨ A )∗ P ( A )

P ( B )

con P(B) > 0 P(B|A) =

P ( A ∨ B )∗ P ( B )

P ( A )

con P(A) > 0

Sia X una variabile aleatoria discreta con funzione di probabilità P(x) e sia g(X) una qualunque

funzione di X, allora il suo valore atteso E[g(X)] è definito come:

E[g(X)] =

x

g (^ x )^ P ( x )

E(a) = a

  • Varianza e scarto quadratico medio di una variabile aleatoria discreta: il valore atteso degli

scarti al quadrato dalla media ( (^) Xμ )

2

è chiamato varianza indicato con (^) σ

2

σ

2

=Var(X) = E[( Xμ )

2

] =

x

( Xμ )

2

P(x) vale anche = E( X

2

) – μ

2

=

x

X

2

P(x) – μ

2

Var(a)=

  • Lo scarto quadratico medio è la radice quadra. - Proprietà delle trasformazioni lineari di una variabile aleatoria

Sia X una variabile aleatoria con media μ x

e varianza σ x

2

e siano a e b due costanti assegnate. Si

definisca la nuova variabile aleatoria Y come a +bX. La media e la varianza di Y sono:

μ y

= E (a + bX) = a + b μ x

σ y

2

= Var (a + bX) = b

2

σ x

2

- Distribuzione binomiale – modello di Bernoulli : quando un esperimento casuale può presentare

solo due risultati: successo o insuccesso.

P(0) = (1 – P) insuccesso - P(1) = P

o Es. probabilità di avere un evento avverso o di avere un evento fatale

P(x) =

n!

x! ( nx )!

P

x

( 1 − P )

nx

μ = E ( x )= nP Media

σ

2

= nP ( 1 − P ) Varianza

σ = √

nP ( 1 − P ) Deviazione standard

Coefficiente di correlazione

ρ =

Cov ( x , y )

σ x

σ y

E ( x , y )− μ x

μ y

σ x

σ y

  • Concetti fondamentali: gli eventi sono indipendenti e la probabilità di avre successo è uguale per

tutti.

*Se nP ( n valore grande e P valore piccolo )= è un valore abbastanza moderato la distrivuzione

binomiale si approssima ad una. Distribuzione di Poisson

  • Distribuzione di Poisson è una distribuzione di probabilità discreta, che si utilizza per

determinare la probabilità di variabili aleatorie caratterizzate dal numero di successi in un certo

inervallo continuo (di tempo, di superficie, di lunghezza).

La variabile X è una variabile aleatoria di Poisson se la sua funzione di probabilità è

P(X) =

e

λ

λ

x

x!

Per x = 0, 1, 2, etc….

P(x) = probabilità di x successi in un dato intervallo di tempo o di spazio

λ = numero atteso di successi nell’intervallo dato, λ > 0; media che conosciamo a priori; λ = nP

e ≅ 2,

o Es. probabilità di avere un certo numero di telefonate in un giorno conoscendo la media

delle chiamate giornaliere.

*La distribuzione di Poisson è asimmetrica

*La distribuzione di Poisson è il limite per n molto grande della distribuzione binomiale.

CAPITOLO 6: DISTRIBUZIONI DI PROBABILITÀ DI VARIABILI CASUALI CONTINUE

Variabili aleatorie continue

Esempi:

  • Spessore di un tavolo
  • Tempo necessario per fare un test
  • Funzione di ripartizione o funzione cumulata di una variabile aleatoria continua X, esprime la

probabilità che X non superi x0, come funzione di x0.

F(x0) = P( X x0 ) − < x 0 <+

È una funzione crescente e va da 0 a 1

  • Funzione di densità di probabilità: per le variabili continue è possibile definire una funzione

che permette di calcolare la probabilità che X appartenga ad un determinato intervallo e che

ha un’utile rappresentazione grafica.

P(x) = 0 P ( a ≤ x ≤ b ) = F(b) – F(a )

- Proprietà della funzione di densità di probabilità:

1) F(x) > 0

  1. L’area sottesa alla funzione di densità di probabilità f(x) su tutto l’intervallo di valori ammissibili

di X vale 1. ∫

f ( x ) dx = 1

  1. Siano dati 2 valori a e b con a < b. La probabilità che X assuma valori tra a e b è l’area sottesa alla

funzione di densità sull’intervallo (^) ∫

a

b

f ( x ) dx cioè F(b) – F(a)

APPROSSIMAZIONE DELLA DISTRIBUZIONE BINOMIALE CON LA DISTRIBUZIONE NORMALE

E(X) = μ = np

Var(X) = σ

2

= np(1-p)

np(1-p)>

Z =

X − E ( X )

Var^ (^ X^ )^

Xnp

np (^1 −^ p^ )

P(a ≤ X ≤ b ) = P

(

anp

np (^1 −^ p^ )^

≤ Z ≤

bnp

np (^1 −^ p^ )^

)

DISTRIBUZIONE ESPONENZIALE

  • Si usa in genere per calcolare il tempo che intercorre tra due occorrenze (cioè la probabilità che

un certo evento accada all’interno di un determinato periodo).

  • È una variabile esponenziale.
  • Rispetto alla distribuzione normale differisce per due importanti aspetti: assume valori solo

positivi e la sua distribuzione non è simmetrica.

F(t) = (^) λe

λt

for t > 0

λ (^) = è una costante positiva=media di arrivi per unità di tempo

La funziona di ripartizione è F(t) = 1 - (^) e

λ t

per t > 0

La media e la varianza della distribuzione esponenziale sono date da:

E(T) =

λ

Var (T) =

λ

2

CAPITOLO 7: CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE

Stima

Esempio stimare la media del peso corporeo utilizzando la media del peso corporeo di un campione.

Test di ipotesi

Il processo di stima viene associato ad un test di ipotesi.

Esempio la stima ha indicato che la media è 120 pounds. Quanto questa stima è valida?

La distribuzione campionaria

La distribuzione campionaria è la distribuzione delle medie campionarie ottenute su tutti i possibili

campioni, della stessa ampiezza, estratti dalla popolazione.

Media campionaria

X =

N

i = 1

n

Xi

Errore standard delle medie campionarie/standard error per campioni indipendenti

X = σ^ x

σ

n

Errore standard delle medie campionarie/ standard error per campioni non indipendenti

σ x

σ

√ n^ √^

Nn

N − 1

Var( X ) =

σ

2

n

Nn

N − 1

Fattore di correzione per popolazioni finite :

Nn

N − 1

*La deviazione standard delle medie campionarie è più piccola

Distribuzione standardizzata della media campionaria

Z =

Xμ

σ

2

X

Xμ

σ

n

Teorema del limite centrale

  • Indipendentemente dalla forma della distribuzione se noi prendiamo un campione grande la

distribuzione delle medie campionarie segue approssimativamente una normale.

Intervalli di accettazione

μ ± Z α / 2

σ X

Proporzione campionaria

^

P =

X

n

^

P proporzione campionaria di successi in un campione casuale estratto da una popolazione con

proporzione di successi p.

E(

^

P ) = p media della proporzione campionaria

σ ^ p

ρ ( 1 − ρ )

n

deviazione standard o standard error della proporzione campionaria

Z =

^

Pρ

σ ^ p

Varianza campionaria

S

2

=

n − 1

i = 1

n

( X

i

− X )

2

Distribuzione Chi Quadrato

X

n − 1

2

=

( n − 1 ) s

2

σ

2