




















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
I concetti fondamentali di probabilità e statistica per l'informatica. Vengono descritti i metodi per descrivere e riassumere i dati, la correlazione tra variabili, la statistica inferenziale e il calcolo combinatorio. Il testo fornisce anche le formule per calcolare la probabilità di eventi e le proprietà degli spazi di probabilità.
Tipologia: Appunti
1 / 28
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





















-Descrivere i dati: misuriamo una certa variabile (qualitativa o quantitativa) in un campione,
ottenendo un insieme di dati. Se l’insieme contiene un numero ridotto di valori distinti, i dati
possono essere riassunti in una tabella delle frequenze :
i
f i
= frazione di volte in cui compare “i” nell’insieme di dati.
È utile rappresentare le frequenze (assolute o relative)
mediante un grafico a barre, detto istogramma.
L’istogramma è una rappresentazione equivalente della
tabella delle frequenze.
Quando si hanno molti valori distinti, conviene suddividere tali valori in degli intervalli, detti classi ;
quindi, possiamo determinare le frequenze di ciascuna classe.
Dati a coppie (bivariati) : è possibile anche misurare due variabili (o più di due), in questo modo
abbiamo un insieme di N dati a coppie, detti anche dati bivariati.
Vogliamo evidenziare se c’è una possibile correlazione tra le variabili rilevate, al crescere degli
anni di scuola le pulsazioni aumentano o diminuiscono? Né una né l’altra.
Tuttavia, si può evidenziare una tendenza attraverso il
diagramma di dispersione : questo grafico evidenzia come
all’aumentare di una variabile l’altra ha la “tendenza” a
diminuire, si parla quindi di correlazione negativa.
Ovviamente si può avere anche una correlazione positiva
o nessuna correlazione.
Per un insieme di dati a coppie è possibile calcolare le
frequenze congiunte , per ogni valore distinto (x, y) si
calcola:
(x, y)
f ( x , y )
= frazione di volte in cui la coppia (x, y) compare nell’insieme di
dati.
Riassumere i dati : vogliamo riassumere l’insieme di dati mediante quantità numeriche, dette
statistiche campionarie , con l’idea di sintetizzare le proprietà salienti dei dati.
Indici di posizione : per descrivere il “centro” dell’insieme di dati, definiamo la media campionaria
Infine, se tra i dati c’è un valore che compare con una frequenza maggiore di tutti, esso si dice
moda.
Indici di dispersione (o di variabilità)
Fissiamo un insieme di dati e la sua media campionaria X, consideriamo gli “ scarti ” Xi – X rispetto
alla media. Consideriamo gli scarti elevati al quadrato (Xi – X)
2
, facendone la media otteniamo:
Per ottenere una statistica
omogenea ai dati si definisce:
la deviazione standard s è una misura della dispersione dei dati rispetto alla media X.
Questo teorema ci dice quanti dati sono compresi in quell’intervallo. (gli esempi sono con c = 2 e c
In definitiva la deviazione standard s misura la
dispersione dei dati rispetto alla media
campionaria X.
Un altro indicatore di variabilità, che misura la
dispersione dei dati rispetto alla mediana m, è la
differenza tra il terzo e il primo quartile:
Per costruzione, l’intervallo [q 1 , q 3 ] contiene almeno il 50% dei dati.
Correlazione
Consideriamo un insieme di N dati a coppie (bivarianti), vogliamo quantificare la correlazione tra
le due variabili x e y, ossia la tendenza per cui a valori di x grandi corrispondono valori di y grandi
( correlazione positiva ) o piccoli ( correlazione negativa ).
Definiamo quindi:
Si può dimostrare che -1 ≤ r ≤ 1, inoltre:
r = 1 se e solo se yi = axi + b con a > 0;
r = -1 se e solo se y i
= ax i
In generale se r > 0 ho una corrispondenza positiva, se r < 0 ho una corrispondenza negativa,
inoltre: se | r | ≥ 0,7 si dice correlazione significativa , mentre se | r | ≤ 0,3 si dice correlazione
debole.
Fissato uno spazio di probabilità (Ω, P) in cui valgono le proprietà 1 e 2, allora possiamo dedurre
altre proprietà:
c
) = 1 – P(A)
∀ A, B anche con A∩B ≠ Ø: P(A ∪ B) = P(A) + P(B) – P(A∩B)
Se A ⊆ B allora P(A) ≤ P(B)
Calcolo combinatorio :
Consideriamo uno spazio di probabilità (Ω, P) affinché la probabilità uniforme sia ben definita, lo
spazio campionario Ω deve essere finito, in uno spazio di probabilità uniforme calcolare una
probabilità significa contare gli elementi di un insieme: P(A) =
, contare è un
problema non banale per insiemi grani; le
tecniche di conteggio formano il calcolo
combinatorio.
Principio fondamentale : considerando un
esperimento costituito da 2 parti, con prima
parte con n esiti possibili, e seconda con m esiti
possibili; allora l’esperimento totale può avere
n*m esiti possibili.
Disposizioni con ripetizione : sequenze
ordinate di k elementi (anche ripetuti) scelti tra
n possibili.
Disposizioni semplici (senza ripetizioni):
sequenze ordinate di k elementi distinti scelti
tra n possibili.
Caso speciale k = n: permutazioni di oggetti.
Combinazioni : insiemi o collezioni non ordinate di k elementi distinti scelti tra n disponibili.
Regola del prodotto :
Formula di disintegrazione :
Formula delle probabilità totali :
Formula di Bayes :
Le proprietà appena viste si generalizzano al caso
di più di due elementi.
Regola del prodotto :
Formule di disintegrazione e probabilità totali :
Variabili aleatorie discrete : una variabile aleatoria X si dice discreta se i valori che può assumere
sono un insieme finito, oppure un insieme infinito numerabile. Ad ogni variabile aleatoria discreta
X possiamo associare una quantità chiamata:
Ovvero una funzione che dato un qualsiasi valore che può assumere la variabile aleatoria associa la
probabilità che la variabile X assuma esattamente quel valore
Proprietà:
pX è una funzione da ℝ in [0, 1].
p X
= P(X=x) = 0 se x non è uno dei valori x i
assunti da X.
pX(xi) ≥ 0 per ogni i.
La somma di tutti i valori di pX(xi) è uguale a 1.
E[X] non è necessariamente uno dei valori assunti da X.
Proprietà del valore medio :
Per ogni variabile aleatoria X, e ogni costante c reale:
E[X + c] = E[X] + c
E[cX] = cE[X]
Se X e Y sono due variabili aleatorie che dipendono dallo stesso esperimento aleatorio, allora:
Definiamo ora:
Distribuzioni notevoli discrete
Consideriamo una variabile aleatoria X, definita sullo spazio di probabilità (Ω, P) di un certo
esperimento aleatorio: X: Ω -> ℝ, possiamo calcolare la probabilità P(X ∈ A) per ogni A ⊆ ℝ,
l’insieme di tali probabilità definisce la distribuzione della variabile aleatoria X. Per variabili
aleatorie discrete, la distribuzione di X è determinata dalla densità discreta pX:
Per tale ragione, con abuso di notazione, per una v.a. discreta si può chiamare distribuzione la
densità discreta; classifichiamo le più importanti:
Bernoulli : si chiama Bernoulli una v.a. X che può assumere soltanto i valori 0 e 1, cioè X(Ω) = {0, 1};
Quindi X è Bernoulli se e solo se la sua densità discreta è di questa forma, per un p ∈ [0, 1], e la
indicheremo come X ~ Be(p).
Binomiale : consideriamo un esperimento aleatorio costituito da “prove ripetute e indipendenti”,
dove ciascuna prova può avere due soli esiti (successo = 1, insuccesso = 0) con una probabilità di
successo p ∈ [0, 1] fissata.
Siano: – n ∈ ℕ numero totali di prove.
. – p ∈ [0, 1] probabilità di successo in ciascuna prova.
Consideriamo quindi la v.a. X = numero di successi che si verificano nelle N prove; la distribuzione
di X è detta binomiale di parametri n e p e indicata con X ~ Bin(n, p). Calcoliamo la distribuzione di
Inoltre, la densità discreta è data da:
Introduciamo ora le v.a. X 1 , X 2 , …, Xn con:
Possiamo scrivere allora:
Per la natura dell'esperimento aleatorio assumiamo che:
1
2
n
siano v.a. indipendenti
Sappiamo che E[Xi] = p e Var[Xi] = p(1-p). Per le proprietà di valore medio e varianza:
Otteniamo che se X ~ Bin(n, p):