Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Probabilità e Statistica per l’Informatica, Appunti di Probabilità e Statistica

I concetti fondamentali di probabilità e statistica per l'informatica. Vengono descritti i metodi per descrivere e riassumere i dati, la correlazione tra variabili, la statistica inferenziale e il calcolo combinatorio. Il testo fornisce anche le formule per calcolare la probabilità di eventi e le proprietà degli spazi di probabilità.

Tipologia: Appunti

2021/2022

In vendita dal 20/11/2022

Lorenzo1501
Lorenzo1501 🇮🇹

4.2

(5)

25 documenti

1 / 28

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Probabilità e Statistica per l’Informatica
Statistica Descrittiva:
-Descrivere i dati: misuriamo una certa variabile (qualitativa o quantitativa) in un campione,
ottenendo un insieme di dati. Se l’insieme contiene un numero ridotto di valori distinti, i dati
possono essere riassunti in una tabella delle frequenze:
-Frequenza assoluta fi = numero di volta in cui compare “i” nell’insieme di dati.
-Frequenza relativa pi
fi
N
= frazione di volte in cui compare “i” nell’insieme di dati.
È utile rappresentare le frequenze (assolute o relative)
mediante un grafico a barre, detto istogramma.
L’istogramma è una rappresentazione equivalente della
tabella delle frequenze.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c

Anteprima parziale del testo

Scarica Probabilità e Statistica per l’Informatica e più Appunti in PDF di Probabilità e Statistica solo su Docsity!

Probabilità e Statistica per l’Informatica

Statistica Descrittiva :

-Descrivere i dati: misuriamo una certa variabile (qualitativa o quantitativa) in un campione,

ottenendo un insieme di dati. Se l’insieme contiene un numero ridotto di valori distinti, i dati

possono essere riassunti in una tabella delle frequenze :

- Frequenza assoluta fi = numero di volta in cui compare “i” nell’insieme di dati.

- Frequenza relativa p

i

f i

N

= frazione di volte in cui compare “i” nell’insieme di dati.

È utile rappresentare le frequenze (assolute o relative)

mediante un grafico a barre, detto istogramma.

L’istogramma è una rappresentazione equivalente della

tabella delle frequenze.

Quando si hanno molti valori distinti, conviene suddividere tali valori in degli intervalli, detti classi ;

quindi, possiamo determinare le frequenze di ciascuna classe.

Dati a coppie (bivariati) : è possibile anche misurare due variabili (o più di due), in questo modo

abbiamo un insieme di N dati a coppie, detti anche dati bivariati.

Vogliamo evidenziare se c’è una possibile correlazione tra le variabili rilevate, al crescere degli

anni di scuola le pulsazioni aumentano o diminuiscono? Né una né l’altra.

Tuttavia, si può evidenziare una tendenza attraverso il

diagramma di dispersione : questo grafico evidenzia come

all’aumentare di una variabile l’altra ha la “tendenza” a

diminuire, si parla quindi di correlazione negativa.

Ovviamente si può avere anche una correlazione positiva

o nessuna correlazione.

Per un insieme di dati a coppie è possibile calcolare le

frequenze congiunte , per ogni valore distinto (x, y) si

calcola:

- Frequenza assoluta f(x, y) = numero di volte in cui la coppia (x, y) compare nell’insieme di dati.

- Frequenza relativa p

(x, y)

f ( x , y )

N

= frazione di volte in cui la coppia (x, y) compare nell’insieme di

dati.

Riassumere i dati : vogliamo riassumere l’insieme di dati mediante quantità numeriche, dette

statistiche campionarie , con l’idea di sintetizzare le proprietà salienti dei dati.

Indici di posizione : per descrivere il “centro” dell’insieme di dati, definiamo la media campionaria

Infine, se tra i dati c’è un valore che compare con una frequenza maggiore di tutti, esso si dice

moda.

Indici di dispersione (o di variabilità)

Fissiamo un insieme di dati e la sua media campionaria X, consideriamo gli “ scarti ” Xi – X rispetto

alla media. Consideriamo gli scarti elevati al quadrato (Xi – X)

2

, facendone la media otteniamo:

Per ottenere una statistica

omogenea ai dati si definisce:

la deviazione standard s è una misura della dispersione dei dati rispetto alla media X.

Questo teorema ci dice quanti dati sono compresi in quell’intervallo. (gli esempi sono con c = 2 e c

In definitiva la deviazione standard s misura la

dispersione dei dati rispetto alla media

campionaria X.

Un altro indicatore di variabilità, che misura la

dispersione dei dati rispetto alla mediana m, è la

differenza tra il terzo e il primo quartile:

Per costruzione, l’intervallo [q 1 , q 3 ] contiene almeno il 50% dei dati.

Correlazione

Consideriamo un insieme di N dati a coppie (bivarianti), vogliamo quantificare la correlazione tra

le due variabili x e y, ossia la tendenza per cui a valori di x grandi corrispondono valori di y grandi

( correlazione positiva ) o piccoli ( correlazione negativa ).

Definiamo quindi:

Si può dimostrare che -1 ≤ r ≤ 1, inoltre:

r = 1 se e solo se yi = axi + b con a > 0;

r = -1 se e solo se y i

= ax i

  • b con a < 0;

In generale se r > 0 ho una corrispondenza positiva, se r < 0 ho una corrispondenza negativa,

inoltre: se | r | ≥ 0,7 si dice correlazione significativa , mentre se | r | ≤ 0,3 si dice correlazione

debole.

Fissato uno spazio di probabilità (Ω, P) in cui valgono le proprietà 1 e 2, allora possiamo dedurre

altre proprietà:

 P(Ø) = 0

 P(A

c

) = 1 – P(A)

 ∀ A, B anche con A∩B ≠ Ø: P(A ∪ B) = P(A) + P(B) – P(A∩B)

 Se A ⊆ B allora P(A) ≤ P(B)

Calcolo combinatorio :

Consideriamo uno spazio di probabilità (Ω, P) affinché la probabilità uniforme sia ben definita, lo

spazio campionario Ω deve essere finito, in uno spazio di probabilità uniforme calcolare una

probabilità significa contare gli elementi di un insieme: P(A) =

¿ A ∨

, contare è un

problema non banale per insiemi grani; le

tecniche di conteggio formano il calcolo

combinatorio.

Principio fondamentale : considerando un

esperimento costituito da 2 parti, con prima

parte con n esiti possibili, e seconda con m esiti

possibili; allora l’esperimento totale può avere

n*m esiti possibili.

Disposizioni con ripetizione : sequenze

ordinate di k elementi (anche ripetuti) scelti tra

n possibili.

Disposizioni semplici (senza ripetizioni):

sequenze ordinate di k elementi distinti scelti

tra n possibili.

Caso speciale k = n: permutazioni di oggetti.

Combinazioni : insiemi o collezioni non ordinate di k elementi distinti scelti tra n disponibili.

Regola del prodotto :

Formula di disintegrazione :

Formula delle probabilità totali :

Formula di Bayes :

Le proprietà appena viste si generalizzano al caso

di più di due elementi.

Regola del prodotto :

Formule di disintegrazione e probabilità totali :

Variabili aleatorie discrete : una variabile aleatoria X si dice discreta se i valori che può assumere

sono un insieme finito, oppure un insieme infinito numerabile. Ad ogni variabile aleatoria discreta

X possiamo associare una quantità chiamata:

Ovvero una funzione che dato un qualsiasi valore che può assumere la variabile aleatoria associa la

probabilità che la variabile X assuma esattamente quel valore

Proprietà:

 pX è una funzione da ℝ in [0, 1].

 p X

= P(X=x) = 0 se x non è uno dei valori x i

assunti da X.

 pX(xi) ≥ 0 per ogni i.

 La somma di tutti i valori di pX(xi) è uguale a 1.

E[X] non è necessariamente uno dei valori assunti da X.

Proprietà del valore medio :

Per ogni variabile aleatoria X, e ogni costante c reale:

 E[X + c] = E[X] + c

 E[cX] = cE[X]

Se X e Y sono due variabili aleatorie che dipendono dallo stesso esperimento aleatorio, allora:

 E[X + Y] = E[X] + E[Y]

Definiamo ora:

Distribuzioni notevoli discrete

Consideriamo una variabile aleatoria X, definita sullo spazio di probabilità (Ω, P) di un certo

esperimento aleatorio: X: Ω -> ℝ, possiamo calcolare la probabilità P(X ∈ A) per ogni A ⊆ ℝ,

l’insieme di tali probabilità definisce la distribuzione della variabile aleatoria X. Per variabili

aleatorie discrete, la distribuzione di X è determinata dalla densità discreta pX:

Per tale ragione, con abuso di notazione, per una v.a. discreta si può chiamare distribuzione la

densità discreta; classifichiamo le più importanti:

Bernoulli : si chiama Bernoulli una v.a. X che può assumere soltanto i valori 0 e 1, cioè X(Ω) = {0, 1};

Quindi X è Bernoulli se e solo se la sua densità discreta è di questa forma, per un p ∈ [0, 1], e la

indicheremo come X ~ Be(p).

Binomiale : consideriamo un esperimento aleatorio costituito da “prove ripetute e indipendenti”,

dove ciascuna prova può avere due soli esiti (successo = 1, insuccesso = 0) con una probabilità di

successo p ∈ [0, 1] fissata.

Siano: n ∈ ℕ numero totali di prove.

. p ∈ [0, 1] probabilità di successo in ciascuna prova.

Consideriamo quindi la v.a. X = numero di successi che si verificano nelle N prove; la distribuzione

di X è detta binomiale di parametri n e p e indicata con X ~ Bin(n, p). Calcoliamo la distribuzione di

X:

Inoltre, la densità discreta è data da:

Introduciamo ora le v.a. X 1 , X 2 , …, Xn con:

Possiamo scrivere allora:

Per la natura dell'esperimento aleatorio assumiamo che:

 X

1

, X

2

, …, X

n

siano v.a. indipendenti

 Xi ~ Be(p)

Sappiamo che E[Xi] = p e Var[Xi] = p(1-p). Per le proprietà di valore medio e varianza:

Otteniamo che se X ~ Bin(n, p):