Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi degli errori, Sintesi del corso di Laboratorio Di Fisica Generale

Una classificazione delle incertezze in casuali e sistematiche e si concentra sull'analisi delle prime. Vengono descritte le comuni sorgenti di incertezze casuali e sistematiche e le stime di tendenza centrale e di dispersione. Viene inoltre spiegato il concetto di probabilità e la relazione tra la distribuzione dei valori misurati e la curva teorica. Il documento può essere utile per lo studio di argomenti legati alla fisica sperimentale e all'analisi dei dati.

Tipologia: Sintesi del corso

2020/2021

In vendita dal 04/09/2022

irene-cuzzoli
irene-cuzzoli 🇮🇹

25 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Analisi statistica delle incertezze casuali
Le incertezze sono classificate in due gruppi: le incertezze casuali, che possono essere
trattate statisticamente e le incertezze sistematiche che non possono essere trattate
statisticamente. Le incertezze sperimentali possono essere rivelate ripetendo le misure e
sono chiamate errori casuali. Mentre quelle che non possono essere rivelate in tale modo
sono chiamate errori sistematici. Questo genere di errori è chiamato sistematico perché
spinge i nostri risultati sempre nella stessa direzione. Tutte le misure sono soggette sia ad
incertezze casuali che incertezze sistematiche. Le comuni sorgenti di incertezze casuali
sono: piccoli errori di valutazione dell'osservatore, piccoli disturbi dell' apparato, problemi
di definizione. Mentre la causa più ovvia di errore sistematico è l'errata calibrazione degli
strumenti. Esaminando la distribuzione dei valori misurati possiamo facilmente valutare gli
errori casuali ma non possiamo trarre alcuna indicazione sugli errori sistematici. La
distinzione tra errori casuali e sistematici non è sempre netta.
Parallasse: è il fenomeno per cui un oggetto sembra spostarsi rispetto allo sfondo se si
cambia il punto di osservazione, dunque uno strumento può essere letto correttamente
solo se ci si mette esattamente di fronte ad esso
Le incertezze sistematiche sono difficili da valutare e da rivelare. Dunque il compito dello
scienziato è quello di prevenire le possibili sorgenti di errore sistematico ed accertarsi che
tutti gli errori sistematici siano molto minori della precisione richiesta. Si analizzano in
seguito esperimenti nei quali le sorgenti di errore sistematico sono state identificate
Stime di tendenza centrale
Dati N valori osservati di una grandezza fisica, si vuole ricercare la migliore stima del
valore “vero” della grandezza. Posizione centrale nella distribuzione dei valori (stime
della tendenza centrale) Infatti se non ci sono errori sistematici e se N è elevato ci si
aspetta una distribuzione simmetrica attorno al valore “vero”
Media
Supponendo di fare N misure della grandezza x e di trovare N valori, la miglior stima per x
è la media di x1, x2, … xncioè xbest = dove
𝑥𝑥 = ∑ 𝑥 𝑖
𝑁
Moda:
Valore corrispondente al massimo della frequenza, anche se in generale la distribuzione
potrebbe non avere un massimo oppure averne più di uno in intervalli non contigui. In
quest’ultimo caso la distribuzione è chiamata distribuzione multimodale.
Mediana:
Valore che divide l’istogramma della distribuzione in due parti di area uguale. La mediana,
a differenza della moda, esiste sempre
Stime di dispersione:
Per dispersione si intende la larghezza dell’intervallo in cui le misure sono distribuite.
Inoltre esiste anche il concetto di semidispersione 𝑥𝑚𝑎𝑥− 𝑥 𝑚𝑖𝑛
2
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Analisi degli errori e più Sintesi del corso in PDF di Laboratorio Di Fisica Generale solo su Docsity!

Analisi statistica delle incertezze casuali

Le incertezze sono classificate in due gruppi: le incertezze casuali , che possono essere

trattate statisticamente e le incertezze sistematiche che non possono essere trattate

statisticamente. Le incertezze sperimentali possono essere rivelate ripetendo le misure e

sono chiamate errori casuali. Mentre quelle che non possono essere rivelate in tale modo

sono chiamate errori sistematici. Questo genere di errori è chiamato sistematico perché

spinge i nostri risultati sempre nella stessa direzione. Tutte le misure sono soggette sia ad

incertezze casuali che incertezze sistematiche. Le comuni sorgenti di incertezze casuali

sono: piccoli errori di valutazione dell'osservatore, piccoli disturbi dell' apparato, problemi

di definizione. Mentre la causa più ovvia di errore sistematico è l'errata calibrazione degli

strumenti. Esaminando la distribuzione dei valori misurati possiamo facilmente valutare gli

errori casuali ma non possiamo trarre alcuna indicazione sugli errori sistematici. La

distinzione tra errori casuali e sistematici non è sempre netta.

Parallasse : è il fenomeno per cui un oggetto sembra spostarsi rispetto allo sfondo se si

cambia il punto di osservazione, dunque uno strumento può essere letto correttamente

solo se ci si mette esattamente di fronte ad esso

Le incertezze sistematiche sono difficili da valutare e da rivelare. Dunque il compito dello

scienziato è quello di prevenire le possibili sorgenti di errore sistematico ed accertarsi che

tutti gli errori sistematici siano molto minori della precisione richiesta. Si analizzano in

seguito esperimenti nei quali le sorgenti di errore sistematico sono state identificate

Stime di tendenza centrale

Dati N valori osservati di una grandezza fisica, si vuole ricercare la migliore stima del

valore “vero” della grandezza. Posizione centrale nella distribuzione dei valori (stime

della tendenza centrale) Infatti se non ci sono errori sistematici e se N è elevato ci si

aspetta una distribuzione simmetrica attorno al valore “vero”

Media

Supponendo di fare N misure della grandezza x e di trovare N valori, la miglior stima per x

è la media di x 1 , x 2 , … xn cioè xbest = 𝑥 dove 𝑥 =

∑ 𝑥 𝑖

𝑁

Moda:

Valore corrispondente al massimo della frequenza, anche se in generale la distribuzione

potrebbe non avere un massimo oppure averne più di uno in intervalli non contigui. In

quest’ultimo caso la distribuzione è chiamata distribuzione multimodale.

Mediana:

Valore che divide l’istogramma della distribuzione in due parti di area uguale. La mediana,

a differenza della moda, esiste sempre

Stime di dispersione:

Per dispersione si intende la larghezza dell’intervallo in cui le misure sono distribuite.

Inoltre esiste anche il concetto di semidispersione

𝑥 𝑚𝑎𝑥

− 𝑥 𝑚𝑖𝑛

2

Varianza: dove di=xi - 𝑥indica lo scarto

2 σ (^) x =

1

𝑁 𝑖=

𝑁

𝑖

2

Media per dati raggruppati

nj= frequenza

j= 1, … k classi

xj= valore (centrale) della classe

Si ricorda che xj

𝐽=

𝑘

𝑗

1

𝑁 𝑖=

𝑁

𝑖

1

𝑁 𝐽=

𝑘

𝑗

Frequenza relativa: frazione delle misure che ha dato il risultato xj ⇒ Fj =

𝑛 𝑗

𝑁

Valor medio:

un valore misurato si potrebbe ripetere più di una volta⇒

Definita la frequenza o “peso” Fj dei diversi valori ottenuti

xj l’espressione sopra viene chiamata “somma pesata” e si ha ⇒ 1=

𝑗=

𝑘

𝑗

Deviazione standard (radice quadrata della varianza)

La deviazione standard delle misure x 1 , x 2 , … xn è una stima dell’incertezza media delle

misure x 1 , x 2 , … xn.

procedimento:

Inizialmente si valuta lo scarto ovvero la differenza di xi da 𝑥 ⇒ di=xi - 𝑥. Lo scarto

indica quanto la misura iesima xi differisce dalla media 𝑥. Se gli scarti sono tutti molto

piccoli, le misure sono precise. NB: la media degli scarti è nulla ⇒ 𝑑 = 0. Per questo

motivo si devono elevare al quadrato tutti gli scarti in modo da ottenere tutti numeri

positivi, per poi mediare questi numeri

σ x =

1

𝑁 𝑖=

𝑁

𝑖

2

Definizione alternativa

Argomentazioni teoriche suggeriscono di sostituire il fatto N con N-1. La nuova definizione

σ x = dà un risultato leggermente più grande della precedente

1

𝑁− 𝑖=

𝑁

𝑖

2

definizione. Questo corregge la tendenza a sottostimare l’incertezza nelle misure x 1 ,...xn

specialmente se il numero di N è piccolo.

moltiplicando ciascun valore per il numero di volte che è occorso. L’ultima forma ( somma

pesata ) è più utile quando si fanno un gran numero di misure inoltre

= N ovvero il numero totale delle misure fatte

𝑘

𝑘

La frazione Fk= è la frazione delle nostre N misure che hanno dato il risultato xk e

𝑛 𝑘

𝑁

specifica la distribuzione di risultati ( descrive come sono distribuite le nostre misurazioni

tra i vari intervalli possibili). Le misure sono raggruppate in classi di frequenza k

Fk= 0 Fk 1 la probabilità del verificarsi di un evento non può mai essere

𝑛 𝑘

𝑁

maggiore di 1

Dunque 𝑥= F ovvero la media è la somma pesata di tutti i valori xk

𝑘

𝑘 𝑘

Condizione di normalizzazione: =1 qualunque insieme di numeri la cui somma è 1 è

𝑘

𝑘

detta normalizzata

nk = frequenza assoluta mentre Fk = frequenza normalizzata

Istogrammi:

  • istogramma a barre: la distribuzione dei risultati è indicata nelle altezze delle

barre verticali sopra gli xk. Utilizzato quando i valori xk sono ordinatamente

spaziati, con valori interi

- istogramma a intervalli:

La frazione di misure che cadono in ciascun intervallo è indicata dall’area del rettangolo

disegnato sopra l’intervallo. Si denota la larghezza dell’intervallo k esimo ∆k mentre

l’altezza del rettangolo è fk. Dunque fk ∆k = frazione di misure nell’intervallo k esimo=

Area rettangolo

f = distribuzione della classe, la ottengo dividendo la frequenza normalizzata di ogni classe

per la larghezza della classe ⇒ fk = NB: L’area del rettangolo k esimo dell’istogramma

𝐹 𝑘

∆ 𝑘

ad intervallo ha lo stesso significato dell’altezza Fk della barra di un istogramma a barre

Fk= fk ∆k ⇔ Fk =

𝑛 𝑘

𝑁

Quando il numero totale di misure N tende ad aumentare è possibile scegliere intervalli

più stretti, ma Il numero di classi è comunque finito. Passando invece al continuo Il

numero di classi è infinito e la distribuzione della popolazione f(x) determina la

probabilità che una misura cada attorno ad un certo valore x

NB: per N che tende all’infinito, ∆𝑥tende a zero

Distribuzione limite: quando il numero di misure si avvicina all’infinito, la loro

distribuzione si avvicina a una curva continua. Quando ciò accade, la curva continua è

chiamata distribuzione limite. Importante evidenziare come la distribuzione limite sia una

curva teorica che non può mai essere misurata con esattezza. All’aumentare del numero di

misure della grandezza x il nostro istogramma diventerà sempre più indistinguibile dalla

curva limite f(x). La frazione di misure che cadono in un intervallo compreso tra x e x+δ𝑥

(due valori qualsiasi a e b ) è l’area f(x)dx della striscia nera, ovvero della zona sotto il

grafico tra a e b. L’area è l’integrale definito di f(x):

𝑎

𝑏

Dunque conviene scrivere la probabilità Pk come Pk= Δxk fk ⇔ dP= f(x)dx ⇔probabilità che

una misura dia un risultato compreso tra x e x+dx

Generalizzando

−∞

+∞

𝑘

𝑘

valore medio: 𝑥 = = F

−∞

+∞

𝑘

𝑘 𝑘

deviazione standard: (^) x

2 σ = e (^) x=

−∞

+∞

2 𝑓(𝑥)𝑑𝑥 σ

−∞

+∞

2 𝑓(𝑥)𝑑𝑥

NB: una gran quantità di misure avranno come distribuzione limite una curva simmetrica a

campana centrata sul valore vero X sse le misure sono soggette a molte piccole sorgenti di

errori casuali e trascurabili errori sistematici. La presenza di un errore sistematico

apprezzabile spinge tutti i valori in una direzione e così sosta la distribuzione fuori centro

dal valore vero

costrizione della funzione avente: simmetria pari, massimo nel punto medio, due flessi,

limite , condizione normalizzante

𝑥 ±∞

lim

−∞

+∞

la funzione matematica che descrive la curva a campana è chiamata la

distribuzione normale o funzione di Gauss , il prototipo di tale funzione è

dove σ indica il parametro di larghezza (se σ è piccolo f(x) si allontana

rapidamente dallo zero, mentre se σè grande si allontana lentamente)

Proprietà:

  • centrata in x=
  • se x=0 allora la funzione f(x)= 1
  • funzione simmetrica attorno x=0 dato che assume lo stesso valore

per x e -x

all'esponente è minima dunque

𝑖=

𝑁

𝑖

2 / σ

2

[...] ⇒ miglior stima per X (= = ovvero

𝑖=

𝑁

𝑖

∑ 𝑥 𝑖

𝑁

Mentre il valore di σ che rende massima la PX, σovvero

migliore stima di σ = sostituisco X con

1

𝑁 𝑖=

𝑁

𝑖

2

𝑥 ⇒ σ =

1

𝑁− 𝑖=

𝑁

𝑖

2

NB: il denominatore presenta N-1 dato che nel sostituire X con 𝑥è stata sottostimata la

larghezza di σ, per correggere questa sottostima si è coretto N con N-1, migliorando la

deviazione standard

La larghezza σè il limite di confidenza del 68% , cioè vi è un 68% di probabilità che una

misura cada entro una distanza σ dal valore vero X

Incertezza in 𝑥 : è la deviazione standard della media ( σ vedi argomenti 𝑥

= σ 𝑥

precedenti

Incertezza relativa in σ x (^) = e questo spiega la necessità di fare numerose misure

1

2 (𝑁−1 )

prima di poter conoscere realisticamente l’incertezza

Accettabilità di una risposta misurata

Se misuriamo una grandezza x diverse volte, la miglior stima per x è la media 𝑥e la sua

incertezza sarà σ dunque valore di x= ci attendiamo che il 68% di qualunque 𝑥

⇒ 𝑥 ± σ𝑥

insieme di misure susseguenti di x, cada nell’intervallo 𝑥 ± σ𝑥 ⇔ x = xbest ± δx= 𝑥 ± σ𝑥

Se xbest è la media di tante misure ( 𝑥 ) allora la deviazione standard σ del suo risultato

dovrebbe coincidere con la SDOM (deviazione standard media)

NB: potrebbe essere scelto un intervallo differente

Analizziamo un determinato xexp

Se 𝑥 𝑏𝑒𝑠𝑡

𝑒𝑥𝑝

| | <^ σ^

𝑥

Se 𝑥 𝑏𝑒𝑠𝑡

𝑒𝑥𝑝

| | >^ σ^

𝑥

Presupponiamo che:

  • la misura sia governata da una distribuzione normale centrata su x (^) exp e dunque

che tutti gli errori sistematici siano stati ridotti a livello trascurabile e che la

distribuzione sia incentrata sul valore vero cioè xexp

  • avente parametro di larghezza σ= σ (^) 𝑥

La discrepanza sarà 𝑥 mente il numero di deviazioni standard per cui x (^) best 𝑏𝑒𝑠𝑡

𝑒𝑥𝑝

differisce da x (^) exp ⇒ t =. La probabilità di ottenere un risultato che differisce

𝑥 𝑏𝑒𝑠𝑡

− 𝑥

σ

da x (^) sosp per t o più deviazioni standard è la seguente:

P( x < xexp - t σ ; x> xexp + t )σ = 1 - P(xexp - t σ < x< xexp + t )σ ⇔ P(al di fuori di t )= 1-P(entroσ

t )σ

Se questa probabilità è grande, allora la discrepanza è ragionevole e xbest è accettabile,

mentre se è piccola la discrepanza è inaccettabile

NB: P (xbest - xexp ) = 1- Area (^) interna ad x exp = 1- ∫ 𝐺(𝑥)𝑑𝑥 = 1 − 𝐸𝑟𝑓(𝑡)

Il limite tra l’accettabilità e l'inaccettabilità è il 5%. Di conseguenza ogni discrepanza più

grande di 1,96 σ è inaccettabile poiché 𝑥 = 2 ) = 4,6% 𝑏𝑒𝑠𝑡

𝑒𝑥𝑝

| | σ^ ⇒ 𝑃(𝑓𝑢𝑜𝑟𝑖 𝑑𝑖 𝑡σ

Rigetto dei dati

Trovando una misura in una serie di dati che sembra essere in disaccordo stridente con le

altre è necessario comprendere se tale misura è frutto di qualche errore ( e dunque deve

essere rigettata) oppure se deve essere utilizzata. Si deve decidere se rigettare o meno

tale risultato esaminando i risultati stessi. è importante ripetere la misura molte volte in

modo da non avere una grande differenza finale se si decide di includere o meno la

misurazione anomala

Il criterio di Chauvenet

Il criterio di Chauvenet stabilisce che se un numero atteso di misure cattive almeno

quanto quella sospetta è minore di un-mezzo, allora la misura dovrebbe essere rigettata

considerando la misura sospetta: xsosp ⇒ t (^) sosp = ovvero il numero di deviazioni

𝑥 𝑠𝑜𝑠𝑝

−𝑥

| | |

| | |

σ 𝑥

standard di cui xsos differisce da 𝑥. Poi valuto P(al di fuori di t (^) sosp σ) per trovare:

  • numero atteso di misure anomale quanto xsosp = n= N P( al di fuori di t· (^) sosp σ)

Se n< ½ allora xsosp può essere rigettato e dunque occorre ricalcolare media e deviazione

standard

( nb il criterio non deve essere applicato una seconda volta usando i valori ricalcolati di σe

Le medie pesate

Se una grandezza fisica viene misurata N volte in ogni esperimento con medie e differenti

come si possono combinare i risultati dei diversi esperimenti?

Date due misure x=xA + σA e x=xB + σ B :

● le misure sono inconsistenti: se la discrepanza 𝑥 è molto più grande di 𝐴

𝐵

entrambe le incertezze σA e σ B (probabili errori sistematici)

se xi e yi non fossero soggetti ad incertezze. Dunque il massimo che possiamo aspettarci è

che la distanza di ogni punto (xi , yi ) dalla retta sia ragionevole a confronto con le

incertezze

NB: Per relazioni più complesse ci si può ricondurre comunque ad una relazione lineare

interpolazione : stimare il valore della y anche per valori di x che non ho misurato

“tra un punto e l’altro”

estrapolazione : stimare il valore della y anche al di fuori dell’intervallo delle x

misurate

Trovare la miglior linea retta y=A+Bx

Preso per garantito che y e x sono in relazione lineare, si può trovare la miglior stima per

le costanti A e B. Vi sono due metodi:

  • graficamente: valutando se la linea retta passa attraverso l’origine ed attraverso o

vicino tutte le barre di errore

NB: in questo caso una delle due grandezze può avere incertezza trascurabile e dunque

assumendo σ e l’incertezza su x è trascurabile; quelle su y sono 𝑥

= 0 σ 𝑦𝑖

= σ 𝑦

tutte uguali

  • analiticamente : regressione lineare o adattamento dei minimi quadrati per una

retta

Supponendo trascurabile l’incertezza nelle misure di x (solitamente le incertezze di una

variabile sono molto più grandi di quelle nell’altra). Abbiamo assunto che la misura delle yi

sia normalmente distribuita intorno ai valori attesi con parametro σ ovvero la misura di 𝑦

yi è governata da una distribuzione normale centrata su questo valore vero. Le migliori

stime per le costanti incognite A e B sono quei valori di A e B per i quali la probabilità PA,B

(y 1 ,....yn ) è massima o per le quali è minima la somma degli scarti

𝑖=

𝑁

𝑖

𝑖

Infatti PA,B (y 1 ) ∝

1

σ 𝑦

−𝑋

2 / 2 𝑑𝑜𝑣𝑒 𝑙'𝑒𝑠𝑝𝑜𝑛𝑒𝑛𝑡𝑒 è 𝑑𝑎𝑡𝑜 𝑑𝑎 𝑋

2

𝑖=

𝑁

(𝑦 𝑖

− 𝐴− 𝐵𝑥 𝑖

)

2

σ 𝑦

2

Il criterio che viene usato per definire il “modo migliore” di approssimare i dati e

permette di trovare l’equazione della retta che li approssima, consiste nel minimizzare

2

. Consente di determinare un’unica retta di regressione per ogni

𝑖=

𝑁

𝑖

𝑖

insieme di dati. La retta dei minimi quadrati o retta di regressione è la retta di equazione

y= A+Bx per la quale è minima la quantità

2

𝑖=

𝑁

𝑖

𝑖

Ma perché minimizzare proprio la somma dei quadrati degli scarti?

La somma degli scarti non è adatta a quantificare l’aderenza della retta agli N punti ( gli

scarti possono essere sia negativi che positivi e la loro somma in valore assoluto ∑ può

essere piccola anche per rette palesemente inadatte). Dunque la somma dei quadrati

anziché dei valori assoluti si accorda in modo naturale con la media aritmetica: la media

aritmetica gode della proprietà di rendere minima la somma dei quadrati degli scarti.

La miglior stima per A e B si ottiene applicando il criterio di massima verosimiglianza che

minimizza gli esponenti X

2 ( da qui metodo dei minimi quadrati)

dove x e y sono rispettivamente xi e yi

La retta risultante è chiamata retta dei minimi quadrati

o retta di regressione di y in x

Incertezza nella misura di σ y

Abbiamo assunto che la misura delle yi sia normalmente distribuita intorno ai valori attesi

con parametro σy. In questo modo gli scarti (𝑦 risultano normalmente 𝑖

𝑖

distribuiti e σy può essere determinata sempre con

il criterio della massima verosimiglianza:

denominatore N-

  • finchè N è grande la differenza tra N ed N-2 al denominatore è trascurabile
  • se si considerano due coppie di dati, con solo due punti si può sempre trovare una

retta che passa esattamente attraverso entrambi i punti. Con N-2 al denominatore

σ y = 0/0 indicando come dopo solo due misure l’incertezza nella misura di y sia

indeterminata

Considerazioni

σ y rappresenta la distanza media dei punti dalla retta di interpolazione, se σy ≃δ𝑦

(incertezza attesa) allora i dati sono consistenti con la relazione lineare stabilita. Se

invece σy >> δ𝑦ci sono motivi per dubitare della relazione lineare da cui dovrebbero

essere legate le variabili x e y

Incertezza nelle costanti A e B

Le incertezze in A e B sono date dalla semplice propagazione degli errori

A

2 = (^) Y

2 B

2 = (^) Y

2 2 σ σ · = 0

∑ 𝑥

2

σ σ ·

𝑁

σ ∆

NB:

Metodo dei minimi quadrati pesati

I risultati qui ottenuti derivano dall’ipotesi che le misure di y abbiano tutte la stessa

incertezza σy , e che le incertezze delle misure di x siano trascurabili. Se non si verificano

queste ipotesi e ad esempio le incertezze sulle misure di y non sono tutte uguali si può

ricorrere al metodo dei minimi quadrati pesati. Supponiamo quindi che le yi abbiano errori

quadratici medi σ (^) yi diversi tra loro. In tal caso: wi =

1

σ 𝑦𝑖

2

q =^ ( qi -^

2 σ con una serie di

(^2 )

𝑁

passaggi ( Taylor pag 213) si ottiene la

Covarianza di x e y ed è denotata:

Indica una dipendenza tra le due variabili:

POSITIVA : quando x e y variano tendenzialmente nella stessa direzione, cioè al

crescere della x tende a crescere anche y e al diminuire della x tende a diminuire

anche y

NEGATIVA : quando le due variabili variano tendenzialmente in direzione opposta,

cioè quando al crescere di una variabile l’altra variabile tende a diminuire (e

viceversa)

NULLA: quando non vi è alcuna tendenza delle due variabili a variare nella stessa

direzione o in direzione opposta. Quando σxy = 0 si dice anche che x ed y sono non

correlate

Quando la covarianza non è zero, si dice che gli errori in x e y sono correlati

NB : Si noti tuttavia che la condizione σxy = 0 è necessaria ma non sufficiente per

l’indipendenza tra le due variabili. Inoltre il fattore 1/N al denominatore garantisce che

la covarianza sia 0 per un numero di misure che tende all'infinito

Espressione alternativa per il calcolo della covarianza

σ 𝑥𝑦

1

𝑁−

𝑖=

𝑁

𝑖

𝑖

Espressione per il calcolo della varianza

σ 𝑥

2

1

𝑁−

𝑖=

𝑁

𝑖

2 − 𝑁𝑥

2 )

Coefficienti di correlazione lineare

Riprendendo il concetto di relazione lineare dato un gruppo di misure, se si conosce già

una stima ragionevole delle incertezze si può utilizzare il metodo dei minimi quadrati per

vedere se i punti giacciono vicino alla retta. Mentre nel caso in cui sia difficile/

impossibile ottenere in anticipo una stima affidabile delle incertezze si deve utilizzare un

metodo diverso. Inoltre il valore della covarianza dipende anche dalle varianze di x e y e

per indicare questo tipo di dipendenza in una forma indipendente dalla varianza di x e y si

introduce un parametro adimensionale definito coefficiente di correlazione lineare o

coefficiente di correlazione. Quest’ultimo evidenzia una relazione lineare tra le variazioni

relative di x e le variazioni relative di y

⇔ r =

σ 𝑥𝑦

σ 𝑥

2 σ 𝑦

2

Al numeratore vi è la covarianza e al denominatore il

prodotto delle due deviazioni standard. Inoltre il coefficiente di correlazione lineare può

anche essere scritto come:

-1 ≤ 𝑟 ≤ 1 il coefficiente è un indice di quanto

bene i punti si adattano ad una retta

Quanto bene un gruppo di misure di due variabili

risponde all’ipotesi lineare? Quanto più grande è

σ 𝑥𝑦

Se i punti (xi ,yi ) giacciono “esattamente” sulla

retta di interpolazione y= a +

bx allora per ogni i si ha yi=

a+bxi ⇒ 𝑞𝑢𝑖𝑛𝑑𝑖

yi - 𝑦 = 𝑏( 𝑥 dunque 𝑖

sostituendo quest’ultima nella

formula precedente si ottiene

Il segno di r viene definito dal segno di b e quindi dalla pendenza della retta. Infatti r=

per B positivo e r=-1 per B negativo. Importante evidenziare come ci si aspetti che il

valore di r sia vicino a ± 1

Punti non correlati

Se i punti (xi ,yi ) non sono correlati, per ogni yi gli xi dovrebbero essere distribuiti

casualmente intorno al valore medio, quindi:

r = e con N che tende ad , r tende a 0

𝑖=

𝑁

𝑖

𝑖

𝑖=

𝑁

𝑖

2

𝑖=

𝑁

𝑖

2

● Numeratore:I termini dovrebbero essere tanto positivi quanto negativi

● Denominatore: sicuramente positivo

Dunque se con un numero finito di dati ci aspettiamo che r sia piccolo e tenda a zero

Significato quantitativo di r

Con quale ragionevolezza si può dire che esiste una relazione lineare tra due grandezze?

Supponiamo che due variabili x e y siano in realtà non correlate, se il valore di r osservato

è r 0 si valuta la probabilità di trovare «per caso» (cioè per variabili non correlate) un

valore di N così grande ⇒ PN ( | | ≥ 𝑟𝑟 ). Se la probabilità di trovare valori di r maggiori del 0

valore osservato è piccola, allora le variabili devono essere correlate: la correlazione può

essere considerata buona. In genere, se la probabilità è <5% si parla di correlazione

significativa , se è <1% si dice che la correlazione è altamente significativa

NB: Espressioni più efficienti dal punto di vista computazionale: y=a+bx

a= 𝑦 − 𝑏𝑥 ⇔ a=

1

𝑁 𝑖=

𝑁

𝑖

𝑏

𝑁 𝑖=

𝑁

𝑖

Fattoriale

Si definisce fattoriale di n e si indica con n! il prodotto dei primi n numeri naturali positivi:

n!= n( n-1) (n- 2)... 3 2 1· · (dove per convenzione 0!=1 )

Disposizioni semplici

Fissiamo un numero k ϵ N0 ( ≤ n). Si vogliono costruire tutti i possibili raggruppamenti

distinti che si ottengono prendendo k oggetti di J in modo che valgano le seguenti

proprietà:

● in ciascun raggruppamento ci sono k oggetti senza ripetizion i;

● i raggruppamenti sono distinti per almeno un oggetto o per l’ordine con cui essi

sono disposti

NB: In generale Dn,k è pari al prodotto di k numeri naturali consecutivi decrescenti a

partire da n

Disposizioni con ripetizioni

Fissiamo un numero k ϵN 0 , senza alcuna limitazione superiore. S vogliono costruire tutti i

possibili raggruppamenti distinti, prendendo k oggetti di J, in modo che valgano le

seguenti proprietà:

● in ciascun raggruppamento ci sono k oggetti. Un oggetto può essere ripetuto al

massimo k volte;

● due qualsiasi raggruppamenti sono distinti se e solo se:

  • uno di essi contiene almeno un oggetto che non figura nell’altro,
  • gli oggetti sono diversamente ordinati
  • gli oggetti che figurano in uno figurano anche nell’altro ma sono ripetuti un

numero diverso di volte

I predetti raggruppamenti si dicono disposizioni con ripetizione degli n

oggetti di J , a k a k (o di classe k). Il loro numero è→

Permutazioni semplici

Le permutazioni semplici degli oggetti di J sono le disposizioni semplici dei predetti n

oggetti a k a k con k=n. Si deduce che due qualsiasi permutazioni semplici differiscono

solo per l’ordine con cui sono disposti gli n oggetti distinti in esse contenuti. Il loro

numero è D (^) n,n ma si preferisce usare il simbolo Pn

Permutazioni con oggetti identici

Volendo permutare n oggetti in cui ve ne siano α identici tra loro, si

ottiene un numero di permutazioni dato da →

Permutazione con ripetizione:

Per un insieme finito di n elementi di cui α 1 , α 2 ,.., αn ripetuti sono tutti i possibili

raggruppamenti

che si possono

formare

Combinazioni

semplici

Fissiamo un numero k Nϵ 0 , con k ≤n; si vogliono costruire tutti i possibili raggruppamenti

distinti che si ottengono prendendo k oggetti di J in modo che valgano le seguenti

proprietà:

● in ciascun raggruppamento figurano k oggetti senza ripetizioni;

● due raggruppamenti sono distinti per almeno un elemento

Questa formula è

giustificata dal fatto

che da ogni

combinazione semplice

si possono ottenere, permutando in tutti i modi possibili i k oggetti che la compongono, k!

disposizioni semplici

Proprietà dei coefficienti binomiali

Può essere utile ricordare la “formula del binomio di Newton”:

Combinazioni con Ripetizione

Fissiamo un numero k Nϵ 0 , senza alcuna limitazione superiore; si vogliono costruire tutti i

possibili raggruppamenti distinti, prendendo k oggetti di J , in modo che valgano le

seguenti proprietà:

● in ciascun raggruppamento figurano k oggetti di J, potendovi uno stesso elemento

figurare ripetuto fino ad un massimo di k volte ;

● due raggruppamenti sono distinti se e solo se o uno di essi contiene almeno un

oggetto che non figura nell’altro oppure gli oggetti che figurano in uno figurano

anche nell’altro ma sono ripetuti un numero diverso di volte

  • p

m è la probabilità di avere m successi

  • (1-p)

n-m è la probabilità che le restanti prove siano insuccessi

  • p

m (1-p)

n-m · è la probabilità di avere m successi e n-m insuccessi in una sequenza

ben precisa (es. prima n successi e poi m insuccessi)

Per tener conto di tutte le possibili successioni di successi e insuccessi, occorre

moltiplicare per il numero di combinazioni di m oggetti su n, cioè il binomio di Newton.

La misura di p ed n (o del valor medio e della varianza) è sufficiente per caratterizzare

completamente la distribuzione e viceversa. Bastano quindi 2 parametri come nella

distribuzione Gaussiana

Distribuzione di Poisson:

La “ Distribuzione di Poisson ”; ovvero una distribuzione di probabilità discreta di una

singola realizzazione dell’evento in un determinato intervallo di tempo o spazio.

Dall’evento, che in un dato ∆si verifica a volte, è possibile calcolare la probabilità che

tale evento si verifichi m volte nello stesso intervallo attraverso la seguente formula:

f(m)= P(X=m)=Pm,a =

𝑎 𝑚

𝑚!

−𝑎

Dove P(X=m) indica la probabilità che X assuma valore m, mentre il valor medio è

espresso come: mx= a e la deviazione standard come σx = 𝑎. A differenza della

distribuzione Bernoulliana, la distribuzione di Poisson analizza un numero di prove

tendenzialmente infinito ed il valore m (numero di successi) può essere infinitamente

grande.

Il numero eventi nell’intervallo: varia da 0 a n, con n non determinabile a priori. Questa

distribuzione risponde alla domanda: se ho un evento che in un dato intervallo si verifica

mediamente «a» volte, quale è la probabilità che si verifichi «m» volte nello stesso

intervallo?

  • Vale per eventi casuali di probabilità estremamente piccola
  • li possiamo vedere solo perché si compiono osservazioni su un numero molto

elevato di essi

NB: Calcoliamo il limite della distribuzione di Bernoulli per n →∞ e p → 0

La distribuzione di Bernoulli per

n →∞ e p → 0, tende alla

distribuzione di Poisson