Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica bivariata, Appunti di Statistica

Appunti relativi a statistica bivariata e ricapitolazione del Corso di Laurea in Biotecnologie Mediche e Farmaceutiche (BMF) dell'Università degli Studi di Bari (UNIBA). Corso di matematica ed elementi di statistica Prof. Pisani

Tipologia: Appunti

2022/2023

In vendita dal 31/10/2025

A.Pas
A.Pas 🇮🇹

30 documenti

1 / 10

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA BIVARIATA
Nell’indagine studio in contemporanea 2 caratteri su una popolazione. I due
caratteri possono essere di qualsiasi tipo.
Devo verificare che le due variabili siano correlate. Risulta allora importante
distinguere tra correlazione, quando due numeri sono legati, e causalità, quando
essi non sono tra di loro legati.
Quelle che in matematica vengono definite variabile indipendente e variabile
dipendente, in statistica assumono rispettivamente in nomi di variabile
esplicativa e variabile risposta.
Le situazioni si rappresentano su scatter plot (“nuvole di punti”)
Il diagramma cartesiano è riempito da punti che identificano una precisa
combinazione di valori e due linee tratteggiate identificano i valori medi.
Su entrambe le variabili, se separate, si calcolano la media e la deviazione
standard.
X
Y
X2
Y2
XY
𝑋
𝑌
𝑋2
𝑌
2
𝑋𝑌
Covarianza
Es.
xk
yk
xk2
yk2
xkyk
1,1
2,6
1,21
6,76
2,86
3,4
5,9
11,56
34,81
20,01
5,7
9,2
32,49
84,64
52,44
7,0
13,5
49
182,25
94,50
9,3
17,8
86,49
316,84
165,54
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Statistica bivariata e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA BIVARIATA

Nell’indagine studio in contemporanea 2 caratteri su una popolazione. I due

caratteri possono essere di qualsiasi tipo.

Devo verificare che le due variabili siano correlate. Risulta allora importante

distinguere tra correlazione, quando due numeri sono legati, e causalità, quando

essi non sono tra di loro legati.

Quelle che in matematica vengono definite variabile indipendente e variabile

dipendente, in statistica assumono rispettivamente in nomi di variabile

esplicativa e variabile risposta.

Le situazioni si rappresentano su scatter plot (“nuvole di punti”)

Il diagramma cartesiano è riempito da punti che identificano una precisa

combinazione di valori e due linee tratteggiate identificano i valori medi.

Su entrambe le variabili, se separate, si calcolano la media e la deviazione

standard.

X Y X

2

Y

2

XY

2

2

Covarianza

Es.

x k

y k

x k

2

y k

2

x k

y k

Somma dei dati

Media

2

= 28 , 09 ≈ 28 , 1 (Anche 𝑋

dovrà essere preso con 3 cifre)

𝑥

2

2

𝑥

2

𝑦

2

2

𝑦

Covarianza= media dei prodotti degli scarti:

𝑥𝑦

𝑘

𝑥

𝑘

𝑦

𝑁

𝑘= 1

𝑥𝑦

Covarianza campionaria: 𝑠 𝑥𝑦

1

𝑁+ 1

𝑘

𝑥

𝑘

𝑦

𝑁

𝑘= 1

𝑥𝑦

𝑘

𝑘

𝑁

𝑘= 1

𝑥𝑦

Sussistono le seguenti limitazioni:

𝑥

𝑦

𝑥𝑦

𝑥

𝑦

Quindi:

𝑘

𝑘

Questo è il valore teorico di y k

Io ho x k

e y k

e posso trovare la distanza tra il valore teorico e quello osservato:

[

𝑘

𝑘

)]

2

𝑘

Se la somma è uguale a 0 i punti sono perfettamente allineati.

𝑚̅ =m giusto

𝑞̅ = q giusto

Questa è la formula della retta di regressione. Essa passa per il baricentro (𝑋

Di conseguenza:

𝑥𝑦

𝑥

2

𝑥𝑦

𝑥

2

In questo modo si ragiona sugli scarti verticali con x già dati.

RICAPITOLANDO

Intervallo di fiducia per la media

Esempi:

N=

Il campione è piccolo, è necessario applicare la formula grezza:

Si ottiene intervallo (7.44, 8.50)

Ho fiducia al 95% che la media vera rientri nell’intervallo.

Solo il preside sa la media vera e che in questo caso la media vera, 𝜇 = 7 , 36 non

rientra nell’intervallo.

Se l’ispettore avesse più dati non farebbe il processo d’accapo ma farebbe lo

studio con un campione più grande.

Questo conviene perché allargando il campione l’intervallo si restringe.

Taglia

campione

Media S Intervallo di

fiducia

ampiezza Intervallo

grezzo

In questo caso non ho campioni piccoli (<120-150), quindi devo usare la formula

propria, non quella grezza.

Coefficiente di correlazione

Retta di regressione:

Disponiamo della misurazione di 2 variabili quantitative su 8 individui.

Calcolare media e deviazione standard delle x e delle y.

Calcolare il coefficiente di correlazione tra le due variabili e il coefficiente di

determinazione

Utilizzando l’equazione della retta di regressione, calcolare per interpolazione il

valore corrispondente a x = 8

Interpolazione: il valore 8 è compreso nell’intervallo (delle x) che considero. Se

avessi dovuto cercare per un valore esterno all’intervallo avrei parlato di

estrapolazione.(diverso significato rispetto all’interpolazione)

Si riportano i dati in una tabella che comprende anche i valori al quadrato e i

prodotti. Si fanno le somme lungo le colonne e si calcolano le medie.(Fosse stata

chiesta solo la retta di regressione, non sarebbe servito y

2

Diploma sup. 11.562 26.455 20.060 58.

No finita uni 10.693 22.647 11.125 44.

Laurea 11.071 23.160 10.597 44.

Tot 37.785 81.435 56.008 175.

L’istruzione cambia in base alla fascia di età? Età = variabile esplicativa.

Quella sopra è chiamata tabella di contingenza

Le variabili sopra riportate sono qualitative ordinali.

Dopo aver trovato i dati grezzi bisogna fare i totali

Subito dopo si procede con la distribuzione marginale

Distribuzione marginale: si studia la distribuzione dei dati studiata sui margini

della tabella, cioè sui totali.

Non abbiamo fatto la distribuzione marginale sulla variabile esplicativa(cioè sui

totali nelle colonne)

Se si ripete il discorso fatto col margine sulle singole colonne si può trovare la

percentuale di istruzione per le vare fasce d’età. (distribuzione condizionata,

condizionata perché viene influenzata dalla scelta del valore della variabile

esplicativa)

Le percentuali su ogni colonna devono avere somma uguale al 100%

Dall’osservazione dei grafici si vede come la distribuzione del livello di istruzione

negli over 60 è molto diversa rispetto a quella dei quarantenni e dei cinquantenni.

Questo tipo di studio è chiamato analisi esplorativa dei dati. Osservando i dati

cerco di trovare una correlazione.

I TEST STATISTICI

I dati possono darci qualche informazione?

La statistica ci dà informazioni soggette a errore, fiducia, casualità e probabilità.

Un test statistico è un quesito posto in una certa situazione a cui si cerca di dare

risposta grazie ai dati che tuttavia non possono dare una risposta assoluta ma

dipende da quanto siamo disposti ad allargarci e a considerare.

Es.

Divella ha 2 stabilimenti, A e B e vuole vedere se produce pacchi da 500g di pasta.

Prende da entrambi gli stabilimenti un campione di 200 pacchi

Si calcola l’intervallo di fiducia per la media con la formula vera dato che il

campione è grande.

A

La situazione più grave è nello stabilimento A perché nell’intervallo di fiducia

della media non rientrano i 500 g voluti da Divella.

Terminologia:

Ipotesi nulla: situazione ordinaria che mi aspetto

Ipotesi alternativa: situazione opposta a quella nulla

Livello di significatività: percentuale che la media non rientri negli intervalli di

fiducia calcolati.

In statistica significativo vuol dire improbabile. (Significativo al 5% vuol dire

improbabile al 5%; tipicamente il significativo parte dal 5%)

In statistica gli eventi improbabili non avvengono.

Significativo: <5% probabilità di avvenire

Molto significativo:<1% probabilità di avvenire

Estremamente significativo: 1 su 1000 probabilità di avvenire.

Quello di Divella viene definito “test Z”

CONFRONTO TRA DATO VERO E DATO ATTESO

Si parla di ADATTAMENTO, cioè voglio vedere se i risultati veri si adattano alle

aspettative teoriche

Come si misura la discrepanza?

Ovvero, se, per esempio, ho efficacia totale al 30% per il farmaco e il risultato che

ottengo dalla formula precedente è il 30% della singola popolazione che vado a

studiare allora le variabili sono indipendenti.