






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti relativi a statistica bivariata e ricapitolazione del Corso di Laurea in Biotecnologie Mediche e Farmaceutiche (BMF) dell'Università degli Studi di Bari (UNIBA). Corso di matematica ed elementi di statistica Prof. Pisani
Tipologia: Appunti
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Nell’indagine studio in contemporanea 2 caratteri su una popolazione. I due
caratteri possono essere di qualsiasi tipo.
Devo verificare che le due variabili siano correlate. Risulta allora importante
distinguere tra correlazione, quando due numeri sono legati, e causalità, quando
essi non sono tra di loro legati.
Quelle che in matematica vengono definite variabile indipendente e variabile
dipendente, in statistica assumono rispettivamente in nomi di variabile
esplicativa e variabile risposta.
Le situazioni si rappresentano su scatter plot (“nuvole di punti”)
Il diagramma cartesiano è riempito da punti che identificano una precisa
combinazione di valori e due linee tratteggiate identificano i valori medi.
Su entrambe le variabili, se separate, si calcolano la media e la deviazione
standard.
2
2
2
2
Es.
x k
y k
x k
2
y k
2
x k
y k
Somma dei dati
Media
2
= 28 , 09 ≈ 28 , 1 (Anche 𝑋
dovrà essere preso con 3 cifre)
𝑥
2
2
𝑥
2
𝑦
2
2
𝑦
Covarianza= media dei prodotti degli scarti:
𝑥𝑦
𝑘
𝑥
𝑘
𝑦
𝑁
𝑘= 1
𝑥𝑦
Covarianza campionaria: 𝑠 𝑥𝑦
1
𝑁+ 1
𝑘
𝑥
𝑘
𝑦
𝑁
𝑘= 1
𝑥𝑦
𝑘
𝑘
𝑁
𝑘= 1
𝑥𝑦
Sussistono le seguenti limitazioni:
𝑥
𝑦
𝑥𝑦
𝑥
𝑦
Quindi:
𝑘
𝑘
Questo è il valore teorico di y k
Io ho x k
e y k
e posso trovare la distanza tra il valore teorico e quello osservato:
𝑘
𝑘
2
𝑘
Se la somma è uguale a 0 i punti sono perfettamente allineati.
𝑚̅ =m giusto
𝑞̅ = q giusto
Questa è la formula della retta di regressione. Essa passa per il baricentro (𝑋
Di conseguenza:
𝑥𝑦
𝑥
2
𝑥𝑦
𝑥
2
In questo modo si ragiona sugli scarti verticali con x già dati.
Intervallo di fiducia per la media
Esempi:
Il campione è piccolo, è necessario applicare la formula grezza:
Si ottiene intervallo (7.44, 8.50)
Ho fiducia al 95% che la media vera rientri nell’intervallo.
Solo il preside sa la media vera e che in questo caso la media vera, 𝜇 = 7 , 36 non
rientra nell’intervallo.
Se l’ispettore avesse più dati non farebbe il processo d’accapo ma farebbe lo
studio con un campione più grande.
Questo conviene perché allargando il campione l’intervallo si restringe.
Taglia
campione
Media S Intervallo di
fiducia
ampiezza Intervallo
grezzo
In questo caso non ho campioni piccoli (<120-150), quindi devo usare la formula
propria, non quella grezza.
Coefficiente di correlazione
Retta di regressione:
Disponiamo della misurazione di 2 variabili quantitative su 8 individui.
Calcolare media e deviazione standard delle x e delle y.
Calcolare il coefficiente di correlazione tra le due variabili e il coefficiente di
determinazione
Utilizzando l’equazione della retta di regressione, calcolare per interpolazione il
valore corrispondente a x = 8
Interpolazione: il valore 8 è compreso nell’intervallo (delle x) che considero. Se
avessi dovuto cercare per un valore esterno all’intervallo avrei parlato di
estrapolazione.(diverso significato rispetto all’interpolazione)
Si riportano i dati in una tabella che comprende anche i valori al quadrato e i
prodotti. Si fanno le somme lungo le colonne e si calcolano le medie.(Fosse stata
chiesta solo la retta di regressione, non sarebbe servito y
2
Diploma sup. 11.562 26.455 20.060 58.
No finita uni 10.693 22.647 11.125 44.
Laurea 11.071 23.160 10.597 44.
Tot 37.785 81.435 56.008 175.
L’istruzione cambia in base alla fascia di età? Età = variabile esplicativa.
Quella sopra è chiamata tabella di contingenza
Le variabili sopra riportate sono qualitative ordinali.
Dopo aver trovato i dati grezzi bisogna fare i totali
Subito dopo si procede con la distribuzione marginale
Distribuzione marginale: si studia la distribuzione dei dati studiata sui margini
della tabella, cioè sui totali.
Non abbiamo fatto la distribuzione marginale sulla variabile esplicativa(cioè sui
totali nelle colonne)
Se si ripete il discorso fatto col margine sulle singole colonne si può trovare la
percentuale di istruzione per le vare fasce d’età. (distribuzione condizionata,
condizionata perché viene influenzata dalla scelta del valore della variabile
esplicativa)
Le percentuali su ogni colonna devono avere somma uguale al 100%
Dall’osservazione dei grafici si vede come la distribuzione del livello di istruzione
negli over 60 è molto diversa rispetto a quella dei quarantenni e dei cinquantenni.
Questo tipo di studio è chiamato analisi esplorativa dei dati. Osservando i dati
cerco di trovare una correlazione.
I dati possono darci qualche informazione?
La statistica ci dà informazioni soggette a errore, fiducia, casualità e probabilità.
Un test statistico è un quesito posto in una certa situazione a cui si cerca di dare
risposta grazie ai dati che tuttavia non possono dare una risposta assoluta ma
dipende da quanto siamo disposti ad allargarci e a considerare.
Es.
Divella ha 2 stabilimenti, A e B e vuole vedere se produce pacchi da 500g di pasta.
Prende da entrambi gli stabilimenti un campione di 200 pacchi
Si calcola l’intervallo di fiducia per la media con la formula vera dato che il
campione è grande.
La situazione più grave è nello stabilimento A perché nell’intervallo di fiducia
della media non rientrano i 500 g voluti da Divella.
Terminologia:
Ipotesi nulla: situazione ordinaria che mi aspetto
Ipotesi alternativa: situazione opposta a quella nulla
Livello di significatività: percentuale che la media non rientri negli intervalli di
fiducia calcolati.
In statistica significativo vuol dire improbabile. (Significativo al 5% vuol dire
improbabile al 5%; tipicamente il significativo parte dal 5%)
In statistica gli eventi improbabili non avvengono.
Significativo: <5% probabilità di avvenire
Molto significativo:<1% probabilità di avvenire
Estremamente significativo: 1 su 1000 probabilità di avvenire.
Quello di Divella viene definito “test Z”
Si parla di ADATTAMENTO, cioè voglio vedere se i risultati veri si adattano alle
aspettative teoriche
Come si misura la discrepanza?
Ovvero, se, per esempio, ho efficacia totale al 30% per il farmaco e il risultato che
ottengo dalla formula precedente è il 30% della singola popolazione che vado a
studiare allora le variabili sono indipendenti.