Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica, infermieristica, Dispense di Statistica

Infermieristica (abilitante alla professione sanitaria di Infermiere) - Corso di laurea C - Roma Azienda Policlinico Umberto I STATISTICA Blocco: INFERMIERISTICA BASATA SULLE PROVE DI EFFICACIA

Tipologia: Dispense

2021/2022

In vendita dal 20/02/2023

Marikarossignolo10
Marikarossignolo10 🇮🇹

4.9

(13)

32 documenti

1 / 25

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica descrittiva
Cosa è la Statistica?
La statistica è estremamente importante per saper leggere, capire e valutare con il proprio senso critico i dati
(numeri) da cui siamo giornalmente bombardati
È uno strumento che ci permette di interpretare i dati e trarre conclusioni ed
informazioni sulla realtà da una valutazione oggettiva dei fenomeni quantitativi che ci circondano.
Definizione
La statistica riguarda il modo con cui si raccolgono, raggruppano, analizzano, elaborano e interpretano i dati
Natura della statistica
v Statistica descrittiva
Ha a che fare con la presentazione, organizzazione e sintesi dei dati
¬Tabelle, grafici, indici di sintesi
v Statistica Inferenziale
Consente di pervenire ad una conclusione sulla base dell’informazione contenuta in un campione che è stato estratto da
quella popolazione
¬Stima di parametri
¬Test di ipotesi
Obiettivi dell’analisi statistica
• Descrivere i dati
à condensare un gran numero di dati rilevati in pochi valori riassuntivi, capaci di indicare importanti proprietà della
popolazione oggetto di indagine
• Esplorare le relazioni
à definire e descrivere le relazioni tra le variabili rilevate: per es. l’età con una condizione di salute
• Fare previsioni
à utilizzare i dati raccolti per prevedere i valori che ci si aspetta di trovare nella popolazione oggetto di indagine in
particolari condizioni. Per es. se uno è diabetico può avere maggior rischio di complicazioni.
• Classificare
à descrivere ed analizzare gruppi definiti sulla base di caratteristiche comuni. Per esempio studiare fumatori e non
fumatori
• Valutare ipotesi
à stabilire quanto è verosimile che esista una relazione tra le variabili. Per es. ipotesi che un certo trattamento possa
ridurre il volume tumorale (cioè, fare inferenze sulla popolazione da cui i dati sono tratti)
• Generare ipotesi
à grazie alle 5 fasi precedentemente descritte le variabili divengono meglio comprensibili, ed è possibile che questo
comporti la proposta di nuove idee
Alcune definizioni
Popolazione: campo di indagine, universo in cui si vuole applicare la nostra indagine statistica
Campione: sottogruppo della popolazione che deve essere il più rappresentativo possibile dell'intera collettività
Unità statistiche: elementi (individui, farmaci, ospedali), appartenenti all’universo statistico, oggetto
dell’indagine
Variabili o Caratteri: aspetti rilevanti, caratteristiche delle unità di riferimento che varia da soggetto a soggetto
à Qualitative: indicano una caratteristica non misurabile
à Quantitative: indicano un dato misurabile, cioè associabile ad un numero
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19

Anteprima parziale del testo

Scarica Statistica, infermieristica e più Dispense in PDF di Statistica solo su Docsity!

Statistica descrittiva

Cosa è la Statistica?

La statistica è estremamente importante per saper leggere, capire e valutare con il proprio senso critico i dati (numeri) da cui siamo giornalmente bombardati È uno strumento che ci permette di interpretare i dati e trarre conclusioni ed informazioni sulla realtà da una valutazione oggettiva dei fenomeni quantitativi che ci circondano.

Definizione

La statistica riguarda il modo con cui si raccolgono, raggruppano, analizzano, elaborano e interpretano i dati

Natura della statistica

v Statistica descrittiva Ha a che fare con la presentazione, organizzazione e sintesi dei dati ¬Tabelle, grafici, indici di sintesi v Statistica Inferenziale Consente di pervenire ad una conclusione sulla base dell’informazione contenuta in un campione che è stato estratto da quella popolazione ¬Stima di parametri ¬Test di ipotesi

Obiettivi dell’analisi statistica

  • Descrivere i dati à condensare un gran numero di dati rilevati in pochi valori riassuntivi, capaci di indicare importanti proprietà della popolazione oggetto di indagine
    • Esplorare le relazioni à definire e descrivere le relazioni tra le variabili rilevate: per es. l’età con una condizione di salute
  • Fare previsioni à utilizzare i dati raccolti per prevedere i valori che ci si aspetta di trovare nella popolazione oggetto di indagine in particolari condizioni. Per es. se uno è diabetico può avere maggior rischio di complicazioni.
  • Classificare à descrivere ed analizzare gruppi definiti sulla base di caratteristiche comuni. Per esempio studiare fumatori e non fumatori
  • Valutare ipotesi à stabilire quanto è verosimile che esista una relazione tra le variabili. Per es. ipotesi che un certo trattamento possa ridurre il volume tumorale (cioè, fare inferenze sulla popolazione da cui i dati sono tratti)
  • Generare ipotesi à grazie alle 5 fasi precedentemente descritte le variabili divengono meglio comprensibili, ed è possibile che questo comporti la proposta di nuove idee

Alcune definizioni

Popolazione: campo di indagine, universo in cui si vuole applicare la nostra indagine statistica

Campione: sottogruppo della popolazione che deve essere il più rappresentativo possibile dell'intera collettività

Unità statistiche: elementi (individui, farmaci, ospedali), appartenenti all’universo statistico, oggetto

dell’indagine Variabili o Caratteri: aspetti rilevanti, caratteristiche delle unità di riferimento che varia da soggetto a soggetto à Qualitative: indicano una caratteristica non misurabile à Quantitative: indicano un dato misurabile, cioè associabile ad un numero

Proprietà di un campione casuale:

  • Ogni unità della popolazione ha la stessa probabilità di essere scelta
  • La scelta di una unità non influenza la selezione delle altre

Tipi di variabili

Le variabili classificate in qualitative e quantitative, vengono divise in sottogruppi: QUALITATIVE à Valori o dati sono detti anche modalità ¬ dicotomiche (o binarie) ¬ nominali ¬ ordinali (o classificate) QUANTITATIVE à Valori o dati numerici ¬ discrete ¬ continue (o dimensionali)

Variabili qualitative

Dicotomica: prevede due modalità à dicotomica dal greco "divisa in due“ (es. sano/malato, si/no, buono/cattivo, vivo/morto, maschio/femmina, placebo/terapia) Nominale: le osservazioni possono essere classificate in varie categorie (es. colore della pelle: ad ogni colore potrebbe essere assegnato un numero che è soltanto un'indicazione numerica di un colore, non ha nulla a che fare con la qualità, il valore o la posizione del colore) Ordinale: le osservazioni possono essere ordinate secondo qualche criterio (es. dolore: viene descritto secondo una scala da 0 a 10, con 0 che indica nessun dolore e 10 il peggior dolore immaginabile)

Passare da variabili nominali o ordinali a dicotomiche

Con una variabile nominale, per es. colore della pelle, ci potrebbe essere un problema: come distinguere una colorazione della pelle normale da una anormale? I ricercatori potrebbero “scegliere” una nuova variabile con due livelli:

  • colore di pelle normale (codificato come 0)
  • colore di pelle anormale (codificato come 1)

Variabili quantitative

Discreta: le differenti categorie sono completamente separate l’una dall’altra ed assume valori interi (es. numero di bambini nati vivi, numero di decessi, numero di figli) Continua: può assumere qualsiasi valore entro uno specifico intervallo di valori (anche frazionari) (es. altezza, peso, pressione sanguigna (sistolica e diastolica))

Proporzioni come variabili

La proporzione rappresenta un importante tipo di variabile in medicina, e condivide alcune proprietà di variabile discreta ed altre di variabile continua. Non ha alcun senso dire che si è verificata una frazione di morte. Non ha alcun senso dire che una frazione di una persona ha sofferto un certo evento. Ma ha un senso dire che un evento discreto (es. la morte) o una caratteristica discreta (es. la presenza di una lesione da pressione) si è verificata in una frazione della popolazione. Le proporzioni sono variabili create dal rapporto fra variabili discrete al numeratore e al denominatore. A seconda delle circostanze, possono essere analizzate come variabili discrete o continue.

Proporzioni à percentuali

PROPORZIONE: gli eventi al numeratore fanno parte di quelli al denominatore e, dunque, sono compresi in esso (porzione): Mortalità = N° morti/ N° abitanti

Descrivere variabili qualitative

Distribuzioni di frequenza

o FREQUENZA ASSOLUTA (ni) (Ottenuta tramite un conteggio)

Numero di osservazioni corrispondente ai diversi valori (modalità/intervallo di classe) della variabile

o FREQUENZA RELATIVA (pi=ni/n)

Proporzione tra il numero di osservazioni corrispondente ai diversi valori (modalità/intervallo di classe) della variabile e la dimensione campionaria

o FREQUENZA RELATIVA PERCENTUALE (pi%=ni/n*100)

Si ottiene moltiplicando le frequenze relative per 100 ed indica quante volte un fenomeno ai manifesta su una casistica di 100 osservazioni

Frequenza assoluta

FREQUENZA ASSOLUTA (ni) (Ottenuta tramite un conteggio) Numero di osservazioni corrispondente ai diversi valori (modalità/intervallo di classe) della variabile Osservazionii: Þ Ogni frequenza deve assumere valore tra zero e il numero totale delle osservazioni Þ Il totale delle frequenze deve essere pari al totale delle osservazioni

Frequenza relativa e percentuale

o FREQUENZA RELATIVA (pi=ni/n) Proporzione tra il numero di osservazioni corrispondente ai diversi valori (modalità/intervallo di classe) della variabile e la dimensione campionaria Osservazioni: Þ Ogni frequenza relativa è compresa tra zero ed uno Þ Il totale delle frequenze relative deve essere pari ad uno o FREQUENZA RELATIVA PERCENTUALE (pi%=ni/n*100) Si ottiene moltiplicando le frequenze relative per 100 ed indica quante volte un fenomeno ai manifesta su una casistica di 100 osservazioni Osservazione: Valgono le condizioni precedenti, solo che il valore 1 diventa 100%

Il senso delle frequenze relative, ovvero perché usarle?

Esempio sulle frequenze(1/4) Si vuole valutare l’efficacia di uno psicofarmaco nel curare forme di balbuzie. L’esperimento coinvolge dei pazienti assegnati in modo casuale a 2 gruppi, A e B:

  • il gruppo A è quello a cui viene somministrato il farmaco;
  • il gruppo B è il gruppo un placebo. EFFETTO ni (A) ni (B) migliorato 50 33 invariato 80 53 peggiorato 20 14 Totale 150 100 Osserviamo che il gruppo A è quello più grande, e ci chiediamo: “fosse per questo motivo che ha il maggior di miglioramenti?”

Calcoliamo le frequenze relative per i due trattamenti:

p 1 (A)=50/150=0,33; p 1 (B)=33/100=0,33; p 2 (A)=80/150=0,53; … Con le frequenze relative i due gruppi mostrano lo stesso effetto. EFFETTO ni (A) ni (B) pi (A) pi (B) migliorato 50 33 0,33 0, invariato 80 53 0,53 0, peggiorato 20 14 0,14 0, Totale 150 100 1 1

Tabelle di frequenza

Tabelle a singola entrata

  • è presentata la distribuzione di frequenza di UN SOLO carattere statistico Tabelle a doppia entrata
  • è presentata la distribuzione di frequenza di DUE caratteri statistici Tabelle a “n” entrate
  • è presentata la distribuzione di frequenza di più di due caratteri statistici Se abbiamo:
    • dati qualitativi n Rappresentiamo tutte le modalità possibili
    • dati quantitativi n Rappresentiamo i dati aggreggandoli per classi

Tabella a Singola entrata per 1 Variabile Binomiale

Tabella a singola entrata per 1 variabile ordinale

Tabella a doppia entrata per 2 variabili: ordinale e dicotomica

Tabelle a “n” entrate

  • è presentata la distribuzione di frequenza di più di due caratteri statistici Se abbiamo:
  • dati qualitativi „ Rappresentiamo tutte le modalità possibili
  • dati quantitativi „ Rappresentiamo i dati aggreggandoli per classi Prof A. Mannocci Tabella a Singola entrata per 1 Variabile Binomiale Partendo da questi dati grezzi: Freq. assoluta Freq. relativa 13 7 6 7/ 6/ M F Tot. Sesso Variabile Binomiale Modalità Indice rappresentato Conta dei soggetti che nel campione presentano quella specifica modalità Prof A. Mannocci

Tabella a singola entrata per

1 variabile ordinale

Età Variabile ordinale Partendo da questi dati grezzi: Freq. cumulativa Freq. assoluta relativa^ Freq. Indice rappresentato 10- Tot. 30-

Classi di Modalità 6 3 13 6/ 3/ 4 4/ 6/ 13/ 10/ Conta dei soggetti che nel campione presentano quella specifica modalità In questo caso, ha senso la frequenza cumulativa! Prof A. Mannocci Tabella a doppia entrata per 2 variabili: ordinale e dicotomica M (^) F Tot. Modalità della v. sesso Modalità della v. esposizione non Tot. lieve medio forte Variabile dicotomica 2 Sesso 2 1 7 4 0 3 0 1 2 6 6 3 1 3 13 Conta dei soggetti nel campione che presentano la combinazione di entrambe le modalità Esposizione Variabile ordinale 1 Prof A. Mannocci Tabella a singola entrata per 1 variabile ordinale Età Variabile ordinale

Partendo da questi dati grezzi:

Freq. cumulativa Freq. assoluta Freq. relativa Indice rappresentato 10- Tot. 30-

Classi di Modalità 6 3 13 6/ 3/ (^4) 4/ 6/ 13/ 10/ Conta dei soggetti che nel campione presentano quella specifica modalità In questo caso, ha senso la frequenza cumulativa! Prof A. Mannocci Tabella a doppia entrata per 2 variabili: ordinale e dicotomica M (^) F Tot. Modalità della v. sesso Modalità della v. esposizione non Tot. lieve medio forte Variabile dicotomica 2 Sesso 2 1 7 4 0 (^3 ) (^1 ) 6 6 3 1 3 13 Conta dei soggetti nel campione che presentano la combinazione di entrambe le modalità Esposizione Variabile ordinale 1 Prof A. Mannocci

o Esiste per i dati numerici continui e discreti e per i dati ordinali o Non è sensibile ai valori estremi a differenza della media o È il migliore indice di sintesi nelle distribuzioni asimmetriche

Moda

Si definisce moda di un insieme di dati o di una distribuzione di frequenza la modalità (il valore, l’intervallo di classe) della variabile cui corrisponde la massima frequenza Esempio: Le età di 15 soggetti arruolati in uno studio sull’abitudine al fumo sono: 17, 32, 51, 30, 21, 27, 25, 19, 18, 22, 17, 46, 28, 28, 19

  1. È utile ordinare i 15 valori xi se sono numerici ... 17, 17, 18, 19, 19, 21, 22, 25, 27, 28, 28, 30, 32, 46, 51
  2. ...per evidenziare subito il più (o i più) frequente(i): 17, 17, 18, 19, 19, 21, 22, 25, 27, 28, 28, 30, 32, 46, 51 Significati e considerazioni della moda: o Utilizza soltanto la relazione di identità dei dati (=, 1 ) àEsiste per i dati categorici binomiali, nominali e ordinali e per i dati numerici discreti (quando le modalità osservate siano poche) àPer i dati numerici continui, è necessario prima raggruppare in classi le osservazioni o Non tiene conto di tutte le altre modalità o È utile per sospettare la compresenza di più popolazioni

Quale misura di posizione utilizzare?

Indici di dispersione Misurano la variabilità del fenomeno oggetto di studio, cioè valutano sinteticamente le disuguaglianze tra i valori

v VARIANZA e deviazione standard

v CAMPO DI VARIAZIONE O RANGE

v DISTANZA INTERQUARTILE

Varianza (S^2 )

È un valore sintetico che vuole esprimere la media delle distanze al quadrato di ogni singola osservazione dalla media aritmetica del campione Esempio I volumi espiratori forzati in 13 adolescenti asmatici (in litri) sono pari a: 2.3; 2.1; 3.5; 2.6; 2.8; 2.8; 4.0; 2.2; 2.6; 3.0; 4.0; 2.8; 3.

  1. si calcolano gli scarti della media di questi valori(2.9) 2.3-2.9; 2.1-2.9; 3.5-2.9; ...
  • 0.6;-0.8; +0.6; - 0.3; - 0.1; - 0.1; +1.1; - 0.7; - 0.3; +0.1; +1.1; - 0.1; +0.
  1. si calcolano i quadrati degli scarti 0.36; 0.64; 0.36; 0.09; 0.01; 0.01; 1.21; 0.49; 0.09; 0.01; 1.21; 0.01; 0.
  2. si calcola la media dei quadrati degli scarti (formula 2: quindi somma dei quadrati degli scarti diviso 12) 0.36+0.64+ 0.36+0.09+0.01+0.01+1.21+0.49+ 0.09+ 0.01 +1.21+ 0.01+0.16=4. 4.65/(13-1) = 0.
TIPO DI
VARIABILE
OPERAZIONI
CONSENTITE
MODA MEDIANA MEDIA

Nominale =, ≠ Si No No

Ordinale =, ≠, >, > Si Ni No

Quantitativa =, ≠, >, >, +, - , (x, :) Si Si Si

Varianza (S^2 )

valore sintetico che vuole esprimere la media

distanze al quadrato di ogni singola

rvazione dalla media aritmetica del campione

å

n - 1

( x - x )

n

s

i = 1

i

Significati e considerazioni della varianza

  1. Utilizza le proprietà degli operatori aritmetici (+, - , x, /) à opera su dati quantitativi (continui e discreti)
  2. Sempre maggiore o uguale a zero;
  3. È sensibile ai valori estremi; à è una media di scarti quadratici (distanze al quadrato)!
  4. La sua unità di misura non è quella della media Ø è al quadrato!

Deviazione standard (S)

È un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione E’ la radice quadrata della varianza ed ha le stesse proprietà Esempio: Considerando l’esempio precedente

  1. la varianza calcolata precedentemente era: 4.65/(13-1) = 0.
  2. la deviazione standard è: s = ⎷0,3875 = 0,62 2

Significati e considerazioni sulla DS

Riporta l’indice di precisione alla stessa scala della media aritmetica Ø l’unità di misura non è al quadrato!

Range o campo di variazione

È indicato da un numero che rappresenta lo spazio entro il quale si distribuiscono le nostre osservazioni; esso è la differenza tra il valore massimo e minimo: Range = max - min Calcolo: Esempio: Il volume espiratorio forzato in 13 adolescenti asmatici (in litri): 2.3; 2.1; 3.5; 2.6; 2.8; 2.8; 4.0; 2.2; 2.6; 3.0; 4.0; 2.8; 3.

  1. Calcolo del minimo e del massimo: Min =2.1 ; Max= 4.
  2. Si calcola la differenza: range= 4.0 – 2.1= 1.

P-esimo quantile

È il dato per cui almeno p% delle osservazioni sono minori di esso e 1-p% delle osservazioni sono maggiori o uguali ad esso. Quartili particolari:

  • Percentili o Centili: sono i quantili che si trovano a dividere in cento parti le osservazioni (1%; 2%;...)
  • Decili: suddivisione in 10 gruppi (10%;20%;...)
  • Quintili: suddivisione 5 gruppi (20%;40%;...)
  • Quartili: suddivisione in 4 gruppi (25%;50%;75%)

Calcolo del p-esimo quantile

Consideriamo n osservazioni ordinate. Calcoliamo l’ espressione: (np)/ Ø se il risultato NON è un numero intero (3.2; 4.5; 7.65): §il p-esimo percentile sarà l’osservazione che si trova alla posizione data da np/100 approssimato per eccesso Ø se il risultato è un numero intero (1; 2; 3;...): § il p-esimo percentile sarà la media tra l’osservazione nella posizione (n*p/100) e l’osservazione successiva ((np/100)+1) Esempio: Calcolare il 75-esimo percentile nel nostro esempio di 13 osservazioni:

84,4% non fumatori 15,6% fumatori Femmine 87,2% non fumatori 12,8% fumatori

Diagrammi a barre

o Rappresenta variabili qualitative sull’asse x o Ogni modalità è una barra: à la posizione della base del rettangolo (di larghezza costante) è centrata sul nome della modalità à l’altezza del rettangolo è proporzionale alla frequenza assoluta per la modalità

Diagrammi a barre: 2 variabili binomiali

Rappresentazioni grafiche della distribuzione di frequenza per variabili QUANTITATIVE

Distribuzione di Frequenza

Le osservazioni di una variabile possono essere visualizzate su un piano cartesiano ponendo i valori della variabile su un asse (x) e la frequenza con cui esso appare sull'altro asse (y)

F

Row % Col %

TOTAL

Row % Col %

Basso peso alla nascita Madre fumatrice

0 1 TOTAL

Row % Col %

Row % Col %

TOTAL

Row % Col %

Diagrammi a barre small medio large Exlarge Frequenza delle osservazioni 0 n (^) y (^) v Rappresenta variabili qualitative sull’asse x v Ogni modalità è una barra: ! la posizione della base del rettangolo (di larghezza costante) è centrata sul nome della modalità ! l’ altezza del rettangolo è proporzionale alla frequenza assoluta per la modalità Diagramma a barre: 2 variabili binomiali Basso peso alla nascita Madre fumatrice^0 1 TOTAL 0 Row % Col % 629

55

684

1 Row % Col % 99

15

114

TOTAL Row % Col % 728

0 70

0 798

0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 6 0 0 C O U N T (^0) l o w 1 0 1

Istogrammi

Per rappresentare le caratteristiche della distribuzione di frequenza di dati quantitativi una scelta può essere un istogramma:

  1. il numero di osservazioni (es. persone) viene indicato sull'asse delle y (è la frequenza)
  2. i valori delle misure (es. i livelli di colesterolo) sono indicati sull'asse delle x La distribuzione di frequenza è illustrata da una serie di barre, l'area di ciascuna barra rappresenta la frequenza delle osservazioni che cadono nel range rappresentato da quella barra

Istogramma: variabile continua (peso alla nascita)

Istogrammi-classi

I dati quantitativi vengono divisi in classi Per ogni classe si costruisce un rettangolo:

  • La posizione della base del rettangolo corrisponde ai margini dell’intervallo (i dati sono quantitativi) dunque è variabile
  • L’area del rettangolo è proporzionale alla frequenza delle osservazioni rilevata per il gruppo La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi

DIAGRAMMI A SCATOLA (Box plot)

Sono utili per verificare la asimmetria delle distribuzioni di frequenza. Mostra una sintesi dei dati. La scatola centrale si estende al 25º percentile al 75º percentile (i quartili dei dati) La linea dentro la scatola rappresenta la mediana Le linee al di fuori della scatola si estendono ai valori più estremi. Possono assumere diversi valori: minimo massimo, 5 º e 95º percentile, 2SD dalla mediana a seconda del software

Grafico: DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI (SCATTER PLOT)

Sono utili per illustrare la relazione tra due diversi caratteri (X e Y) che assumono modalità numeriche Ogni punto del grafico rappresenta una unità statistica Se due variabili non sono correlate i punti si distribuiscono casualmente sul piano cartesiano. Istogramma: variabile continua (peso alla nascita) Frequency (^1000 2000) Peso alla nascita (grammi) 3000 4000 5000 0 50 100 150 ! " L’area delle barre rappresenta la distribuzione di Frequenza DIAGRAMMI A SCATOLA (Box plot) n La scatola centrale si estende dal 25 ° percentile al 75° percentile (i “quartili” dei dati) n La linea dentro la scatola rappresenta la mediana n Le linee al di fuori della scatola si estendono ai valori più estremi. Possono assumere diversi valori: min e max, 5° e 95° percentile, 2SD dalla mediana a seconda del software.

Sono utili per verificare la asimmetria delle

distribuzioni di frequenza. Mostra una sintesi dei dati.

Numerosita' della popolazione (^4437) Numero di matrimoni 210864 401851 2.4e+07 (^)! Ogni punto del grafico rappresenta una unità statistica ! Se due variabili non sono correlate i punti si distribuiscono casualmente sul piano cartesiano. Grafico: DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI Sono utili per illustrare la relazione tra due diversi caratteri (X e Y) che assumono modalità numeriche

Se trovo tutte mele rosse à non posso asserire che tutte le mele esistenti sono rosse(dovrei controllare il colore in tutta la “popolazione mele”), posso solo dire che non rifiuto H0!

Stabilire il livello di errore - II passo

Tornando sui nostri “passi”... Una volta formulate le ipotesi è necessario fissare l’errore che siamo disposti a commettere con il nostro test. Ma cosa significa commettere un errore in un test statistico? Il test d’ipotesi può essere paragonato ad un processo penale: La giuria ha a disposizione delle “prove” sulla base delle quali deve valutare l’innocenza dell’imputato è o non è compatibile con le prove a disposizione. Il ricercatore ha a disposizione un “campione” sulla base del quale deve verificare se una certa l’ipotesi (H0) è o non è in accordo con i dati a disposizione. Come abbiamo visto esistono dunque 2 tipi di errore: Errore α (Errore di I tipo): esprime la probabilità di rifiutare l’ipotesi nulla quando questa è vera, anche nota come livello di significatività. Errore β (Errore di II tipo): esprime la probabilità di non rifiutare l’ipotesi nulla quando questa è falsa Per convenzione, i livelli soglia delle l’errore a ai quali di norma si ricorre sono tre: 0,05 (5%); 0,01 (1%); 0,001 (0.1%) La scelta del livello di errore è comunque arbitraria e a priori (prima di compiere il test)! In una pubblicazione scientifica, utilizzare il termine significativo, es. la media di due gruppi è significativa diversa, indica che è stato applicato un test e il suo errore è inferiore al 5%.

Scelta del test - III passo

Per ottenere risultati corretti un ricercatore deve conoscere i diversi tipi di variabile e deve saper scegliere i test statistici appropriati per ciascun tipo di variabile.

*Teorema del limite centrale

... dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma della distribuzione della popolazione (quando si considera un campione di ampiezza n≥30). Questo teorema è alla base di tutta la statistica, in quanto non si lavora mai con la distribuzione della popolazione, ma con suoi campioni rappresentativi. Sapendo che la distribuzione campionaria delle medie si distribuisce normalmente è possibile sfruttare le sue proprietà per la verifica dei test d’ipotesi Se è ragionevole assumere che la distribuzione originaria dei dati sia normale o possa comunque essere approssimata alla normale (TLC) utilizzeremo i TEST PARAMETRICI. Test Parametrici (sulla media) SI NO Test per Campioni Indipendenti: Test di Wilcoxon della somma dei ranghi (alias Mann-Whitney ) Test per Dati appaiati (paired): Test del segno e Test di Wilcoxon dei ranghi con segno Se i campioni sono numerosi, almeno 30 osservazioni per gruppo.TLC* Test non Parametrici (sulla mediana) Data una variabile quantitativa. Si distribuisce normalmente? Scelta del test-III passo **1campione 2campioni

2 campioni 1campione 2campioni 2 campioni Test z Test t-student** per campioni appaiati Test t-student per campioni indipendenti Test ANOVA o Analisi della varianza Test di Wilcoxon *TLC Teorema del Limite Centrale^ Test di Kruskall Wallis

*Teorema del limite centrale

… dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma della distribuzione della popolazione (quando si considera un campione di ampiezza n≥30).

à Test basati sulle distribuzioni z e t Le ipotesi per i test parametrici, quando il parametro da stimare è rappresentato dalle media, sono: Test z à H0: media =μ0 (μ0 è un dato valore che vogliamo confrontare) Test t per 2 campioni à H0: media1= media Test ANOVA à H0: media1=...=mediak , ove k≥

Concludere il test – IV passo

Una volta scelto il test, questo rilascia un valore detto statistica del test. Per concludere il test occorre confrontare l’errore determinato dalla statistica del test, p, con il livello di significatività, a (II passo). Se p≤a à Rifiuto H Se p>a à Non Rifiuto H Vediamo più in dettaglio alcuni test Parametrici: Test t per 2 campioni appaiati Test t per 2 campioni indipendenti Test ANOVA

Test t per 2 campioni

  1. Formulare un’ipotesi nulla: H0 : x1 = x2 cioè media1= media 2
  2. Stabilire il livello di significatività statistica (errore α) : α = 0, 3)Scelta del test: questo punto ci dobbiamo chiedere dati derivano da campioni appaiati (ad ogni osservazione del 1° campione corrisponde un’osservazione del 2° campione) o indipendenti?

Test t per 2 campioni: appaiati

Quando si intende confrontare le medie tra due campioni di dati, è necessario innanzitutto valutare se le misure sono state eseguite sugli stessi soggetti, ma in tempi diversi ad esempio prima e dopo l’esposizione ad un composto chimico o la somministrazione di un farmaco in tal caso parleremo di campioni appaiati à t-test per dati appaiati (paired) Operativamente il test è basato su:

  • H0: μ1=μ2 può essere riformulata come H0: μ1-μ2 = d =
  • Si fissa il livello alfa.
  • Calcolo della la differenza, in ogni soggetto, tra le due rilevazioni: x0i - x1i =di ove i indica la i-esima osservazione.
  • Calcolo della differenza media e della deviazione standard: d e Sd
  • Calcolo della statistica:
  • Gradi di libertà(gdl): n-1 gradi di libertà poiché il test è in pratica su un campione (campione delle differenze)
  • Si ricava dalle tavole o dal Pc il valore p relativo alla statistica con n-1 gdl.
  • Se p≤a à Rifiuto H0 à c’è differenza tra le medie Operativamente il test è basato su:
  • H0: μ1=μ2 può essere riformulata anche come H0: μ1-μ2 = d =
  • Si fissa il livello alfa
  • Calcolo della statistica del test: -- Prima determino la differenza osservata in ogni soggetto, nei due tempi di rilevazione: x1i - x2i =di , i indica la i-esima osservazione -- mi calcolo gli indici che mi descrivono queste differenze: media e varianza d e Sd -- Calcolo della statistica: -- conta dei gradi di libertà(gdl)= n-1 gradi di libertà dove n è la numerosità del campione- -- consultazione dalle tavole per individuare il valore p
  • Se p≤a à Rifiuto H0 à c’è differenza tra le medie Operativamente il test è basato su:
  • H 0 : μ 1 =μ 2 può essere riformulata come H 0 : μ 1 -μ 2 =G=
  • Si fissa il livello alfa.
  • Calcolo della la differenza, in ogni soggetto, tra le due rilevazioni: x0i - x1i =di ove i indica la i-esima osservazione.
  • Calcolo della differenza media e della deviazione standard: Cd e Sd
  • Calcolo della statistica:
  • Gradi di libertà(gdl): n-1 gradi di libertà poiché il test è in pratica su un campione (campione delle differenze)
  • Si ricava dalle tavole o dal Pc il valore p relativo alla statistica con n-1 gdl.
  • Se p≤a Æ Rifiuto H 0 Æ c’è differenza tra le medie

Test t per 2 campioni :appaiati

Operativamente il test è basato su:

  • H 0 : μ 1 =μ 2 può essere riformulata anche come H 0 : μ 1 -μ 2 =G=
  • Si fissa il livello alfa
  • Calcolo della statistica del test: -- Prima determino la differenza osservata in ogni soggetto, nei due tempi di rilevazione: Test t per 2 campioni :appaiati Media dei metri percorsi nei due tempi è la stessa Operativamente il test è basato su:
  • H 0 : μ 1 =μ 2 può essere riformulata come H 0 : μ 1 -μ 2 =G=
  • Si fissa il livello alfa.
  • Calcolo della la differenza, in ogni soggetto, tra le due rilevazioni: x0i - x1i =di ove i indica la i-esima osservazione.
  • Calcolo della differenza media e della deviazione standard: Cd e Sd
  • Calcolo della statistica:
  • Gradi di libertà(gdl): n-1 gradi di libertà poiché il test è in pratica su un campione (campione delle differenze)
  • Si ricava dalle tavole o dal Pc il valore p relativo alla statistica con n-1 gdl.
  • Se p≤a Æ Rifiuto H 0 Æ c’è differenza tra le medie

Test t per 2 campioni :appaiati

Media dei metri percorsi nei due tempi è la stessa

Analisi della varianza

Esistono due misure di variabilità in questo test: v La variabilità tra gruppi: Media quadratica tra gruppi v La variabilità all’interno dei gruppi: . Media quadratica all’interno dei gruppi Osservazioni

  • Se queste due variabilità sono uguali, attraverso passaggi algebrici, possiamo dedurre che le medie delle popolazioni sono

vicine.

  • La statistica che permette di rispondere a questo quesito, se le varianze sono uguali, è detta “ F ” (dal matematico

R.A.Fischer):

Test di supporto all’ANOVA

Osservazione. Se il test ANOVA rilascia un p significativo (<a), rifiuteremo l’ipotesi nulla, ma non è chiaro dal test quali gruppi abbiano fatto la differenza. Esistono alcuni test per fare questa verifica per esempio- test t di Bonferroni - test HSD di Tukey Test per variabili quantitative. Il caso dei test non parametrici

Test per dati quantitativi: i test non parametrici

Test del segno

Se i campioni non sono indipendenti (dati appaiati) si può utilizzare tale test, anche se poco diffuso nella ricerca medica. Tale test esamina la differenza tra i valori di ciascuna coppia di dati:

  • l esclude dall’analisi le differenze nulle;
  • l conta quante sono le differenze positive e quante quelle negative.

Il test perde l’informazione di quanto siano ampie le differenze. L’ ipotesi nulla è: H 0 : le mediane tra i due gruppi siano uguali cioè mediana gruppo1 = mediana gruppo2 oppure. mediana gruppo1 - mediana gruppo2 = 0 Esempio L’ipotesi nulla è median LDLmais=median LDL (^) avena

Test di Wilcoxon dei ranghi con segno

Se i campioni non sono indipendenti un altro test che si può utilizzare è il test di Wilcoxon dei ranghi con segno,

più diffuso. Anch’esso esamina la differenza tra i valori di ciascuna coppia di dati: esclude le differenze nulle; ordina le differenze diverse da zero, ignorando il segno e a ciascuna viene attribuito una graduatoria, rango, dalla differenza più grande a quella più piccola; àle differenze uguali assumono il rango medio

  1. Si sommano i ranghi positivi e quelli negativi e si confrontano. L’ ipoesi nulla è: H0: le mediane tra i 2 gruppi siano uguali mediana gruppo1 = mediana gruppo2 oppure la somma dei ranghi “+” ≈ la somma dei ranghi “-”

Esempio L’ipotesi nulla è che medianLDLmais=medianLDLavena

Test di Mann-Whitney

E’ il corrispondente del test t per due campioni indipendenti à non si assume che le popolazioni originarie siano normalmente distribuite

Analisi della varianza

Esistono due misure di variabilità in questo test: ™ La variabilità tra gruppi: ™ La variabilità all’interno dei gruppi: Osservazioni.

  • Se queste due variabilità sono uguali, attraverso passaggi algebrici,

possiamo dedurre che le medie delle popolazioni sono vicine.

  • La statistica che permette di rispondere a questo quesito, se le varianze

sono uguali, è detta “ F ” (dal matematico R.A.Fischer): Media quadratica tra gruppi Media quadratica all’interno dei gruppi 14 Analisi della varianza

Esistono due misure di variabilità in questo test:

™ La variabilità tra gruppi: ™ La variabilità all’interno dei gruppi:

Osservazioni.

  • Se queste due variabilità sono uguali, attraverso passaggi algebrici,

possiamo dedurre che le medie delle popolazioni sono vicine.

  • La statistica che permette di rispondere a questo quesito, se le varianze

sono uguali, è detta “ F ” (dal matematico R.A.Fischer): Media quadratica tra gruppi Media quadratica all’interno dei gruppi

Analisi della varianza

due misure di variabilità in questo test: bilità tra gruppi: bilità all’interno dei gruppi: ue variabilità sono uguali, attraverso passaggi algebrici, urre che le medie delle popolazioni sono vicine. che permette di rispondere a questo quesito, se le varianze è detta “ F ” (dal matematico R.A.Fischer): Media quadratica tra gruppi Media quadratica all’interno dei gruppi

à ma si assume che le distribuzioni abbiano la stessa forma generale à utilizza la tecnica dei ranghi. L’ipotesi nulla è: H0: differenza tra le mediane = 0 (cioè le mediane sono uguali) Le osservazioni raccolte vengono valutate come se fossero provenienti da un unico campione Si attribuiscono i ranghi Si confrontano i ranghi di ciascun gruppo. Come procedere per il test 1.Occorre organizzare il dataset:

  • su una colonna verranno poste tutte le osservazioni sulla variabile da testare (ldl);
  • un’altra colonna conterrà l’informazione del gruppo di provenienza (tipo dieta).
  1. Si ordinano le osservazioni su ldl in modo crescente ed assegnati i ranghi. Se ci sono osservazioni uguali,si assegna il rango medio a queste.
  2. Si sommano per ciascun gruppi i ranghi.
  3. Calcoleremo la seguente statistica: n = dimensione campionaria delle osservazioni di un campione. S = somma dei ranghi delle osservazioni di quel gruppo.

Test di Kruskal-Wallis

Questo test è la generalizzazione per più di 2 campioni indipendenti del test di Mann-Whitney. Il test parametrico analogo e il test ANOVA Come si procede:

  1. Si struttura il dataset come nel caso di Mann-Whitney.
  2. Si ordina la variabile da testare e si attribuiscono i ranghi
  3. Si sommano i ranghi di ciascun gruppo, ottenendo per es. K somme di ranghi.
  4. Si calcola la seguente statistica: dove : k = numero dei campioni nj = numero osservazioni del campione j-esimo n = numero di tutte le osservazioni Rj = somma dei ranghi del campione j-esimo

Vantaggi dei test non parametrici

Non implicano tutte le assunzioni restrittive dei test parametrici Per es. non richiedono che le popolazioni originarie siano normalmente distribuite L’ utilizzo dei ranghi rende queste tecniche meno sensibili ad errori di misurazione rispetto ai test tradizionali. Efficace su variabili ordinali poiché sfrutta le proprietà dei ranghi e di posizione.

Svantaggi dei test non parametrici

Se le assunzioni per il corrispondente test parametrico sono soddisfatte è bene utilizzarlo poiché il test non parametrico è meno potente. Infatti le ipotesi testate con un test non parametrico tendono ad essere meno specifiche, si basano sui ranghi e non sui valori reali, dunque, non utilizza tutte le informazioni della distribuzione del campione in studio. Test per dati categorici: il test del Chi-Quadrato ( χ 2 ) il test esatto di Fisher

Test per dati categorici

Prendiamo in esame 2 eventi aleatori: l’esposizione al fumo ed il cancro al polmone

  1. se l’ esposizione e la malattia sono tra loro indipendenti cioè non esiste dunque alcuna associazione allora à la probabilità di essere Fumatore E Malato è UGUALE al prodotto delle probabilità elementari
  2. se l’ esposizione e la malattia sono tra loro dipendenti, cioè l’esposizione modifica la probabilità di malattia, allora à la probabilità di essere Fumatore E Malato è MAGGIORE del prodotto delle probabilità elementari

Test del Chi quadrato (X^2 )

  • Per valutare se esposizione e malattia sono associati si utilizza il test del X^2 , la cui ipotesi nulla sarà: H0: non esiste associazione tra esposizione e malattia. oppure H0: La malattia e l’esposizione sono indipendenti oppure H0: P(B A) = P(B)*P(A) Il test del Chi-quadrato ha l’obiettivo di stabilire se le differenze tra le frequenze osservate (O) e quelle attese (E) sono troppo grandi per essere attribuite al caso: il confronto avviene utilizzando le differenze tra O ed E delle diverse celle, si ottiene un valore che si confronta con una distribuzione di probabilità, la distribuzione del X^2.

Come sono rappresentati i dati in una distribuzione X^2?

  1. Distribuzione mai negativa, i valori vanno da 0 a infinito. (il nome non è un caso!);
  2. Asimmetrica a destra
  3. All’aumentare dei gradi di libertà (o delle osservazioni) l’asimmetria di riduce;
  4. L’area totale sotto la curva è 1 (come per le distribuzioni t- student e Normale).

Gdl=v

Test del Chi quadrato (c

2

) formula

Caselle nella tabella = rc ßDifferenze tra Osservati ed Attesi in ogni casella ß Attesi in ogni casella La distribuzione di probabilità di questa sommatoria è approssimata da una distribuzione detta del Chi-quadrato (c^2 ) con (r-1)(c-1) gradi di libertà (gl o df) à ad esempio in una tabella 2x2: gl= = (2-1) * (2-1) = 1 Esempio caso di 2 variabili dicotomiche (tabella 2x2) Illustriamo il test nel caso più semplice: 2 variabili dicotomiche. Uno studio sull’utilizzo del casco considera un campione casuale di 793 soggetti coinvolti in incidenti con la bicicletta in un anno, tra le variabili raccolte vi sono: Variabile 1 = uso del casco durante l’incidente(si/no); Variabile 2 = c’è stato trauma cranico(si/no). Tabella delle Frequenze Osservate Trauma cranico Casco si^ Casco no^ Tot Si 17 218 235 No 130 428 558 Tot 147 646 793 Si vuole sapere se c’è un’associazione tra uso del casco e trauma cranico, ad un livello di significatività alfa = 0,05. L’ ipotesi nulla sarà: H0: proporzione dei soggetti con traumi cranici che indossavano il casco = Proporzione di soggetti che non indossavano il casco.

Dai dati marginali della tabella delle frequenze osservate dobbiamo ricavare la tabella delle frequenze attese per applicare il test. Tabella delle Frequenze Osservate Tabella delle Frequenze Attese (558x646)/793=454, Trauma cranico Casco si Casco no Tot Si 17 218 235 No 130 428 558 Tot 147 646 793 Osservazione 1: Prima di procedere con i calcoli per il test X^2 , occorre verificare che la dimensione del campione sia sufficiente per garantire la validità del test:

  • Nessuna delle 4 celle deve contenere una frequenza attesa minore di 1 (nel nostro es. è ok.)
  • Si accetta un massimo del 20% di celle con una frequenza attesa minore di 5 (nel nostro es. è ok) Se ciò non è verificato occorre utilizzare il test Esatto di Fisher per le tabelle 2x 2 I gradi di libertà nel nostro esempio avendo una tabella con 2 righe e 2 colonne saranno: Osservazione 2. Se gl è 1 , come in questo caso, alcuni correggono la formula secondo la correzione di Yates!! Con Yatesà Il calcolo: Sommo i valori e ottengo: Consultando le tavole statistiche per una distribuzione chi-quadro con un gl= Posso intuire che per X^2 (1)=27,27 corrisponde un’ area molto piccola, dunque un’alfa molto piccola ... ... in particolare alfa<0. Posso Rifiutare H0 à La proporzione dei soggetti che ha riportato trauma cranico non è la stessa nei due gruppi di chi indossava il o meno. Trauma cranico Casco si Casco no Tot Si 43,6 191,4 235 No 103,6 454,6 558 Tot 147 646 793