Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti Completi Statistica, Appunti di Statistica

-Sommatoria -Tipi di variabili -Distribuzioni di frequenze -Misure di posizione -Misure di variabilità -Boxplot -Covarianza e correlazione -Retta di regressione -Indice R2 -Tabelle di contingenza -Indice chi-quadrato -Regola delle probabilità totali -Teorema di Bayes -Test diagnostico -OR e RR -Regola della probabilità additiva e indipendenza -Basi di calcolo combinatorio -Binomiale -Poisson -Esponenziale -Normale -Distribuzione media campionaria -Distribuzione differenza di medie campionarie -Intervalli confidenza media con varianza nota o non nota -Intervallo confidenza differenza tra medie di gruppi indipendenti con varianze note -Intervallo confidenza differenza tra media di gruppi appaiati -Test d’ipotesi media con varianza nota

Tipologia: Appunti

2025/2026

In vendita dal 18/05/2026

ModalitàSessione
ModalitàSessione 🇮🇹

12 documenti

1 / 65

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica - Lezione 1
Introduzione alla statistica e alla
statistica medica!
Nasce dalla parola “stato”, “statista” (chi si occupa delle questioni di stato).
La statistica è l’insieme dei principi e dei metodi per la raccolta, elaborazione, utilizzazione
e interpretazione di informazioni riguardanti fenomeni collettivi. In termini più generali la
statistica ha come scopo la conoscenza quantitativa dei fenomeni collettivi.
Termini fondamentali
Unità statistiche
sono le entità elementari a cui si riferiscono le informazione di interesse.
Variabile
è una qualsiasi caratteristica associata a un’unità. !
Popolazione
è l’insieme completo di tutte le unità statistiche che costituiscono il gruppo che si è
interessati ad analizzare. Le unità statistiche possono appartenere contemporaneamente
a diverse popolazioni. !
In alcuni casi la popolazione potrebbe anche non essere osservabile interamente ma
potrebbe essere non identificabile. !
Campione
è il sottoinsieme delle unità osservate nella popolazione. !
Applicazioni delle statistica in medicina
La statistica è importante nella medicina per:
-stabilire fattori di rischio per lo sviluppo di una malattia o un altro evento clinico con
l’obiettivo di fare prevenzione o di capire meglio il fenomeno
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41

Anteprima parziale del testo

Scarica Appunti Completi Statistica e più Appunti in PDF di Statistica solo su Docsity!

Statistica - Lezione 1

Introduzione alla statistica e alla

statistica medica

Nasce dalla parola “ stato”, “statista” (chi si occupa delle questioni di stato). La statistica è l’insieme dei principi e dei metodi per la raccolta, elaborazione, utilizzazione e interpretazione di informazioni riguardanti fenomeni collettivi. In termini più generali la statistica ha come scopo la conoscenza quantitativa dei fenomeni collettivi.

Termini fondamentali

- Unità statistiche sono le entità elementari a cui si riferiscono le informazione di interesse. - Variabile è una qualsiasi caratteristica associata a un’unità. - Popolazione è l’insieme completo di tutte le unità statistiche che costituiscono il gruppo che si è interessati ad analizzare. Le unità statistiche possono appartenere contemporaneamente a diverse popolazioni. In alcuni casi la popolazione potrebbe anche non essere osservabile interamente ma potrebbe essere non identificabile. - Campione è il sottoinsieme delle unità osservate nella popolazione.

Applicazioni delle statistica in medicina

La statistica è importante nella medicina per: -stabilire fattori di rischio per lo sviluppo di una malattia o un altro evento clinico con l’obiettivo di fare prevenzione o di capire meglio il fenomeno

-stabilire fattori prognostici per una malattia così che possano essere adottate diverse strategie di trattamento dei pazienti sulla base della loro presenza -valutare l’efficacia/benefici di nuove terapie -confrontare l’efficacia/benefici di terapie competitive Statistica - Lezioni 2-6 (STATISTICA DESCRITTIVA)

Introduzione e descrizione grafica dei

dati

Ci sono due branche della statistica:

- Statistica descrittiva Si occupa di: -collezionare dati (es. Sondaggio) -presentare i dati (es. Tabelle e grafici) -sintetizzare i dati (es. Media campionaria) - Statistica inferenziale Ha l’obiettivo di generalizzare i risultati osservati sul campione all’ìintera popolazione e prendere decisioni riguardanti la popolazione sulla base dei risultati del campione. Nonostante ciò potrebbe essere molto costoso, lungo o difficile dal punto di vista logistico raccogliere le informazioni dell’intera popolazione target. Perciò è fondamentale che il campione sia rappresentativo della popolazione da cui viene estratto

Classificazione delle variabili

I dati in forma grezza non sono facili da usare nel processo decisionale. Perciò si utilizzano: -tabelle di frequenza -grafici La tipologia di tabella e di grafico da utilizzare dipende dalla variabile che si vuole sintetizzare.

Distribuzione di frequenza (sia variabili qualitative che quantitative)

è una tabella contenente le categorie (o intervallo di valori) che si osservano nei dati e le corrispondenti frequenze con cui i dati appartengono alle categorie. Dati n valori osservati relativi ad un’indagine condotta su n unità statistiche, ad ogni categoria (i) della variabile X si associa il numero di volte (ni = frequenza ) in cui tale categoria è osservata nel campione. Se mettiamo in relazione la frequenza con il totale otteniamo la frequenza relativa: La frequenza relativa comulativa per ogni classe è la frequenza relativa fino a quella classe inclusa.

- Diagramma a barre (variabili qualitative) Ciascuna barra è associata ad una categoria della variabile considerata. Tutte le barre hanno la stessa larghezza mentre l’altezza è proporzionale alle frequenze delle categorie. - Diagramma a torta (variabili qualitative) La torta è divisa in tante fette quante sono le categorie della variabile categorica considerata.

L’ampiezza di ciascuna fetta è proporzionale alla frequenza della categoria. Per le variabili numeriche le osservazioni possono assumere molti valori diversi tra loro. Perciò una tabella come quelle precedenti non sintetizza i dati. In questi casi si suddivide l’insieme dei valori che la variabile può assumere in intervalli, detti classi. In seguito si determina il numero di osservazioni che cadono all’interno di ciascuna classe. Per determinare l’ampiezza di una classe si utilizza la seguente formula: Ogni osservazione deve poter essere assegnata ad una e una sola classe. Il numero di classi deve essere abbastanza piccolo da fornire un’adeguata sintesi ma abbastanza grande da mantenere un livello accettabile di dettaglio dell’informazione.

  • Istogramma (variabili numeriche) Si tratta di un grafico dei dati contenuti in una distruibuzione di frequenza per dati numerici suddivisi in classi. Gli estremi degli intervalli sono rappresentati sull’asse orizzontale mentre l’asse verticale rappresenta la frequenza delle classi. L’altezzza delle barre rappresenta il numero di osservazioni in ciascuna classe (o la frequenza relativa di ciascuna classe). La presenza di:
  • (^) Troppe classi di intervallo piccolo -> può produrre una distribuzione molto frastagliata con spazi dovuti a classi vuote e di conseguenza può dare una cattiva indicazione di come la frequenza cambia nelle classi
  • (^) P oche classi di intervallo ampio -> può comprimere troppo la variazione e produrre una distribuzione a blocchi. Ciò può oscurare importanti andamenti nella variazione. Perciò l’obiettivo è creare una distribuzione che non sia troppo “frastagliata” o troppo “a blocchi” per mostrare appropriatamente l’andamento della variazione nei dati. - Ogive (variabili numeriche) Le ogive sono i grafici per le frequenze cumulate. La linea rappresenta le frequenze cumulative. Graficamente si presenta come una spezzata che unisce i punti che hanno per ascisse gli estremi degli intervalli e per ordinate le corrispondenti

Misure di tendenza centrale

  • Media È la misura di tendenza centrale più comune. Può essere calcolata solo per variabili quantitative ed è la somma dei valori divisa per il numero di valori La media è lineare perchè risponde in modo proporzionale e prevedibile al cambiamento dei dati, soddisfando due importanti proprietà della linearità:
  • omogeneità -> se moltiplichi tutte le osservazioni per una costante c anche la media viene moltiplicata per c. Questo perchè la costante può essere “portata fuori” dalla somma.
  • additività -> La media della somma di due insiemi di valori (presi elemento per elemento) è uguale alla somma delle medie. Ovvero media(X + Y) = media(X) + media(Y). La media viene utilizzata a meno che ci siano dei valori estremi, detti outlier
  • Mediana La mediana è il valore che occupa la posizione centrale. La posizione centrale se il numero di unità statistiche è n —> posizione centrale = (n+1)/2 (non è il valore della mediana ma la posizione della mediana nella sequenza ordinata) Se n è:
  • dispari -> la mediana è l’osservazione al centro della lista ordinata
  • pari -> la mediana è la media delle due osservazioni che hanno posizione attorno a quella centrale La mediana viene spesso utilizzata dal momento che non è influenzata da valori estremi. - Moda Corrisponde al valore che ricorre più frequentemente. Può non esserci una moda, quando tutti i valori hanno la stessa frequenze. Inoltre può esserci più di una moda quando più di un valore ha la frequenza massima.

Rispetto alle forme che può assumere una distribuzione esiste un metodo per individuare la presenza di asimmetria confrontando gli indici di posizione della distribuzione considerata. Se: -mediana < media -> asimmetria con coda a destra -mediana > media -> asimmetria con coda a sinistra

Misure di variabilità

Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori.

- Campo di variazione (o range) È la differenza tra il massimo e il minimo dei valori osservati. Gli svantaggi del range sono: -ignora il modo in cui sono distribuiti i dati -risente della presenza di outlier I quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori. Un quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, in cui: -posizione primo quartile (Q1) = -posizione secondo quartile (Q2) = -> corrisponde alla posizione della mediana

n + 1

= 0.25( n + 1 )

2 ( n + 1 )

= 0.50( n + 1 )

La differenza interquartile non risente della presenza di outlier.

- Varianza (s^2 ) È la media dei quadrati delle differenze fra ciascuna osservazione e la media. Si considerano gli scarti al quadrato per evitare compensazioni tra distanze positive e negative. La varianza misura quanto i dati sono dispersi attorno alla media. Es. Proprietà della varianza: -la varianza di una costante è 0 -> la varianza misura quanto i valori si allontanano dalla media, se tutti i valori sono uguali non c’è alcuna dispersione -la varianza è un operatore quadratico -> Aggiungere una costante “b” non cambia la varianza Perché se sposti tutti i dati in alto o in basso della stessa quantità, la dispersione attorno alla media resta identica. Mentre moltiplicare per una costante “a” cambia la varianza in modo quadratico. Se moltiplichi ogni distanza dalla media per “a”, la dispersione cresce di un fattore “a”, ma nella varianza queste distanze vengono squadrate. Quindi a diventa a2. -risente della presenza di outlier

- Deviazione standard (s) Mostra la variabilità rispetto alla media. Anche la deviazione standard risente della presenza di outlier. Es. - Coefficiente di variazione (CV) Misura la variabilità relativa rispettto alla media espresso in percentuale. Può essere utilizzato per confrontare due o più variabili misurate con unità di misura diversa o con un diverso ordine di grandezza delle misurazioni. Infatti quando due variabili sono misurate con unità di misura diverse oppure con ordini di grandezza molto diversi, non è possibile confrontare direttamente la loro dispersione, perché la varianza e la deviazione standard dipendono dall’unità in cui sono misurati i dati. Perciò si utilizza il coefficiente di variazione che elimina le unità di misura e rende le variabili confrontabili tra loro, in questo modo possiamo capire quale variabile è relativamente più “dispersa” rispetto alla propria scala di riferimento.

Es. Il colore delle scarpe e il sesso sono due variabili dipendenti Verificare l’esistenza di un’associazione tra X e Y non significa dimostrare che tra X e Y c’è un rapporto di causa-effetto. Infatti potrebbe esserci una variabile Z da cui dipendono sia X che Y che mette in relazione le due variabili. Es. È spesso possibile riscontrare un’associazione tra il consumo eccessivo di caffe e la mortalità per CHD. Tuttavia il vero fattore di rischio per la CGD è essere un forte fumatore. Il consumo eccessivo di caffè è associato alla mortalità per CGD poiché spesso i fumatori accaniti sono anche grandi bevitori di caffe.

Analisi bivariata tra variabili quantitative

La correlazione e la regressione sono due concetti diversi:

  • correlazione -> analizza se esiste una relazione tra due variabili, come e quanto due variabili variano insieme (studio della co-variazione). È una relazione simmetrica
  • regressione -> analizza la forma della relazione tra variabili, assumendo il ruolo delle variabili (i valori di una variabile dipendono dai valori dell’altra variabile). È una relazione asimmetrica La relazione tra due variabili quantitative si valuta attraverso: - Diagramma a dispersione (scatterplot) Fornisce una rappresentazione grafica dell’andamento congiunto delle due variabili quantitative. Gli assi cartesiani del diagramma a dispersione rappresentano i valori delle variabili. L’insieme dei punti nel diagramma a dispersione è detto nuvola di punti. Se le due variabili sono: -dipendenti -> i punti si presentano sparpagliati sul diagramma, senza alcune struttura -in relazione -> la nuvola di punti si presenta strutturata. Questa struttura ci da informazioni sul tipo di relazione esistente

Osservando la nuvola possiamo dedurre informazioni sulla forma, sulla forza e sulla direzione della relazione fra due variabili quantitative.

- Covarianza Date due variabili X e Y, la covarianza ci indica come varia X al variare di Y. È un indicatore sulla variazione contemporanea dei valori di due variabili quantitative. La covarianza può dare solo un’indicazione sulla direzione della relazione (inversa o diretta) tra X e Y, posso conoscere il valore massimo della relazione tra le due. Però non so quanto un valore sia grande o piccolo, questo dipende dall’unità di misura che utilizzo. - Coefficiente di correlazione lineare di Pearson Per conoscere la forza della relazione è necessario relativizzare la covarianza. Il coefficiente di Pearson serve per definire una misura normalizzata della covarianza. Si calcola sulla base dei valori della covarianza. Non solo fornisce indicazioni sulla direzione della relazione ma fornisce anche un’indicazione su quanto è forte la relazione.

  • (^) È un indice senza unità di misura;
  • (^) Varia tra -1 e +1.

Nella regressione lineare la relazione tra variabili è rappresentata da una linea retta espressa dall’equazione: Y = ax + b , dove: -a -> coefficiente angolare, rappresenta la pendenza della retta (a>0 retta è crescente, a<0 retta decrescente) -b -> intercetta, è il punto in cui la retta interseca l’asse y L’obiettivo è trovare la migliore tra tutte le rette.

Metodo dei minimi quadrati

Es. Se si sceglie una funzione lineare di equazione Y = aX

  • b occorre stimare a e b ovvero trovare, tra tutte le rette possibili, quella che interpola meglio la nuvola di punti. Chiamiamo a^ e b^ in valori stimati di a e b ottenuti dai dati e li utilizzano per prevedere il valore medio di Y per un dato valore di X = x Y^ = a^x + b^ Sia (xi,yi) una coppia di valori osservati delle variabili (X,Y). I punti reali non stanno esattamente su una retta, quindi esiste un errore per ogni punto: La retta dei minimi quadrati è la retta che minimizza la somma dei quadrati dei residui (errori).

Ogni punto “proietta” una distanza verticale sulla retta. La retta dei minimi quadrati è quella che fa sì che la somma complessiva delle distanze verticali al quadrato sia la più piccola possibile. Pendenza della retta: Se le variabili sono direttamente correlate (sXY > 0), allora a > 0 e la retta è crescente. Se le variabili sono inversamente correlate (sXY < 0), allora a < 0 e la retta è decrescente. La pendenza (o coefficiente angolare) rappresenta il cambiamento medio in Y associato ad un aumento unitario in X Intercetta della retta: L’intercetta stima il valore medio atteso di Y quando X = 0. La retta passa sempre per il punto di incontro delle medie delle due variabili.

La deviazione totale del punto rispetto alla media di Y è quindi: Questo scompone perfettamente ogni osservazione in: -parte spiegata dalla retta -> ciò che il modello riesce a descrivere; -parte non spiegata -> l’errore, dovuto a variabilità naturale o mancanza di relazione. L’indice di determinazione R^2 nasce proprio da questo confronto tra variabilità spiegata e variabilità totale. Se la retta spiega bene i dati, la parte spiegata sarà grande e la parte non spiegata piccola. Se invece i punti sono molto sparsi e lontani dalla retta, la variabilità non spiegata sarà grande e R^2 sarà basso. In sintesi, la bontà di adattamento ci dice quanto la retta rappresenta veramente la struttura dei dati: -valori di R^2 vicini a 1 indicano che la retta spiega quasi tutta la variabilità di Y -valori di R^2 vicini a 0 indicano che la retta non cattura quasi nulla della relazione Si può verificare che l’indice di adattamento R^2 coincide esattamente con il coefficiente di correlazione lineare al quadrato:

tatistica - Lezioni 2-6 (STATISTICA DESCRITTIVA)

Analisi di Associazione

Xe Y sono qualitative

Frequenza assoluta

  • Frequenza assoluta congiunta (nij) -> incroci nella tabella in base al valore della riga e della colonna fornito
  • Frequenza assoluta marginale : -per riga -> frequenza della caratteristica sulla riga -per colonna -> frequenza della caratteristica sulla colonna

Frequenza relativa

Frequenza relativa congiunta della classe (Y ∈ Bj , X ∈ Ai): Frequenza relativa marginale della classe (Y ∈ Bj): Frequenza relativa marginale della classe (X ∈ Ai):