

























































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
-Sommatoria -Tipi di variabili -Distribuzioni di frequenze -Misure di posizione -Misure di variabilità -Boxplot -Covarianza e correlazione -Retta di regressione -Indice R2 -Tabelle di contingenza -Indice chi-quadrato -Regola delle probabilità totali -Teorema di Bayes -Test diagnostico -OR e RR -Regola della probabilità additiva e indipendenza -Basi di calcolo combinatorio -Binomiale -Poisson -Esponenziale -Normale -Distribuzione media campionaria -Distribuzione differenza di medie campionarie -Intervalli confidenza media con varianza nota o non nota -Intervallo confidenza differenza tra medie di gruppi indipendenti con varianze note -Intervallo confidenza differenza tra media di gruppi appaiati -Test d’ipotesi media con varianza nota
Tipologia: Appunti
1 / 65
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


























































Statistica - Lezione 1
Nasce dalla parola “ stato”, “statista” (chi si occupa delle questioni di stato). La statistica è l’insieme dei principi e dei metodi per la raccolta, elaborazione, utilizzazione e interpretazione di informazioni riguardanti fenomeni collettivi. In termini più generali la statistica ha come scopo la conoscenza quantitativa dei fenomeni collettivi.
- Unità statistiche sono le entità elementari a cui si riferiscono le informazione di interesse. - Variabile è una qualsiasi caratteristica associata a un’unità. - Popolazione è l’insieme completo di tutte le unità statistiche che costituiscono il gruppo che si è interessati ad analizzare. Le unità statistiche possono appartenere contemporaneamente a diverse popolazioni. In alcuni casi la popolazione potrebbe anche non essere osservabile interamente ma potrebbe essere non identificabile. - Campione è il sottoinsieme delle unità osservate nella popolazione.
La statistica è importante nella medicina per: -stabilire fattori di rischio per lo sviluppo di una malattia o un altro evento clinico con l’obiettivo di fare prevenzione o di capire meglio il fenomeno
-stabilire fattori prognostici per una malattia così che possano essere adottate diverse strategie di trattamento dei pazienti sulla base della loro presenza -valutare l’efficacia/benefici di nuove terapie -confrontare l’efficacia/benefici di terapie competitive Statistica - Lezioni 2-6 (STATISTICA DESCRITTIVA)
Ci sono due branche della statistica:
- Statistica descrittiva Si occupa di: -collezionare dati (es. Sondaggio) -presentare i dati (es. Tabelle e grafici) -sintetizzare i dati (es. Media campionaria) - Statistica inferenziale Ha l’obiettivo di generalizzare i risultati osservati sul campione all’ìintera popolazione e prendere decisioni riguardanti la popolazione sulla base dei risultati del campione. Nonostante ciò potrebbe essere molto costoso, lungo o difficile dal punto di vista logistico raccogliere le informazioni dell’intera popolazione target. Perciò è fondamentale che il campione sia rappresentativo della popolazione da cui viene estratto
I dati in forma grezza non sono facili da usare nel processo decisionale. Perciò si utilizzano: -tabelle di frequenza -grafici La tipologia di tabella e di grafico da utilizzare dipende dalla variabile che si vuole sintetizzare.
è una tabella contenente le categorie (o intervallo di valori) che si osservano nei dati e le corrispondenti frequenze con cui i dati appartengono alle categorie. Dati n valori osservati relativi ad un’indagine condotta su n unità statistiche, ad ogni categoria (i) della variabile X si associa il numero di volte (ni = frequenza ) in cui tale categoria è osservata nel campione. Se mettiamo in relazione la frequenza con il totale otteniamo la frequenza relativa: La frequenza relativa comulativa per ogni classe è la frequenza relativa fino a quella classe inclusa.
- Diagramma a barre (variabili qualitative) Ciascuna barra è associata ad una categoria della variabile considerata. Tutte le barre hanno la stessa larghezza mentre l’altezza è proporzionale alle frequenze delle categorie. - Diagramma a torta (variabili qualitative) La torta è divisa in tante fette quante sono le categorie della variabile categorica considerata.
L’ampiezza di ciascuna fetta è proporzionale alla frequenza della categoria. Per le variabili numeriche le osservazioni possono assumere molti valori diversi tra loro. Perciò una tabella come quelle precedenti non sintetizza i dati. In questi casi si suddivide l’insieme dei valori che la variabile può assumere in intervalli, detti classi. In seguito si determina il numero di osservazioni che cadono all’interno di ciascuna classe. Per determinare l’ampiezza di una classe si utilizza la seguente formula: Ogni osservazione deve poter essere assegnata ad una e una sola classe. Il numero di classi deve essere abbastanza piccolo da fornire un’adeguata sintesi ma abbastanza grande da mantenere un livello accettabile di dettaglio dell’informazione.
Rispetto alle forme che può assumere una distribuzione esiste un metodo per individuare la presenza di asimmetria confrontando gli indici di posizione della distribuzione considerata. Se: -mediana < media -> asimmetria con coda a destra -mediana > media -> asimmetria con coda a sinistra
Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori.
- Campo di variazione (o range) È la differenza tra il massimo e il minimo dei valori osservati. Gli svantaggi del range sono: -ignora il modo in cui sono distribuiti i dati -risente della presenza di outlier I quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori. Un quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, in cui: -posizione primo quartile (Q1) = -posizione secondo quartile (Q2) = -> corrisponde alla posizione della mediana
La differenza interquartile non risente della presenza di outlier.
- Varianza (s^2 ) È la media dei quadrati delle differenze fra ciascuna osservazione e la media. Si considerano gli scarti al quadrato per evitare compensazioni tra distanze positive e negative. La varianza misura quanto i dati sono dispersi attorno alla media. Es. Proprietà della varianza: -la varianza di una costante è 0 -> la varianza misura quanto i valori si allontanano dalla media, se tutti i valori sono uguali non c’è alcuna dispersione -la varianza è un operatore quadratico -> Aggiungere una costante “b” non cambia la varianza Perché se sposti tutti i dati in alto o in basso della stessa quantità, la dispersione attorno alla media resta identica. Mentre moltiplicare per una costante “a” cambia la varianza in modo quadratico. Se moltiplichi ogni distanza dalla media per “a”, la dispersione cresce di un fattore “a”, ma nella varianza queste distanze vengono squadrate. Quindi a diventa a2. -risente della presenza di outlier
- Deviazione standard (s) Mostra la variabilità rispetto alla media. Anche la deviazione standard risente della presenza di outlier. Es. - Coefficiente di variazione (CV) Misura la variabilità relativa rispettto alla media espresso in percentuale. Può essere utilizzato per confrontare due o più variabili misurate con unità di misura diversa o con un diverso ordine di grandezza delle misurazioni. Infatti quando due variabili sono misurate con unità di misura diverse oppure con ordini di grandezza molto diversi, non è possibile confrontare direttamente la loro dispersione, perché la varianza e la deviazione standard dipendono dall’unità in cui sono misurati i dati. Perciò si utilizza il coefficiente di variazione che elimina le unità di misura e rende le variabili confrontabili tra loro, in questo modo possiamo capire quale variabile è relativamente più “dispersa” rispetto alla propria scala di riferimento.
Es. Il colore delle scarpe e il sesso sono due variabili dipendenti Verificare l’esistenza di un’associazione tra X e Y non significa dimostrare che tra X e Y c’è un rapporto di causa-effetto. Infatti potrebbe esserci una variabile Z da cui dipendono sia X che Y che mette in relazione le due variabili. Es. È spesso possibile riscontrare un’associazione tra il consumo eccessivo di caffe e la mortalità per CHD. Tuttavia il vero fattore di rischio per la CGD è essere un forte fumatore. Il consumo eccessivo di caffè è associato alla mortalità per CGD poiché spesso i fumatori accaniti sono anche grandi bevitori di caffe.
La correlazione e la regressione sono due concetti diversi:
Osservando la nuvola possiamo dedurre informazioni sulla forma, sulla forza e sulla direzione della relazione fra due variabili quantitative.
- Covarianza Date due variabili X e Y, la covarianza ci indica come varia X al variare di Y. È un indicatore sulla variazione contemporanea dei valori di due variabili quantitative. La covarianza può dare solo un’indicazione sulla direzione della relazione (inversa o diretta) tra X e Y, posso conoscere il valore massimo della relazione tra le due. Però non so quanto un valore sia grande o piccolo, questo dipende dall’unità di misura che utilizzo. - Coefficiente di correlazione lineare di Pearson Per conoscere la forza della relazione è necessario relativizzare la covarianza. Il coefficiente di Pearson serve per definire una misura normalizzata della covarianza. Si calcola sulla base dei valori della covarianza. Non solo fornisce indicazioni sulla direzione della relazione ma fornisce anche un’indicazione su quanto è forte la relazione.
Nella regressione lineare la relazione tra variabili è rappresentata da una linea retta espressa dall’equazione: Y = ax + b , dove: -a -> coefficiente angolare, rappresenta la pendenza della retta (a>0 retta è crescente, a<0 retta decrescente) -b -> intercetta, è il punto in cui la retta interseca l’asse y L’obiettivo è trovare la migliore tra tutte le rette.
Es. Se si sceglie una funzione lineare di equazione Y = aX
Ogni punto “proietta” una distanza verticale sulla retta. La retta dei minimi quadrati è quella che fa sì che la somma complessiva delle distanze verticali al quadrato sia la più piccola possibile. Pendenza della retta: Se le variabili sono direttamente correlate (sXY > 0), allora a > 0 e la retta è crescente. Se le variabili sono inversamente correlate (sXY < 0), allora a < 0 e la retta è decrescente. La pendenza (o coefficiente angolare) rappresenta il cambiamento medio in Y associato ad un aumento unitario in X Intercetta della retta: L’intercetta stima il valore medio atteso di Y quando X = 0. La retta passa sempre per il punto di incontro delle medie delle due variabili.
La deviazione totale del punto rispetto alla media di Y è quindi: Questo scompone perfettamente ogni osservazione in: -parte spiegata dalla retta -> ciò che il modello riesce a descrivere; -parte non spiegata -> l’errore, dovuto a variabilità naturale o mancanza di relazione. L’indice di determinazione R^2 nasce proprio da questo confronto tra variabilità spiegata e variabilità totale. Se la retta spiega bene i dati, la parte spiegata sarà grande e la parte non spiegata piccola. Se invece i punti sono molto sparsi e lontani dalla retta, la variabilità non spiegata sarà grande e R^2 sarà basso. In sintesi, la bontà di adattamento ci dice quanto la retta rappresenta veramente la struttura dei dati: -valori di R^2 vicini a 1 indicano che la retta spiega quasi tutta la variabilità di Y -valori di R^2 vicini a 0 indicano che la retta non cattura quasi nulla della relazione Si può verificare che l’indice di adattamento R^2 coincide esattamente con il coefficiente di correlazione lineare al quadrato:
tatistica - Lezioni 2-6 (STATISTICA DESCRITTIVA)
Xe Y sono qualitative
Frequenza relativa congiunta della classe (Y ∈ Bj , X ∈ Ai): Frequenza relativa marginale della classe (Y ∈ Bj): Frequenza relativa marginale della classe (X ∈ Ai):