
























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti presi in classe e integrati con le slide dell'insegnamento di statistica.
Tipologia: Appunti
1 / 96
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

























































































CAPITOLO 1 La statistica è la scienza che cerca di trarre le conclusioni, le informazioni, dai dati quando non si può osservare dalla realtà (partendo da situazioni incerte). Le decisioni quotidiane sono spesso incerte, basate su informazioni incomplete che generano incertezza. Nomenclatura : La POPOLAZIONE è l’insieme completo di tutte le unità oggetto di studioN rappresenta la dimensione della popolazione. Il CAMPIONE è il sottoinsieme delle unità osservate nella popolazionen rappresenta la dimensione del campione. Il campione per essere significativo deve essere ampio. Il PARAMETRO è una caratteristica specifica della popolazione, quello che voglio andare a stimare (es. numero della gente vaccinata). La STATISTICA è una caratteristica specifica del campione. Esempi di popolazione:
Inferenza è il processo tramite il quale si estraggono conclusioni o si prendono decisioni circa una popolazione sulla base dei risultai campionari. PROCESSO DECISIONALE: o Identifico il problema, o Raccolgo i dati, o Li sintetizzo con grafici e statistiche, o Traggo informazioni dalle statistiche (conoscenza), o Prendo ciò che conosco e lo confronto con la teoria o Prendo una decisione. CAPITOLO 2-DESCRIZIONE GRAFICA DEI DATI I dati categorici sono dati che sottintendono alcune specifiche categorie. Tutto ciò che non è numerico è categorico. I dati numerici riguardano i numeri e possono essere discreti o continui. Il risultato è un numero
I dati categorici abbiamo detto che possono inseriti in tabelle o grafici. Per i grafici abbiamo anche diagrammi a barre, a torta e di Pareto. DIAGRAMMI A BARRE E A TORTA Diagrammi a barre e Diagrammi a torta sono spesso usati per dati qualitativi (categorici) Diagrammi a barre : L’altezza delle barre o l’area dei settori circolari rappresentano la frequenza o percentuale di ciascuna categoria. Sull’asse delle x inserisco le categorie. Nel diagramma a barre inserisco direttamente il numero di pazienti. Esempio: Diagrammi a torta : Bisogna passare da una frequenza ad una percentuale, nell’esempio: sommo il numero di pazienti, divido il numero dei pazienti per la somma e poi moltiplico per 100. Con il diagramma a torta però non è possibile confrontare ospedali differenti. Mentre nel diagramma a torta risulta utile per confrontare un singolo ospedale, un singolo dato, ma non posso confrontare tipi di dati diversi, cosa che posso fare con le frequenze, con il conteggio.
DIAGRAMMA DI PARETO diagramma a barre in cui ho nelle barre la frequenza (dalla più grande alla più piccola, ordine decrescente) e poi sopra le frequenze devo inserire un grafico delle cumulante.
Solitamente vengono usati almeno 5 ma non più di 15-20 intervalli. Gli intervalli non si sovrappongono mai. Arrotondare l’ampiezza dell’intervallo per ottenere i desiderati estremi della classe, gli estremi della classe: se l’ampiezza non è un numero intero allora devo approssimare. Esempio:
ISTOGRAMMA
La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro. La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro. Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi. DIAGRAMMA RAMO-FOGLIA Un modo semplice per vedere i dettagli della distribuzione di un set di dati: Separare la serie di dati ordinata in cifre più significative (i rami) e cifre meno significative (le foglie). Esempi: Distribuzione Simmetrica 0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 Frequenza Distribuzione con Asimmetria Positiva 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 Frequenza Distribuzione con Asimmetria Negativa 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 Frequenza
Centinaia: ramo come cifra delle centinaia, foglia la parte restante approssimando il numero: 76 si avvicina a 80 quindi metto 8. Il 24 è più vicino al 20, quindi metto 2. I grafici illustrati finora si riferiscono ad una sola variabile. Quando consideriamo due variabili vengono usate altre tecniche: DIAGRAMMI DI DISPERSIONE Diagrammi di Dispersione sono usati per osservazioni accoppiate relative a due variabili numeriche. Il diagramma di dispersione: una variabile viene rappresentata sull’asse verticale e l’altra variabile viene rappresentata sull’asse orizzontale. Due variabili: volume (asse x) e costo (asse y). La tabella ci dice i vari dati e con il grafico ci dice che all’aumentare del volume comporterà un aumento del costo giornaliero. DIAGRAMMA DI DISPERSIONE SU EXCEL TABELLE A DOPPIA ENTRATA Tabelle a doppia entrata (o tabelle di contingenza) elencano il numero di osservazioni per ogni combinazione di valori per le due variabili categoriche o ordinali. Se ci sono r categorie per la prima variabile (righe) e c categorie per la seconda variabile (colonne), la tabella viene chiamata tabella a doppia entrata r x c.
CAPITOLO 3-DESCRIZIONE NUMERICA DEI DATI DESCRIZIONE NUMERICA DEI DATI MISURE DI TENDENZA CENTRALE LA MEDIA ARITMETICA La media aritmetica (media) è la misura di tendenza centrale più comune: La misura di tendenza centrale più comune Media = somma dei valori diviso il numero di valori Influenzata da valori estremi (outlier): sono poco ricorrenti, poco probabili. Questi valori fanno in modo che la media venga influenzata.
Lettere greche (u=mu) sulla popolazione. Lettere latine sul campione. MEDIANA In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto). Non viene influenzata da valori estremi, come invece accade per la media aritmetica. La posizione della mediana:
o Se il numero di valori è dispari, la mediana è il valore centrale o Se il numero di valori è pari, la mediana è la media dei due valori centrali Nota che non è il valore della mediana, ma la posizione della mediana nella sequenza ordinata. n = alla posizione. Ordino dal più piccolo al più grande. MODA Una misura di tendenza centrale, è il valore che occorre più frequentemente. Non viene influenzata da valori estremi. Viene utilizzata sia per dati numerici che categorici. Vi può non esserci una moda (tutti i valori sono equiprobabili, è uniforme su tutto il supporto), MA ci può essere più di una moda. Esempio riepilogativo:
Svantaggi del campo di variazione: Ignora il modo in cui i dati sono distribuiti Sensibile agli outlier DIFFERENZA INTERQUARTILE Possiamo eliminare il problema degli outlier usando la differenza interquartile. Andiamo a eliminare il 25% delle osservazioni più piccole e il 25% di quelle più grandielimino il 50% dei dati, delle osservazioni. Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati. Differenza Interquartile = valore terzo quartile – valore primo quartile La mediana per definizione è il secondo quartile. In questo modo pulisco dagli outlier, eliminando il 50% dei dati. QUARTILI I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori. Ordino i dati dal più grande al più piccolo. Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso. Q1 è quello che lascia alla sua destra il 25% delle sue osservazioni. Q2 coincide con la mediana (50% sono minori, 50% sono maggiori) Solo 25% delle osservazioni sono maggiori del terzo quartile. Q3 lascia a destra 25% delle osservazioni. Formule per i quartiliUn quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, dove:
9 è il numero dei valori osservati. 0,25(9+1)=2,5. La posizione del primo quartile è uguale alla media delle posizioni intermedie (12+13/2) VARIANZA DELLA POPOLAZIONE Media dei quadrati delle differenze fra ciascuna osservazione e la media. Varianza della Popolazione: VARIANZA CAMPIONARIA Media (approssimativamente) dei quadrati delle differenze fra ciascuna osservazione e la media. Varianza campionaria: la varianza è la dispersione dei punti intorno alla media. SCARTO QUADRICO MEDIO DELLA POPOLAZIONE Misura di variabilità comunemente usata Mostra la variabilità rispetto alla media Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio della Popolazione (sigma): varianza della popolazione sotto radice SCARTO QUADRICO MEDIO CAMPIONARIO Misura di variabilità comunemente usata Mostra la variabilità rispetto alla media Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio Campionario: varianza campionaria sotto la radice lo scarto quadratico medio è la variabilità rispetto alla media.
N i 1 2 i 2
n i 1 2 i 2
N i 1 2
n i 1 2
Se la distribuzione dei dati ha una forma campanulare (gaussiana), allora l’intervallo contiene circa 68% dei valori della popolazione o del campione. k= k= COEFFICIENTE DI VARIAZIONE Misura la variabilità in maniera relativa Sempre in percentuale (%) Mostra la variabilità relativa rispetto alla media Può essere usato per confrontare due o più set di dati misurati con unità di misura diversa: (errore standard/media)x Confronto tra coefficienti di variazione: Nel primo il prezzo è più volatile, si ha una minore variazione. PARTE DI EXCEL MEDIA PESATA La media pesata di un set di dati è: 100% x s CV i 1 1 2 2 n n n i 1 i i w wx wx w x w w x x
^ μ 1 σ
Dove wi è il peso assegnato alla ima^ osservazione. Usata quando i dati sono già raggruppati in n classi, con wi valori nella ima^ classe. APPROSSIMAZIONI PER DATI RAGGRUPPATI:
K i 1 i i
K i 1 i i
K i 1 2 i i 2
K i 1 2 i i 2
N i 1 i x i y xy
n i 1 i i xy