




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti dettagliati per l'intero corso di statistica del triennio
Tipologia: Appunti
1 / 139
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Capitolo 2 – descrizione grafica dei dati
Dati numerici: - discreti: elementi conteggiati (es. N figli)
Dati categorici: specifiche categorie o gruppi (es. stato civile, colore occhi)
Livelli di misurazione:
Dati nominali: categorie (no ordine o direzione)
Dati ordinali: categorie ordinate (ranghi, ordine, scala)
Scala ad intervallo: differenze fra misurazioni, non esiste zero assol
Scala di rapporto: differenze fra msiruazioni, esiste zero assoluto
1-2 -> per dati quantitativi 3-4 -> per dati qualitativi
Rappresentazione grafica dei dati
Variabili categoriche (dati qualitativi): 2 modalità
- Tabulazione: tabella della distribuzione di frequenze - Grafici: diagramma a barre, a torta, di pareto
Variabili numeriche (dati quantitativi):
- Distribuzioni di frequenze o frequenze cumulate: istogramma, ogiva - Diagrammi: ramo foglia e dispersione - Grafico per serie storiche
Distribuzione di frequenza: Una distribuzione di frequenze è una lista o
una tabella contenente classi di intervallo (categorie o
intervalli a cui i dati appartengono) e le corrispondenti frequenze con cui i
dati appartengono alle classi o categorie. Ciascuna classe di intervallo
dovrebbe avere la stessa ampiezza
campo di variazione = valore max – valore min
ampiezza intervallo: w =
valore max − valore min
numero diclassi
- Usare almeno 5 ma non più di 15-20 intervalli - E’ bene che gli intervalli non si sovrappongono mai - Arrotondare eventualmente per eccesso (mai per difetto) l’ampiezza
dell’intervallo per ottenere i desiderati estremi della classe
- Bisogna usare dati ordinati prima di procedere
Quante classi di intervallo scegliere:
Troppe (classi di intervallo piccole)
- può produrre una distribuzione molto
frastagliata con spazi dovuti a classi vuote
- può dare una cattiva indicazione di come la frequenza cambia nelle
classi
Poche (classi di intervallo ampie)
- può comprimere troppo la variazione e produrre una distribuzione a
blocchi
- può oscurare importanti andamenti nella variazione.
Istogramma:
- Un grafico dei dati contenuti in una distribuzione di frequenze è
chiamato istogramma
- Gli estremi degli intervalli sono rappresentati sull’asse orizzontale - L’ asse verticale rappresenta le frequenze solo se le classi hanno pari
ampiezza
- Barre di altezza appropriata sono usate per rappresentare la
numerosità di ciascuna classe
- No spazio tra le colonne
Ogiva:
- Grafico per frequenze cumulate (somma frequenze di volta in volta) - Grafico a puntini uniti (crescente) - Sull asse Y (percentuale cumulata) sull asse X (limiti superiori
intervalli)
Forma della distribuzione:
Diagramma ramo-foglia: modo semplice per vedere i dettagli della
distribuzione di un set di dati, abbinando il dettaglio della distribuzione di
frequenze e la sintesi grafica propria dell’istogramma
Metodo: Separare la serie di dati ordinata in cifre più significative (i rami)
e cifre meno significative (le foglie)
relazioni fra variabili: grafici a 2 variabili
Diagramma di dispersione: osservazioni accoppiate relative a due variabili
numeriche. Una variabile viene rappresentata sull’asse verticale e l’altra
variabile viene rappresentata sull’asse orizzontale
Tabelle a doppia entrata: (o tabelle di contingenza) elencano il numero di
osservazioni per ogni combinazione di valori per le due variabili
categoriche o ordinali. Se ci sono r categorie per la prima variabile (righe)
e c categorie per la seconda variabile (colonne), la tabella viene chiamata
tabella a doppia entrata r x c.
Errori nella presentazione dei dati:
presentazione efficace dei dati:
- Presentare i dati in modo da mostrare le informazioni essenziali - Comunicare idee complesse chiaramente ed in modo accurato - Evitare distorsioni che possono comunicare il messaggio sbagliato
Errori nella presentazione dei dati:
- Diversa ampiezza delle classi di intervallo in un istogramma - Compressione o distorsione dell’asse verticale - Omissione dello zero sull’asse verticale - Non fornire una base di riferimento per il confronto di dati di diversi
gruppi
- Se il numero di valori è dispari, la mediana è il valore centrale - Se il numero di valori è pari, la mediana è la media dei due valori
centrali
N.B. il valore trovato non è la mediana, bensi la sua posizione nella
sequenza ordinata di dati
Moda: èil valore che ricorre piu frequentemente, usata sia per dati
numerici che categorici. Puo non esserci una moda, possono esserci piu
mode. Non è influenzata da valori estremi (outliers)
Forma della distribuzione: come i dati sono distribuiti
Misure di variabilità
Le misure di variabilità forniscono informazioni sulla dispersione o
variabilità dei valori.
Campo di variazione: differenza tra il massimo e il minimo dei valori
osservati
Campo di variazione = Xmassimo – Xminimo
Svantaggi: ignora il modo in cui i dati sono distribuiti ed è sensibile agli
outlier (molto)
Differenza interquartile: elimina il problema degli outlier, eliminando i
valori osservati più alti e più bassi e calcola il campo di variazione del 50%
centrale dei dati
Differenza interquartile: 3
zo quartile – 1
mo quartile
Si noti come il primo quartile è l’osservazione di posizione 0.25(n+1) nella
serie ordinata, mentre il terzo quartile occupa la posizione 0.75(n+1)
Quartili: dividono la sequenza ordinata dei dati in 4 segmenti contenenti
lo stesso numero di valori
scarto quadratico medio: mostra la variabilita rispetto alla media, ha la
stessa unita di misura dei dati originali
vantaggi varianza e scarto quadratico medio:
- Calcolati usando tutti i valori nel set di dati - Valori lontani dalla media hanno piu peso
Teorema di chebyshev
Per ogni popolazione con media μ, scarto quadratico medio σ, e k > 1, la
percentuale di osservazioni che appartengono all’intervallo
È almeno:
Indipendentemente da come i dati sono distribuiti, almeno (1 - 1/k2) dei
valori cadranno entro k scarti quadratici medi dalla media (per k > 1)
Coefficiente di variazione: misura la variabilita relativa rispetto alla media.
È espresso sempre in percentuale. Puo essere usato per confrontare due
o piu set di dati misurati con unita di misura diversi. Quando il valore
medio delle serie da coparare è diverso
Media pesata (ponderata): Usata quando i dati sono già raggruppati in n
classi, con wi valori nella i
ma classe
Dati raggruppati
Supponiamo un set di dati contiene i valori m 1 , m 2 ,.. ., mk, che occorrono
con frequenze f 1 , f 2 ,... fk
Misure di relazione tra variabili
Covarianza: misura la forza della relazione lineare tra due variabili.
Riguarda solo la forza della relazione. Dipende dall unita di misura (non
adeguato x misurare intensita relaz tra 2 variabili)
coefficiente (indice) di correlazione: Misura la forza relativa della
relazione lineare tra due variabili
Caratteristiche coefficiente r:
- Senza unità di misura - Campo di variazione fra –1 e 1 - Quanto più è vicino a –1, tanto più è forte la relazione lineare
negativa
Quanto più è vicino a 1, tanto più è forte la relazione lineare positiva
- Quanto più è vicino a 0, tanto più è debole la relazione lineare - C e relazione lineare se r > 2/n
Relazioni lineari
Un’equazione può essere usata per rappresentare la migliore relazione
lineare tra due variabili:
Dove:
B 0 = ordinata all origine
B 1 = pendenza della retta
Y = variabile dipendente
X = variabile esplicativa
Le stime dei coefficienti β0 e β1 vengono calcolate minimizzando la
somma dei quadrati dei residui -> metodo dei minimi quadrati: seleziona
la retta che si adatta meglio a un insieme di punti. La distanza dalla retta
di ciascun punto osservato viene definita residuo
Capitolo 4 –
probabilità
Definizioni:
- Esperimento aleatorio: un processo che porta ad un risultato incerto
3 approcci
per valutare
la
probabilita:
- Probabilita classica: Ipotizza che tutti i risultati dello spazio
campionario siano ugualmente possibili
Conteggio dei possibili risultati:
Dove n! = n(n-1)(n-2)…(1)
- Interpretazione frequentistica: Il limite della proporzione di volte
che un evento A occorre in un numero elevato di ripetizioni
dell’esperimento, n
- Probabilita soggettiva: un’opinione o credenza individuale circa la
probabilità del verificarsi di un certo evento
Assiomi della probabilita
Se A è un qualunque evento dello spazio campionario S, allora
Sia A un evento di S, e indichiamo con Oi gli
eventi elementari. Allora
Regole della probabilità
Regola dell’evento complementare:
Regola additiva: la probabilita dell’unione di due eventi è
Probabilita condizionata