Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


statistica appunti completi, Appunti di Statistica

appunti dettagliati per l'intero corso di statistica del triennio

Tipologia: Appunti

2020/2021

Caricato il 10/01/2021

federico-ls-1
federico-ls-1 🇮🇹

4

(1)

2 documenti

1 / 139

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
Capitolo 2 – descrizione grafica dei dati
Dati numerici: - discreti: elementi conteggiati (es. N figli)
- continui: caratteristiche misurate (es. peso, voltaggio)
Dati categorici: specifiche categorie o gruppi (es. stato civile, colore occhi)
Livelli di misurazione:
1) Dati nominali: categorie (no ordine o direzione)
2) Dati ordinali: categorie ordinate (ranghi, ordine, scala)
3) Scala ad intervallo: differenze fra misurazioni, non esiste zero assol
4) Scala di rapporto: differenze fra msiruazioni, esiste zero assoluto
1-2 -> per dati quantitativi 3-4 -> per dati qualitativi
Rappresentazione grafica dei dati
Variabili categoriche (dati qualitativi): 2 modalità
-Tabulazione: tabella della distribuzione di frequenze
-Grafici: diagramma a barre, a torta, di pareto
Variabili numeriche (dati quantitativi):
-Distribuzioni di frequenze o frequenze cumulate: istogramma, ogiva
-Diagrammi: ramo foglia e dispersione
-Grafico per serie storiche
Distribuzione di frequenza: Una distribuzione di frequenze 0 una lista o
una tabella contenente classi di intervallo (categorie o
intervalli a cui i dati appartengono) e le corrispondenti frequenze con cui i
dati appartengono alle classi o categorie. Ciascuna classe di intervallo
dovrebbe avere la stessa ampiezza
campo di variazione = valore max – valore min
ampiezza intervallo: w =
valore maxvalore min
numero diclassi
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica statistica appunti completi e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

Capitolo 2 – descrizione grafica dei dati

Dati numerici: - discreti: elementi conteggiati (es. N figli)

  • continui: caratteristiche misurate (es. peso, voltaggio)

Dati categorici: specifiche categorie o gruppi (es. stato civile, colore occhi)

Livelli di misurazione:

  1. Dati nominali: categorie (no ordine o direzione)

  2. Dati ordinali: categorie ordinate (ranghi, ordine, scala)

  3. Scala ad intervallo: differenze fra misurazioni, non esiste zero assol

  4. Scala di rapporto: differenze fra msiruazioni, esiste zero assoluto

1-2 -> per dati quantitativi 3-4 -> per dati qualitativi

Rappresentazione grafica dei dati

Variabili categoriche (dati qualitativi): 2 modalità

- Tabulazione: tabella della distribuzione di frequenze - Grafici: diagramma a barre, a torta, di pareto

Variabili numeriche (dati quantitativi):

- Distribuzioni di frequenze o frequenze cumulate: istogramma, ogiva - Diagrammi: ramo foglia e dispersione - Grafico per serie storiche

Distribuzione di frequenza: Una distribuzione di frequenze è una lista o

una tabella contenente classi di intervallo (categorie o

intervalli a cui i dati appartengono) e le corrispondenti frequenze con cui i

dati appartengono alle classi o categorie. Ciascuna classe di intervallo

dovrebbe avere la stessa ampiezza

campo di variazione = valore max – valore min

ampiezza intervallo: w =

valore maxvalore min

numero diclassi

- Usare almeno 5 ma non più di 15-20 intervalli - E’ bene che gli intervalli non si sovrappongono mai - Arrotondare eventualmente per eccesso (mai per difetto) l’ampiezza

dell’intervallo per ottenere i desiderati estremi della classe

- Bisogna usare dati ordinati prima di procedere

Quante classi di intervallo scegliere:

Troppe (classi di intervallo piccole)

- può produrre una distribuzione molto

frastagliata con spazi dovuti a classi vuote

- può dare una cattiva indicazione di come la frequenza cambia nelle

classi

Poche (classi di intervallo ampie)

- può comprimere troppo la variazione e produrre una distribuzione a

blocchi

- può oscurare importanti andamenti nella variazione.

Istogramma:

- Un grafico dei dati contenuti in una distribuzione di frequenze è

chiamato istogramma

- Gli estremi degli intervalli sono rappresentati sull’asse orizzontale - L’ asse verticale rappresenta le frequenze solo se le classi hanno pari

ampiezza

- Barre di altezza appropriata sono usate per rappresentare la

numerosità di ciascuna classe

- No spazio tra le colonne

Ogiva:

- Grafico per frequenze cumulate (somma frequenze di volta in volta) - Grafico a puntini uniti (crescente) - Sull asse Y (percentuale cumulata) sull asse X (limiti superiori

intervalli)

Forma della distribuzione:

Diagramma ramo-foglia: modo semplice per vedere i dettagli della

distribuzione di un set di dati, abbinando il dettaglio della distribuzione di

frequenze e la sintesi grafica propria dell’istogramma

Metodo: Separare la serie di dati ordinata in cifre più significative (i rami)

e cifre meno significative (le foglie)

relazioni fra variabili: grafici a 2 variabili

Diagramma di dispersione: osservazioni accoppiate relative a due variabili

numeriche. Una variabile viene rappresentata sull’asse verticale e l’altra

variabile viene rappresentata sull’asse orizzontale

Tabelle a doppia entrata: (o tabelle di contingenza) elencano il numero di

osservazioni per ogni combinazione di valori per le due variabili

categoriche o ordinali. Se ci sono r categorie per la prima variabile (righe)

e c categorie per la seconda variabile (colonne), la tabella viene chiamata

tabella a doppia entrata r x c.

Errori nella presentazione dei dati:

presentazione efficace dei dati:

- Presentare i dati in modo da mostrare le informazioni essenziali - Comunicare idee complesse chiaramente ed in modo accurato - Evitare distorsioni che possono comunicare il messaggio sbagliato

Errori nella presentazione dei dati:

- Diversa ampiezza delle classi di intervallo in un istogramma - Compressione o distorsione dell’asse verticale - Omissione dello zero sull’asse verticale - Non fornire una base di riferimento per il confronto di dati di diversi

gruppi

- Se il numero di valori è dispari, la mediana è il valore centrale - Se il numero di valori è pari, la mediana è la media dei due valori

centrali

N.B. il valore trovato non è la mediana, bensi la sua posizione nella

sequenza ordinata di dati

Moda: èil valore che ricorre piu frequentemente, usata sia per dati

numerici che categorici. Puo non esserci una moda, possono esserci piu

mode. Non è influenzata da valori estremi (outliers)

Forma della distribuzione: come i dati sono distribuiti

Misure di variabilità

Le misure di variabilità forniscono informazioni sulla dispersione o

variabilità dei valori.

Campo di variazione: differenza tra il massimo e il minimo dei valori

osservati

Campo di variazione = Xmassimo – Xminimo

Svantaggi: ignora il modo in cui i dati sono distribuiti ed è sensibile agli

outlier (molto)

Differenza interquartile: elimina il problema degli outlier, eliminando i

valori osservati più alti e più bassi e calcola il campo di variazione del 50%

centrale dei dati

Differenza interquartile: 3

zo quartile – 1

mo quartile

Si noti come il primo quartile è l’osservazione di posizione 0.25(n+1) nella

serie ordinata, mentre il terzo quartile occupa la posizione 0.75(n+1)

Quartili: dividono la sequenza ordinata dei dati in 4 segmenti contenenti

lo stesso numero di valori

scarto quadratico medio: mostra la variabilita rispetto alla media, ha la

stessa unita di misura dei dati originali

vantaggi varianza e scarto quadratico medio:

- Calcolati usando tutti i valori nel set di dati - Valori lontani dalla media hanno piu peso

Teorema di chebyshev

Per ogni popolazione con media μ, scarto quadratico medio σ, e k > 1, la

percentuale di osservazioni che appartengono all’intervallo

È almeno:

Indipendentemente da come i dati sono distribuiti, almeno (1 - 1/k2) dei

valori cadranno entro k scarti quadratici medi dalla media (per k > 1)

Coefficiente di variazione: misura la variabilita relativa rispetto alla media.

È espresso sempre in percentuale. Puo essere usato per confrontare due

o piu set di dati misurati con unita di misura diversi. Quando il valore

medio delle serie da coparare è diverso

Media pesata (ponderata): Usata quando i dati sono già raggruppati in n

classi, con wi valori nella i

ma classe

Dati raggruppati

Supponiamo un set di dati contiene i valori m 1 , m 2 ,.. ., mk, che occorrono

con frequenze f 1 , f 2 ,... fk

Misure di relazione tra variabili

Covarianza: misura la forza della relazione lineare tra due variabili.

Riguarda solo la forza della relazione. Dipende dall unita di misura (non

adeguato x misurare intensita relaz tra 2 variabili)

coefficiente (indice) di correlazione: Misura la forza relativa della

relazione lineare tra due variabili

Caratteristiche coefficiente r:

- Senza unità di misura - Campo di variazione fra –1 e 1 - Quanto più è vicino a –1, tanto più è forte la relazione lineare

negativa

Quanto più è vicino a 1, tanto più è forte la relazione lineare positiva

- Quanto più è vicino a 0, tanto più è debole la relazione lineare - C e relazione lineare se r > 2/n

Relazioni lineari

Un’equazione può essere usata per rappresentare la migliore relazione

lineare tra due variabili:

Dove:

B 0 = ordinata all origine

B 1 = pendenza della retta

Y = variabile dipendente

X = variabile esplicativa

Le stime dei coefficienti β0 e β1 vengono calcolate minimizzando la

somma dei quadrati dei residui -> metodo dei minimi quadrati: seleziona

la retta che si adatta meglio a un insieme di punti. La distanza dalla retta

di ciascun punto osservato viene definita residuo

Capitolo 4 –

probabilità

Definizioni:

- Esperimento aleatorio: un processo che porta ad un risultato incerto

3 approcci

per valutare

la

probabilita:

- Probabilita classica: Ipotizza che tutti i risultati dello spazio

campionario siano ugualmente possibili

Conteggio dei possibili risultati:

Dove n! = n(n-1)(n-2)…(1)

- Interpretazione frequentistica: Il limite della proporzione di volte

che un evento A occorre in un numero elevato di ripetizioni

dell’esperimento, n

- Probabilita soggettiva: un’opinione o credenza individuale circa la

probabilità del verificarsi di un certo evento

Assiomi della probabilita

  1. Se A è un qualunque evento dello spazio campionario S, allora

  2. Sia A un evento di S, e indichiamo con Oi gli

eventi elementari. Allora

  1. la probabilita di S è 1

Regole della probabilità

Regola dell’evento complementare:

Regola additiva: la probabilita dell’unione di due eventi è

Probabilita condizionata