Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Distribuzioni di Probabilità e Inferenza Statistica, Appunti di Statistica

Appunti presi in classe e integrati con le slide dell'insegnamento di statistica.

Tipologia: Appunti

2021/2022

In vendita dal 06/03/2024

martina-mezzacasa
martina-mezzacasa 🇮🇹

58 documenti

1 / 96

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
CAPITOLO 1
La statistica è la scienza che cerca di trarre le conclusioni, le informazioni, dai dati quando
non si può osservare dalla realtà (partendo da situazioni incerte). Le decisioni quotidiane
sono spesso incerte, basate su informazioni incomplete che generano incertezza.
Nomenclatura:
La POPOLAZIONE è l’insieme completo di tutte le unità oggetto di studioN rappresenta
la dimensione della popolazione.
Il CAMPIONE è il sottoinsieme delle unità osservate nella popolazionen rappresenta la
dimensione del campione. Il campione per essere significativo deve essere ampio.
Il PARAMETRO è una caratteristica specifica della popolazione, quello che voglio andare
a stimare (es. numero della gente vaccinata).
La STATISTICA è una caratteristica specifica del campione.
Esempi di popolazione:
- Nomi di tutti gli iscritti nelle liste elettorali degli Stati Uniti
- Redditi di tutte le famiglie che abitano a Daytona Beach
- Rendimento annuale di tutte le azioni quotate alla Borsa di
New York
- La media dei voti di tutti gli studenti della vostra università
Il campionamento casuale semplice è il procedimento nel
quale:
ciascuna unità della popolazione è scelta rigorosamente a caso, le unità scelte
sono casuali (fatte a caso)
ciascuna unità della popolazione ha la stessa opportunità di essere scelta,
ogni possibile campione di dimensione assegnata n ha la stessa possibilità di
essere selezionato
Il campione ottenuto con questo metodo è noto come campione casual. Più n si avvicina
a N più la statistica è giusta.
Vi sono due tipi di statistica, due branche della statistica:
oStatistica descrittiva Tecniche per collezionare, sintetizzare ed elaborare i dati in
modo da trasformarli in informazioni.
Una volta che ho dei dati devo collezionarli in modo efficiente (sondaggi), e poi
presentare i dati attraverso tabelle e grafici. In seguito sintetizzo i dati attraverso
le varie formule (es. media campionaria, somma delle osservazioni diviso la
grandezza del campione).
oStatistica inferenziale Fornisce le basi per le previsioni e per le stime che
consentono di trasformare le informazioni in conoscenza.
Per la stima dei parametri (come stimare il peso medio della popolazione usando la
peso medio campionario) e la verifica delle ipotesi (come verificare l’affermazione
che il peso medio della popolazione è 120 libbre).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Distribuzioni di Probabilità e Inferenza Statistica e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

CAPITOLO 1 La statistica è la scienza che cerca di trarre le conclusioni, le informazioni, dai dati quando non si può osservare dalla realtà (partendo da situazioni incerte). Le decisioni quotidiane sono spesso incerte, basate su informazioni incomplete che generano incertezza. Nomenclatura : La POPOLAZIONE è l’insieme completo di tutte le unità oggetto di studioN rappresenta la dimensione della popolazione. Il CAMPIONE è il sottoinsieme delle unità osservate nella popolazionen rappresenta la dimensione del campione. Il campione per essere significativo deve essere ampio. Il PARAMETRO è una caratteristica specifica della popolazione, quello che voglio andare a stimare (es. numero della gente vaccinata). La STATISTICA è una caratteristica specifica del campione. Esempi di popolazione:

  • Nomi di tutti gli iscritti nelle liste elettorali degli Stati Uniti
  • Redditi di tutte le famiglie che abitano a Daytona Beach
  • Rendimento annuale di tutte le azioni quotate alla Borsa di New York
  • La media dei voti di tutti gli studenti della vostra università Il campionamento casuale semplice è il procedimento nel quale:  ciascuna unità della popolazione è scelta rigorosamente a caso, le unità scelte sono casuali (fatte a caso)  ciascuna unità della popolazione ha la stessa opportunità di essere scelta,  ogni possibile campione di dimensione assegnata n ha la stessa possibilità di essere selezionato Il campione ottenuto con questo metodo è noto come campione casual. Più n si avvicina a N più la statistica è giusta. Vi sono due tipi di statistica, due branche della statistica: o Statistica descrittiva  Tecniche per collezionare, sintetizzare ed elaborare i dati in modo da trasformarli in informazioni. Una volta che ho dei dati devo collezionarli in modo efficiente (sondaggi), e poi presentare i dati attraverso tabelle e grafici. In seguito sintetizzo i dati attraverso le varie formule (es. media campionaria, somma delle osservazioni diviso la grandezza del campione). o Statistica inferenziale  Fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza. Per la stima dei parametri (come stimare il peso medio della popolazione usando la peso medio campionario) e la verifica delle ipotesi (come verificare l’affermazione che il peso medio della popolazione è 120 libbre).

Inferenza è il processo tramite il quale si estraggono conclusioni o si prendono decisioni circa una popolazione sulla base dei risultai campionari. PROCESSO DECISIONALE: o Identifico il problema, o Raccolgo i dati, o Li sintetizzo con grafici e statistiche, o Traggo informazioni dalle statistiche (conoscenza), o Prendo ciò che conosco e lo confronto con la teoria o Prendo una decisione. CAPITOLO 2-DESCRIZIONE GRAFICA DEI DATI  I dati categorici sono dati che sottintendono alcune specifiche categorie. Tutto ciò che non è numerico è categorico.  I dati numerici riguardano i numeri e possono essere discreti o continui. Il risultato è un numero

I dati categorici abbiamo detto che possono inseriti in tabelle o grafici. Per i grafici abbiamo anche diagrammi a barre, a torta e di Pareto. DIAGRAMMI A BARRE E A TORTA Diagrammi a barre e Diagrammi a torta sono spesso usati per dati qualitativi (categorici) Diagrammi a barre : L’altezza delle barre o l’area dei settori circolari rappresentano la frequenza o percentuale di ciascuna categoria. Sull’asse delle x inserisco le categorie. Nel diagramma a barre inserisco direttamente il numero di pazienti. Esempio: Diagrammi a torta : Bisogna passare da una frequenza ad una percentuale, nell’esempio: sommo il numero di pazienti, divido il numero dei pazienti per la somma e poi moltiplico per 100. Con il diagramma a torta però non è possibile confrontare ospedali differenti. Mentre nel diagramma a torta risulta utile per confrontare un singolo ospedale, un singolo dato, ma non posso confrontare tipi di dati diversi, cosa che posso fare con le frequenze, con il conteggio.

DIAGRAMMA DI PARETO diagramma a barre in cui ho nelle barre la frequenza (dalla più grande alla più piccola, ordine decrescente) e poi sopra le frequenze devo inserire un grafico delle cumulante.

  • Usato per rappresentare dati categorici
  • Un diagramma a barre, in cui le categorie sono rappresentate in ordine decrescente di frequenza
  • Un poligono della frequenza cumulata viene spesso rappresentato nello stesso grafico
  • Usato per separare “poche cause rilevanti” dalle “numerose cause insignificanti” Come si costruisce un grafico?
  1. Devo ordinare i dati dal più frequente al meno frequente (più difettoso al meno difettoso).
  2. Vado a calcolare la percentuale (prendo il difetto e divido per il totale, moltiplicando per 100: 34:400x100)
  3. Li riporto su un grafico separando la barra dalla linea (L’altezza ci dice la percentuale di difetti in ciascuna categoria, la linea delle cumulate deve arrivare a 100). Le barre sono le percentuali sul totale dei difetti, invece i punti della linea rappresentano le percentuali sul totale di difetti sommati di volta in volta a quello precedente (es. 55,75 il primo punto, poi 55,75+19,50 il secondo, poi 55,75+19,50+ 8,50 e così via)
  4. Ci costruisco la cumulata. Quando la cumulata si appiattisce si entra nel campo delle cause rilevanti, la cumulata penderà a 100 ma diventerà più piatta.

Solitamente vengono usati almeno 5 ma non più di 15-20 intervalli. Gli intervalli non si sovrappongono mai. Arrotondare l’ampiezza dell’intervallo per ottenere i desiderati estremi della classe, gli estremi della classe: se l’ampiezza non è un numero intero allora devo approssimare. Esempio:

  1. Ordino i dati dal più piccolo al più grande
  2. Trovo il campo di variazione, ovvero il max-min
  3. Seleziono il numero di classi
  4. Calcolo l’ampiezza dell’intervallo
  5. Determino i limiti (max e min compresi)
  6. Le altezze delle barre sono i numeri compresi tra gli intervalli. 10 ma meno di 20, devono essere numeri minori ma non uguali a 20. Finché non copro tutte le registrazioni
  7. Creo l’istogramma Frequenza relativa= numero della frequenza/totale

ISTOGRAMMA

  • Un grafico dei dati contenuti in una distribuzione di frequenze è chiamato istogramma
  • Gli estremi degli intervalli sono rappresentati sull’asse orizzontale
  • L’ asse verticale rappresenta la frequenza, la frequenza relativa, oppure la percentuale
  • Barre di altezza appropriata sono usate per rappresentare il numero di osservazioni in ciascuna classe ISTOGRAMMA EXCEL Quale dovrebbe essere l’ampiezza di ciascun intervallo? (Quante classi dovrebbero essere usate?) Come dovrebbero essere determinati gli estremi degli intervalli?
  • Spesso la risposta si trova per tentativi, ed è soggettiva
  • L’obbiettivo è di creare una distribuzione che non è troppo “frastagliata" ma nemmeno troppo “a blocchi”
  • L’obbiettivo è di mostrare appropriatamente l’andamento della variazione nei dati Se ho troppe classi: può produrre una distribuzione molto frastagliata con spazi dovuti a classi vuote e può dare una cattiva indicazione di come la frequenza cambia nelle classi

La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro. La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro. Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi. DIAGRAMMA RAMO-FOGLIA Un modo semplice per vedere i dettagli della distribuzione di un set di dati: Separare la serie di dati ordinata in cifre più significative (i rami) e cifre meno significative (le foglie). Esempi: Distribuzione Simmetrica 0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 Frequenza Distribuzione con Asimmetria Positiva 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 Frequenza Distribuzione con Asimmetria Negativa 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 Frequenza

Centinaia: ramo come cifra delle centinaia, foglia la parte restante approssimando il numero: 76 si avvicina a 80 quindi metto 8. Il 24 è più vicino al 20, quindi metto 2. I grafici illustrati finora si riferiscono ad una sola variabile. Quando consideriamo due variabili vengono usate altre tecniche: DIAGRAMMI DI DISPERSIONE Diagrammi di Dispersione sono usati per osservazioni accoppiate relative a due variabili numeriche. Il diagramma di dispersione: una variabile viene rappresentata sull’asse verticale e l’altra variabile viene rappresentata sull’asse orizzontale. Due variabili: volume (asse x) e costo (asse y). La tabella ci dice i vari dati e con il grafico ci dice che all’aumentare del volume comporterà un aumento del costo giornaliero. DIAGRAMMA DI DISPERSIONE SU EXCEL TABELLE A DOPPIA ENTRATA Tabelle a doppia entrata (o tabelle di contingenza) elencano il numero di osservazioni per ogni combinazione di valori per le due variabili categoriche o ordinali. Se ci sono r categorie per la prima variabile (righe) e c categorie per la seconda variabile (colonne), la tabella viene chiamata tabella a doppia entrata r x c.

CAPITOLO 3-DESCRIZIONE NUMERICA DEI DATI DESCRIZIONE NUMERICA DEI DATI MISURE DI TENDENZA CENTRALE LA MEDIA ARITMETICA La media aritmetica (media) è la misura di tendenza centrale più comune:  La misura di tendenza centrale più comune  Media = somma dei valori diviso il numero di valori  Influenzata da valori estremi (outlier): sono poco ricorrenti, poco probabili. Questi valori fanno in modo che la media venga influenzata.

Lettere greche (u=mu)  sulla popolazione. Lettere latinesul campione. MEDIANA In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto). Non viene influenzata da valori estremi, come invece accade per la media aritmetica. La posizione della mediana:

posizionenellasequenza ordinata

Posizione Mediana

n

o Se il numero di valori è dispari, la mediana è il valore centrale o Se il numero di valori è pari, la mediana è la media dei due valori centrali Nota che non è il valore della mediana, ma la posizione della mediana nella sequenza ordinata. n = alla posizione. Ordino dal più piccolo al più grande. MODA Una misura di tendenza centrale, è il valore che occorre più frequentemente. Non viene influenzata da valori estremi. Viene utilizzata sia per dati numerici che categorici. Vi può non esserci una moda (tutti i valori sono equiprobabili, è uniforme su tutto il supporto), MA ci può essere più di una moda. Esempio riepilogativo:

Svantaggi del campo di variazione: Ignora il modo in cui i dati sono distribuiti  Sensibile agli outlier DIFFERENZA INTERQUARTILE Possiamo eliminare il problema degli outlier usando la differenza interquartile. Andiamo a eliminare il 25% delle osservazioni più piccole e il 25% di quelle più grandielimino il 50% dei dati, delle osservazioni. Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati. Differenza Interquartile = valore terzo quartile – valore primo quartile La mediana per definizione è il secondo quartile. In questo modo pulisco dagli outlier, eliminando il 50% dei dati. QUARTILI I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori.  Ordino i dati dal più grande al più piccolo.  Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso. Q1 è quello che lascia alla sua destra il 25% delle sue osservazioni.  Q2 coincide con la mediana (50% sono minori, 50% sono maggiori)  Solo 25% delle osservazioni sono maggiori del terzo quartile. Q3 lascia a destra 25% delle osservazioni. Formule per i quartiliUn quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, dove:

9 è il numero dei valori osservati. 0,25(9+1)=2,5. La posizione del primo quartile è uguale alla media delle posizioni intermedie (12+13/2) VARIANZA DELLA POPOLAZIONE Media dei quadrati delle differenze fra ciascuna osservazione e la media. Varianza della Popolazione: VARIANZA CAMPIONARIA Media (approssimativamente) dei quadrati delle differenze fra ciascuna osservazione e la media. Varianza campionaria: la varianza è la dispersione dei punti intorno alla media. SCARTO QUADRICO MEDIO DELLA POPOLAZIONE  Misura di variabilità comunemente usata  Mostra la variabilità rispetto alla media  Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio della Popolazione (sigma): varianza della popolazione sotto radice SCARTO QUADRICO MEDIO CAMPIONARIO  Misura di variabilità comunemente usata  Mostra la variabilità rispetto alla media  Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio Campionario: varianza campionaria sotto la radice  lo scarto quadratico medio è la variabilità rispetto alla media.

N

(x μ)

N i 1 2 i 2

n- 1

(x x )

s

n i 1 2 i 2

N

(x μ)

N i 1 2

 i

n- 1

(x x )

S

n i 1 2

 i

Se la distribuzione dei dati ha una forma campanulare (gaussiana), allora l’intervallo contiene circa 68% dei valori della popolazione o del campione. k= k= COEFFICIENTE DI VARIAZIONE  Misura la variabilità in maniera relativa  Sempre in percentuale (%)  Mostra la variabilità relativa rispetto alla media  Può essere usato per confrontare due o più set di dati misurati con unità di misura diversa: (errore standard/media)x Confronto tra coefficienti di variazione: Nel primo il prezzo è più volatile, si ha una minore variazione. PARTE DI EXCEL MEDIA PESATA La media pesata di un set di dati è: 100% x s CV           i 1 1 2 2 n n n i 1 i i w wx wx w x w w x x

    ^   μ  1 σ

Dove wi è il peso assegnato alla ima^ osservazione. Usata quando i dati sono già raggruppati in n classi, con wi valori nella ima^ classe. APPROSSIMAZIONI PER DATI RAGGRUPPATI:

  • Supponiamo un set di dati contiene i valori m1, m2, …, mk, che occorrono con frequenze f1, f2, … fK (altezza della barra). Per una popolazione di N osservazioni la media è Somma delle frequenze Per un campione di n osservazioni, la media è
  • Supponiamo un set di dati contenga i valori m1, m2, …, k, che occorrono con frequenze f1, f2,…fK Per una popolazione di N osservazioni la varianza è Per un campione di n osservazioni, la varianza è LA COVARIANZA CAMPIONARIA La covarianza misura la forza della relazione lineare tra due variabili. La covarianza della popolazione: La covarianza campionaria:
  • Riguarda solo la forza della relazione
  • Non implica un effetto casuale Interpretazione della Covarianza covarianza tra due variabili: o Cov(x,y) > 0  x e y tendono a muoversi nella stessa direzione o Cov(x,y) < 0  x e y tendono a muoversi in direzioni opposte o Cov(x,y) = 0  x e y no relazione lineare COEFFICIENTE DI CORRELAZIONE Misura la forza relativa della relazione lineare tra due variabili.
N
f m

K i 1 i i

n
f m
x

K i 1  i i

N
f(m μ)

K i 1 2 i i 2  

n 1
f(m x )
s

K i 1 2 i i 2

 

N
(x )(y )
Cov(x, y)

N i 1 i x i y xy  

n 1
(x x)(y y )
Cov(x,y) s

n i 1 i i xy

 

σX σ Y

Cov(x, y)