Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Introduzione alla Statistica: Distribuzioni di Probabilità e Inferenza Statistica, Appunti di Statistica

Università degli Studi di Pavia (UNIPV)Statistica

Appunti presi in classe e integrati con le slide dell'insegnamento di statistica.

Tipologia: Appunti

2021/2022

In vendita dal 06/03/2024

martina-mezzacasa 🇮🇹

58 documenti

1 / 96

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

STATISTICA

CAPITOLO 1

La statistica è la scienza che cerca di trarre le conclusioni, le informazioni, dai dati quando

non si può osservare dalla realtà (partendo da situazioni incerte). Le decisioni quotidiane

sono spesso incerte, basate su informazioni incomplete che generano incertezza.

Nomenclatura:

La POPOLAZIONE è l’insieme completo di tutte le unità oggetto di studioN rappresenta

la dimensione della popolazione.

Il CAMPIONE è il sottoinsieme delle unità osservate nella popolazionen rappresenta la

dimensione del campione. Il campione per essere significativo deve essere ampio.

Il PARAMETRO è una caratteristica specifica della popolazione, quello che voglio andare

a stimare (es. numero della gente vaccinata).

La STATISTICA è una caratteristica specifica del campione.

Esempi di popolazione:

- Nomi di tutti gli iscritti nelle liste elettorali degli Stati Uniti

- Redditi di tutte le famiglie che abitano a Daytona Beach

- Rendimento annuale di tutte le azioni quotate alla Borsa di

New York

- La media dei voti di tutti gli studenti della vostra università

Il campionamento casuale semplice è il procedimento nel

quale:

ciascuna unità della popolazione è scelta rigorosamente a caso, le unità scelte

sono casuali (fatte a caso)

ciascuna unità della popolazione ha la stessa opportunità di essere scelta,

ogni possibile campione di dimensione assegnata n ha la stessa possibilità di

essere selezionato

Il campione ottenuto con questo metodo è noto come campione casual. Più n si avvicina

a N più la statistica è giusta.

Vi sono due tipi di statistica, due branche della statistica:

oStatistica descrittiva Tecniche per collezionare, sintetizzare ed elaborare i dati in

modo da trasformarli in informazioni.

Una volta che ho dei dati devo collezionarli in modo efficiente (sondaggi), e poi

presentare i dati attraverso tabelle e grafici. In seguito sintetizzo i dati attraverso

le varie formule (es. media campionaria, somma delle osservazioni diviso la

grandezza del campione).

oStatistica inferenziale Fornisce le basi per le previsioni e per le stime che

consentono di trasformare le informazioni in conoscenza.

Per la stima dei parametri (come stimare il peso medio della popolazione usando la

peso medio campionario) e la verifica delle ipotesi (come verificare l’affermazione

che il peso medio della popolazione è 120 libbre).

Scopri Appunti di Statistica Università degli Studi di Pavia (UNIPV)

Documenti correlati

Statistica: Probabilità, Distribuzioni, Inferenza e Regressione con R

Introduzione alla Psicometria: Distribuzioni di Probabilità e Inferenza Statistica

Statistica: Distribuzioni di probabilità e inferenza statistica

Distribuzioni di probabilità e inferenza statistica

PROBABILITA'. INFERENZA STATISTICA

Analisi statistica di dati e distribuzioni di probabilità

Introduzione alla Statistica: Variabili, Distribuzioni e Probabilità

Introduzione alla Statistica Matematica: Probabilità, Test Diagnostici e Inferenza

Esercizi di Statistica: Distribuzioni di Probabilità e Inferenza Statistica - Prof. Rocca

Statistica: collettivi, caratteri, distribuzioni e probabilità - Prof. Figini

Inferenza Statistica: Probabilità, Variabili Casuali e Distribuzioni Campionarie

Esercizi di Statistica 2: Probabilità, Distribuzioni e Inferenza

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Distribuzioni di Probabilità e Inferenza Statistica e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

CAPITOLO 1 La statistica è la scienza che cerca di trarre le conclusioni, le informazioni, dai dati quando non si può osservare dalla realtà (partendo da situazioni incerte). Le decisioni quotidiane sono spesso incerte, basate su informazioni incomplete che generano incertezza. Nomenclatura : La POPOLAZIONE è l’insieme completo di tutte le unità oggetto di studioN rappresenta la dimensione della popolazione. Il CAMPIONE è il sottoinsieme delle unità osservate nella popolazionen rappresenta la dimensione del campione. Il campione per essere significativo deve essere ampio. Il PARAMETRO è una caratteristica specifica della popolazione, quello che voglio andare a stimare (es. numero della gente vaccinata). La STATISTICA è una caratteristica specifica del campione. Esempi di popolazione:

Nomi di tutti gli iscritti nelle liste elettorali degli Stati Uniti
Redditi di tutte le famiglie che abitano a Daytona Beach
Rendimento annuale di tutte le azioni quotate alla Borsa di New York
La media dei voti di tutti gli studenti della vostra università Il campionamento casuale semplice è il procedimento nel quale:  ciascuna unità della popolazione è scelta rigorosamente a caso, le unità scelte sono casuali (fatte a caso)  ciascuna unità della popolazione ha la stessa opportunità di essere scelta,  ogni possibile campione di dimensione assegnata n ha la stessa possibilità di essere selezionato Il campione ottenuto con questo metodo è noto come campione casual. Più n si avvicina a N più la statistica è giusta. Vi sono due tipi di statistica, due branche della statistica: o Statistica descrittiva  Tecniche per collezionare, sintetizzare ed elaborare i dati in modo da trasformarli in informazioni. Una volta che ho dei dati devo collezionarli in modo efficiente (sondaggi), e poi presentare i dati attraverso tabelle e grafici. In seguito sintetizzo i dati attraverso le varie formule (es. media campionaria, somma delle osservazioni diviso la grandezza del campione). o Statistica inferenziale  Fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza. Per la stima dei parametri (come stimare il peso medio della popolazione usando la peso medio campionario) e la verifica delle ipotesi (come verificare l’affermazione che il peso medio della popolazione è 120 libbre).

Inferenza è il processo tramite il quale si estraggono conclusioni o si prendono decisioni circa una popolazione sulla base dei risultai campionari. PROCESSO DECISIONALE: o Identifico il problema, o Raccolgo i dati, o Li sintetizzo con grafici e statistiche, o Traggo informazioni dalle statistiche (conoscenza), o Prendo ciò che conosco e lo confronto con la teoria o Prendo una decisione. CAPITOLO 2-DESCRIZIONE GRAFICA DEI DATI  I dati categorici sono dati che sottintendono alcune specifiche categorie. Tutto ciò che non è numerico è categorico.  I dati numerici riguardano i numeri e possono essere discreti o continui. Il risultato è un numero

I dati categorici abbiamo detto che possono inseriti in tabelle o grafici. Per i grafici abbiamo anche diagrammi a barre, a torta e di Pareto. DIAGRAMMI A BARRE E A TORTA Diagrammi a barre e Diagrammi a torta sono spesso usati per dati qualitativi (categorici) Diagrammi a barre : L’altezza delle barre o l’area dei settori circolari rappresentano la frequenza o percentuale di ciascuna categoria. Sull’asse delle x inserisco le categorie. Nel diagramma a barre inserisco direttamente il numero di pazienti. Esempio: Diagrammi a torta : Bisogna passare da una frequenza ad una percentuale, nell’esempio: sommo il numero di pazienti, divido il numero dei pazienti per la somma e poi moltiplico per 100. Con il diagramma a torta però non è possibile confrontare ospedali differenti. Mentre nel diagramma a torta risulta utile per confrontare un singolo ospedale, un singolo dato, ma non posso confrontare tipi di dati diversi, cosa che posso fare con le frequenze, con il conteggio.

DIAGRAMMA DI PARETO diagramma a barre in cui ho nelle barre la frequenza (dalla più grande alla più piccola, ordine decrescente) e poi sopra le frequenze devo inserire un grafico delle cumulante.

Usato per rappresentare dati categorici
Un diagramma a barre, in cui le categorie sono rappresentate in ordine decrescente di frequenza
Un poligono della frequenza cumulata viene spesso rappresentato nello stesso grafico
Usato per separare “poche cause rilevanti” dalle “numerose cause insignificanti” Come si costruisce un grafico?

Devo ordinare i dati dal più frequente al meno frequente (più difettoso al meno difettoso).
Vado a calcolare la percentuale (prendo il difetto e divido per il totale, moltiplicando per 100: 34:400x100)
Li riporto su un grafico separando la barra dalla linea (L’altezza ci dice la percentuale di difetti in ciascuna categoria, la linea delle cumulate deve arrivare a 100). Le barre sono le percentuali sul totale dei difetti, invece i punti della linea rappresentano le percentuali sul totale di difetti sommati di volta in volta a quello precedente (es. 55,75 il primo punto, poi 55,75+19,50 il secondo, poi 55,75+19,50+ 8,50 e così via)
Ci costruisco la cumulata. Quando la cumulata si appiattisce si entra nel campo delle cause rilevanti, la cumulata penderà a 100 ma diventerà più piatta.

Solitamente vengono usati almeno 5 ma non più di 15-20 intervalli. Gli intervalli non si sovrappongono mai. Arrotondare l’ampiezza dell’intervallo per ottenere i desiderati estremi della classe, gli estremi della classe: se l’ampiezza non è un numero intero allora devo approssimare. Esempio:

Ordino i dati dal più piccolo al più grande
Trovo il campo di variazione, ovvero il max-min
Seleziono il numero di classi
Calcolo l’ampiezza dell’intervallo
Determino i limiti (max e min compresi)
Le altezze delle barre sono i numeri compresi tra gli intervalli. 10 ma meno di 20, devono essere numeri minori ma non uguali a 20. Finché non copro tutte le registrazioni
Creo l’istogramma Frequenza relativa= numero della frequenza/totale

ISTOGRAMMA

Un grafico dei dati contenuti in una distribuzione di frequenze è chiamato istogramma
Gli estremi degli intervalli sono rappresentati sull’asse orizzontale
L’ asse verticale rappresenta la frequenza, la frequenza relativa, oppure la percentuale
Barre di altezza appropriata sono usate per rappresentare il numero di osservazioni in ciascuna classe ISTOGRAMMA EXCEL Quale dovrebbe essere l’ampiezza di ciascun intervallo? (Quante classi dovrebbero essere usate?) Come dovrebbero essere determinati gli estremi degli intervalli?
Spesso la risposta si trova per tentativi, ed è soggettiva
L’obbiettivo è di creare una distribuzione che non è troppo “frastagliata" ma nemmeno troppo “a blocchi”
L’obbiettivo è di mostrare appropriatamente l’andamento della variazione nei dati Se ho troppe classi: può produrre una distribuzione molto frastagliata con spazi dovuti a classi vuote e può dare una cattiva indicazione di come la frequenza cambia nelle classi

La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro. La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro. Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi. DIAGRAMMA RAMO-FOGLIA Un modo semplice per vedere i dettagli della distribuzione di un set di dati: Separare la serie di dati ordinata in cifre più significative (i rami) e cifre meno significative (le foglie). Esempi: Distribuzione Simmetrica 0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 Frequenza Distribuzione con Asimmetria Positiva 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 Frequenza Distribuzione con Asimmetria Negativa 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 Frequenza

Centinaia: ramo come cifra delle centinaia, foglia la parte restante approssimando il numero: 76 si avvicina a 80 quindi metto 8. Il 24 è più vicino al 20, quindi metto 2. I grafici illustrati finora si riferiscono ad una sola variabile. Quando consideriamo due variabili vengono usate altre tecniche: DIAGRAMMI DI DISPERSIONE Diagrammi di Dispersione sono usati per osservazioni accoppiate relative a due variabili numeriche. Il diagramma di dispersione: una variabile viene rappresentata sull’asse verticale e l’altra variabile viene rappresentata sull’asse orizzontale. Due variabili: volume (asse x) e costo (asse y). La tabella ci dice i vari dati e con il grafico ci dice che all’aumentare del volume comporterà un aumento del costo giornaliero. DIAGRAMMA DI DISPERSIONE SU EXCEL TABELLE A DOPPIA ENTRATA Tabelle a doppia entrata (o tabelle di contingenza) elencano il numero di osservazioni per ogni combinazione di valori per le due variabili categoriche o ordinali. Se ci sono r categorie per la prima variabile (righe) e c categorie per la seconda variabile (colonne), la tabella viene chiamata tabella a doppia entrata r x c.

CAPITOLO 3-DESCRIZIONE NUMERICA DEI DATI DESCRIZIONE NUMERICA DEI DATI MISURE DI TENDENZA CENTRALE LA MEDIA ARITMETICA La media aritmetica (media) è la misura di tendenza centrale più comune:  La misura di tendenza centrale più comune  Media = somma dei valori diviso il numero di valori  Influenzata da valori estremi (outlier): sono poco ricorrenti, poco probabili. Questi valori fanno in modo che la media venga influenzata.

Lettere greche (u=mu)  sulla popolazione. Lettere latine  sul campione. MEDIANA In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto). Non viene influenzata da valori estremi, come invece accade per la media aritmetica. La posizione della mediana:

posizionenellasequenza ordinata

Posizione Mediana

n

o Se il numero di valori è dispari, la mediana è il valore centrale o Se il numero di valori è pari, la mediana è la media dei due valori centrali Nota che non è il valore della mediana, ma la posizione della mediana nella sequenza ordinata. n = alla posizione. Ordino dal più piccolo al più grande. MODA Una misura di tendenza centrale, è il valore che occorre più frequentemente. Non viene influenzata da valori estremi. Viene utilizzata sia per dati numerici che categorici. Vi può non esserci una moda (tutti i valori sono equiprobabili, è uniforme su tutto il supporto), MA ci può essere più di una moda. Esempio riepilogativo:

Svantaggi del campo di variazione: Ignora il modo in cui i dati sono distribuiti  Sensibile agli outlier DIFFERENZA INTERQUARTILE Possiamo eliminare il problema degli outlier usando la differenza interquartile. Andiamo a eliminare il 25% delle osservazioni più piccole e il 25% di quelle più grandielimino il 50% dei dati, delle osservazioni. Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati. Differenza Interquartile = valore terzo quartile – valore primo quartile La mediana per definizione è il secondo quartile. In questo modo pulisco dagli outlier, eliminando il 50% dei dati. QUARTILI I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori.  Ordino i dati dal più grande al più piccolo.  Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso. Q1 è quello che lascia alla sua destra il 25% delle sue osservazioni.  Q2 coincide con la mediana (50% sono minori, 50% sono maggiori)  Solo 25% delle osservazioni sono maggiori del terzo quartile. Q3 lascia a destra 25% delle osservazioni. Formule per i quartiliUn quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, dove:

9 è il numero dei valori osservati. 0,25(9+1)=2,5. La posizione del primo quartile è uguale alla media delle posizioni intermedie (12+13/2) VARIANZA DELLA POPOLAZIONE Media dei quadrati delle differenze fra ciascuna osservazione e la media. Varianza della Popolazione: VARIANZA CAMPIONARIA Media (approssimativamente) dei quadrati delle differenze fra ciascuna osservazione e la media. Varianza campionaria: la varianza è la dispersione dei punti intorno alla media. SCARTO QUADRICO MEDIO DELLA POPOLAZIONE  Misura di variabilità comunemente usata  Mostra la variabilità rispetto alla media  Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio della Popolazione (sigma): varianza della popolazione sotto radice SCARTO QUADRICO MEDIO CAMPIONARIO  Misura di variabilità comunemente usata  Mostra la variabilità rispetto alla media  Ha la stessa unità di misura dei dati originali Scarto Quadratico Medio Campionario: varianza campionaria sotto la radice  lo scarto quadratico medio è la variabilità rispetto alla media.

N

(x μ)

N i 1 2 i 2



n- 1

(x x )

s

n i 1 2 i 2



N

(x μ)

N i 1 2

 i



n- 1

(x x )

S

n i 1 2

 i



Se la distribuzione dei dati ha una forma campanulare (gaussiana), allora l’intervallo contiene circa 68% dei valori della popolazione o del campione. k= k= COEFFICIENTE DI VARIAZIONE  Misura la variabilità in maniera relativa  Sempre in percentuale (%)  Mostra la variabilità relativa rispetto alla media  Può essere usato per confrontare due o più set di dati misurati con unità di misura diversa: (errore standard/media)x Confronto tra coefficienti di variazione: Nel primo il prezzo è più volatile, si ha una minore variazione. PARTE DI EXCEL MEDIA PESATA La media pesata di un set di dati è: 100% x s CV           i 1 1 2 2 n n n i 1 i i w wx wx w x w w x x

    ^   μ  1 σ

Dove wi è il peso assegnato alla ima^ osservazione. Usata quando i dati sono già raggruppati in n classi, con wi valori nella ima^ classe. APPROSSIMAZIONI PER DATI RAGGRUPPATI:

Supponiamo un set di dati contiene i valori m1, m2, …, mk, che occorrono con frequenze f1, f2, … fK (altezza della barra). Per una popolazione di N osservazioni la media è Somma delle frequenze Per un campione di n osservazioni, la media è
Supponiamo un set di dati contenga i valori m1, m2, …, k, che occorrono con frequenze f1, f2,…fK Per una popolazione di N osservazioni la varianza è Per un campione di n osservazioni, la varianza è LA COVARIANZA CAMPIONARIA La covarianza misura la forza della relazione lineare tra due variabili. La covarianza della popolazione: La covarianza campionaria:
Riguarda solo la forza della relazione
Non implica un effetto casuale Interpretazione della Covarianza covarianza tra due variabili: o Cov(x,y) > 0  x e y tendono a muoversi nella stessa direzione o Cov(x,y) < 0  x e y tendono a muoversi in direzioni opposte o Cov(x,y) = 0  x e y no relazione lineare COEFFICIENTE DI CORRELAZIONE Misura la forza relativa della relazione lineare tra due variabili.

Introduzione alla Statistica: Distribuzioni di Probabilità e Inferenza Statistica, Appunti di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Distribuzioni di Probabilità e Inferenza Statistica e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

posizionenellasequenza ordinata

Posizione Mediana

n

N

(x μ)

n- 1

(x x )

s

N

(x μ)

 i

n- 1

(x x )

S

 i

N

f m

n

f m

x

N

f(m μ)

n 1

f(m x )

s

N

(x )(y )

Cov(x, y)

n 1

(x x)(y y )

Cov(x,y) s

σX σ Y

Cov(x, y)