Riassunto di StatisticaStatistica. Ediz. mylab. Con e-book. Con aggiornamento online di Paul Newbold, Betty Thorne, William Carlson, Appunti di Statica
giulia_loisi
giulia_loisi
Questo è un documento Store
messo in vendita da giulia_loisi
e scaricabile solo a pagamento

Riassunto di StatisticaStatistica. Ediz. mylab. Con e-book. Con aggiornamento online di Paul Newbold, Betty Thorne, William Carlson, Appunti di Statica

8 pagine
6Numero di visite
Descrizione
riassunto da capitolo 3 a 6 de
2.99
Prezzo del documento
Scarica il documento
Questo documento è messo in vendita dall'utente giulia_loisi: potrai scaricarlo in formato digitale subito dopo averlo acquistato! Più dettagli
Anteprima3 pagine / 8
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento

STATISTICA Capitolo II 1.2 Il campionamento La raccolta completa delle informazioni sulla popolazione (rilevazione censuaria), potrebbe essere impossibile, costosa o potrebbe richiedere un eccessivo dispendio di tempo. Questo rende necessario l’esame di un suo sottoinsieme (campione).

Popolazione è l’insieme completo di tutte le unità prese in esame, la sua dimensione (N) può essere molto grande o infinita.

Campione è il sottoinsieme delle unità osservate nella popolazione (n). è necessario operare un campionamento casuale per ottenere risultati attendibili, seppur rimanga sempre un certo margine di incertezza. La statistica non si interessa del singolo campione.

Campionamento casuale semplice procedimento che consente di scegliere un campione di oggetti da una popolazione rigorosamente a caso, ogni campione deve avere la stessa possibilità di essere selezionato. Il campione ottenuto è detto casuale.

Parametro è una caratteristica specifica della popolazione. • Statistica è una specifica caratteristica del campione.

1.3 Statistica descrittiva e statistica inferenziale Dopo aver definito il problema si raccolgono e analizzano i dati, per poi trasformarli in conoscenza che permette di migliorare i processi decisionali.

Statistica descrittiva comprende metodi grafici e numerici per elaborare i dati e trasformarli in informazioni.

Statistica inferenziale fornisce le basi per previsioni e stime. È un processo che può essere utile per stimare un parametro, verificare un’ipotesi riguardo questo, analizzare le relazioni fra più variabili.

Capitolo II 2.1 Classificazione delle variabili Le variabili possono essere qualificate in diversi modi. Basandosi sul tipo e sulla quantità di informazioni si distinguono:

Variabili categoriche limitano le risposte alle alternative si/no, o presentano molteplici alternative.

Variabili numeriche comprendono sia le variabili discrete che quelle continue. Le prime possono avere un numero finito di valori e solitamente provengono da un processo di conteggio ad esempio il numero di studenti iscritti ad un corse di laurea. Le variabili

numeriche continue possono assumere un qualunque valore all’interno di un determinato intervallo di numeri reali, e provengono di solito da un processo di misurazione; ad esempio altezza, peso, tempo, distanza, temperatura.

Mentre a livello di misurazione distinguiamo: • Variabili quantitative il significato è misurabile dalla differenza

numerica. Includono come livelli di misurazione la scala ad intervallo e la scala di rapporto. Si riferiscono ad una scala ordinata. Una scala di intervallo indica l’ordine e la distanza da un’origine arbitraria misurata con un’unità di misura determinata; un esempio è la temperatura o il tempo storico che vede la differenza dei calendari e dunque dei punti di riferimento. Con la scala di rapporto si indicano sia un ordine che la distanza da un’origina assoluta; il rapporto tra queste misure assume un significato numerico ben preciso (es una persona di 40 anni ha il doppio degli anni di una di 20)

Variabili qualitative non si può attribuire alcun significato misurabile alla differenza tra coppie di numeri. Includono come livelli di misurazione la scala ordinale e la scalanominale. Questi si riferiscono a dati ottenuti da domande di tipo categorico. Ad ogni risposta viene assegnato un codice numerico che però non ha alcun significato se non quello di classificazione. I dati ordinali indicano l’ordine gerarchico degli elementi (esempio giudizio sulla qualità di un prodotto: 1 poco, 2 abbastanza etc..), non vi è comunque un significato misurabile nella differenza di intensità delle risposte.

È importante prendere in considerazione la presenza di valori mancanti che modificano le rilevazioni, e possono essere trattati in diversi modi.

2.2 Rappresentazioni grafiche per descrivere le variabili categoriche Si possono descrivere con:

Le distribuzioni di frequenze tabellari è una tabella per organizzare i dati divisa in due colonne una di destra e una di sinistra.

Diagrammi a barre utilizzati se lo scopo è quello di delineare la frequenza di ogni categoria.

Diagrammi a torta utilizzati selo scopo è quello di evidenziare la proporzione di ciascuna categoria. L’area di ciascun settore circolare è proporzionale alla frequenza corrispondente.

Diagrammi di Pareto un diagramma di frequenze delle cause delle difettosità.

2.4 Rappresentazioni grafiche per descrivere le variabili numeriche Si parte dalla distribuzione delle frequenze che vede nella colonna di sinistra le classi di intervallo e in quella di destra il numero di osservazioni. Tuttavia è problematica la determinazione delle classi di intervallo di cui bisogna decidere numero ed ampiezza. Se definiamo w= ampiezza intervallo si ha w = Valore massimo- valore minimo Numero di classi

Le classi devono essere collettivamente esaustive e mutuamente esaustive (senza sovrapposizioni, ciascuna osservazione deve appartenere ad una ed una sola classe) |50,100)

Sono: • Istogramma è un grafico composto da rettangoli verticali adiacenti

aventi per base l’ampiezza della classe e per altezza la frequenza. È necessario al fine di analisi, osservarne l’area che è proporzionale alle frequenze. Possono essere simmetrici se le informazioni sono distribuite in modo approssimativamente regolare intorno al centro dell’istogramma o asimmetrici/obliqui.

Ogiva è una spezzata che rappresenta la distribuzione delle frequenze percentuali cumulate.

Grafici ramo foglia i dati sono raggruppati in base alle loro cifre più significative.

Rappresentazioni grafiche e tabelle per descrivere le relazioni tra variabili

Diagramma a dispersione per studiare le relazioni tra due variabili quantitative.

Tabelle a doppia entrata/ di contingenza per evidenziare eventuali relazioni tra variabili qualitative. Sono illustrate con diagrammi a barre. Elenca la frequenza delle osservazioni per ogni combinazione di classi di misura di due variabili. Una tabella con r righe e c colonne viene indicata come r x c.

CAPITOLO III Descrizione numerica dei dati 3.1 Misure di tendenza centrale Forniscono informazioni quantitative sull’osservazione “tipica” nei dati. Media, mediana e moda Sono indici di posizione:

Media aritmetica di un insieme di dati è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni dove: N=dimensione della popolazione La media della popolazione è un parametro, mentre la media campionaria è una statistica. ▲ È influenzata da valori estremi outliers ▲ La somma degli scarti è pari a zero ▲ La somma degli scarti quadratici è minima

• La media ponderata, usata quando i dati sono

raggruppati, dato =peso dell’i-esima osservazione • La media geometrica serve per calcolare il tasso di

crescita medio

Mediana è l’osservazione centrale di un insieme di osservazioni ordinate in modo crescente o decrescente. Se n, la dimensione del campione è un numero dispari, la mediana è l’osservazione

centrale; se n è un numero pari, la mediana si ottiene dalla media dei due valori centrali. ▲ se il valore è dispari ▲ non è sensibile ai dati anomali

Moda, dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste, è la modalità che si presenta il maggior numero di volte. Ci può essere più di una moda.

Forma di una distribuzione Le distribuzioni possono essere simmetriche media e mediana sono uguali poiché le osservazioni sono distribuite in modo speculare rispetto al valore centrale, oblique a destra la media è più grande della mediana o oblique a sinistra la media è più piccola della mediana. L’asimmetria è motivata dallapresenza di outliers ovvero osservazioni eccessivamente elevate che fanno aumentare la media determinando un’asimmetria positiva, e una distribuzione obliqua a destra; oppure osservazioni eccessivamente piccole che fanno diminuire la media determinando un’asimmetria negativa, e una distribuzione obliqua a sinistra. Altre volte invece la simmetria è intrinseca alla distribuzione. 3.2 Misure di variabilità Sono misure di sintesi per valutare la variabilità e la dispersione delle osservazioni rispetto alla media. Alla base vige il principio per cui non esistono due oggetti esattamente uguali. La variabilità, dunque, esiste in tutti i campi. Campo di variazione e differenza interquartile Il campo di variazione è la differenza tra il massimo ed il minimo dei valori osservati. Più grande è la variabilità dei dati rispetto al centro di distribuzione, più grande sarà il campo di variazione. Non è una misura soddisfacente di dispersione poiché è influenzata dagli outlier. La differenza interquartile misura la variabilità del 50% centrale dei dati: in una sequenza di osservazioni ordinate in modo non decrescente è la differenza tra l’osservazione , terzo quartile (75-esimo percentile) e l’osservazione , primo quartile (25-esimo percentile):

si trova nella posizione 0,25(n+1) della sequenza ordinata si trova nella posizione 0,75(n+1) della sequenza ordinata ovvero, la mediana, si trova nella posizione 0,50(n+1) I cinque numeri di sintesi Si riferiscono a cinque misure descrittive:

Graficamente si visualizza con il diagramma scatola e baffi:

Varianza e scarto quadratico medio Sono misure che tengono conto del valore di ciascuna osservazione e considerano la media delle distanze tra ciascuna osservazione e la media di queste, siccome questa distanza è negativa per valori sotto la media, e non si può parlare di distanza negativa, se ne considera il quadrato. La varianza è la media dei quadrati delle differenze:

Di una popolazione

Campionaria

La varianza risulta espressa in un’unità di misura al quadrato. Lo scarto quadratico medio (deviazione standard) è la radice quadrata della varianza, ed è quindi espresso nell’unità di misura originale. Misura la dispersione media intorno alla media: • Di una popolazione

Campionaria

Disuguaglianza di Chebychev e regola empirica La disuguaglianza di Chebychev: per ogni popolazione con media , scarto quadratico medio , fattore moltiplicativo dello scarto quadratico medio k>1, la percentuale delle osservazioni che appartengono all’intervallo è: almeno % È applicabile indipendentemente dalla forma della distribuzione, ma non è un dato preciso.

La regola empirica Fornisce una valutazione della percentuale approssimata di osservazioni, il cui scostamento, in più o in meno dalla media, è pari al massimo a 1,2,3 volte lo scarto quadratico medio. Approssimativamente:

Il 68% delle osservazioni stanno nell’intervallo • Il 95% delle osservazioni stanno nell’intervallo

Il 99,73% delle osservazioni stanno nell’intervallo

Il coefficiente di variazione Esprime lo scarto quadratico medio come percentuale della media, è dunque un numero puro. Supera il problema della scala di misura.

Della popolazione 100% con

Campionario 100% con

Media approssimata per dati raggruppati

La varianza approssimata per dati raggruppati La covarianza La covarianza (Cov) è una misura della relazione lineare tra due variabili. Un valore positivo indica una relazione diretta o positiva e un valore negativo indica una relazione inversa o negativa. Covarianza nella popolazione:

Covarianza campionaria:

Il suo valore dipende dall’unità di misura e non si tratta, quindi, di un indice adeguato per valutare l’intensità di relazione tra due variabili.

Covarianza positiva

Covarianza negativa

Coefficiente di correlazione lineare È un indice numerico opportuno a descrivere la relazione lineare tra due variabili; è più utile della covarianza poiché fornisce sia direzione che intensità della relazione. La covarianza e il coefficiente di correlazione lineare hanno lo stesso segno.

Dove sono gli scarti quadratici medi delle due variabili, calcolati sulla popolazione. Il valore del coefficiente di correlazione lineare varia da -1 a +1:

=1 i punti che rappresentano le osservazioni sono disposti a formare una retta crescente, che indica una relazione lineare positiva. X e Y hanno la massima (perfetta) correlazione positiva

=0 non c’è nessun tipo di relazione lineare tra le variabili, non c’è covarianza.

=-1 i punti che rappresentano le osservazioni sono disposti a formare una retta decrescente, che indica una relazione lineare negativa. X e Y hanno la massima (perfetta) correlazione negativa.

non sono stati rilasciati commenti
Questa è solo un'anteprima
3 pagine mostrate su 8 totali
Scarica il documento