Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Media, Disuguaglianza e Associazione tra Variabili, Appunti di Statistica

Una introduzione alla media, ai valori di disuguaglianza e all'associazione tra variabili qualitative e quantitative in statistica. Viene descritta la modalità di calcolo della media, della disuguaglianza e dell'indice di associazione Chi-quadrato. Inoltre, vengono presentate le proprietà della media e dei valori di disuguaglianza, nonché l'indice di eterogeneità di Gini e la correlazione tra due caratteri.

Tipologia: Appunti

2019/2020

Caricato il 22/10/2020

crissb2903
crissb2903 🇮🇹

4.2

(15)

68 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Tipi di variabile
Variabili (o mutabili) qualitative: sconnessa o ordinale
Variabili quantitative: discreta o continua
I valori caratteristici per sintetizzare le distribuzioni di frequenze
a) I valori centrali
I valori centrali sono valori caratteristici che si usano per riassumere le distribuzioni di frequenza
con un unico valore
1) Moda: è la modalità che presenta la frequenza relativa assoluta più alta
Si può calcolare per tutti i tipi di variabile
2) Mediana: (valore posizionale), bipartisce la distribuzione: è la modalità posseduta
dall’unita’ che occupa il posto centrale in una distribuzione ordinata, per cui metà delle
unità hanno valori uguali o inferiori al valore posseduto dall’unita’ centrale
Si può calcolare per entrambi i tipi di variabile quantitative e per le qualitative ordinate
Si calcola in due modi differenti a seconda che il N numero delle unità sia pari o dispari
3) Media: è la somma dei valori divisi il loro N numero, la media aritmetica è la più usata
Si calcola solo per le variabili quantitative e con operazioni algebriche
Se la distribuzione è divisa in classi, la media si ottiene utilizzando i valori centrali
Proprietà della media:
Presenta sempre la stessa unità di misura dei dati su cui è calcolata
È sempre un numero compreso tra il valore minimo e il valore massimo delle
modalità
Sommando gli scarti dalla media avremo sempre 0 (annullamento degli scarti)
È il valore che sostituito a tutti gli altri ne lascia invariata la somma
b) I valori di disuguaglianza
I valori di disuguaglianza sono valori caratteristici che si usano per indicare quanto sono diversi i
casi della distribuzione sulle varie modalità della variabile
I valori di disuguaglianza assumono
valore minimo quando tutti i casi sono uguali e
valore massimo quando ogni caso è diverso dall’altro
Più i valori di disuguaglianza sono alti e meno i valori centrali sono capaci di sintetizzare
adeguatamente la distribuzione
La disuguaglianza viene intesa come dispersione quando: per misurare la
disuguaglianza delle singole modalità rispetto ad un valore centrale, si calcola
determinando gli scostamenti o scarti tra le modalità del carattere e la sua media
La disuguaglianza viene intesa come variabilità quando: fra tutte le modalità considerate
due a due (ovvero la disuguaglianza reciproca), si calcola determinando le differenze medie
N.B.
Indici assoluti: possono assumere qualsiasi valore minimo e massimo, sono espressi nella
stessa dimensione o unita’ della variabile, ciò rende difficile confrontarli
Indici relativi (indici normalizzati): assumono valori espressi da un minimo di 0 ad un
massimo di 1, essendo espressi da un numero “privo di dimensione” permettono il confronto tra
distribuzioni diverse
Il campo di variazione (o range): e’ un indice assoluto di variabilità
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Statistica: Media, Disuguaglianza e Associazione tra Variabili e più Appunti in PDF di Statistica solo su Docsity!

Tipi di variabile

  • Variabili (o mutabili) qualitative: sconnessa o ordinale
  • Variabili quantitative: discreta o continua

I valori caratteristici per sintetizzare le distribuzioni di frequenze

a) I valori centrali

  • I valori centrali sono valori caratteristici che si usano per riassumere le distribuzioni di frequenza con un unico valore

◦ 1) Moda : è la modalità che presenta la frequenza relativa assoluta più alta

‣ Si può calcolare per tutti i tipi di variabile

◦ 2) Mediana : (valore posizionale), bipartisce la distribuzione: è la modalità posseduta

dall’unita’ che occupa il posto centrale in una distribuzione ordinata, per cui metà delle unità hanno valori uguali o inferiori al valore posseduto dall’unita’ centrale ‣ Si può calcolare per entrambi i tipi di variabile quantitative e per le qualitative ordinate ‣ Si calcola in due modi differenti a seconda che il N numero delle unità sia pari o dispari

◦ 3) Media : è la somma dei valori divisi il loro N numero, la media aritmetica è la più usata

‣ Si calcola solo per le variabili quantitative e con operazioni algebriche ‣ Se la distribuzione è divisa in classi, la media si ottiene utilizzando i valori centrali ‣ Proprietà della media:

  • Presenta sempre la stessa unità di misura dei dati su cui è calcolata
  • È sempre un numero compreso tra il valore minimo e il valore massimo delle modalità
  • Sommando gli scarti dalla media avremo sempre 0 (annullamento degli scarti)
  • È il valore che sostituito a tutti gli altri ne lascia invariata la somma

b) I valori di disuguaglianza

  • I valori di disuguaglianza sono valori caratteristici che si usano per indicare quanto sono diversi i casi della distribuzione sulle varie modalità della variabile ◦ I valori di disuguaglianza assumono ‣ valore minimo quando tutti i casi sono uguali e ‣ valore massimo quando ogni caso è diverso dall’altro ◦ Più i valori di disuguaglianza sono alti e meno i valori centrali sono capaci di sintetizzare adeguatamente la distribuzione

◦ La disuguaglianza viene intesa come dispersione quando: per misurare la

disuguaglianza delle singole modalità rispetto ad un valore centrale, si calcola determinando gli scostamenti o scarti tra le modalità del carattere e la sua media

◦ La disuguaglianza viene intesa come variabilità quando: fra tutte le modalità considerate

due a due (ovvero la disuguaglianza reciproca), si calcola determinando le differenze medie N.B.

• Indici assoluti : possono assumere qualsiasi valore minimo e massimo, sono espressi nella

stessa dimensione o unita’ della variabile, ciò rende difficile confrontarli

• Indici relativi (indici normalizzati): assumono valori espressi da un minimo di 0 ad un

massimo di 1, essendo espressi da un numero “privo di dimensione” permettono il confronto tra distribuzioni diverse

• Il campo di variazione (o range): e’ un indice assoluto di variabilità

◦ e’ dato dalla differenza tra il valore massimo e il valore minimo della successione di dati ◦ costituisce l’ampiezza dell’intervallo dei dati ◦ e’ espresso nella stessa unità di misura dei dati

• Gli scostamenti medi : scostamento medio dalla media aritmetica o dalla mediana, il

valore ricavato indica di quanto i dati si discostano dalla propria media aritmetica o dalla mediana

• La varianza : è una misura di dispersione di un insieme di dati o di una distribuzione di

frequenza che si ottiene come media dei quadrati degli scarti dalla media aritmetica ◦ la varianza è espressa al quadrato, quindi si preferisce usare il suo quadrato, ovvero lo

scostamento quadratico medio (o deviazione standard): è un indice altamente

rappresentativo del maggiore o minore addensamento dei dati intorno al valore medio

• Devianza : è il numeratore della varianza

• Il coefficiente di variazione : in genere è espresso in termini percentuali (moltiplicando

Cv*100) ◦ si usa per confrontare la variabilità di due fenomeni espressi in due misure diverse (es. variabilità del peso rispetto all’altezza) ◦ È il rapporto tra lo scostamento quadratico medio e la media aritmetica

• Indice di eterogeneità di Gini :

◦ Omogeneità = equilibrio ‣ Abbiamo massima omogeneità in una distribuzione quando tutti i casi sono assegnati alla stessa modalità della variabile ◦ Eterogeneità = squilibrio ‣ Viceversa abbiamo massima eterogeneità quando le frequenze sono equidistribuite tra tutte le modalità della variabile

  • Un indice che valuta il grado di eterogeneità di una distribuzione è l’indice di Gini ◦ Ha come minimo 0 nel caso di una modalità con frequenza relativa pari a 1 e le altre pari a 0 ◦ Il massimo di E eterogeneità invece quando tutte le frequenze relative sono uguali

◦ La concentrazione : esiste una misura della disuguaglianza detta indice di

concentrazione ‣ È costruita per variabili trasferibili come il reddito, piuttosto che l’eta’, ad es. se il reddito delle famiglie italiane fosse distribuito in parti uguali tra tutte le famiglie avremmo un equidistribuzione

  • Abbiamo concentrazione massima quando una sola unità possiede tutto il carattere e le altre non possiedono nulla
  • L’indice di concentrazione misura il minimo in caso di equidistribuzione
  • Graficamente si rappresenta con una spezzata di concentrazione detta curva di Lorenz

Analisi delle relazioni tra due caratteri ed indici di associazione

  • Quando possiamo supporre una dipendenza logica fra due variabili X ed Y e quindi le consideriamo statisticamente dipendenti, ovvero la conoscenza di una ci permette di fare ipotesi sull’altra, supponiamo anche una relazione/legame unidirezionale e quindi faremo un analisi della dipendenza ◦ Al contrario si parla di indipendenza logica quando possiamo supporre l’inverso
  • Quando però (spesso) non è possibile definire a priori il senso della relazione, ma fra due

Within , ovvero la devianza interna ai gruppi, la sommatoria di queste due è la Devianza

totale ◦ Le proprietà dell’Eta-quadro sono: ‣ Assume valore 0 quando le medie condizionate sono uguali tra loro, quindi la devianza tra i gruppi è nulla ed X/Y sono indipendenti ‣ Assume valore 1 quando ogni modalità di X corrisponde ad un solo valore di Y, ovvero è nulla la varianza interna ai gruppi

Le relazioni tra 2 variabili quantitative

• Diagramma a dispersione (o scatter) per relazioni lineari tra due variabili: due variabili

vengono rappresentate ognuna su un asse del diagramma per visualizzare graficamente la relazione fra le due ed accorgersi di eventuali valori anomali

◦ Tra due variabili abbiamo concordanza se al crescere di X cresce anche Y e viceversa se

al diminuire di una diminuisce anche l’altra: ovvero una correlazione lineare positiva

◦ Abbiamo invece discordanza se al diminuire di X invece, Y cresce o viceversa, si tratta di

una correlazione lineare negativa ◦ Potremmo inoltre avere nessuna relazione quando non esiste un legame tra le due variabili ◦ Oppure infine, una relazione non lineare

• Codevianza : è un indice simmetrico assoluto per misurare il legame tra variabili quantitative

misurando il grado di concordanza o discordanza, è la somma dei prodotti degli scarti di X ed Y dalle rispettive medie

• Covarianza : è la codevianza rapportata alla numerosità del collettivo N, ovvero la media dei

prodotti degli scarti di X ed Y dalle rispettive medie ◦ Se X ed Y sono indipendenti allora la codevianza sarà 0 ◦ Viceversa però non è vero perché se la covarianza è 0 vuol dire che siamo in assenza di una dipendenza lineare fra le due variabili, ma ciò non esclude che possano esserci altri tipi di relazioni

• Rho, coefficente di correlazione lineare : si ottiene rapportando la codevianza al suo

massimo, ovvero al prodotto degli scarti quadratici medi delle due variabili oppure alla radice del prodotto delle devianze ◦ Misura l’interdipendenza lineare tra due variabili ◦ Assume valore +1 in caso di concordanza perfetta, un perfetto legame lineare ◦ È maggiore di 0 quando c’è concordanza ◦ È uguale a 0 se c’è un indipendenza lineare ◦ È minore di 0 se invece c’è discordanza ◦ Infine è -1 se abbiamo una discordanza perfetta, un perfetto legame lineare, ma decrescente

• Il coefficente di regressione : con l’analisi di regressione lineare possiamo individuare

un modello statistico adatto ai nostri scopi nel determinare quale sia la retta che meglio passa attraverso la nube dei punti dei nostri dati detto modello di regressione ◦ Gli elementi a e b sono i due parametri che determinano la retta, la a sull’asse delle Y e la b è il coefficiente angolare, ovvero la pendenza della retta sull’asse delle X ◦ Il parametro b, ovvero il coefficiente angolare, è chiamato in statistica coefficiente di regressione N.B. ◦ La retta non passa per tutti i punti della nube, quindi bisogna considerare anche la E, ovvero

l’errore ◦ È possibile tracciare infinite diverse rette, ma quale sarà la migliore? Ovviamente quella che si avvicina di più a tutti i punti osservati, come determinarla? ‣ Bisogna trovare la retta che produce gli errori più piccoli con il metodo dei minimi quadrati

• Metodo dei minimi quadrati : è il metodo di stima che rende minima la sommatoria dei

quadrati degli scarti (o residui) fra i valori teorici e quelli osservati di Y ◦ In parole povere è il modello che assicura che la retta trovata sia la migliore fra tutte quelle possibili

• Indice di determinazione (Coefficente R2) e bontà del modello : Dopo aver

accertato grazie al metodo dei minimi quadrati che la nostra retta ottenuta con il modello di regressione lineare sia la migliore fra tutte, è necessario valutarne la bontà, ovvero la bontà di questa nostra retta alla nuvola dei punti ◦ Per capire quanto la nostra retta di regressione sia adatta a rappresentare i dati possiamo analizzare graficamente i residui oppure utilizzare un opportuno indice, ovvero l’indice di determinazione o coefficente R2 che si può ottenere ‣ 1) Con la scomposizione della Devianza Totale in Devianza di Regressione e Devianza Residua

  • Questo indice varia tra 0 ed 1, è 0 quando la variabilità totale di Y non è per nulla spiegata ed 1 quando invece lo è
  • Più R2 si approssima all’1 e più la bontà del modello è buona ‣ 2) Oppure può essere calcolato come rapporto tra il quadrato della Codevianza ed il prodotto delle singole Devianze di X ed Y che ci darà un Rho (coefficente di correlazione) al quadrato

Dalla descrizione all’inferenza

• La probabilità

◦ Un indagine esaustiva su tutta la popolazione è chiamata censuaria o censimento, mentre un indagine solo su una parte della popolazione è detta indagine campionaria

‣ Quantificare il grado di incertezza significa associare ai risultati campionari una

probabilità, ovvero calcolare la probabilità che questi dati siano validi per l’intera popolazione, i concetti di base della teoria della probabilità infatti sono:

  • i, la prova, ovvero ogni esperimento soggetto ad incertezza
  • E, l’evento, ovvero uno dei possibili esiti della prova
  • P, la probabilità, ovvero un numero associato al verificarsi di un evento compreso tra 0 ed 1, atto a misurare il grado di incertezza sul verificarsi di un evento

◦ Il singolo esito di una prova prende il nome di evento elementare , mentre l’evento

non elementare è un evento che può essere scomposto in più eventi elementari ◦ Possiamo avere:

‣ Unione tra due eventi (U), si verifica quando almeno uno dei due eventi avviene

‣ Intersezione fra due eventi (U capovolta), si verifica quando avvengono

contemporaneamente entrambi gli eventi

‣ Negazione di un evento (ad es. A con una linea in cima) e si verifica quando A non

avviene

◦ La distribuzione o variabile casuale Normale : le variabili casuali continue

assumono infiniti valori, per questo nel continuo è necessario far riferimento ad insiemi di valori, cioè intervalli. La variabile casuale Normale è la più nota ed utilizzata nell’inferenza statistica ed è definita anche variabile casuale degli errori accidentali. Le sue caratteristiche sono: ‣ La sua funzione di densità ha una forma campanulare e l’area sottesa alla curva è pari ad 1 ‣ È simmetrica rispetto al valore centrale (ovvero x=media) ‣ Il valore di x=media coincide appunto con la media aritmetica, ma anche con moda e mediana ‣ È asintotica all’asse delle x da entrambi i lati, ovvero non li tocca mai ‣ Possiede due punti di flesso ai due lati in corrispondenza dei due x=media+scarto quadratico medio

◦ La Normale standardizzata : standardizzare significa operare una trasformazione in

modo da rendere confrontabile con altri dati standardizzati. Questa variabile è molto utilizzata nell’inferenza statistica

◦ La T di Student : è il rapporto tra una variabile casuale Normale standardizzata e la

radice quadrata di una variabile casuale Chi-quadrato, divisa per i suoi gradi di libertà

Tipi di campionamento

• Campionamento probabilistico : Le procedure per scegliere il nostro campione si

suddividono in due grandi famiglie: campionamento probabilistico e campionamento non probabilistico. Un campione è detto probabilistico se è estratto in modo che tutti i campioni possibili della stessa dimensione abbiano la stessa probabilità di essere estratti ◦ In un campione probabilistico: ‣ Ciascuna delle unità della popolazione ha una probabilità nota di essere inclusa nel campione ‣ Sono ridotti al minimo i fattori di distorsione ◦ I metodi di selezione dei campioni probabilistici possono essere diversi: campionamento casuale semplice, campionamento stratificato, a grappoli, sistematico, campionamento a più stadi, ecc.

Stima e stimatori

  • Una stima può essere ad esempio la media ed uno stimatore il suo valore ◦ Uno stimatore ed una stima possono essere: puntuali, corretti, distorti, asintoticamente corretto, consistente, per intervallo

Test statistici per la verifica delle ipotesi

  • La teoria dell’inferenza statistica riguarda principalmente la stima ed i test delle ipotesi, che anche se simili, coinvolgono problematiche diverse: ◦ Per la stima, i risultati ottenuti dal campione vengono utilizzati per stimare un entità incognita relativa ad una certa popolazione ◦ Per le ipotesi invece l’evidenza campionaria viene utilizzata per verificare statisticamente la validità di una certa ipotesi

• Ipotesi statistica : è una congettura riguardante una qualche caratteristica del fenomeno

formulata apriori, prima ancora di estrarre il campione, proviene dall’esterno e dipende dal contesto applicativo e dagli obiettivi di ricerca, non dai dati campionari

◦ Abbiamo l’ ipotesi nulla H0 : è l’ipotesi che si vuole sottoporre a verifica con un test

statistico, rappresenta ciò che si crede vero

◦ L ’ipotesi alternativa H1 : sarebbe la conclusione che vorremmo trarre dal test

‣ Ad es. H0 = la persona è innocente, H1 = la persona è colpevole ◦ Le ipotesi vengono solitamente formulate in base a informazioni che si possiedono del fenomeno in esame, possono essere semplici o composte, ad es.: ‣ H0 = 6,3 (ipotesi semplice) ‣ H1 = media<6,3 (ipotesi composta)

• La verifica di ipotesi : è la metodologia inferenziale che a partire dai dati campionari porta

a decidere se rifiutare o meno l’ipotesi nulla H

• Test di ipotesi e statistiche (parametro) :

◦ Un test di ipotesi statistiche è la tecnica attraverso cui si decide se rifiutare o meno

l’ipotesi H0 sulla base delle risultanze campionarie

◦ Un parametro invece è una Statistica calcolata nella popolazione

◦ Uno stimatore è una Statistica calcolata sui dati del campione