Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti Esame Statistica, Appunti di Statistica

statistica descrittiva statistica inferenziale

Tipologia: Appunti

2020/2021

In vendita dal 15/06/2021

claudia-barcelli
claudia-barcelli 🇮🇹

3.7

(3)

10 documenti

1 / 33

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ESAME STATISTICA
STATISTICA DESCRITTIVA DI BASE (LEZ. II – XVIII)
STATISTICA = Scienza che studia con metodi matematici fenomeni collettivi. L’aspetto cruciale della
statistica è di essere rivolto alla conoscenza dei fenomeni collettivi e non ai casi individuali specifici. Tecnica
che ha per scopo la conoscenza quantitativa dei fenomeni collettivi.
Attraverso gli strumenti analitici statistici è possibile:
-Sintetizzare le informazioni con indici, tabelle e grafici;
-Validare un modello teorico attraverso osservazione di dati reali;
-Quantificare l’incertezza;
-Mettere in relazione diversi fenomeni e individuare nessi di casualità.
TIPOLOGIE DI STATISTICA
-STATISTICA DESCRITTIVA: quella che si limita a descrivere i fenomeni attraverso indici e grafici.
Si occupa di descrivere e sintetizzare (con tabelle, grafici, indici sintetici, ecc..) le informazioni
(qualitative e quantitative) relative ad un certo gruppo di “soggetti” al fine di far emergere
caratteristiche, andamenti ed eventuali relazioni che si verificano all’interno del fenomeno
analizzato.
Gli strumenti della statistica descrittiva permettono di sintetizzare e rappresentare i dati osservati.
ola costruzione delle tabelle e dei grafici
oil calcolo delle medie
ol’analisi della variabilità
ole tabelle doppie di contingenza
ola retta di regressione
-STATISTICA INFERENZIALE: quella che, anche avvalendosi di metodi probabilistici, permette di
trarre conclusioni generali a partire dall'esame di un campione.
Utilizza le informazioni raccolte da un’indagine campionaria e le “manipola” (grazie all’utilizzo di
opportuni “modelli”) in modo da poter generalizzare le indicazioni tratte dal gruppo (analisi
parziale) investigato a tutta la popolazione dalla quale tale gruppo è stato estratto.
L’inferenza statistica è un processo induttivo che permette di passare dal particolare (l’indagine
campionaria) al generale (la popolazione da cui è stato estratto il campione).
Il passaggio dal campione alla popolazione avviene in condizioni di incertezza, ed è per questo che
l’inferenza usa strumenti probabilistici per estendere le informazioni campionarie alla popolazione.
oil calcolo delle probabilità
ole variabili casuali
oil teorema del limite centrale
ogli stimatori
ola stima per intervallo
oi test
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Anteprima parziale del testo

Scarica Appunti Esame Statistica e più Appunti in PDF di Statistica solo su Docsity!

ESAME STATISTICA

STATISTICA DESCRITTIVA DI BASE (LEZ. II – XVIII)

STATISTICA = Scienza che studia con metodi matematici fenomeni collettivi. L’aspetto cruciale della statistica è di essere rivolto alla conoscenza dei fenomeni collettivi e non ai casi individuali specifici. Tecnica che ha per scopo la conoscenza quantitativa dei fenomeni collettivi. Attraverso gli strumenti analitici statistici è possibile:

- Sintetizzare le informazioni con indici, tabelle e grafici; - Validare un modello teorico attraverso osservazione di dati reali; - Quantificare l’incertezza; - Mettere in relazione diversi fenomeni e individuare nessi di casualità. TIPOLOGIE DI STATISTICA - STATISTICA DESCRITTIVA : quella che si limita a descrivere i fenomeni attraverso indici e grafici. Si occupa di descrivere e sintetizzare (con tabelle, grafici, indici sintetici, ecc..) le informazioni (qualitative e quantitative) relative ad un certo gruppo di “soggetti ” al fine di far emergere caratteristiche, andamenti ed eventuali relazioni che si verificano all’interno del fenomeno analizzato. Gli strumenti della statistica descrittiva permettono di sintetizzare e rappresentare i dati osservati.

o la costruzione delle tabelle e dei grafici

o il calcolo delle medie

o l’analisi della variabilità

o le tabelle doppie di contingenza

o la retta di regressione

- STATISTICA INFERENZIALE : quella che, anche avvalendosi di metodi probabilistici, permette di trarre conclusioni generali a partire dall'esame di un campione. Utilizza le informazioni raccolte da un’indagine campionaria e le “manipola” (grazie all’utilizzo di opportuni “modelli”) in modo da poter generalizzare le indicazioni tratte dal gruppo (analisi parziale) investigato a tutta la popolazione dalla quale tale gruppo è stato estratto. L’inferenza statistica è un processo induttivo che permette di passare dal particolare (l’indagine campionaria) al generale (la popolazione da cui è stato estratto il campione). Il passaggio dal campione alla popolazione avviene in condizioni di incertezza, ed è per questo che l’inferenza usa strumenti probabilistici per estendere le informazioni campionarie alla popolazione.

o il calcolo delle probabilità

o le variabili casuali

o il teorema del limite centrale

o gli stimatori

o la stima per intervallo

o i test

DEFINIZIONI

FENOMENO STATISTICO = fenomeni collettivi che possono essere osservati tramite i metodi statistici in particolari condizioni omogeneità. I fenomeni statistici sono oggetto di studio e di misurazione tramite la statistica, l’Oggetto della nostra analisi. Per un corretto studio del fenomeno statistico è innanzi tutto necessario definire e specificare correttamente l’obiettivo conoscitivo. Esso deve essere individuato senza ambiguità, altrimenti tutta l’analisi che ne consegue risulta non valida. INDIVIDUI/ UNITA’ STATISTICHE = individuo su cui si osserva la caratteristica di interesse. Unità elementare su cui andiamo ad osservare e rilevare la caratteristica che in ambito di analisi avevamo definito. Su tali unità statistiche saranno rilevate (osservate) le caratteristiche definite nell’obiettivo dell’analisi. UNITA’ DI RILEVAZIONE = è il tipo di individuo rispetto al quale vengono raccolte le informazioni CLASSIFICAZIONE DELLE RILEVAZIONI STATISTICHE A SECONDA DELL’ESTENSIONE

- RILEVAZIONE STATISTICA SULLA POPOLAZIONE

o POPOLAZIONE = l’insieme degli individui (unità statistiche) portatori della caratteristica di

interesse (non necessariamente esseri umani, possono essere macchinari, aziende, immobili, etc).

o CENSIMENTI = Indagini sulla popolazione

- RILEVAZIONE STATISTICA SU CAMPIONE

o CAMPIONE = è solo una parte della popolazione (un sottoinsieme), quindi si prende in

esame solo una parte delle unità statistiche portatrici della stessa caratteristica d’interesse.

o TEORIA DEI CAMPIONI = è una branca della Statistica che definisce i criteri per la selezione

delle unità nella popolazione al fine della formazione del campione.

o INDAGINE CAMPIONARIA = indagine basata su campioni

VANTAGGI SVANTAGGI TIPOLOGIA DI

INDAGINE

POPOLAZION

E

Esaustività Ricchezza informazioni Maggior dettaglio (copertura) Costi elevati Lunghi tempi elaborazione Difficoltà a raggiungere tutti Qualità informazioni (?) Censimento

CAMPIONE - Economicità

- Possibilità ripetizione indagine - Indagini mirate - Tempestività - Può essere sufficiente una conoscenza approssimata del fenomeno di interesse - Non accessibilità della popolazione Errore campionario (c’è e ci sarà sempre proprio perché prendiamo in analisi una parte ridotta della popolazione. Con le tecniche di campionamento possiamo ridurre il margine di errore, ma non eliminarlo) Minor livello di copertura Selezione campione (se non viene fatto nel modo corretto e appropriato può dare indicazioni totalmente errate) Indagine Campionaria

campionamento k=N/n. Così se la prima unità scelta è h, le unità campionarie sono quelle contrassegnate dai numeri h, h + k, h + 2k.. VANTAGGI SVANTAGGI

- Le operazioni di estrazione, rilevazione e controllo del campione sono, in generale, più facili e rapide rispetto a quelle dei campionamenti casuale semplice e di quello stratificato. - Questo schema di campionamento casuale risulta molto efficiente da realizzare quando si disponga della lista delle unità statistiche della popolazione sotto forma di file elaborabile al computer - Se la popolazione ordinata varia con tendenza lineare, il campionamento sistematico è più efficiente del campionamento casuale ma meno del campionamento stratificato. - Se la popolazione ordinata ha un andamento periodico, l'efficienza di un campione sistematico dipende dal valore k e dalla relazione fra k ed il periodo dell'oscillazione. - Quando N non è un multiplo intero di k, le stime, a rigore, si considerano corrette soltanto per campioni di dimensione maggiore di 50. - CAMPIONAMENTO A GRAPPOLO : Il campionamento a grappoli consiste nella formazione di convenienti gruppi di unità statistiche (grappoli) e nell'estrarre un campione di grappoli secondo un determinato schema di campionamento probabilistico (cioè dopo aver proceduto alla formazione di una lista di grappoli). La differenza rispetto al campionamento stratificato è nel fatto che, una volta estratto il grappolo, al suo interno vengono prese tutte le unità. Inoltre la popolazione non deve essere divisa in strati rappresentativi, ma semplicemente deve essere ripartita tra gruppi. VANTAGGI SVANTAGGI - Non richiede l'elenco di tutte le unità della popolazione, ma soltanto di quelle che appartengono ai grappoli scelti. - Quando i grappoli sono definiti geograficamente, le unità da rilevare risultano meno disperse nel territorio - Ogni unità della popolazione deve essere assegnata ad uno ed uno solo grappolo altrimenti si verifica la molteplicità o l'esclusione di alcune unità. - Si rileva una perdita di efficacia quando le unità di un grappolo sono molto simili. - CAMPIONAMENTO A DUE O PIU’ STADI : Allo scopo di ridurre i costi di un'indagine campionaria, si ricorre in molte occasioni ad uno schema che comporta l'individuazione di unità primarie di rilevazione e di unità secondarie o di ordine superiore. La situazione è analoga a quella del campionamento a grappoli, ma in questo caso ciascun grappolo non viene esplorato esaustivamente, ma mediante successivo campionamento. VANTAGGI SVANTAGGI - La lista per il campionamento è costruita per rappresentare bene le unità del primo stadio (unità primarie);

  • La lista per il campionamento per le unità secondarie può essere costruita durante l'analisi delle unità primarie scelte; - Se le unità di primo stadio, ad esempio, sono definite geograficamente, i costi - Come per il campionamento a grappoli, si rileva una perdita di efficacia quando le unità primarie sono molto simili. - I campionamenti a più stadi possono dar luogo ad una grande varietà di casi potendosi combinare negli stadi successivi campionamenti casuali semplici con campionamenti

dell'indagine vengono ridotti. stratificati oppure sistematici. TIPOLOGIE DI CARATTERI (CARATTERISTICA OGGETTO DI STUDIO) CARATTERE = è la caratteristica, oggetto di studio, rilevata e/o misurata sulle unità statistiche.

o QUALITATIVO : Il carattere osservato sull’unità statistica si può esprimere attraverso un

ATTRIBUTO (NOMINALE)

CARATTERI QUALITATIVI SCONNESSI : (non ordinabili, ad esempio: sesso, stato civile, squadra di calcio per cui si tifa) (minore capacità informativa)  CARATTERI QUALITATIVI ORDINABILI : (ad esempio: livello nella professione, grado militare).

o QUANTITATIVO : Il carattere osservato sull’unità statistica si può esprimere attraverso un

NUMERO (ORDINALE)

CARATTERI QUANTITATIVI DISCRETI : assumono soltanto numeri interi come valori osservabili (o in generale un insieme numerabile),cioè in grado di assumere solo un numero discreto (finito o infinito) di modalità (ad esempio: numero di figli di una coppia, voto esame universitario)  CARATTERI QUANTITATIVI CONTINUI : fissato un intervallo, possono esprimersi potenzialmente attraverso tutti i valori all’interno di tale intervallo, cioè in grado di assumere qualunque valore all’interno di un intervallo definito (ad esempio: peso, reddito). MODALITA’ = modo in cui il carattere si manifesta sulla singola unità statistica (qualitative/quantitative – non ordinabili/ordinabili – discrete/fisse). Variazioni del carattere principale. OPERAZIONI SULLE MODALITA’- TIPOLOGIE DI FENOMENI CARATTERE QUALITATIVO

- CARATTERE QUALITATIVO NON ORDINABILE : si può esprimere soltanto un parere di uguaglianza- disuguaglianza - CARATTERE QUALITATIVO ORDINABILE : si può esprimere un confronto “maggiore - minore” oltre che uguaglianza/disuguaglianza CARATTERE QUANTITATIVO - CARATTERE QUANTITATIVO DISCRETO : il confronto si può esplicitare attraverso la misurazione della differenza o del rapporto tra modalità, solo con numeri finiti, non decimali. (CONTEGGIO) (maggiore/minore/uguale e +/- inteso come differenza tra 2 o più unità) posso non solo dire se i due dati sono uguali/diversi, maggiori/minori, ma anche di quanto sono differenti. - CARATTERE QUANTITATIVO CONTINUO : il confronto si può esplicitare attraverso la misurazione della differenza o del rapporto tra modalità, con numeri decimali all’interno di un intervallo. (MISURAZIONE) (maggiore/minore/uguale e +/- inteso come differenza tra 2 o più unità). posso non solo dire se i due dati sono uguali/diversi, maggiori/minori, ma anche di quanto sono differenti. TIPOLOGIE DI SCALE APPLICABILI A FENOMENI DI CARATTERE QUANTITATIVO - SCALE DI INTERVALLI : determinate da uguale/diverso, maggiore/minore e di quanto maggiore/minore (differenza)

X = determina il carattere X1, x2, x3…xk = determinano le modalità del carattere Ni = determina le frequenze totali (uguali al numero di unità statistiche) N1,n2,n3…nk = determina quante volte la modalità corrispondente è frequente) SESSO (CARATTERE) Xi FREQUENZE Ni MASCHIO (MODALITA’) X1 5 n FEMMINA (MODALITA’) X2 5 n TOT. 10 ETA’ (CARATTERE) Xi FREQUENZE ni 27 (MODALITA’) X1 3 n 24 (MODALITA’)X2 2 n 21 (MODALITA’)X3 5 n TOT. 10 Se il carattere di osservazione è:

o QUALITATIVO SCONNESSO: si ordinano i dati in modo casuale

o QUANTITATIVO CONTINUO: si ordinano i dati in range (intervalli)

- FREQUENZE RELATIVE (fi) = il rapporto tra ciascuna frequenza assoluta e la somma di tutte le frequenze assolute. Quando la frequenza viene rapportata al totale (frequenza/numero delle unità statistiche totali). Permettono di cogliere meglio il modo di distribuirsi del carattere. Fi = ni/N N.B. perdono una informazione fondamentale: la numerosità delle osservazioni (la robustezza del risultato è condizionato dalla numerosità delle osservazioni). Es. N = 350 (numero di unità statistiche su cui si compie rilevazione e analisi con carattere SESSO) n1= 25 (numero di unità con MODALITA’ FEMMINE) Frequenza Relativa = n1/N = 25/350 = 0. - FREQUENZE PERCENTUALI (pi) = Quando la frequenza viene rapportata al totale e trasformata in percentuale, moltiplicando x100, il risultato ottenuto dalla frequenza relativa. Permettono di cogliere meglio il modo di distribuirsi del carattere. N.B. perdono una informazione fondamentale: la numerosità delle osservazioni (la robustezza del risultato è condizionato dalla numerosità delle osservazioni) Pi = ni/N x100% = fi x100% Es. N = 350 (numero di unità statistiche su cui si compie rilevazione e analisi con carattere SESSO) n1= 25 (numero di unità con MODALITA’ FEMMINE)

Frequenza Percentuale = (n1/N) x100 = (25/350) x100 = 0.07 x 100 = 7 = 7%

- FREQUENZE CUMULATE = servono a rispondere a domande del tipo: Quanti studenti hanno dato meno di 2 esami? Le frequenze cumulate possono calcolarsi per caratteri ordinabili (almeno qualitativi ordinabili) e possono determinarsi rispetto alle frequenze assolute, relative o percentuali. per calcolare le frequenze cumulate dobbiamo “cumulare”, che in termini matematici equivale a “sommare”

o ASSOLUTE : è data dalla somma di tutti i valori assoluti

i

Ni =  nj  n1  n2  ...  ni

J=

Es. CARATTERE = tutti gli studenti che hanno dato almeno 1 esame 0 (n1) 10 1 (n2) 25 2 (n3) 5 totale 40 Frequenze cumulate assolute= 25 + 5 = 30

o RELATIVE : è data dalla somma di tutti i valori di frequenza relativi

i

fi =  fj  f1  f2  ...  fi

J=

Es. CARATTERE = tutti gli studenti che hanno dato almeno 1 esame 0 (n1) 10 1 (n2) 25 2 (n3) 5 totale 40 Frequenze cumulate relative= (25 + 5) / 40 = 0,

o PERCENTUALI: è data dalla somma di tutti i valori di frequenza percentuali

i

pi =  pj  p1  p2  ...  pi

J=

Es. CARATTERE = tutti gli studenti che hanno dato almeno 1 esame 0 (n1) 10 1 (n2) 25 2 (n3) 5

- rappresentazione tramite rettangoli (si disegnano in corrispondenza di ciascuna modalità dei rettangoli di stessa base e altezza proporzionale alle frequenze. Tali rettangoli possono essere disegnati anche in senso orizzontale, in quel caso le modalità saranno elencate nell’asse delle y e le frequenze sull’asse delle x) i rettangoli vanno messi in ordine crescente (gerarchico) CARATTERI QUANTITATIVI DISCRETI: - grafico a barre (le frequenze sono rappresentate soltanto da un segmento lineare, Il grafico viene disegnato quindi su un piano cartesiano, dove sull'asse orizzontale si riportano le modalità – discrete – del carattere, e sull'asse verticale le rispettive frequenze. La barra è disegnata soltanto in corrispondenza del valore puntuale del carattere, per mettere in evidenza che questo è discreto) CARATTERI QUANTITATIVI CONTINUI : sono rappresentati tramite tabelle con modalità espresse in classi. La presenza delle classi richiede alcune accortezze. Innanzi tutto, al fine della costruzione del grafico, è fondamentale tener conto dell'ampiezza della classe. AMPIEZZA CLASSE aiwi1wi ai= ampiezza classe wi= valore di inizio range wi+1 = valore di fine range Per depurare le frequenze dalla diversa ampiezza delle classi si devono calcolare le densità di frequenza, ovvero quanto le mie osservazioni sono “addensate” all’interno della classe. E’ come se le osservazioni venissero distribuite equamente all’interno della classe. L'ipotesi è quella di equidistribuzione. DENSITA’ DI FREQUENZA li= ni/ai li= densità di frequenza ni= frequenze assolute (espresse in numeri finiti) ai= ampiezza di classe - istogramma : è fondamentale che le aree dei rettangoli rispettino le proporzioni tra le frequenze osservate. L'area del rettangolo è data da base x altezza, dove la base è l'ampiezza dell'intervallo. vediamo quindi che considerando nel rettangolo l’altezza pari alla densità, la corrispondenza tra area e frequenza è rispettata. Inserire i valori degli intervalli (linea orizzontale) rispettandone le proporzioni Inserire i valori della densità di frequenza (linea verticale) L’area del rettangolo che deriva dal range di valori x la densità di frequenza di ogni modalità è proporzionalmente giusta, infatti il risultato di questa operazione sarà uguale al numero di frequenze assolute di quell’area.

ai x li = ni MEDIA/INDICE DI TENDENZA = indice sintetico adatto a descrivere la tendenza del fenomeno. Permette di sintetizzare con un unico valore (attributo) l'intera distribuzione osservata

o MEDIA DI POSIZIONE = indice sintetico ricavato facendo riferimento alla particolare

posizione occupata da una osservazione nella distribuzione. È sempre determinabile per qualsiasi tipologia di caratteri (caratteri qualitativi e quantitativi)  MODA = è la modalità xi di un fenomeno statistico che presenta frequenza (assoluta, relativa o percentuale) più elevata. Può essere facilmente individuata osservando attentamente il grafico della distribuzione, perché corrisponde alla modalità (con barra, rettangolo, sezione, ecc) maggiore. Se le classi hanno diversa ampiezza, l'individuazione della Moda (in questo caso parliamo in realtà di classe modale) avviene in corrispondenza del massimo di densità di frequenza. Per comodità, una volta individuata la classe con massima densità, si definisce Moda il valore centrale del rispettivo intervallo. Può succedere inoltre che ci siano più valori con frequenza più elevata, allora tutti vengono considerati mode e in questo caso che la distribuzione è plurimodale o individuare la frequenza più elevata all’interno della distribuzione o se la distribuzione è per classi, calcolare le densità di frequenza e individuare la densità maggiore o trovare la modalità, o classe modale, che corrisponde a tale massimo o tale modalità è la Moda  MEDIANA = (indicatore di tendenza generale) valore che occupa la posizione centrale all’interno della distribuzione. Quel valore (centrale) che, una volta ordinati i dati del campione, lascia alla sua sinistra e alla sua destra la metà del campione, ossia che divide a metà la distribuzione dei dati ordinati. Rappresenta un valore di equilibrio all'interno della distribuzione, poichè metà delle osservazioni saranno maggiori della Mediana e metà inferiori. Affinchè la Mediana sia determinabile, i dati devono essere ordinabili e devono essere ordinati. L’esatta posizione varia a seconda che il numero di dati sia pari o dispari. La posizione deve essere un numero intero. Ricordarsi che la Mediana non è la posizione, ma il valore che occupa quella posizione. Come trovare la posizione centrale (N=numero del campione): o Se N è dispari: Me= (n+1)/2 (una mediana) o Se N è pari. Ho due valori al centro, uno di posizione e l'altro in posizione successiva (2 mediane). Il valore della Mediana in questo caso è dato dalla media tra le 2 mediane trovate. È un eccesso di sintesi, poiché solitamente il valore della mediana deve essere un valore assoluto e non decimale.  Me1= n/Me2= (n/2)+

 Vedere in quale classe si trova il risultato di n/4, identificando in quale classe si trova il primo quartile Q1xi[(n/4) )(Ni1)] / li n/4) = totale delle unità statistiche (frequenze assolute) diviso 4 Ni-1 = frequenze cumulate nella classe precedente a quella identificata del primo quartile Li= valore corrispondente al rapporto tra frequenze assolute della classe del primo quartile e tra differenza dell’ampiezza della classe del primo quartile Q2 = valore che lascia il 50% dei dati a sinistra e il 50% a destra (Ricordiamo che il secondo quartile corrisponde alla Mediana); Q3 = valore che lascia il 75% dei dati a sinistra e il 25% a destra; Q3xi[(3/4) x n)(Ni1)] / li ¾ x n = totale delle unità statistiche (frequenze assolute) per 3/ Ni-1 = frequenze cumulate nella classe precedente a quella identificata del terzo quartile Li= valore corrispondente al rapporto tra frequenze assolute della classe del terzo quartile e tra differenza dell’ampiezza della classe del terzo quartile o DECILI quando k= 10 (divide in 10 parti uguali) I decili vengono usati spesso nell'analisi della povertà. Il primo decile D1 è quel valore che lascia a sinistra il 10% delle osservazioni e a destra il 90%. Dall’altra parte, possiamo considerare l’ultimo decile, che divide la distribuzione con un 90% inferiore ad esso e solo un 10% superiore. o PERCENTILI quando k= 100 (divide in 100 parti uguali)

o MEDIA ANALITICA = si applica una particolare formula sui dati osservati. sarà necessario

poter sommare, moltiplicare, dividere, etc. tra loro i valori osservati. E’ per questo che sono applicabili soltanto se le modalità del carattere sono espressi numericamente, ossia se stiamo lavorando con caratteri quantitativi. le medie analitiche sono dei valori che vengono fuori dal risultato di una formula  MEDIA ARITMETICA = è il risultato di una operazione algebrica e l’informazione sintetizzata in queste medie è massima. La Media aritmetica può calcolarsi solo per caratteri quantitativi, poichè solo per questi è possibile sommare, moltiplicare e operare sulle modalità. n X=xi = xi x ni I=1 N N La media (aritmetica) è data dalla somma, diviso il numero di osservazioni.

La media aritmetica è sempre compresa tra la più piccola e la più grande delle modalità presenti nella distribuzione. La somma degli scarti tra i valori osservati e la media è sempre uguale a zero. Se tutte le osservazioni vengono aumentate di uno stesso valore a, anche la media risulterà aumentata di a. Se tutte le osservazioni vengono moltiplicate per uno stesso valore b, anche la media risulterà moltiplicata per b. Se le modalità sono espresse in classi non possiamo applicare la formula appena introdotta in maniera diretta.  Calcolare per ogni intervallo il valore centrale C1 = (valore1 + valore2) /  Moltiplicare il valore centrale per le frequenze assolute corrispettive (c1 x n1, c2 x n2…)  Sommare tutti i valori ottenuti da ci x ni  Dividere per il numero delle frequenze assolute cumulate (per tutte le unità statistiche) MEDIA PONDERATA= viene calcolata sommando i valori in analisi, ognuno moltiplicato per un PESO (coefficiente) che ne definisce l’importanza, e dividendo tutto per la somma dei PESI.

il caso di dati campionari e dati della popolazione si manifesta solo nel denominatore. Per i dati campionari si deve dividere per (N-1).

 ²   (xi  x )² x ni = si² x ni = [1/N (  xi² x ni)]  x²

N N

si² x ni = è determinato dalla somma di tutti i valori, per tutte le osservazioni (cumulati) se ogni modalità è stata osservata una sola volta non si moltiplica x ni

- SCOSTAMENTO QUADRATICO MEDIO (SQM)= indice di variabilità come scostamento delle osservazioni dalla rispettiva media aritmetica alla stessa unità di misura del fenomeno. (radice quadrata del valore di varianza) se ogni modalità è stata osservata una sola volta non si moltiplica x ni

 =  (xi  x )² x ni =  [1/N (  xi²  ni)]  x²

N

- VARIABILITA’ RELATIVA = quando voglio mettere in relazione la variabilità di fenomeni differenti. Devo l'indice di variabilità dalla diversa dimensione del fenomeno. Visto che la media è vista come un indice sintetico di tendenza del fenomeno, posso prendere questa come indice della dimensione del fenomeno. Depuro il σ (scostamento quadratico medio) dalla dimensione del fenomeno, semplicemente rapportando σ alla media. COEFFICIENTE DI VARIAZIONE (CV)= indice di variabilità relativa CV(/x)100 CV= (SQM/media aritmetica) 100 - STANDARDIZZAZIONE = trasformazione lineare dei dati, che viene effettuata ricorrendo ai due parametri fondamentali di una distribuzione: la media e lo scarto quadratico medio. Il ricorso ai valori standardizzati aiuta a capire come è fatta la distribuzione oggetto di studio. Regola empirica di una distribuzione regolare simmetrica

o circa il 68% delle osservazioni si trova entro  uno SQM della media

o circa il 95% delle osservazioni si trova entro  2 SQM della media

o circa il 99% delle osservazioni si trova entro  3 SQM della media

Un valore standardizzato positivo indica che il valore è sopra la media. Un valore standardizzato superiore in valore assoluto a 2 è probabilmente un valore anomalo (si discosta più di due volte lo sqm dalla media). Un valore standardizzato superiore a 3 in valore assoluto è molto insolito e quasi sicuramente rappresenta un valore anomalo.

Z(Xx)/   (1/   X)x/BOX PLOT o GRAFICO A SCATOLA= serve a rappresentare la variabilità della distribuzione, sugli indici di variabilità di posizione DISTRIBUZIONE DOPPIA DI FREQUENZE = quando sulle singole unità statistiche si osservano contemporaneamente due caratteri e oltre ad analizzare l'andamento della singola variabile (X o Y), si è interessati a verificare l'esistenza di una dipendenza tra questi due. TABELLA DI FREQUENZA ASSOLUTA CONGIUNTA/TABELLA DOPPIA= esprime come si distribuiscono le unità rispetto ad entrambi i due caratteri osservati (posso calcolare le frequenze relative e percentuali nella stessa modalità vista precedentemente). la tabella a doppia entrata è formata da “h” (tante quante sono le modalità assunte da Y) e “k” (quante sono le modalità assunte da X). Nij= frequenza relativa alla coppia di caratteri (xi, yi) i= 1,2,3…k (X) j= 1,2,3…h (Y) X/Y Y1 Y2 … yh totale X1 N11 N12 … N1h N X2 N21 N22 … N2h N … … … … … … xk Nk1 Nk2 … nkh Nk totale N1 N2 … nh N  DISTRIBUZIONI MARGINALI= distribuzioni univariate ovvero le tabelle semplici (per ciascuna delle variabili X e Y) ricavate dalla tabella doppia. Distribuzioni della solo X o della sola Y derivate dalla distribuzione doppia XY. Si definiscono marginali, perché si trovano sempre al margine della tabella doppia che descrive XY (vedi riga/ colonna colorata in tabella). FREQUENZE RELATIVE CONGIUNTE ( esprime come si distribuiscono le unità rispetto ad entrambi i due caratteri osservati depurandoli dalla numerosità) Fij = nij/N Nij= valore osservato per variabile (valore dato dall’incrocio di X e Y nelle sue modalità) N= totale delle osservazioni  DISTRIBUZIONI CONDIZIONATE= possiamo vedere come si distribuisce il carattere "X", condizionatamente a Y, ossia vediamo come si distribuisce il carattere X non nel suo complesso, ma solo tra Y=j. Nella distribuzione di Y, condizionata a j, la numerosità totale è il totale delle frequenze osservate per quel carattere e non quelle complessive, quindi le frequenze osservate dovranno essere divise per tale ammontare, per ricavarsi le frequenze relative. Come si distribuisce il carattere Y, limitatamente alle osservazioni in cui X=xi (ovvero in cui X presenta la modalità i). Y|X=xi

nij= valore della frequenza effettivamente osservate in una data distribuzione doppia (frequenze assolute) nj= valore delle frequenze cumulate per la modalità j (Yj) ni= valore delle frequenze cumulate per la modalità i (Xi) N= numerosità totale delle osservazioni X e Y sono assolutamente indipendenti se ciascuna frequenza relativa della doppia è uguale al prodotto delle corrispondenti frequenze relativa marginali Fij = fi x fj Fij= valore della frequenza relativa (frequenza relativa di nij) Fi= frequenza relativa di ni Fj= frequenza relativa di nj  INDICE DEL CHI QUADRATO (x greca)= indice che misura la dipendenza tra i due caratteri X e Y sulla differenza tra le frequenze osservate e quelle che si sarebbero dovute osservare nel caso di indipendenza. Quanto più le frequenze osservate nij si discostano da quelle teoriche di indipendenza, tanto più i due caratteri osservati saranno dipendenti tra loro. CONTINGENZA = differenza tra le frequenze osservate e quelle teoriche dell’indipendenza perfetta. Cij= nij – nij* Nij= frequenze osservate in tabella doppia per una data distribuzione Nij= frequenze teoriche calcolate con formula ( (ni x nj)/N) per una data distribuzione INDICE DI DIPENDENZA DEL CHI²= misura il grado il livello e la presenza di una interdipendenza tra X e Y.  ² = (nij − nij)² / nij H K Χ² =*  (nij – nij) ² / nij I=1 j=** Nella prima formula bisogna calcolare per ogni coppia di caratteri il valore della contingenza² fratto la frequenza teorica della coppia di caratteri inerente. Nella seconda formula per trovare l’indice del chi² bisogna sommare tutti i valori ottenuti con la formula precedente. Quanto più le frequenze osservate nij si discostano da quelle teoriche di indipendenza, tanto più elevato sarà il valore di χ2. Se x² (chi²) è = 0 siamo nel caso dell’indipendenza, mentre se x²> 0, ci troviamo nel caso di dipendenza tra X e Y. se χ2 > 0 non riusciamo a dire

quanto è forte la dipendenza. Ai fini di una corretta interpretazione della dipendenza è utile avere un indice che vari tra zero (assenza di dipendenza) e 1 (massima dipendenza). INDICE RELATIVO DI MASSIMA DIPENDENZA = mi calcola quale può essere il valore maggiore di chi² (x²)  ²max = nmin[( h −1);(k −1)] In questa formula bisogna moltiplicare N (la numerosità totale) per il numero minore -1 tra X e Y (quello che ha meno righe/colonne tra i 2) N= numerosità totale di tutte le unità considerate Min= determina che bisogna scegliere il numero più basso tra quelli compresi in parentesi h-1= numero delle modalità del carattere Y (se scelto bisogna sottrarre 1) k-1= numero delle modalità del carattere X (se scelto bisogna sottrarre 1) INDICE DI CRAMER = indice relativo di dipendenza, che può variare tra zero ed uno. V = √2 / nmin[( h −1);(k −1)] V= √2/²max Se V = 0 -> indipendenza Se V = 1 -> massima dipendenza Se 0<V<1 -> bisogna stabilire quanto è il grado di dipendenzaGRAFICO DI DISPERSIONE = serve a comprendere se due caratteri quantitativi X e Y sono dipendenti o meno. Lo scatterplot (grafico a dispersione) è il metodo grafico più idoneo e utilizzato per rappresentare i nostri dati (X,Y) , infatti le variabili (X,Y) vengono interpretate come assi di un piano cartesiano e ogni coppia di osservazioni relativa all’unità i-esima (Xi,Yi) come un punto su tale piano. CONCORDANZA, DISCORDANZA E ASSENZA DI LEGAME Per comprendere se si è in presenza di concordanza, discordanza o assenza di legame, è utile riportare sul grafico il baricentro, corrispondente al punto di coordinate con le medie. Il baricentro si ottiene trovando la coordinata tra la media dei valori di X e la media dei valori di Y. A questo punto vediamo come si comportano i diversi punti osservati rispetto al baricentro. In base alla loro posizione relativa al baricentro è possibile definire se esiste o meno un legame. CONCORDANZA = Dati due caratteri quantitativi X e Y, si ha concordanza tra di essi, se a valori più piccoli di X corrispondono valori più piccoli di Y e a valori più grandi di X corrispondono valori più grandi di Y. DISCORDANZA = Dati due caratteri quantitativi X e Y, si ha discordanza tra di essi, se a valori più piccoli di X corrispondono valori più grandi di Y e a valori più grandi di X corrispondono valori più piccoli di Y.