Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Concetti Fondamentali e Metodi di Analisi - Prof. Perchinunn, Appunti di Statistica Descrittiva

appunti di statistica presi a lezione e tratti da sbobinature

Tipologia: Appunti

2018/2019

Caricato il 02/03/2019

rossella-vacca
rossella-vacca 🇮🇹

5

(6)

11 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA (capitolo 1 a 5)
È una scienza che comprende metodologie e tecniche per la raccolta, presentazione e
sintesi di informazioni, allo scopo di agevolare l’analisi e l’interpretazione dei
fenomeni.
È fatta di metodologie e tecniche. Si parte dal DATO che può essere reperibile o già
disponibile attraverso sondaggi, censimenti. Per interpretare i dati, si classificano o
presentano attraverso grafici e/o tabelle.
OBIETTIVO> analisi e interpretazione dei fenomeni.
La statistica si divide in: descrittiva e inferenziale.
DESCRITTIVA: evidenzia le regolarità presenti nei dati attraverso l’analisi delle
diverse caratteristiche della popolazione;
INFERENZIALE: è un metodo induttivo che consente di ottenere informazioni sulla
popolazione a partire dai dati di un campione.
PAROLE CHIAVE DELLA STATISTICA
1) unità statistica: è l’unità elementare su cui si osservano i caratteri oggetto di
studio;
- semplici: l’unità di base è un singolo individuo o una singola unità elementare;
- composte: aggregazione di più unità semplici che formano un unico aggregato;
- multiple: più unità semplici che non formano un unico aggregato però sono in
relazione tra loro.
2) carattere: è un particolare aspetto rilevato o misurato sulle unità statistiche che
sintetizza il fenomeno oggetto di studio (età, statura, sesso, titolo di studio)
- quantitativo quando è riferito a valori numerici (es reddito, età..)
-discreto: se assume un numero intero di possibili modalità
-continui: se assume qualunque valore compreso nell’intervallo dei numeri reali,
tra un valore e l’altro c’è continuità;
- qualitativo quando è riferito ad attributi (sesso, titolo di studio..)
-ordinabili o rettilinei: gli attributi ammettono un ordine naturale di successione;
- non ordinabili o sconnessi: (contrario)
3) modalità è il singolo valore (nel caso di caratteri quantitativi) o il singolo attributo
(nel caso di caratteri qualitativi) che un carattere può assumere.
4) frequenza: numero di volte in cui una data modalità si presenta nel collettivo
oggetto di studio
RILEVAZIONE DEI DATI
È la fase attraverso la quale si perviene alla individuazione e definizione dei dati e
alla successiva raccolta di essi. La rilevazione può essere di due tipi:
- globale: se le rilevazioni si riferiscono all’intera popolazione;
- parziali: quando riguardano un sottoinsieme (campione) ridotto della popolazione di
riferimento.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Concetti Fondamentali e Metodi di Analisi - Prof. Perchinunn e più Appunti in PDF di Statistica Descrittiva solo su Docsity!

STATISTICA (capitolo 1 a 5)

È una scienza che comprende metodologie e tecniche per la raccolta, presentazione e sintesi di informazioni, allo scopo di agevolare l’analisi e l’interpretazione dei fenomeni. È fatta di metodologie e tecniche. Si parte dal DATO che può essere reperibile o già disponibile attraverso sondaggi, censimenti. Per interpretare i dati, si classificano o presentano attraverso grafici e/o tabelle. OBIETTIVO> analisi e interpretazione dei fenomeni. La statistica si divide in: descrittiva e inferenziale. DESCRITTIVA: evidenzia le regolarità presenti nei dati attraverso l’analisi delle diverse caratteristiche della popolazione; INFERENZIALE: è un metodo induttivo che consente di ottenere informazioni sulla popolazione a partire dai dati di un campione.

**PAROLE CHIAVE DELLA STATISTICA

  1. unità statistica:** è l’unità elementare su cui si osservano i caratteri oggetto di studio;

- semplici: l’unità di base è un singolo individuo o una singola unità elementare;

  • composte: aggregazione di più unità semplici che formano un unico aggregato;
  • multiple: più unità semplici che non formano un unico aggregato però sono in relazione tra loro.

2) carattere: è un particolare aspetto rilevato o misurato sulle unità statistiche che sintetizza il fenomeno oggetto di studio (età, statura, sesso, titolo di studio)

  • quantitativo quando è riferito a valori numerici (es reddito, età..) -discreto: se assume un numero intero di possibili modalità -continui: se assume qualunque valore compreso nell’intervallo dei numeri reali, tra un valore e l’altro c’è continuità;
  • qualitativo quando è riferito ad attributi (sesso, titolo di studio..) -ordinabili o rettilinei: gli attributi ammettono un ordine naturale di successione;
    • non ordinabili o sconnessi: (contrario)

3) modalità è il singolo valore (nel caso di caratteri quantitativi) o il singolo attributo (nel caso di caratteri qualitativi) che un carattere può assumere.

4) frequenza: numero di volte in cui una data modalità si presenta nel collettivo oggetto di studio

RILEVAZIONE DEI DATI

È la fase attraverso la quale si perviene alla individuazione e definizione dei dati e alla successiva raccolta di essi. La rilevazione può essere di due tipi:

  • globale: se le rilevazioni si riferiscono all’intera popolazione;
  • parziali: quando riguardano un sottoinsieme (campione) ridotto della popolazione di riferimento.

Cos’è un campione? È una parte di tutte le unità statistiche costituenti una popolazione, che consente di ottenere un immagine ridotta ma abbastanza fedele del collettivo. n = campione N = popolazione (collettivo)

FRAZIONE DI CAMPIONAMENTO n/N > indica il rapporto tra le unità incluse nel campione e le unità dell’intero collettivo.

INTERVALLO DI CAMPIONAMENTO N/n > ci dice l’intervallo tra ogni unità prescelta e quella successiva.

Il campionamento può avere due scelte: 1) CASUALE : si ottiene mediante la scelta delle unità in maniera casuale e avremo un componimento:

  • CASUALE SEMPLICE: che si ottiene estraendo un unità in maniera casuale e può essere CON RIPETIZIONE reintroducendo l’unità estratta;
  • CASUALE SISTEMATICA: si ottiene mediante scelta di un intervallo di separazione fisso tra un unità e l’altra
  • CASUALE A GRAPPOLO: si ottiene scegliendo unità contigue tra loro;
  • CASUALE STRATIFICATA: si ottiene mediante costruzione di strati della popolazione con elementi omogenei tra loro; da ogni strato vengono estratte con componimento semplice le unità da inserire nel campione
  • CASUALE A DUE STADI: si ottiene mediante individuazione di unità di 1°grado e 2°grado nel campione di riferimento

2) RAGIONATA : sono frutto dell’intervento dell’operatore. La fase di rilevazione Ragionata si ottiene mediante l’individuazione di unità nel campione sulla base della conoscenza, da parte dell’operatore, della struttura della popolazione

RACCOLTA DEI DATI:

  1. LOGO: chi fa l’indagine;
  2. TITOLO del questionario;
  3. BREVE INTRODUZIONE;
  4. STRUTTURA DEL QUESTIONARIO: individuare le domande da far rispondere per raggiungere l’obiettivo:
  • dati demografici;
  • info questionario;
  • verifica domande;
  1. ringraziamento Le domande possono essere a risposta multipla o aperte.

TABELLE STATISTICHE

RAPPRESENTAZIONI GRAFICHE

Costituiscono uno dei mezzi più efficaci per descrivere in forma visiva i risultati derivanti dalla classificazione dei dati riguardante i diversi caratteri del collettivo. Assumono forme diverse a seconda del tipo di dato che viene rappresentato (caratteri qualitativi o quantitativi). Obiettivi Le rappresentazione grafiche consentono di evidenziare relazioni tra due o più caratteri o di osservare l’evoluzione di un fenomeno nel tempo e nello spazio.

  1. DIAGRAMMA CARTESIANO > si utilizza per la rappresentazione grafica delle variabili statistiche discrete. Si ottiene facendo corrispondere ad ogni modalità xi una corrispondente frequenza ni

  2. ISTOGRAMMA si utilizza nel caso di variabili statistiche continue o di variabili statistiche discrete con un elevato numero di modalità. Le modalità sono raggruppate in classi o intervalli.

  3. PIRAMIDE DELLA POPOLAZIONE rappresenta una fotografia della popolazione residente in un dato luogo. È costituita da due istogrammi contenenti informazioni relative a classi di età, sesso, stato civile.

  4. DIAGRAMMA INTEGRALE O DELLE FREQUENZE ACCUMULATE si ottiene ponendo sull’asse delle ascisse le modalità e sull’asse delle ordinate le frequenze accumulate o la funzione di ripartizione.

  5. DIAGRAMMA CARTESIANO viene utilizzato per rappresentare le serie storiche. Sull’asse delle x si rappresentano i tempi, su quella delle ordinate i corrispondenti valori del fenomeno

  6. DIAGRAMMA A SETTORI CIRCOLARI (A TORTA) per rappresentare le mutabili rettilinee o sconnesse Per rappresentare le m.s cicliche si utilizza il diagramma polare. È necessario fissare un punto 0 detto polo, tracciare una semiretta detta asse polare. Ogni punto del piano è individuato da 2 coordinate raggio e argomento (teta).

  7. ISTOGRAMMA PERCENTUALE

  8. nel caso di serie statistiche territoriali si utilizza il cartogramma - si ottiene rappresentando una mappa avente una colorazione differente delle diverse aree a seconda dell’entità del fenomeno osservato – o il cartodiagramma > si ottiene ponendo figure geometriche di dimensioni proporzionali al fenomeno osservato in corrispondenza delle diverse aree territoriali.

A volte dobbiamo rappresentare due fenomeni (variabili statistiche doppie) è possibile utilizzare la NUVOLA DI PUNTI o SCATTER ottenuta rappresentando in maniera puntuale le coppie di valori xi e yi. Inoltre è possibile utilizzare lo STEREOGRAMMA per variabili statistiche discrete e il LISTOGRAMMA nel caso di variabili statistiche divise in classi.

RAPPORTI STATISTICI

Si ottiene ponendo a confronto due intensità o frequenze A e B. per mettere a confronto A e B bisogna che:

  1. ci sia un nesso logico tra le due;
  2. abbiano unità di misura uguali tra loro;

1- DIFFERENZA ASSOLUTA E RELATIVA – nel 1° caso rapporto due termini, nel 2° rapporto i due termini rispetto alla differenza assoluta fra loro.

2 – SAGGI DI INCREMENTO O DECREMENTO – variazioni relative riferita ad unità di tempo. Le variazioni assolute sono espresse nella stessa unità di misura del fenomeno osservato; le variazioni relative sono NUMERI PURI ovvero numeri primi di unità di misura. Le misure relative consentono di effettuare confronti tra fenomeni aventi ordine di grandezza o unità di misura differenti tra loro.

3 – RAPPORTI DI COMPOSIZIONE, DERIVAZIONE E DURATA Rapporti di composizione (o di parte al tutto) si ottiene rapportando l’intensità o la frequenza di un fenomeno rispetto all’intensità o frequenza assoluta.

Rapporti di derivazione si ottengono rapportando l’intensità o la frequenza di un fenomeno rispetto all’intensità o frequenza di un altro fenomeno che ne rappresenta il presupposto necessario.

Rapporto di durata esprime la durata media di permanenza delle unità elementari di un collettivo

I NUMERI INDICI

Permettono di misurare le variazioni del prezzo di una data merce, nel tempo. Pongono a confronto le intensità o frequenze di uno stesso fenomeno in tempi o luoghi diversi rispetto ad un termine di confronto detto BASE. La BASE può essere FISSA o VARIABILE. La base fissa si ottiene quando poniamo al denominatore uno stesso termine di confronto rispetto all’anno o, all’anno medio, al valore caratteristico. La base variabile si ottiene, invece, facendo un rapporto con una base che cambia di volta in volta, e si rapporta l’intensità e la frequenza rispetto al valore che occupa la posizione precedente. Un numero indice è un NUMERO PURO. Generalmente viene moltiplicato per 100 pertanto il valore ottenuto indicherà l’incremento o il decremento rispetto a 100. Nel caso delle serie territoriali ha senso calcolare i numeri indici a base fissa con riferimento al numero di anni medi o un termine particolare. Non ha senso calcolare i numeri indici a base variabile.

NUMERI INDICI COMPLESSI

Esistono tante medie ma le dividiamo in due categorie:

  1. ANALITICHE
  • aritmetica
  • geometrica
  • armonica
  • di potenze
  1. LASCHE
  • mediana
  • moda
  • quantili (o quartili)

Possiamo definire VALORE MEDIO quel valore interno all’intervallo x1 < x < xN (proprietà di cauchy)

(solo per medie analitiche) proprietà di chisini – il valore medio è quel valore che sostituito a tutti i termini della distribuzione ne lascia invariata una certa funzione di f

  1. MEDIA ARITMETICA – è quella media che sostituita a tutti i termini della distribuzione ne lascia invariata la funzione somma Le proprietà della media: 1) somma algebrica degli scarti della media è sempre uguale a zero;
  2. la somma dei quadrati degli scarti della media è sempre uguale ad un minimo*
  3. la media aritmetica è associativa – la media totale si può ottenere come media aritmetica ponderata delle medie parziali (dei singoli gruppi)
  4. proprietà traslativa – aggiungendo a tutti i valori xi una costante k, il risultato che ottengo dalla m. aritm. è pari alla media precedente aumentata di K
  5. proprietà omogenea – moltiplicando tutti i valori xi per una costante k la media artimetica risulterà moltiplicata per k
  6. se le xi sono tra loro in progressione aritmetica con N dispari, la media arit. coinciderà con il termine che occupa la posizione centrale.

2) MEDIA GEOMETRICA

È quel valore che sostituito a tutti i termini della distribuzione ne lascia invariata la funzione prodotto. Si calcola solo quando le modalità sono negative. La media geometrica si utilizza nel caso in cui sia necessario calcolare tassi medi di rendimento di un capitale nel tempo La media geom. ha tre proprietà:

  1. la m. geom di più rapporti è uguale al rapporto tra la m geom dei termini al numeratore e la media geom dei termini al denominatore;

  2. la m geom è omogenea ovvero moltiplicando tutti i valori xi con una costante k anche la media geom risulterà essere moltiplicata per k.

  3. se le xi sono tra loro in progressione geom, con n dispari la m geom sarà il termine che occupa la posizione centrale.

  4. MEDIA ARMONICA

La m armonica è quel valore che sostituito a tutti i termini della distribuzione ne lascia invariate la funzione somma degli inversi. La m armonica si utilizza nel caso di problemi che richiedano la proporzionalità inversa dei termini (consumo, durata)

  1. MEDIA DI POTENZE È quel valore che sostituito a tutti i termini della distribuzione ne lascia invariata la funzione somma di potenza

MEDIE LASCHE

Le medie analitiche utilizzano per il calcolo della sintesi tutti i termini della distribuzione o della serie > tutti i valori xi Invece le medie lasche si basano solamente su alcuni dei valori della distribuzione, considerando la loro posizione nella graduatoria ordinata dei termini > alcuni xi Si individua il valore centrale nella distribuzione dei valori. Il valore centrale esprime il centro del campo di variazione della variabile statistica. È dato dalla semisomma tra i valori estremi.

1) MEDIANA è quel valore che bipartisce (divide in 2 parti esattamente uguali) la graduatoria ordinata dei termini lasciando un ugual numero di valori a sinistra e a destra del termine prescelto. Nel caso in cui vi sia una distribuzione di frequenza per calcolare la mediana è necessario calcolare le frequenze accumulate Ni in quanto esse ci indicano la posizione occupata dai termini nella graduatoria ordinata. Nel caso di distribuzioni divise in classi per calcolare il valore preciso della mediana è necessario calcolare prima la classe mediana e poi andare ad individuare il valore preciso interno alla classe attraverso la seguente formula.

Le proprietà della mediana: 1) la somma degli scarti in valore assoluto della mediana è un minimo;

QUANTILI Valori che dividono la distribuzioni ordinata dei termini in n parti

2) QUARTILI Valori che dividono la distribuzione ordinata dei termini in 4 parti uguali

3) MODA O valore modale, il valore di xi che si presenta con la massima frequenza. Le distribuzioni possono essere UNIMODALI o PLURIMODALI. La moda è usata in biometria o antropometria in quanto consente di analizzare i fenomeni più frequenti.

CAMPO DI VARIAZIONE : si indica con w e si ottiene facendo la differenza tra modalità più grande e più piccola (vedo quanto è ampio il mio campo di valori); è molto sensibile alla presenza di valori o molto alti o molto bassi agli estremi (valori anomali nelle code) DIFFERENZA INTERQUARTILICA elimina la differenza di tali valori e quindi è meno sensibile alla presenza di valori anomali.

DISUGUAGLIANZA

Misura di quanto in media ogni grandezza differisce dalle altre. La differenza media è la media delle differenze in valore assoluto tra tutte le coppie di valori. L’indice è la differenza media di Gini che può essere con ripetizione o senza ripetizione (vedi formula quaderno). Nel caso in cui il numero delle modalità sia elevato è possibile utilizzare delle formule alternative per il calcolo della differenza semplice media con o senza ripetizione (DE FINETTI PACELLO) vedi quaderno. Se N è molto grande è possibile utilizzare delle formule alternative per il calcolo della diff. Sem media nel caso di distribuzione di frequenza.

VARIABILITA’ RELATIVA

Le misure di variabilità si distinguono in ASSOLUTE e RELATIVE. Gli INDICI DI VARIABILITA’ ASSOLUTA sono espressi nella stessa unità di misura delle osservazioni. Se le osservazioni sono espresse, invece, in unità di misura diverse, non vi è relazione tra loro, le distribuzioni sono formate da rapporti occorrono gli INDICI DI VARIABILITA’ RELATIVA che si ottengono rapportando la misura di variabilità assoluta Va rispetto alla media o al valore massimo che la variabilità può assumere. Il caso di minimo della variabilità si ha quanto tutti i termini sono uguali tra loro, uguali a zero. Più difficile è individuare le distribuzioni massimanti della variabilità. Vengono rilevati i valori x(1) e x(n) oltre alla misura della media aritmetica. Attraverso una serie di passaggi è possibile ottenere le distribuzioni massimanti della variabilità dei singoli indici. In particolare la distribuzione massimante dello scarto semplice medio sarà data da: (vedi quad)

CONCENTRAZIONE Si utilizza nel caso di fenomeni di tipo trasferibile per verificare se l’ammontare complessivo è concentrato in pochi elementi oppure è equo distribuito. In primo luogo è necessario ordinare i termini in ordine crescente in maniera tale che x(1) < x(2) < x(n)

pi= i/N è la frazione degli i redditieri più poveri qi= Ai/An è la frazione di reddito globale posseduta dagli i redditieri più poveri

se l’ammontare globale dei redditi fosse distribuito egualmente tra tutti gli N individui si dovrebbe avere pi=qi. La rappresentazione grafica di questi valori darebbe luogo alla retta di equidistribuzione. Quando pi > qi congiungeremmo con una spezzata o una linea continua i punti risultanti si otterrebbe la curva di concentrazione o curva di Lorenz. La concentrazione di misura con il rapporto di concentrazione di Gini (vedi quaderno).

Nel caso di distribuzione di frequenza o variabilità stat divise in classi il rapporto di concentrazione si calcola:

Il rapporto di c è anche calcolabile come misura di variabilità relativa alla media.

ASIMMETRIA

Una distribuzione stat si dice SIMMETRICA quando dividendo in 2 parti la distribuzione e ribaltando il ramo di sinistra con quello di sinistra, coincidono. Alcune variabili statistiche sono caratterizzate da una simmetria quasi perfetta delle singole determinazioni xi intorno al valore mediano; nel caso di una distribuzione il diagramma o istogramma si presentano in forma simmetrica, nel senso che il ramo a destra della mediana si identifica al ramo a sinistra.

esprimono i totali delle frequenze delle colonne, cioè il numero di volte in cui si presentano le modalità yh.

INDIPENDENZA IN GENERALE Studia la relazione di causa-effetto di una variabile da un’altra variabile. La variabile y si dice indipendente da x quando essa rimane costante al variare dei valori assunti da x. In particolare il carattere y si dice indipendente da x se la distribuzione parziale condizionata di y da x non varia. Quindi le frequenze relative della distribuzione condizionata di y da x devono essere uguali tra loro.

Considerando il termine generico cioè nih (freq.generica congiunta) possiamo affermare che vi è indipendenza in generale quando nih è uguale al totale di riga e colonna fratto la numerosità del collettivo. Questa condizione si verifica nel caso in cui tutte le freq congiunte rispettino tale condizione. Indipendenza in generale è RECIPROCA ovvero se c’è indipendenza in generale di x da y ci sarà anche ind in generale di y da x.

INDIPENDENZA IN MEDIA Non è RECIPROCA a differenza dell’indipendenza in generale > avranno dunque indipendenza in media di x da y e non viceversa. Quindi nel caso in cui vi sia indipendenza in media di y da x non è detto che si sia indipendenza in media di x da y. Ponendo il carattere x come CARATTERE INDIPENDENTE e il carattere y come CARATTERE DIPENDENTE è possibile verificare se esiste indipendenza in media di y da x attraverso il CALCOLO DELLE MEDIE PARZIALI.

In particolare si ha indipendenza in media di y da x quando: y media1 = y media2 = y media ovvero quando tutte le medie parziali di y coincidono tra loro e coincidono con la media generica di y. Si ha invece indipendenza in media di x da y quando le medie parziali di x sono uguali tra loro e sono uguali alla media generale di x. X media1 = x media2 = x media

Per ottenere le medie parziali si somma ogni valore di x moltiplicato per le freq congiunte fratto le distribuzioni marginali.

Può capitare che ci sia indipendenza in media di x da y e non di y da x. La media generale non è altro che una media aritmetica ponderata delle medie parziali, quindi se le medie parziali saranno uguali tra loro, la media generale sarà uguale. Se y media1 e y media2 sono diverse è inutile continuare a calcolare per vedere se c’è indipendenza in media.

QUANDO C’E’ INDIPENDENZA IN GENERALE C’E’ SEMPRE

INDIPENDENZA IN MEDIA;

SE NON C’E’ INDIPENDENZA IN GENERALE PUO’ ESSERCI

INDIPENDENZA IN MEDIA;

REGRESSIONE

Dopo aver verificato l’assenza di indipendenza in generale o in media tra 2 caratteri quantitativi x e y è possibile affermare che tra esse esiste una relazione. Possiamo avere 2 tipi di relazione :

  • DIPENDENZA;
  • INDIPENDENZA;

Si ha indipendenza di y da x o di x da y nel caso in cui sia possibile definire a priori quale sia il carattere antecedente (o indipendente) e quale sia il carattere conseguente (o dipendente). In genere indichiamo il carattere x come carattere indipendente o antecedente e il carattere y come carattere conseguente o dipendente. Quindi quella che noi studiamo è la dipendenza di y da x. La dipendenza da y da x ci dice come varia il carattere y rispetto a x. Parliamo di interdipendenza nel caso in cui non sia possibile definire a priori quale sia il carattere antecedente e quale sia il conseguente. L’INDIPENDENZA è uno studio di sue caratteri in relazione simmetrica tra loro (come varia y al variare di x e come varia x al variare di y).

La dipendenza si studia in base al modello di regressione. L’indipendenza viene studiata attraverso la correlazione.

Attraverso l’analisi della dipendenza di y da x si cerca di individuare un modello idoneo a spiegare una relazione causa-effetto tra 2 variabili.

Nel caso di tabelle a doppia entrata la dev totale (dev y) si scompone in 3 componenti: Dev (y) = Dev (R) + Dev (L) + Dev (e)

Inoltre è possibile affermare che la Dev (L) + Dev (e) sono uguali alla Dev (E). Si ha ora che: Dev (R) + Dev (L) = Dev (c)

Dove Dev (c) è la somma

Da questa deriva l’INDICE QUADRATICO DI CONNESSIONE

Una derivazione della Dev (L) è l’INDICE DI NON LINEARITA’

CORRELAZIONE

Parliamo di interdipendenza nel caso in cui non sia possibile definire il carattere antecedente e conseguente tra x e y. La misura assoluta dell’interdipendenza è la CODEVIANZA di xy. Attraverso la CODEV possiamo conoscere il segno dell’interdipendenza, in particolare se

CODEV xy > 0 diremo che c’è concordanza. Se gli scarti sono concordante (tutti e due negativi o positivi) all’aumentare di x aumenta anche y. Quando la codev xy < 0 gli scarti sono discordanti, all’aumentare di x, y diminuisce e viceversa. Gli scarti hanno segni opposti. Una misura relativa di interdipendenza è il COEFFICIENTE DI CORRELAZIONE (r) dato dal rapporto tra CODEV xy e radice quadrata del prodotto delle devianze.

Posso ottenere il coefficiente di correlazione? Si ottiene mediante incrocio geometrico (media) tra il coefficiente di regressione di y da x e di x da y. Che relazione c’è tra r e R^2 (indice di determinazione)? L’indice di determinazione si può ottenere dal quadrato del coefficiente di correlazione ma non viceversa perché l’indice di determinazione può avere solo valori positivi.

LA COGRADUAZIONE

Nel caso in cui i caratteri osservati siano rappresentabili sotto forma di graduatoria (con posti o ranghi) è possibile studiare la relazione esistente attraverso misure di cograduazione. In tal caso al posto dei caratteri xi e yi avremo delle graduatorie ri e si che esprimono il posto in senso crescente occupato nella graduatoria.

INDICE QUADRATICO DI COGRADUAZIONE (SPEARMAN)

INDICE DI COGRADUAZIONE DI GINI

LE MUTABILI STATISTICHE

La mutabile statistica è una distribuzione i cui caratteri sono di tipo qualitativo. Possono essere:

  • RETTILINEE le cui modalità ammettono un ordine naturale di successione e per le quali è possibile definire sia la prima sia l’ultima modalità.
  • CICLICHE si riferiscono a caratteri qualitativi che ammettono un ordine naturale di successione, ma non è possibile definire quale sia la prima e l’ultima modalità in quanto si ripetono in maniera ciclica.
  • SCONNESSE si riferiscono a caratteri qualitativi le cui modalità non ammettono un ordine naturale di successione. Si rappresentano con:
  1. diagramma a settori circolari;

In maniera alternativa all’indice di associazione possiamo avere l’INDICE QUADRATICO DI CONTINGENZA