Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Classificazione delle Variabili Statistiche: Esercizi e Quiz, Appunti di Statistica Sociale

Riassunto libro Statistica per le scienze sociali

Tipologia: Appunti

2018/2019
In offerta
40 Punti
Discount

Offerta a tempo limitato


Caricato il 04/06/2019

giuseppe_panareo
giuseppe_panareo 🇮🇹

4.5

(40)

14 documenti

1 / 43

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica per le scienze sociali
La statistica è la tecnica che ha per scopo la conoscenza quantitativa dei fenomeni collettivi. La statistica
tratta una varietà di tecniche, ognuna con finalità diverse, volte ad analizzare un insieme di valori
risultanti dall’osservazione di un fenomeno collettivo caratterizzato da una certa varibilità.
Cap. 1
Analizzare un fenomeno sociale
La realtà può essere indagata attraverso due tipi di ricerca: quello quantitativo (standard) e quello
qualitativo (non standard). Entrambi i tipi di ricerca passano attraverso 4 fasi:
La progettazione o disegno della ricerca.
La rilevazione dei dati.
L’analisi dei dati.
La comunicazione dei risultati.
Nella ricerca quantitativa queste fasi sono sequenziali, la raccolta dei dati numerici organizzati in forma
di matrice, la cosiddetta matrice dei dati è un incrocio di un fascio di vettori riga che fanno riferimento a
oggetti unità detti casi e un fascio di vettori colonna o variabili che fanno riferimento alle caratteristiche
di proprietà di queste unità, all’incrocio di questi vettori si trovano i dati.
Che cosa è un dato?
Nel linguaggio della ricerca sociale, per dato si intende l’esito di un processo di rilevazione delle
informazioni. Il dato è la trattazione simbolica di una informazione e affinche si parli di dato è necessario
che esisita una caratteristica (proprietà) posseduta da un unità e che di essa sia stata fornita una
definizione operativa cioè sia stato stabilito un insieme di regole e convenzioni per trasformare gli stati
di questa caratteristica (caratteri) in numeriri da inserire nella matrice dei dati. La maggior parte delle
proprietà nelle ricerche sociali non sono immediatamente traducibili in numeri. In questo caso avremo
bisogno di una convensione che colleghi ciscun grado di accordo a un particolare numero, secondo una
corrispondenza uno a uno in successione, cioè dovremo formulare un piano di codifica che ci consenta
di registrare le modalità della variabile all’interno della matrice.
Tre livelli per il dato
I dati grezzi vengono chiamati microdati che vengono poi elaborati ai fini dell’analisi e della
comunicazione dei risultati in macrodati. Quando nel linguaggio comune si parla di statistiche si fa
riferimento ai macrodati che sono microdati aggregati tramite una funzione che può agire sul vettore
riga o su quello colonna della matrice. I metadati invece forniscono informazioni e dettagli sui processi
di produzione dei dati.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
Discount

In offerta

Anteprima parziale del testo

Scarica Classificazione delle Variabili Statistiche: Esercizi e Quiz e più Appunti in PDF di Statistica Sociale solo su Docsity!

Statistica per le scienze sociali

La statistica è la tecnica che ha per scopo la conoscenza quantitativa dei fenomeni collettivi. La statistica tratta una varietà di tecniche, ognuna con finalità diverse, volte ad analizzare un insieme di valori risultanti dall’osservazione di un fenomeno collettivo caratterizzato da una certa varibilità.

Cap. 1

Analizzare un fenomeno sociale La realtà può essere indagata attraverso due tipi di ricerca: quello quantitativo (standard) e quello qualitativo (non standard). Entrambi i tipi di ricerca passano attraverso 4 fasi:

  • La progettazione o disegno della ricerca.
  • La rilevazione dei dati.
  • L’analisi dei dati.
  • La comunicazione dei risultati. Nella ricerca quantitativa queste fasi sono sequenziali, la raccolta dei dati numerici organizzati in forma di matrice, la cosiddetta matrice dei dati è un incrocio di un fascio di vettori riga che fanno riferimento a oggetti unità detti casi e un fascio di vettori colonna o variabili che fanno riferimento alle caratteristiche di proprietà di queste unità, all’incrocio di questi vettori si trovano i dati. Che cosa è un dato? Nel linguaggio della ricerca sociale, per dato si intende l’esito di un processo di rilevazione delle informazioni. Il dato è la trattazione simbolica di una informazione e affinche si parli di dato è necessario che esisita una caratteristica ( proprietà ) posseduta da un unità e che di essa sia stata fornita una definizione operativa cioè sia stato stabilito un insieme di regole e convenzioni per trasformare gli stati di questa caratteristica (caratteri) in numeriri da inserire nella matrice dei dati. La maggior parte delle proprietà nelle ricerche sociali non sono immediatamente traducibili in numeri. In questo caso avremo bisogno di una convensione che colleghi ciscun grado di accordo a un particolare numero, secondo una corrispondenza uno a uno in successione, cioè dovremo formulare un piano di codifica che ci consenta di registrare le modalità della variabile all’interno della matrice. Tre livelli per il dato I dati grezzi vengono chiamati microdati che vengono poi elaborati ai fini dell’analisi e della comunicazione dei risultati in macrodati. Quando nel linguaggio comune si parla di statistiche si fa riferimento ai macrodati che sono microdati aggregati tramite una funzione che può agire sul vettore riga o su quello colonna della matrice. I metadati invece forniscono informazioni e dettagli sui processi di produzione dei dati.

L’unità statistica L’unità statistica di una ricerca rappresenta l’unità elementare su cui vengono rilevate le variabili oggetto dell’analisi statistica, nella ricerca sociale la più diffusa è l’individuo usato nelle indagini campionarie o nei sondaggi, per esempio nei rilievi sugli individui le variabili saranno altezza, peso, colore degli occhi, istruzione.. Il censimento della popolazione, aggregato di individui, e delle abitazioni ha come unità la famiglia, che è data da tutti gli individui che la compongono. Si distingue tra unità di raccolta (o rilevamento) e unità d’analisi (o di riferimento), la prima è oggetto sociale a cui si riferiscono le caratteristiche studiate, la seconda è quello a cui queste vengono attribuite nella fase di analisi dei dati. Esistono altre unità tipiche della ricerca sociale ovvero l’ evento e il prodotto culturale , il primo è un accadimento periodico unico, come le elezioni politiche il secondo un messaggio di comunicazione tipo i libri, gli articoli, i discorsi politici. La popolazione (o collettivo) Un insieme di unità omogenee rispetto a una o più caratteristiche rappresenta una popolazione o collettivo esse vengono sempre collocate in una ricerca nello spazio e nel tempo. Si distingue tra quelle precisando un unico istante di tempo, popolazioni di stato e quelle definibili in un intervallo di tempo popolazioni di movimento. Al primo gruppo fanno parte quelle in cui bisogna stabilire un momento preciso in cui fermare il tempo e contare le unità, il secondo si fa riferimento invece ad un lasso di tempo. Una popolazione finita è detta empirica se tutte le unità che la compongono possono entrare a far parte della ricerca, mentre è detta popolazione teorica se solo alcune di esse possono essere osservate. La rilevazione dei dati La rilevazione dei dati o fase di campo è detta anche di costruzione della documentazione empirica, tipicamnete quando si esegue questa fase bisogna decidere se fare un indagine che riguarda tutta la popolazione (indagine totale) o parziale (indagine campionaria). In quest’ultima le unità che la compongono devono essere scelte a caso per il rispetto delle leggi della probabilità (campione probabilistico). Le tecniche di rilevazione di tipo standard per ottenere informazioni si basano su:

  • Osservare.
  • Interrogare.
  • Leggere. Una tecnica basata sull’osservazione è l’esperimento i cui i cambiamenti introdotti dal ricercatore (stimoli) cambiano parte della realtà, mentre quella che si basa sull’interrogazione di soggetti è il questionario considerata una tecnica standard. Il questionario può essere:
  • Face to face (prevede la presenza fisica dell’intervistatore).
  • Telefonico.
  • Autosomministrato (autocompilazione modalità più economica).

convenzionale e sono consentite solo l’addizzione e la sottrazione tra le modalità, nella scala di rapporti invece lo zero è naturale e si possono confrontare in rapporto di modalità. Esempi di scale a intervalli sono la temperatura, la latitudine e la longitudine mentre esempi di scale a rapporti sono l’età, il reddito, la statura , i consumi, i debiti, etc.. Ogni scala a intervalli è riconducibile alle scale di rapporti fissando un origine convenzionale. Un altra caratteristica delle variabili quantitative è la sua trasferibilità che è la proprietà di quantità che può essere trasferita ad un altra unità, per esempio il reddito di un individuo. Altre classificazioni delle variabili Per le variabili quantitative si distingue tra variabili dicotomiche che hanno solo due modalità (maschio, femmina) e variabili politomiche che hanno più di due categorie. A volte in fase di analisi dei dati proprio per utilizzare tecniche più sofisticate il ricercatore dicotomizza variabili politomiche per esempio aggregando il tipo di lavoro in autonomo o dipendente. Esistono poi casi di dipendenza tra due variabili la prima prenderà il nome di variabile indipendente la seconda variabile dipendente per esempio al variare del titolo di studio varia il tipo di occupazione. Infine c’è distinzione tra variabili latenti e variabili manifeste , le prime hanno proprietà molto generali che sono direttamente osservabili (intolleranza, benessere, etc) e richiamano concetti astratti che vengono operativizzati nelle seconde. Variabili e analisi statistica Volendo fare un riassunto delle variabili usate in statistica in merito alle principali tecniche usate:

  • Variabili (o categoriali) qualitative con categorie non ordinate
  • Variabili (o categoriali) qualitative con categorie ordinate
  • Variabili (o cardinali) quantitative discrete
  • Variabili (o cardinali) quantitative continue L’analisi dei dati L’analisi dei dati riguarda la scelta delle tecniche statistiche più appropriate in base alle variabili a disposizione del ricercatore e ai suoi obbiettivi conoscitivi. Statistica descrittiva e statistica inferenziale La statistica descrittiva ha l’obbiettivo di ridurre i dati e di rappresentarli in forma sintetica attraverso distribuzioni, valori caratteristici e coefficienti grafici. La statistica inferenziale si basa sulla teoria della probabilità e consente di generalizzare estendendo i risultati ottenuti osservando un piccolo campione , scelto a caso, ed estenderlo a tutto l’insieme.

Tipi di analisi statistica e legami tra variabili Se l’obbiettivo è studiare le variabili di un fenomeno ognuna presa separatamente allora si parla di una analisi univariata se invece l’obbiettivo è studiare il legame tra due variabili allora si parla di analisi bivariata , se invece le variabili sono tre o di più allora si parla di analisi multidimensionale o multivariata dei dati. Le analisi multidimensionale sono analisi descrittive mentre se l’obbiettivo è inferenziali le analisi sono multivariata. In casi di analisi multidimensionali ci sono fondamentalmente due scopi:

  • Classificare i dati della nostra matrice stabilendo somiglianze e differenze (Cluster analysis)
  • Sintetizzare un insieme di varibili manifeste in un numero minore di variabili latenti Nel caso di analisi multivariata il fine è di spiegare la contemporanea variazione delle variabili indipendenti e della variabile dipendente ed accertarsi che essa indichi davvero un rapporto di causa ed effetto e non si tratti invece di cosiddette relazioni spurie in tal caso si possono usare tecniche di significatività delle ipotesi che permettono di inferire i risultati alla popolazione di cui è stato estratto il campione.

Cap. 2

Distribuzione unitaria, di frequenze assolute e di quantità La forma più elementare di rappresentazione di una variabile è la distribuzione unitaria semplice che consiste nell’elencazione delle modalità di una variabile, si parla invece di distribuzione unitaria multipla quando l’elencazione viene effettuata su più di una variabile. Per le distribuzioni unitarie per sintetizzare si ricorre alla distribuzione di frequenza che corrisponde ad organizzare i dati in un numero di unità che possiedono tutti una determinata modalità. Questo numero è definito in statistica frequenza assoluta della modalità mentre l’intera distribuzione è detta distribuzione delle frequenze assolute. Oltre alle distribuzioni di frequenze si possono realizzare delle distribuzioni di quantità che non indicano il numero di volte in cui si presenta una certa modalità, ma l’ammontare globale (somma) della variabile quantitativa per ogni modalità. Per calcolare una distribuzione di quantità è necessario che la variabile sia trasferibile. Distribuzione di frequenze relative e percentuali Nell’analisi dei dati spesso il ricercatore deve confrontare distribuzioni di frequenza della stesssa variabile di due diverse rilevazioni è necessario riportare il numero dei casi delle distribuzioni a uno stesso totale, passando così dalle frequenze assolute a quelle relative. La frequenza relativa è il rapporto tra la frequenza assoluta e il numero totale di casi della distribuzione. La somma delle frequenze relative è uguale a 1, possono poi essere trasformate in percentuali moltiplicandole per 100 e

Rappresentazioni grafiche delle distribuzioni di frequenze. Il contenuto di una distribuzione emerge con più chiarezza comunicativa se la si racchiude in un grafico che è un disegno in cui alle frequenze delle modalità di una distribuzione corrispondono delle unità geometriche elementari (punti, linee, angoli, superfici). I grafici sono del tutto autonomi dalle tabelle e si differiscono in base al tipo di variabile di cui si raffigura la distribuzione. Pittogrammi Un grafico utilizzato per scopi divulgativi che contiene figure e simboli che ricordano l’oggetto a cui si riferiscono le proprietà che vengono ripetute quante volte è la frequenza, tipicamente per un pubblico di non esperti. Quando le frequenze sono multiple delle frequenza indicata il pittogramma è costituito da una figura parziale proporzionata. Ortogrammi Gli ortogrammi sono grafici utilizzati per variabili qualitative con categorie non ordinate , (ad esempio le malattie o il colore degli occhi) le frequenze sono riportate su un piano cartesiano disponendo le modalità sulle ascisse e le frequenze sulle ordinate. Le modalità sono sono rappresentate da linee, rettangoli, parallelepipedi e possono essere diagrammi a nastri disposti orizzontalmente o diagrammi a colonne disposti verticalmente con lunghezza proporzionale alla frequenza. Diagramma a colonne Diagramma a nastri

Aereogrammi L’aereogramma è un grafico in cui le frequenze vengono rappresentate suddividendo l’area di una figura piana in parti proporzionali alle frequenze stesse, di solito si usano con variabili qualitative e il più famoso è il diagramma a torta o quello senza centro detto ad anello. Quest’ultimo ha il vantaggio di non indurre il lettore alla percezione di un ordine o di una gerarchia tra le categorie. Diagramma a torta Diagramma ad anello Un altro aereogramma è quello a barre suddivise utile quando si vogliono confrontare composizioni di due o più gruppi e consiste in un rettangolo suddiviso in fasce d’altezza proporzionali alle frequenze delle varie categorie. Diagramma a barre suddivise

Istogramma a basi differenti Quest’ultimo si calcola con la densità di frequenza (F assoluta/ampiezza) da porre sulle ordinate. Se si congiungono tutti i punti medi dei lati superiori dei rettangoli che compongono l’istogramma otteniamo una linea che rappresenta meglio la distribuzione che si chiama spezzata. L’area tra la spezzata e l’asse delle ascisse si chiama poligono di frequenza. Quando si sovrappongono due poligoni per confronti in alcuni casi di analisi di età di una popolazione si ottiene la cosiddetta piramide delle età. Quando una spezzata ha l’origine dell’ordinata diversa da zero si utilizza spesso un zig-zag sull’asse delle ordinate oppure si tronca il grafico in un punto molto vicino all’origine degli assi. Cartogrammi I cartogrammi sono grafici particolari eseguiti su carte geografiche, hanno al caratteristica di essere molto leggibili anche per i non esperti.

Cap 3

Sintetizzare le distribuzioni di frequenze i valori centrali I valori caratteristici Molto spesso si ha la necessità di sintetizzare le caratteristiche essenziali della distribuzione di frequenze attraverso uno o più valori, al fine per esempio di effettuare confronti nel tempo, nello spazio o tra circostanze differenti. Questi valori sintetizzati prendono il nome di valori caratteristici e si dividono in valori centrali o centri e i valori di disuguaglianza. I primi si usano quando si vuole riassumere la distribuzione di frequenza con un unico valore, i secondi indicano invece quanto sono diversi i casi della distribuzione sulle varie modalità della variabile. I valori centrali I valori centrali si usano nel caso di variabili quantitative, ed è un qualsiasi valore non inferiore al valore minimo e non superiore al valore massimo, si usano molte volte nella vita di tutti i giorni quando usiamo espressioni come mediamente. L’uomo della strada tuttavia usa questi valori in modo inconsapevole senza interrogarsi su quale siano i vantaggi e gli svantaggi di ciascuno di essi. Nel caso di variabili qualitative con valori non ordinati ai fini del calcolo dei valori caratteristici si utilizzano unicamente le frequenze delle modalità. Nel caso la variabile abbia categorie ordinate si terrà conto oltre che delle frequenze anche della posizione occupate dalla varie modalità. In genere si distingue tra i valori centrali analitici o sintetici, che vengono calcolati tramite algoritmi sui valori di una variabile cardinale e valori centrali non analitici che invece operano sulle frequenze. Moda Il valore centrale più semplice è la moda che è quello con la frequenza più alta, se la distribuzione è aggregata in classi si parla di classe modale e sarà quella classe con frequenza più alta. Se la distribuzione ha una sola moda si dice unimodale , se ha 2 mode bimodale , se ne ha 3 trimodale ecc. Mediana Per le variabili con categorie ordinate oltre che alle frequenze delle varie modalità si tiene conto anche delle posizioni occupate e questo ordine prende il nome di valori posizionali il più noto è la mediana che può essere calcolato anche per le variabili quantitative. La mediana è la modalità posseduta dall’unità che occupa il posto centrale di una distribuzione ordinata , per calcolarla è necessario ordinare le N unità in modo crescente e sarà differente se N sarà un numero pari o dispari. Se N è dispari la mediana occupa la posizione centrale della distribuzione ordinata in modo crescente e si calcola con la formula (N+1)/2. Se N è pari, non ci sarà un unica mediana in quanto esistono 2 punti centrali (N/2) e (N/2) +1. Se questi punti sono occupati dalla stessa modalità quella sarà la mediana. Quando N è grande conviene utilizzare le frequenze cumulate relative o percentuali mentre se la variabile è quantitativa si può considerare mediana la semisomma dei valori delle due unità centrali. Se la distribuzione della variabile cardinale è suddivisa in classi, la classe che contiene la mediana è chiamata classe mediana. Me=1 +(0.5- F) (f-F)

Cap 4

Sintetizzare e confrontare le distribuzioni I valori di disuguaglianza Perchè si possa attuare una sintesi davvero efficace è necessario tenere conto anche del modo in cui i casi si distribuiscono tra le diverse modalità della variabile cioè della loro disuguaglianza. I valori (o indici) di disuguaglianza indicano proprio come sono diversi i casi di una distribuzione, essi assumono valore minimo quando tutti i casi sono uguali e valore massimo quando ogni caso è diverso dall’altro. L’accuratezza di un valore centrale dipende inversamente dalla disuguaglianza che c’è tra le modalità della distribuzione. Per quantificare i cambiamenti si procederà in maniera diversa in base al tipo di variabile che si ha a disposizione. Nel caso di variabili categoriali con categorie non ordinate questi saranno valutati sulla base delle frequenze e si parlerà di eterogeneità (o squilibrio). Nel caso delle variabili categoriali ordinate il numero dei cambiamenti, oltre che sulle frequenze, sarà calcolato anche in base al numero di posizioni che si deve scalare nella gerarchia delle modalità e si chiamerà dispersione. Infine con variabili cardinali i cambiamenti saranno calcolati come differenze tra quantità e disuguaglianza tra i valori e prenderà il nome di variabilità. I valori di disuguaglianza si distinguono in due categorie:

  • Delle singole modalità rispetto a un valore centrale o a una singola modalità della distribuzione.
  • Tra tutte le modalità della variabile considerata a coppie, la cosiddetta disuguaglianza reciproca. Un ulteriore distinzione è tra indici assoluti e indici relativi :
  • I primi possono assumere qualsiasi valore minimo e massimo e sono espressi nella stessa dimensione o unità di misura della variabile.
  • I secondi invece assumono valori che sono compresi tra un minimo di 0 e un massimo di 1 e siccome sono espressi da un numero privo di dimensione (numero puro) permettono il confronto tra distribuzioni diverse. Per passasre da un indice assoluto min/max ad un indice relativo da 0 a 1 con questa formula T= I-min/max-min Omogeneità (equilibrio) e eterogeneità (squilibrio) Perchè ci sia la massima omogeneità in una distribuzione tutti i casi devono essere stati assegnati alla stessa modalità della variabile (siano tutti) e viceversa la massima eterogeneità si ha quando le frequenze sono equidistribuite tra tutte le modalità della variabile, cioè ogni modalità ha un numero 1/K di casi dove K è il numero delle categorie della variabile. Una valutazione dell’eterogeneità di una distribuzione può essere data dal rapporto tra il numero di cambiamenti necessari per raggiungere l’omogeneità rispetto al numero di cambiamenti possibili. Indice di eterogeneità si calcola con la formula E=1-∑f dove f=n/N

Questo indice ha come minimo 0 nel caso di una modalità con una frequenza relativa pari a 1 e le altre modalità con frequenza pari a zero. Il massimo di E si ha invece quando tutte le frequenze relative sono uguali e cioè quando ogni frequenza relativa è uguale a 1/K. Dispersione Nel caso di variabili categoriali con categorie ordinate, un modo per valutare la dispersione che c’è nella distribuzione di frequenza è il confronto tra le modalità che assumono due valori di posizione. I più usati per questo confronto sono i quartili. La differenza tra il primo e il terzo quartile (differenza interquartile) può essere utilizzata come misura di dispersione. Differenza interquartile =Q₃-Q₂ La differenza interquartile attribuisce pieno significato numerico alle posizioni d’ordine che hanno le modalità all’interno della distribuzione, per questo motivo la differenza interquartile viene largamente utilizzata con le variabili cardinali pittosto che con quelle con categorie ordinate. Per avere minima dispersione bisogna determinare i cambiamneti da effettuare nella distribuzione per avere tutti lo stesso valore della modalità. Per determinare i cambiamenti da effettuare nella distribuzione per avere minima dispersione, cioè per far si che tutti abbiano la stessa modalità e tenere presente le posizioni che i soggetti dovrannno cambiare. La dispersione è uguale a zero quando tutte le frequenze di una distribuzione sono concentrate su un unica modalità mentre la dispersione è massima quando tutte le frequenze si suddividono in parti uguali tra le due modalità estreme. Variabilità rispetto a un centro Gli indici di variabilità più utilizzati per misurare la disuguaglianza della distribuzione di una variabile quantitativa confrontano i valori osservati con un valore caratteristico della distribuzione. Tra questi i più diffusi considerano la differenza dei valori dalla media aritmetica , detti scarti della media. Gli indici basati sugli scarti dalla media sono quattro:

  • Scostamento semplice medio SSM
  • Devianza
  • Varianza
  • Scarto quadrico medio (deviazione standard o scarto tipo). Nel primo caso gli scarti sono presi in valore assoluto, in tutti gli altri casi vengono elevati al quadrato. Il motivo è che se si prendessero gli scarti con i loro segni la loro somma darebbe 0. Lo Scostamento semplice medio è la media aritmetica degli scarti tra ciascun valore della distribuzione e la sua media presi in valori assoluto (SSM) dove X 1 = singolo valore μ = media aritmetica n= numero di casi Più spesso vengono utilizzati i quadrati degli scarti dalla media, la cui somma prende il nome di devianza. Elevare al quadrato trasforma tutte le differenze in valori positivi e inoltre le differenze più grandi sono messe in maggior risalto perchè aumentano più che proporzionalmnete rispetto a quelle più piccole.
  • un box che congiunge i valori che occupano il terzo e il primo quartile nel quale si colloca il 50% dei dati
  • due whiskers (baffetti) che congiungono valori che non superano 1.5 volte l’estensione del box La forma di una distribuzione: asimmetrica e curtosi Una distribuzione è asimmetrica quando non è possibile individuare un asse verticale che suddivida la distribuzione in due parti specularmente uguali. La nozione di asimmetria ha senso solo se il carattere è almeno ordinabile. Essa si misura confrontando gli indici di posizione più comuni:moda, mediana e media. Se la media supera la mediana significa che la distribuzione presenta in proporzione più valore verso il semiasse positivo delle x, cioè verso destra. In questo caso si avrà asimmetria positiva (a destra) viceversa , se la media è inferiore alla mediana avremo una coda verso sinistra e quindi asimetria negativa.
  • Simmetria, se Moda =Mediana=Media
  • Asimmetria positiva, se Moda<Mediana<Media
  • Asimmetria negativa se Media<Mediana<Moda Elevando al cubo gli scarti della media, indice M₃ può assumere valori positivi o negativi. Se M>0 si ha asimmetria positiva, se M<0 si ha asimmetria negativa. Il rapporto tra la parte centrale della distribuzione e le code si definisce curtosi. Concentrazione di una variabile trasferibile L’indice di concentrazione è costruito per variabili cardinali basate su proprietà trasferibili, cioè su proprietà che sono cedibili ad altre unità. La concentrazione massima si ha quando una sola unità possiede tutto il carattere e le altre non lo possiedono. L’indice di concentrazione misura il minimo in caso di equidistribuzione. Raporto di concentrazione di Gini è utilizzato come misura del benessere di una nazione. L’indice di concentrazione non valuta la ricchezza nel suo complesso, ma misura i livelli di disuguaglianza nei redditti e nelle ricchezze che sussistiono nei vari paesi. Ad esempio il 5% più povero delle famiglie dovrebbe, nel caso di equidistribuzione, possedere il 5% del reddito complessivo del paese P. Se non c’è equidistribuzione tutti i valori q sono inferiori ai valori p e danno luogo a una spezzata che prende nome di Curva di Lorenz. La standardizzazione Quando è necessario confrontare la distribuzione di due caratteri quantitativi bisogna trasformare i valori originali in valori standardizzati, cioè in valori che appartengono alla stessa scala, la cui unità di misura diventa la deviazione standard. Tale trasformazione dei valori originali prende il nome di standardizzazione che si ottiene sottraendo ad ogni valore la media e suddividendo il risultato per la deviazione standard.

Confronti basati sui rapporti Per confrontare i dati di una distribuzione ci sono i rapporti statistici con i quali si rapporta la frequenza di una modalità al totale delle frequenze della distribuzione, lo scopo è di analizzare quanta parte dei casi fosse associata a quella modalità. Il rapporto di composizione è il rapporto tra l’ammontare di una modalità e l’ammontare complessivo. Un altro tipo di rapporto è il rapporto di coesistenza che consiste nel dividere la frequenza di una modalità per quella di un altra modalità della variabile. I rapporti di largo uso in demografia sono i rapporti di derivazione che si eseguono tra la numerosità di un fenomeno e quella di un altro che può essere considerato il suo presupposto logico. Esiste per esempio il quoziente di natalità dato dal rapporto tra le nascite e la popolazione oppure il rapporto tra matrimonio e popolozione che prende il nome di quoziente di nuzialità mentre quello tra morti e popolazione quoziente di mortalità. Un ultimo tipo di rapporti sono i rapporti di densità definiti così mediante il rapporto tra dimensione globale di un fenomeno al numeratore e la dimensionse spaziale, temporale o caratterizzante cui esso fa riferimento al denominatore. Confronti basati sulle differenze Ci sono le serie temporali e territoriali: si dice serie temporale quando la sequenza di alcuni valori assume una variabile nello stesso gruppo di unità in tempi diversi. Si dice serie territoriale quando si intende la sequenza di valori assunti da una variabile nello stesso tempo, ma in aggregati territoriali diversi. Quando si vogliono studiare le variazioni di un fenomeno che è stato rilevato due volte in situazioni temporali e territoriali diverse si avverte l’esigenza di quantificarli tramite la differenza che prende il nome di differenza assoluta o variazione assoluta. I numeri Indice Per raffrontare l’andamento comlpessivo di una serie territoriale o temporale a un unica situazione di riferimento si ricorre a i numeri indice. Essi permettono di studiare l’intensità del cambiamento di uno stesso fenomeno nel tempo o nello spazzio rapportandolo a un contesto o a una situazione di riferimento chiamata base del numero indice che solitamente viene posta =100.

Cap 5

Analisi delle relazioni tra due caratteri Se si studia la relazione tra due sole variabili si parla di analisi bivariata (o bidimensionale), altrimenti se la relazione da studiare è tra più di due variabili si parla di analisi multivariata ( o multidimensionale). Rappresentazione congiunta di una coppia di fenomeni statistici: distribuzioni doppie di frequenze La distribuzione di frequenza multipla è un modo di organizzare contemporaneamente due variabili in una tabella, in modo tale da far corrispondere, a ogni coppia di modalità (x,y) di due variabili (X,Y) la frequenza congiunta nᵢⱼ, ovvero il numero di unità che possiedono contemporanaemente. Le frequenze congiunte vengono riportate in una tabella di contingenza o tabella a doppia entrata. All’interno di questa tabella sommando i valori dei totali di riga e dei totali di colonna, chiamati frequenze marginali, avremo la totalità del collettivo o popolazione della tabella, le distribuzioni che si ricavano dalla distribuzione doppia sono chiamati distribuzioni marginali. Se si considera una sola riga o una sola

Essendo l’indipendenza simmetrica si ricava che se X è indipendente da Y allora Y è indipendente da X e in formula equivale a dire che la frequenza semplice congiunta n è: n= nᵢ nⱼ /N nᵢ =marginale di riga nⱼ =marginale di colonna N=numero totale del collettivo Un carattere Y dipende perfettamente da X quando a ogni modalità di X è associata una sola modalità di Y e viceversa un carattere X dipende perfettamente da Y quando a ogni modalità di Y è associata una sola modalità di X con nᵢ≠ 0 e nⱼ≠ 0 in entrambi i casi la relazione è unidirezionale. Da cio ne consegue che l’interdipendenza può essere ragiunta solo nel caso di tabella quadrata ovvero stesso numero di righe e di colonne. Misure di dipendenza Data una distribuzione doppia di frequenze, fra le due variabili se non esiste ne indipendenza ne dipendenza perfetta, allora ci troviamo nel caso di connessione intermedia bisogna misurare il grado di dipendenza o indipendenza. Si parte dal calcolare sulla distribuzione i valori teorici ovvero quello che si avrebbe in caso di totale indipendenza statistica tra i due caratteri confrontati con le frequenze assolute congiunte effettivamente osservate, se si rilevano delle differenze notevoli allora tra le variabili non c’è indipendenza. Queste differenze prendono il nome di contingenze , dato però che la somma di tutte le contigenze è pari a zero si ricorre al suo quadrato, sommando tutti i rapporti tra le contigenze al quadrato e le frequenze teoriche si ottiene un indice noto come indice di associazione del Chi-quadrato di Pearson Ɣ² usato con le variabili qualitative quando sono state escluse relazioni di indipendenza. Le proprietà di questo indice sono:

  • E’ un indice simmetrico non tiene conto della direzione di dipendenza cioè rimane invariato scambiando X con Y
  • E’ sempre non negativo
  • Assume valori pari a 0 nel caso d’indipendenza
  • Assume valori prossimi allo 0 nel caso di bassa associazione
  • E’ più grande quanto più ci si allontana dal caso di indipendenza
  • A parità di associazione l’indice aumenta se aumenta il collettivo N Esistono anche altri indici come la contingenza quadrica media Φ²= Ɣ²/N e l’indice di Cramer Φ²/max, è opportuno ricordare che tutti questi indici dipendono dalla distribuzione di frequenza e non dalle modalità ecco perchè possono essere calcolati per misurare l’associazione tra due caratteri qualitativi sconnessi. E’ possibile misurare anche la dipendenza media di un carattere quantitativo da un carattere qualitativo con un indice chiamato rapporto di correlazione che si ottiene dal confronto tra le medie delle distribuzioni condizionate di Y rispetto alle modalità di X o viceversa inoltre è un rapporto asimmetrico. Questo indice assume valore 0 quando tutte le medie condizionate di Y dalle modalità di X sono uguali tra di loro oppure può assumere valore pari a 1 quando a ogni modalità di X corrisponde un solo valore di Y.

Le relazioni fra variabili quantitative Nello studio delle relazioni fra variabili quantitative se si conosce il verso della dipendenza logica, allora si utilizza lo strumento della regressione. Quando invece non è possibile sapere quale variabile dipende dall’altra si utilizza la correlazione che è un indice simmetrico. Le relazioni tra variabili possono essere di due tipi con principio di concordanza o quello di discordanza , hanno concordanza quando al crescere di X cresce Y e al decresere di X decresce Y si ha una correlazione lineare positiva , sono discordanti se al diminuire di X tende a crescere Y e viceversa si ha correlazione lineare negativa. Per l’analisi delle relazioni fra variabili si usano gli indici simmetrici di dipendenza lineare la codevianza che è la somma dei prodotti degli scarti dalle rispettive medie (o media del prodotto degli scarti) e la covarianza che si ottiene dividendo per il numero del collettivo N la codevianza. Se prevalgono i prodotti tra gli scarti di segno uguale, la codevianza sarà positiva, se prevalgono i prodotti di segno opposto allora sarà neativa. Ovviamente se le variabili X e Y sono indipendenti la covarianza è 0 e c’è assenza di dipendenza lineare ma potrebbe esserci una relazione di un altro tipo. La covarianza è un indice assoluto di concordanza/discordanza, la cui unità di misura è pari al prodotto delle unità di misura in cui sono espressi i caratteri osservati. Rapportando la codevianza al suo massimo si ottiene il coefficiente di corelazione lineare di Bravais-Pearson è un indice simmetrico che misura l’interdipendenza lineare tra le variabili e assume valori tra - 1 e 1. Le relazioni funzionali:la regressione Con l’analisi della regressione lineare si cerca di individuare un modello statistico che può essere utilizzato per scopi descrittivi, interpretativi, previsivi, è una rappresentazione semplificata ma soddisfaciente della realtà osservata per la relazione funzionale tra variabili. E’ definito da una legge che lega le variabili X e Y quando questa funzione di relazione è lineare la legge è quella di una retta: Y=a+bX con a intercetta sull’asse delle ordinate e b coefficiente angolare. In statistica a e b (b è detto coefficiente di regressione ) sono frutto di una stima in effetti nella realtà sociale ad un determinato valore di X possono anche corrispondere più valori di Y quindi la formula della retta diventa Y=a+bX+€ dove € indica il residuo o errore che serve a correggere i dati e trovare la Y come differenza dai valori osservati. €=Y1-Y-Y2-a-bX Questo metodo di stima per la determinazione dei coefficienti di regressione che ci porta ad identificare la retta che soddisfa la linearità tra le due variabili si chiama metodo dei minimi quadrati. Quando c’è concordanza tra le due variabili b sarà maggiore di 0 e la pendenza della retta sarà positiva se c’è discordanza la b sarà minore di 0 e la pendenza della retta sarà negativa se invece c’è codevianza nulla caso di indipendenza lineare b sarà =0 e la retta sarà parallela all’asse delle ascisse. Per capire quanto la retta di regressione sia adatta a rappresentare i dati, ci sono due strategie: