Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Statistica dei Dati: Unità Statistica, Caratteri e Variabili - Prof. Bove, Sintesi del corso di Statistica

Riassunti concetti teorici statistica, Giuseppe Bove

Tipologia: Sintesi del corso

2015/2016

Caricato il 13/07/2016

Utente sconosciuto
Utente sconosciuto 🇮🇹

4.3

(13)

8 documenti

1 / 12

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Fenomeni collettivi F 0
E 8
non si manifestano sempre allo
stesso modo e per essere studiati richiedono una pluralità di
osservazioni.
Unità statistica F 0
E 8
singola entità portatrice del fenomeno
che si vuole analizzare.
Popolazione N F 0
E 8
insieme delle unità statistiche su cui
interessa analizzare i fenomeni oggetti di studio.
Indagine: completa o parziale.
Campione F 0
E 8
insieme delle unità statistiche rilevate con un’indagine parziale.
Metodi di inferenza statistica F 0
E 8
consentono di estendere i risultati del campione alla popolazione.
Metodi di statistica descrittiva F 0
E 8
per descrivere l’informazione.
Carattere statistico F 0
E 8
ciascuna singola caratteristica rilevata sulle unità statistiche per studiare i
fenomeni.
Modalità Xi,XkF 0
E 8
modi di manifestarsi di un carattere statistico.
Popolazione F 0
E 8
unità statistica F 0
E 8
carattere statistico F 0
E 8
modalità.
Caratteri statistici qualitativi (modalità=parole)
no operazioni matematiche
Un carattere quantitativo può essere trasformato in qualitativo ordinato quando le sue modalità
vengono raggruppate in classi di intensità.
Variabile statistica X,Y F0
E 8
insieme delle modalità che un carattere statistico assume in una
determinata popolazione. Si dirà qualitativa nominale, ordinale o quantitativa (o cardinale) a
seconda del carattere statistico a cui è associata.
Questionario F 0
E 8
strumento per rilevare informazioni in un’indagine statistica; insieme di domande
predefinite, raccolte in gruppi omogenei rispetto la tematica (sezioni del questionario)
somministrate per intervista diretta, telefonica o autocompilazione.
Matrice di dati (per analizzare l’informazione) F 0
E 8
insieme di numeri e parole organizzati in righe e
colonne, in modo tale che a ciascuna riga sia associata una unità statistica e a ciascuna colonna una
variabile. La costruzione della matrice avviene in due fasi: 1. codifica dei dati e 2. F 0
E 8
memorizzazione dei dati. Il concetto di matrice di dati può sempre essere associato ad un foglio-dati
elettronico.
Tipi di analisi statistica della matrice dei dati F 0
E 8
univariata (una variabile), bivariata (due variabili),
multivariata (più di due variabili).
Analisi univariata F 0
E 8
obiettivi: individuare incongruenze nei dati, suggerire aggregazioni in classi
delle modalità e fornire prima informazioni di sintesi sul fenomeno.
F 0
9 F
sconnessi/nominali: date due
modali possiamo dire solo se sono
= o ;
F 0
9 F
ordinali/ordinati: date due
modalità possiamo dire se sono =,
e se ordinarle.
quantitativi (modalità=numeri) F 0
9 F
discreti: numeri interi;
si operazioni matematiche F 0
9 F
continui: numeri reali compresi in un determinato intervallo.
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Analisi Statistica dei Dati: Unità Statistica, Caratteri e Variabili - Prof. Bove e più Sintesi del corso in PDF di Statistica solo su Docsity!

Fenomeni collettivi F 0E 8 non si manifestano sempre allo stesso modo e per essere studiati richiedono una pluralità di osservazioni. Unità statistica F 0E 8 singola entità portatrice del fenomeno che si vuole analizzare. Popolazione N F 0E 8 insieme delle unità statistiche su cui interessa analizzare i fenomeni oggetti di studio.

Indagine: completa o parziale.

Campione F 0E 8 insieme delle unità statistiche rilevate con un’indagine parziale.

Metodi di inferenza statistica F 0E 8 consentono di estendere i risultati del campione alla popolazione.

Metodi di statistica descrittiva F 0E 8 per descrivere l’informazione.

Carattere statistico F 0E 8ciascuna singola caratteristica rilevata sulle unità statistiche per studiare i fenomeni.

Modalità X (^) i,X (^) k F 0E 8modi di manifestarsi di un carattere statistico.

Popolazione F 0E 8 unità statistica F 0E 8 carattere statistico F 0E 8 modalità. Caratteri statistici qualitativi (modalità=parole)

no operazioni matematiche

Un carattere quantitativo può essere trasformato in qualitativo ordinato quando le sue modalità vengono raggruppate in classi di intensità.

Variabile statistica X,Y F 0E 8 insieme delle modalità che un carattere statistico assume in una determinata popolazione. Si dirà qualitativa nominale, ordinale o quantitativa (o cardinale) a seconda del carattere statistico a cui è associata.

Questionario F 0E 8 strumento per rilevare informazioni in un’indagine statistica; insieme di domande predefinite, raccolte in gruppi omogenei rispetto la tematica (sezioni del questionario) somministrate per intervista diretta, telefonica o autocompilazione.

Matrice di dati (per analizzare l’informazione) F 0E 8 insieme di numeri e parole organizzati in righe e colonne, in modo tale che a ciascuna riga sia associata una unità statistica e a ciascuna colonna una variabile. La costruzione della matrice avviene in due fasi: 1. codifica dei dati e 2. F 0E 8 memorizzazione dei dati. Il concetto di matrice di dati può sempre essere associato ad un foglio-dati elettronico.

Tipi di analisi statistica della matrice dei dati F 0E 8 univariata (una variabile), bivariata (due variabili), multivariata (più di due variabili). Analisi univariata F 0E 8 obiettivi: individuare incongruenze nei dati, suggerire aggregazioni in classi delle modalità e fornire prima informazioni di sintesi sul fenomeno.

F 0 9 F sconnessi/ nominali : date due modalità possiamo dire solo se sono = o ≠; F 0 9 F ordinali /ordinati: date due modalità possiamo dire se sono =, ≠ e se ≠ ordinarle.

quantitativi (modalità=numeri) F 09 F discreti: numeri interi; si operazioni matematiche F 09 F continui: numeri reali compresi in un determinato intervallo.

Frequenze assolute F 0E 8 quante volte si ripete una modalità. =conta.se(cella:cella;criterio). Calcolo variabili con più modalita =conta.più.se(cella:cella;criterio;cella:cella;criterio). La tabella in cui si memorizzano le Fa si chiama distribuzione di frequenza.

Frequenza percentuale (peso relativo) F 0E 8 (fa:N)x

Proporzione F 0E 8fa/N Percentuali cumulate (solo per variabili ordinali e cardinali) F 0E 8si ottengono ordinando in modo crescente ciascuna modalità per poi sommare, a partire dall’alto, le frequenze percentuali fino alla riga corrispondente a quella modalità. La prima è sempre uguale alla percentuale corrispondente, mentre l’ultima è sempre uguale a 100. Passaggio dalle %cumulate alle fa F 0E 8 1 ordinare le modalità e calcolare le %: la prima corrispondealla cumulata corrispondente, le altre corrispondono alla differenza tra la %cumulata corrispondente alla % che si vuole calcolare e la %cumulata precedente 2 =(tot./100)*% corrispondente alla Fa che si vuole calcolare.

Aggregazione di modalità F 0E 8per migliorare la lettura della tabella e per ridurre la presenza di frequenze assolute molto basse.

Aggregare in classi la variabile significa suddividere in sotto-intervalli adiacenti l’intervallo numerico in cui varia la variabile cardinale. Non esistono criteri generali per suddividere una variabile cardinale in classi, un suggerimento è quello di evitare, quando possibile, classi con frequenza assoluta molto bassa e cercare di formare classi con ampiezza simile. Es. intervallo che va dal voto medio 26 a 30; un criterio adottabile è definire le seguenti classi 26 a 28 (voti medi) da 28 a 20 (voti medi alti) da 29 a 30 (voti medi molto alti). Alle tre classi corrisponderanno i seguenti sotto-intevalli dell’intervallo da 26 a 30: 26-|28 28-|29 29-|30. La presenza del trattino verticale indica che l’estremo è incluso, l’assenza indica che è escluso. A questo punto si potrebbe procedere a calcolare la distribuzione di frequenza in classi (es. per la classe 26-|28 =conta.se (cella:cella;”<=28”)). Quando la variabile cardinale può assumere solo valori interi classi e intervalli coincidono. Ampiezza F 0E 8 estremo superiore – estremo inferiore, 28-26=2 29-28= 30-29=

L’analisi di andamento è possibile quando le modalità della variabile sono ordinate.

Andamenti delle fa e delle % F 0E 8 non necessariamente coincidono.

Rappresentazioni grafiche F 0E 8 associano delle entità geometriche alle modalità e alle frequenze presenti in una tabella. Spesso consentono di cogliere più facilmente l’informazione. Ogni grafico è indipendente dalla tabella a cui si riferisce.

Grafico a colonne o a nastri F 0E 8 variabili qualitative e quantitative (eventualmente suddivise in classi). Se le variabili sono numerose è preferibile il grafico a colonne.

Grafico a torta (o aerogramma) F 0E 8 variabili qualitative e quantitative (eventualmente suddivise in classi).

Grafico a punti, segmenti o linee F 0E 8 variabili quantitative.

Istogramma F 0E 8 variabili quantitative divise in classi.

Grafico a colonne F 0E 8 modalità-asse delle ascisse(orizzontale), fa/%-asse delle ordinate(verticale). Le colonne sono equidistanti fra loro. Se la variabile è nominale riportare le modalità come si vuole, se

Calcolo della mediana nel caso venga in cui effettuato sulla distribuzione di frequenza che contenga le percentuali cumulate: la mediana coinciderà con la modalità in corrispondenza della quale la % cumulata per la prima volta sia al 50% (se = al 50% potrà considerarsi mediana anche la modalità successiva). Per le variabili qualitative ordinate il calcolo avviene con le stesse modalità delle v. cardinali; nel caso in cui però N è pari e le due modalità centrali sono , in quanto non numeriche, non è possibile rendere unica la mediana attraverso la semisomma delle due modalità.

Moda e mediana si dicono robuste in quanto risentono meno della presenza nella distribuzione di frequenza di valori anomali (modalità molto grandi o molto piccole), a differenza della media.

MEDIA F 0E 8 per v. cardinali, 𝑥 0 30 5= X (^) i/N (la somma delle modalità osservate divisa per il totale delle unità statistiche osservate). Per quanto riguarda il calcolo della media con la distribuzione di frequenza , bisogna tener conto delle Fa. Bisognerà quindi prima moltiplicare ogni modalità per la corrispondente Fa e successivamente sommare i risultati ottenuti per poi dividere per il totale delle Fa. =media(cella:cella)

ETÀ

(classi)

Frequenza

Totale 320 Media aritmetica per distribuzioni in classi Supponiamo di disporre della seguente distribuzione in classi di età (anni compiuti) di N= insegnanti di scuola primaria, e di volerne calcolare la media aritmetica (o età media). Poiché non disponiamo dei valori individuali delle età degli insegnanti ma solo della loro appartenenza alle classi, il calcolo della età media dovrà essere approssimato.

Ipotesi di uniforme distribuzione Non disponendo di informazioni sulla distribuzione delle età all’interno degli intervalli corrispondenti alle classi, si ricorre all’ipotesi di uniforme distribuzione, ossia si suppone che i valori assunti dalla variabile all’interno degli intervalli corrispondenti alle classi siano equispaziati ed abbiano tutti uguale peso percentuale. Ad esempio, per la classe 22—30, si assume che i valori assumibili dall’età nell’intervallo corrispondente 22 ⊢ 31 siano equispaziati e abbiano stesso peso percentuale. In tal caso si può dimostrare che l’età media in ciascuna classe coincide con il valore centrale dell’intervallo corrispondente alla classe medesima. Nel caso della classe 22—30 si calcolerà quindi l’età media della classe come valore centrale dell’intervallo corrispondente, ossia: (22+31) : 2 = 26,5 anni. L’ammontare approssimato delle età degli insegnanti della classe si potrà ottenere moltiplicando l’età media approssimata della classe, precedentemente ottenuta, per la frequenza corrispondente alla classe, ossia: 26,5 x 91 = 2.411,5. Applicando quindi la proprietà associativa della media aritmetica potremo calcolare la media approssimata dell’intero gruppo di insegnanti. Riportiamo nella tabella che segue il calcolo completo.

ETÀ

(intervalli )

Frequenz a

Valore centrale (V.C.)

V.C. x Frequenza (ammontare)

31 ⊢ 36 58 33,5^ 1.

36 ⊢ 41 70 38,5^ 2.

41 ⊢ 46 50 43,5^ 2.

46 ⊢ 56 51 51,0^ 2.

Totale 320 --- 11.825,

Calcolo della media attraverso i valori centrali L’età media approssimata sarà quindi data dall’ammontare totale approsimato delle età di tutti gli insegnanti diviso per il numero totale di insegnanti: 11.825,5 : 320 = 37 anni. NOTA: Ovviamente, nel caso in cui oltre alla tabella dell’età in classi si disponesse anche dei 320 valori delle età degli insegnanti (la colonna della variabile età nella matrice dei dati), il calcolo della media aritmetica (o di qualunque altro valore caratteristico della distribuzione) dovrà avvenire utilizzando i 320 valori dell’età della matrice dei dati.

Punteggi o

Frequenz a

Punt. x Freq.

Totale 28 840

Nel caso di variabili quantitative con distribuzione simmetrica ed unimodale, i valori di moda, mediana e media aritmetica coincidono. 𝑥 0 30 5= 840/28 = 30 = moda = mediana.

Proprietà della media aritmetica F 0E 8

Proprietà associativa F 0E 8

Circoscrizion e

Età media

Residenti

I 45 20.

F 0 9 F Internalità^ MIN.≤^ 𝑥^

0 3 0 5≤^ MAX. proprietà della media aritmetica che soddisfano sempre anche la mode e la mediana (utile per verificare la coerenza del calcolo della media, se fuori all’insieme la media è errata); F 0 9 FAnnullamento della somma degli scarti ; scarto = (Xi- 𝑥^

0 3 )0 5 quindi Σ(X (^) i- 𝑥 )=0;0 30 5 F 0 9 F e se la popolazione è divisa in gruppi la media della popolazione è la media delle medie dei gruppi, proprietà associativa (utile nella pratica quando non si dispone dei dati individuali).

ovviare al problema ci si potrebbe restringere ad analizzare la variabilità delle modalità osservate che occupano la posizione centrale della distribuzione. Ad esempio si potrebbe calcolare la differenza interquartile F 0E 8Q=Q3-Q (^) 1; più è alta maggiore sarà la variabilità. Tuttavia Q, rappresentando il campo di variazione del 50% delle osservazioni centrali della distribuzione, soffre della stessa limitazione di R, perché anch’essa dipende soltanto da due valori, Q 1 e Q (^) 2. Seconda grave limitazione è che Q si può annullare anche quando c’è variabilità. Sarà necessario costruire un altro indice di variabilità che tenga conto di tutte le modalità osservate, confrontando ciascuna media con la media aritmetica. Il confronto sarà basato sulla differenza tra il valore osservato della modalità e la media aritmetica, ossia sullo scarto della media. Una distribuzione è tanto più variabile quanto più i suoi valori sono distanti dalle media ossia tanto più elevati sono gli scarti. Più vicino a 0 è il valore dello scarto migliore sarà il grado di rappresentatività della media 𝑥 0 30 5rispetto alla modalità osservata. A questo punto vogliamo costruire una misura della variabilità della distribuzione sulla base dei valori ottenuti per gli scarti dalla media. Una misura di sintesi costituita dalla media aritmetica degli scarti non è utile in quanto basata sulla somma degli scarti che, per la proprietà della media, sarebbe sempre nulla. Per eliminare il segno negativo degli scarti, prima di costruirne la sintesi, potremmo procedere in due modi: considerare il valore assoluto o elevare al quadrato. Seconda opzione di maggior successo in statistica. Calcoleremo quindi la media aritmetica dei quadrati degli scarti appena calcolati. Tale media tuttavia non è ancora confrontabile essendo basata sui quadrati degli scarti. Per consentire tale confronto procederemo ad effettuare sulla media ottenuta l’operazione inversa del quadrato, ossia la √. Il valore ottenuto indicato con s si chiama deviazione standard (o scarto quadratico medio) F 0E 8 =dev.st.pop(cella:cella) e rappresenta una media degli scarti delle modalità osservate dalla loro media. Una volta calcolata la deviazione standard dei vari gruppi, sarà possibile stabilire in ognuno di essi quanto si discostano dalla media e successivamente dedurre l’indice di variabilità. Maggiore è la deviazione standard maggiore è la variabilità. La deviazione standard ci consente quindi di capire quanto la media sia rappresentativa dell’intera distribuzione. Quando s si utilizza per descrivere la variabilità di una singola distribuzione sarà utile confrontarlo con la media per avere un’idea del livello di variabilità presente nei dati osservati. 𝑠 = √[(x1- 𝑥 )0 30 5 2 +(x2- 𝑥 )0 30 5 2 +… … ….+(x (^) i- 𝑥 )0 30 5 2 + … … …..+(x (^) N - 𝑥 )0 30 5 2 ]/N quindi 𝑠 = √[[Σ(x (^) i- 𝑥 )0 30 5 2 ]/N]. La deviazione standard è sempre ≥ 0 𝑠 = √ [Σ(x (^) i - 𝑥 )0 30 5 2 ]/N≥0 (come il campo di variazione R e la differenza interquartile) ed è = 0 se e solo se tutte le modalità osservate sono uguali (basta osservare che gli scarti si annullano se e solo se ogni modalità coincide con la media) (vale lo stesso anche per il campo di variazione R). Varianza F 0E 8 è un indice di variabilità e corrisponde al quadrato della deviazione standard 𝑠^2 = [Σ(x (^) i- 𝑥 )0 30 5 2 ]/N; svantaggio: non è espressa nella stessa unità di misura della distribuzione e non può essere utilizzata per descriverne la variabilità. =var.pop (cella:cella)

Riepilogo su indici di variabilità assoluta

La loro costruzione segue due diversi approcci

A. confronto tra valori osservati (o caratteristici)

  • campo di variazione R
  • (^) Differenza interquartile Q B. Confronto tra tutti i valori osservati ed una loro media
  • Deviazione standard s
  • Varianza s 2
    1. Relativa : non dipendono dall’unità di misura della variabile (limite della deviazione standard: non può essere utilizzata per confrontare la variabilità di distribuzioni riguardanti variabili con differente unità di misura o con stessa unità di misura ma media molto

diversa). Tra questi: coefficiente di variazione F 0E 8 C (^) v =s/ 𝑥 ; può essere moltiplicato x100 per0 30 5 avere una misura dell’incidenza percentuale di s sulla media.

Grafico a scatola (o boxplot) F 0E 8 grafico attraverso cui si può effettuare l’analisi grafica della variabilità. È una rappresentazione grafica di una variabile cardinale che ne mette in evidenza alcuni valori caratteristici che riguardano sia la tendenza centrale (mediana, quartili, media aritmetica) che la variabilità (campo di variazione, differenza interquartile). In particolare, la scatola (o box) che viene evidenziata nel grafico contiene il 50% delle modalità osservate che occupano la posizione dell’intervallo centrale tra il primo e il terzo quartile. I diversi programmi di calcolo automatico possono presentare qualche piccola differenza nel modo in cui costruiscono il grafico. Poiché l’ampiezza della scatola rappresenta la differenza interquartile Q, la variabilità tende ad essere tanto maggiore quanto più ampia è tale scatola. Il boxplot viene spesso utilizzato per effettuare confronti tra valori medi e variabilità di diverse aree territoriali. Serie storiche e territoriali F 0E 8 tabelle contenenti valori riferibili a periodi di tempo o aggregati territoriali. Serie storica F 0E 8 tabella contenente una sequenza di valori corrispondenti a diversi periodi di tempo e riferiti ad uno stesso aggregato territoriale. Spesso viene rappresentata con un grafico a linee; nello stesso grafico possono essere rappresentate più serie storiche da confrontare. In una serie storica è interessante mettere in evidenza l’andamento nel tempo del fenomeno, le sue variazioni sia in termini di fa che in %. Per questo motivo si utilizzano le variazioni assolute e % (o relative) F 0E 8 ciascuna variazione si calcola scegliendo un periodo di tempo come riferimento (base). V.A. periodo k(generico periodo di tempo su cui si calcola la variazione)= valore periodo k-valore periodo base. Se risultato positivo: aumento, se risultato negativo: diminuzione. V.P. periodo k = (V.A. periodo k:valore periodo base)x100. Se risultato positivo: aumento, se risultato negativo: diminuzione. In generale se V.A. +: V.P. +, se V.A. -: V.P. -. La BASE rispetto la quale si calcolano le variazioni può essere MOBILE (es. rispetto l’anno precedente, quindi primo anno = 0 poiché non presente dato anno precedente) o FISSA (periodo di riferimento fisso, es. primo periodo della serie).

Serie territoriale F 0E 8 tabella contenente una sequenza di valori corrispondenti a diversi aggregati territoriali e riferiti ad uno stesso periodo di tempo. Valgono le stesse cose dette per la serie storica, in questo caso però il calcolo della variazione assoluta e % a basa mobile è meno interessante poiché gli aggregati territoriali non sono ordinabili.

Cartogrammi F 0E 8 rappresentazioni della distribuzione geografica di un fenomeno e si utilizzano per analizzare graficamente una serie territoriale. Consente di evidenziare similarità tra aggregati territoriali adiacenti, consentendo di individuare ad occhio macro-aree omogenee ed eventuali andamenti del fenomeno. La sua costruzione può essere molto complessa da punto di vista informatico.

N umero indice F 0E 8 (a base mobile o fissa) è basato sul confronto di valori assunti da uno stesso fenomeno in situazioni diverse. V.P.+100 o (valore osservato:valore base)x100 (se valore ottenuto non intero arrotondare al numero intero più vicino; non è mai negativo). Se >100=aumento percentuale rispetto alla base pari alla differenza tra il num. indice e 100; se <100=diminuzione percentuale rispetto alla base pari alla differenza tra 100 e il num. indice; se =100: il fenomeno non è variato rispetto alla base. La logica sottesa al numero indice è quella di assumere il valore base, posto pari a 100, come unità di misura, riesprimendo il valore osservato in funzione di essa.

Nell’analisi univariata di una matrice di dati il numero di righe (unità statistiche) non varia, il numero di colonne invece può aumentare per effetto di trasformazioni di variabile che si rendono necessarie F 0E 8^ F 09 Friduzione delle modalità (quando alcune di esse presentino frequenze molto basse o

associata univocamente ad una coppia di modalità delle due variabili. Per ciascuna delle celle interne alla tabella si procederà al calcolo della corrispondente Fa di associazione (si tratta di calcolare nella matrice dei dati il numero di soggetti che presentano contemporaneamente le due modalità corrispondenti a quella cella). Per completare la tabella bisognerà sommare le frequenze di associazione ottenute per ciascuna riga e ciascuna colonna, riportando le somme nelle corrispondenti celle dei totali. I valori numerici dei totali sono denominati frequenze marginali della tabella; esse coincidono con le Fa delle modalità delle due variabili nelle rispettive distribuzioni semplici (Fa). La tabella doppia contiene tutta l’informazione che ci forniva l’analisi univariata (frequenze marginali), in più però ci fornisce l’informazione essenziale riguardante l’associazione tra le modalità delle due variabili. La nuova tabella costruita introduce al tema generale dello studio delle

relazioni statistiche F 0E 8 distinguiamo due casi: due variabili (analisi bivariata) e più di due variabili (analisi multivariata).

Caso dell’ analisi bivariata F 0E 8 si prenderanno in considerazione tre aspetti:

  1. direzione della relazione (ruolo delle due variabili): in molte applicazioni è possibile assegnare alle due variabili X ed Y il ruolo di esplicativa (o variabile indipendente) e dipendente (ruolo asimmetrico) X F 0E 8Y. Ruolo simmetrico: quando le due variabili sono sulle stesso piano e ciò che interessa studiarne è l’interrelazione (analizzare la relazione in entrambe le direzioni) X F 0E 7F 0E 8 Y. Per quanto riguarda la scelta del ruolo di una variabile possiamo affermare che generalmente sono considerazioni logiche connesse alla conoscenza del fenomeno oggetto di studio a suggerire il ruolo da assegnare ad essa. Una variabile può avere un ruolo diverso se analizzata in diversi contesti di studio.
  2. forma della relazione (associazione tra le modalità) F 0E 8 distinguiamo tre situazioni, ossia: 1 due variabili qualitative (tabella doppia) 2 una variabile qualitativa e una variabile quantitativa (tabella doppia) 3 due variabili quantitative (grafico di dispersione). 1 sono presenti diversi modi di associarsi delle modalità delle due variabili (diverse forme di associazione) e sono biunivoche/evidenti o più articolate. Nel confronto tra le frequenze interne è necessario, laddove i totali marginali non siano uguali, tener conto dell’influenza dei diversi totali marginali. Bisogna quindi calcolare le distribuzioni percentuali. In una tabella doppia è possibile calcolare tre tipi di percentuali PERCENTUALI TOTALI F 0E 8 semplici e poco interessanti poiché ci forniscono la stessa informazione delle fa rispetto al totale 100. (Fa/tot.generaletabella)x100 vanno calcolate anche dei totali marginali. In questo modo resta tuttavia la diversità dei totali marginali, riscontrata anche nella tabella delle fa iniziali. Dipendenza di Y da X F 0E 8 in questo caso sono più interessanti le percentuali calcolate rispetto ai totali dei gruppi definiti dalle modalità della variabile esplicativa X. Procederemo al calcolo delle distribuzioni percentuali di riga (poiché le modalità di X sono quasi sempre associate alle righe; nel caso in cui non fosse così calcolare quelle di colonna). Distribuzioni di Y condizionate a X F 0E 8 si tratta di calcolare le PERCENTUALI DI RIGA a partire dalla tabella doppia (fa/totale riga)x100. Calcolarle anche dell’ultima riga, quella dei totali. Invece non calcolarle dell’ultima colonna; dell’ultima colonna, quella dei totali, fare la somma delle frequenze della riga corrispondente (deve venire sempre 100). Riporteremo quindi tutte le percentuali nella seguente nuova tabella ( tabella delle distribuzioni percentuali di Y condizionate a X ) dove il confronto tra le righe non è più influenzato dai diversi totali, tutti uguali a 100. Riepilogo delle FASI DI ANALISI DELLA DIPENDENZA DI Y DA X : stabilire qual è la variabile dipendente Y e quella esplicativa Y, calcolo delle distribuzioni percentuali di Y condizionate alle modalità di X, confronto tra le distribuzioni percentuali di Y condizionale a X e commento e sintesi. Tale studio di dipendenza potrà effettuarsi solo dove è possibile assegnare un

diverso ruolo alle due variabili. In generale diremo che Y dipende da X quando le distribuzioni percentuali di Y condizionate alle modalità di X non sono tutte uguali.

Nel caso in cui le modalità di X siano associate alle colonne si dovranno calcolare le PERCENTUALI DI COLONNA : (fa/tot.colonna)x100; calcolarle anche dell’ultima colonna, quella dei totali. Invece non calcolarle dell’ultima riga; dell’ultima riga, quella dei totali, fare la somma delle frequenze della colonna corrispondente (devono venire sempre 100).

Analisi della interrelazione tra X e Y F 0E 8 quando le due variabili sono sullo stesso piano ed interessa analizzare la loro interrelazione, potrà essere utile sia l’analisi delle distribuzioni percentuali di Y condizionate a X che l’analisi delle distribuzioni percentuali di X condizionate a Y. Quindi calcolare sia le percentuali di riga che di colonna.

Indipendenza di X e Y F 0E 8 se le distribuzioni percentuali di Y condizionate alle modalità di X sono uguali diremo che Y è statisticamente indipendente da X. Se le distribuzioni percentuali di X condizionate alle modalità di Y sono uguali diremo che X è statisticamente dipendente da Y. Quindi X e Y sono indipendenti, Y stat. indip. da X e X stat. indip. da Y (simmetria) X F 0E 7F 0E 8 Y

Tabella di indipendenza F 0E 8è la tabella che ha gli stessi totali marginali della tabella osservata e frequenze interne che soddisfano la seguente condizione di indipendenza : frequenza indipendenza=(tot.rigaxtot.colonna)/tot.generale FORMULA PER CALCOLARE TABELLA DI INDIPENDENZA

2 l’analisi della dipendenza di Y da X o della loro interrelazione potrà avvenire in modo analogo al caso di due variabili qualitative. Poiché la variabile Y è quantitativa, è possibile sfruttarne la natura numerica per descrivere con maggiore ricchezza la sua relazione con la variabile X. È possibile ad es. calcolare la media per ciascuno dei gruppi (medie aritmetiche delle distribuzioni di Y condizionate alle modalità di X, o medie di Y condizionate a X), la moda, la mediana, verificarne la variabilità attraverso il calcolo della dev. standard o il coefficiente di variazione, ecc. 3 di frequente le frequenze interne risultano in prevalenza nulle o uguali a 1. Ciò avviene soprattutto nel caso in cui almeno una delle due variabili assume modalità quasi tutte diverse; in tali casi l’analisi dell’associazione tra le due variabili, condotta attraverso il confronto tra le distribuzioni percentuali condizionate, risulta scarsamente interessante in quanto basata su poche osservazioni. Può essere resa più interessante procedendo in due diversi modi: aggregazioni in classi (si procederà a definire opportune classi di intensità per le due variabili e si analizzerà la tabella doppia rispetto alle classi definite)(info.: andamento concorde=al crescere dei punteggi di X anche i punteggi di Y tendono a crescere) o diagramma di dipersione (Scatterplot) (possiamo valutare graficamente la relazione esistente tra le due variabili X e Y attraverso un diagramma costruito utilizzando un piano cartesiano. Alla variabile X viene associato l’asse orizzontale, alla Y l’asse verticale. Ad ogni unità statistica i corrisponde un punto nel piano ( xi , yi ) individuato dai valori delle due modalità delle variabili X e Y. Il grafico di dispersione ci consente di evitare la perdita di informazione connessa alla scelta della costruzione della tabella doppia in classe (nella quale non compaiono i singoli valori interni alle classi. Ad un punto del piano possono corrispondere più osservazioni. Per rappresentare il numero di osservazioni corrispondenti a ciascun punto del piano si potrebbe introdurre una terza dimensione (diagrammi cartesiani tridimensionali). Inoltre in un diagramma di dispersione oltre ad X e Y è possibile rappresentare una terza variabile Z utilizzando delle etichette (o colorazione diversa) per i punti, secondo le modalità corrispondenti della variabile Z.

  1. forza di una relazione F 0E 8 quando si analizza la relazione tra due variabili cardinali X e Y, il legame di concordanza (o discordanza) può esprimersi con diversa forza. Possiamo cogliere