Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


statistica delle imprese rocca, Schemi e mappe concettuali di Statistica

dispensa statistica delle imprese rocca

Tipologia: Schemi e mappe concettuali

2021/2022

Caricato il 05/03/2023

marco-nasti
marco-nasti 🇮🇹

4.5

(6)

11 documenti

1 / 120

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ST ATIST ICA
LA RI LEVAZ IONE DEI FEN OME NI STA TISTI CI
La statistica analizza in termini quantitativi fenomeni riferiti ad un collettivo (o popolazione), ossia un insieme di unità
statistiche omogenee rispetto ad una o più caratteristiche, dette caratteri, rilevati su ogni unità; ciascuna
manifestazione individuale del carattere è detta modalità, ossia l’attributo o l’intensità con il quale il carattere si
manifesta. Le modalità di un carattere devono essere esaustive (rappresentano tutti i modi possibili che il carattere ha
di manifestarsi) e non sovrapposte (ad ogni unità è associabile una sola modalità).
POPOLAZIONE il collettivo osservato comprende tutte le unità statistiche omogenee rispetto ad una
caratteristica comune
CAMPIONE il collettivo osservato comprende un sottoinsieme delle unità statistiche della popolazione
La matrice dei dati è il modo in cui sono organizzati i dati, ovvero l’informazione grezza disponibile
L’unità statistica rappresenta l’unità elementare di osservazione statistica
l’insieme di tutte le unità statistiche collettivo statistico
il carattere è ciò che rileviamo su ogni unità statistica
La modalità del carattere è il modo in cui il carattere si manifesta
CL ASSIF ICAZI ONE D EI CARAT TER I STA TIS TICI
Un carattere può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo. Le
modalità del carattere devono essere esaustive e non sovrapposte. Con il termine esaustive si intende che le modalità
elencate devono rappresentare tutti i possibili modi di manifestarsi del carattere. Le modalità si definiscono non
sovrapposte se a ogni unità si può associare una sola modalità
Quando le modalità sono espresse NUMERICAMENTE, il carattere è QUANTITATIVO ( o VARIABILE), altrimenti
QUALITATIVO ( o MUTABILE)
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica statistica delle imprese rocca e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

STATISTICA

LA RILEVAZIONE DEI FENOMENI STATISTICI

La statistica analizza in termini quantitativi fenomeni riferiti ad un collettivo (o popolazione), ossia un insieme di unità statistiche omogenee rispetto ad una o più caratteristiche, dette caratteri, rilevati su ogni unità; ciascuna manifestazione individuale del carattere è detta modalità, ossia l’attributo o l’intensità con il quale il carattere si manifesta. Le modalità di un carattere devono essere esaustive (rappresentano tutti i modi possibili che il carattere ha di manifestarsi) e non sovrapposte (ad ogni unità è associabile una sola modalità).  POPOLAZIONE  il collettivo osservato comprende tutte le unità statistiche omogenee rispetto ad una caratteristica comune  CAMPIONE  il collettivo osservato comprende un sottoinsieme delle unità statistiche della popolazione La matrice dei dati è il modo in cui sono organizzati i dati, ovvero l’informazione grezza disponibile L’ unità statistica rappresenta l’unità elementare di osservazione statistica l’insieme di tutte le unità statistiche  collettivo statistico il carattere è ciò che rileviamo su ogni unità statistica La modalità del carattere è il modo in cui il carattere si manifesta CLASSIFICAZIONE DEI CARATTERI STATISTICI Un carattere può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo. Le modalità del carattere devono essere esaustive e non sovrapposte. Con il termine esaustive si intende che le modalità elencate devono rappresentare tutti i possibili modi di manifestarsi del carattere. Le modalità si definiscono non sovrapposte se a ogni unità si può associare una sola modalità Quando le modalità sono espresse NUMERICAMENTE , il carattere è QUANTITATIVO ( o VARIABILE), altrimenti QUALITATIVO ( o MUTABILE)

Un carattere qualitativo viene distinto in:  CARATTERE SCONNESSO (o con SCALA NOMINALE), se date due sue modalità è possibile affermare soltanto se queste sono uguali o diverse  CARATTERE ORDINATO (o con SCALA ORDINALE), se date due sue modalità è possibile solo dare un ordine, specificando che una precede l’altra. Esistono anche i caratteri ordinati ciclici che non hanno vere e proprie modalità iniziali e finali, le quali possono essere fissate solo in modo convenzionale (es. la DIREZIONE DEL VENTO o il MESE DI NASCITA) I caratteri quantitativi (o variabili) vengono distinti in caratteri quantitativi con scala a intervalli o con scala di rapporti In un carattere quantitativo con scala a intervalli non esiste uno zero assoluto, naturale e non arbitrario, il quale deve esistere per un carattere quantitativo con scala di rapporti

  • A seconda che le modalità del carattere possano essere poste in corrispondenza biunivoca con un sottoinsieme di numeri interi o reali si classificano come discreti (figli) o continui (peso); In un carattere quantitativo discreto l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri interi In un carattere quantitativo continuo l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri reali A seconda che l’unità possa o meno cedere il carattere posseduto ad un’altra, sono detti trasferibili (reddito) o non trasferibili. SUDDIVISIONE IN CLASSI DI UN CARATTTERE QUANTITATIVO Nel caso di caratteri continui o anche discreti, che possono assumere molti valori, per esigenze di sintesi può essere opportuno raggruppare le modalità del carattere in classi di valori, effettuando un passaggio da una scala di intervalli o rapporti ad un ordinale. Se un carattere è quantitativo, si definisce suddivisione in classi del carattere l’operazione consistente nel suddividere l’insieme dei possibili valori in intervalli tra loro disgiunti. È necessario che le classi effettuino una sintesi adeguata ma che garantisca un buon dettaglio, che siano disgiunte, che includano tutte le modalità del carattere (che siano quindi non sovrapponibili ed esaustive) ed è importante che abbiano la stessa ampiezza DISTRIBUZIONE DI UN CARATTERE E LA SUA RAPPRESENTAZIONE Definiamo distribuzione unitaria semplice di un carattere l’elencazione delle modalità osservate, unità per unità, nel collettivo preso in esame. Si parla invece di distribuzione unitaria multipla quando tale elencazione si riferisce a + di un carattere Dati n caratteri, per ottenere una maggiore sintesi è possibile considerare, piuttosto che la modalità del carattere in corrispondenza di ogni unità, la frequenza con cui le diverse modalità del carattere si presentano: questa è detta frequenza assoluta (ni) , ossia il numero di volte che una modalità viene osservata, ed è utilizzabile per ottenere una rappresentazione sintetica detta distribuzione di frequenze, la quale associa alle modalità che può assumere un carattere X (qualitativo o quantitativo) le corrispondenti frequenze assolute. La numerosità totale della frequenza assoluta sarà data dalla sommatoria delle frequenze totali.

Per attribuire una diversa importanza nel calcolo della media ad alcune modalità del collettivo sarà possibile utilizzare la media ponderata , nella quale ad ogni modalità corrisponde un peso non negativo che ne esalta o ne diminuisce il valore PROPRIETÀ DELLA MEDIA ARITMETICA La media aritmetica gode di alcune proprietà:  La somma dei valori x1, x2, …, xn assunti da un insieme di n unità statistiche è uguale al valore medio moltiplicato per il numero di unità  La sommatoria degli scarti dalla media è pari a zero;  La somma degli scarti al quadrato rispetto ad una costante è un minimo quando la costante è pari alla media aritmetica;  Se un collettivo di n unità viene suddiviso in sottoinsiemi disgiunti, la media aritmetica generale è ottenibile come media ponderata delle medie dei sottoinsiemi con pesi uguali alle loro numerosità ( proprietà associativa );  Se tutti i valori della media sono moltiplicati o divisi per una costante diversa da zero, anche la media risulterà moltiplicata o divisa per la stessa costante ( omogeneità ); parimenti, se ai venisse addizionata o sottratta una costante, la media risulterà influenzata dalla stessa ( proprietà traslativa )

MEDIA GEOMETRICA

La media geometrica di un insieme di n valori positivi xn relativi ad un carattere quantitativo X è pari a: Se si dispone della distribuzione di frequenze del carattere X, essa è calcolabile elevando ciascun valore xn alla frequenza assoluta n della modalità corrispondente. La media geometrica è utile ad analizzare valori positivi generati da rapporti. Essa presenta alcune proprietà :  Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini;  Il prodotto dei valori assunti da un insieme di unità statistiche è uguale alla potenza n-sima della media geometrica  E’ omogenea ed associativa ma non traslativa, poiché addizionare o sottrarre un valore significherebbe modificare la struttura stessa della media. Le medie analitiche risentono fortemente dei valori estremi, detti outliers ; per ovviare a questa problematica è possibile calcolare la trimmed mean TRIMMED MEAN che prevede il calcolo della media sui soli valori centrali, escludendo una percentuale dei valori più grandi e di quelli più piccoli ed osservando quindi solamente i valori più centrali. Maggiore è la percentuale, minore è il numero di outliers da escludere MEDIE DI POSIZIONE: MEDIANA, MODA E PERCENTILI Le medie di posizione possono essere utilizzate per la valutazione sia di caratteri quantitativi sia qualitativi, purché ordinabili. Esse non coinvolgono nel calcolo tutte le unità ma si basano sulla particolare posizione che esse presentano nell’analisi e sono pertanto meno sensibili agli outliers. La mediana è un parametro di posizione e corrisponde al valore che bipartisce la distribuzione già ordinata; può essere utilizzata sia per caratteri di natura quantitativa sia per caratteri di natura qualitativa ordinali. La mediana di un insieme di unità ordinate è la modalità corrispondente all’ unità centrale di una distribuzione rispetto alla quale il collettivo è diviso in due parti di eguale numerosità, per cui i dati che la precedono sono tanti quanti quelli che la seguono. Per calcolare la mediana in una successione di valori occorre ordinare le unità, individuare la posizione in graduatoria dell’unità centrale, che se n è dispari sarà un unico elemento corrispondente a ( n+1)/2 , mentre se è pari corrisponderà a due elementi n/2 ed ( n/ 2)+1 OPPURE n/2 e (n+2/2)  e per ottenere un unico valore sarà necessario osservare la media di queste due posizioni. Nel caso di un carattere quantitativo suddiviso in classi e rappresentato con distribuzione di frequenze non è possibile individuare esattamente la mediana, tuttavia dopo averne calcolato il rango (e cioè la classe in cui essa si trova) attraverso le modalità prima esposte ed aver stabilito attraverso l’osservazione delle frequenze assolute cumulate in quale classe sia inserita, sarà possibile ottenere una sua approssimazione attraverso la formula:

LA VARIABILITÀ

La media, pur fornendo una sintesi della distribuzione del carattere, è completamente affidabile solo quando la maggior parte delle unità presenta una modalità vicina alla media e non esistano outliers (un valore anomalo il cui ordine di grandezza è assolutamente diverso da quello del resto della distribuzione); per ovviare a questa problematica è possibile far riferimento in maniera complementare alla variabilità di una distribuzione, intesa come l’attitudine di un’unità ad assumere modalità diverse del carattere.  Variabilità : tendenza delle unità di un collettivo ad assumere diverse modalità del carattere Per misurare la variabilità è possibile utilizzare degli indici basati sulle misure di dispersione (quanto mediamente il valore assunto da ogni unità differisce rispetto ad un determinato valore) e disuguaglianza (quanto mediamente il valore assunto da ogni unità differisce dalle altre), i quali devono assumere valore minimo quando tutte le unità della distribuzione presentano uguale modalità del carattere ed aumentare all’aumentare della diversità tra le modalità assunte: questi indici sono varianza, deviazione standard e coefficiente di variazione. Un indice di variabilità deve dunque assumere il suo valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere e deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità Lo scostamento dalla media è un indice di dispersione poiché indica la distanza rispetto alla media di ciascun valore della distribuzione. La varianza di un insieme di n valori osservati x1,x2,..,xn di una variabile X con media aritmetica è data da: Quindi la varianza è la media dei quadrati degli scarti dalla media aritmetica. Il numeratore della varianza è detto devianza

distribuzione unimodale

• se presenta 1 solo picco

distribuzione bimodale

• se presenta 2 picchi di medesima

altezza, ovvero 2 modalità o valori che

presentano uguale frequenza massima

Se abbiamo la distribuzione di frequenze di una variabile X con K modalità, la varianza si calcola: dove nj e fj sono rispettivamente le frequenze assolute e relative corrispondenti alla j-esima modalità La diversità tra una modalità xj e la media aritmetica viene misurata elevando al quadrato lo scostamento; tale operazione consente di trasformare le differenze negative in positive e di mettere in risalto le differenze maggiori. La varianza gode di alcune proprietà.

  1. può essere ottenuta come differenza tra la media aritmetica del quadrato dei termini e il valore della media aritmetica elevato al quadrato.
  2. La varianza di una trasformazione lineare Y (ottenuta dalla trasformazione Y=aX+B) è ottenibile come Y=a^2s^2, con b che viene escluso in quanto costante. La varianza:
  3. Non possiede la stessa unità di misura dei valori di distribuzione (es.: nell’analisi della distribuzione delle stature di abitanti, espresse in cm, questi diventano cm^2)
  4. Poiché eleva gli scarti al quadrato, le differenze negative risultano positive e i termini più elevati sono messi in maggior risalto
  5. Cresce di valore al crescere della variabilità dei termini e rimane nulla quando tutti i termini sono uguali La deviazione standard o scarto quadratico medio è data dalla radice quadrata della varianza

 Si definisce scostamento semplice medio dalla mediana la quantità e nel caso di una distribuzione di frequenze Dove Me è la mediana del carattere avente K modalità OUTLIERS  insieme di osservazioni , un valore anomalo il cui ordine di grandezza è diverso da quello della distribuzione STANDARDIZZAZIONE : data la variabile di partenza, attraverso la standardizzazione si ottiene variabile Z così calcolata 𝑍𝑖 = xi − 𝑚𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚𝑒𝑡𝑖𝑐𝑎 deviazione standard Gli outliers corrispondono alle osservazioni in cui Z assume valori > di 3 e 5 in valore assoluto

  • Si applica dunque una trasformazione lineare  riconduce qualsiasi variabile X con media aritmetica x_ e deviazione standard a una nuova variabile con media nulla e varianza unitaria Altri indici di natura non analitica (non basati su tutti i dati della distribuzione) sono gli intervalli di variabilità , basati sul confronto tra due valori caratteristici della distribuzione: tra di essi vi è innanzitutto il campo di variazione (range) che, calcolato come la differenza tra il termine più grande ed il più piccolo di una distribuzione ordinata, esprime il campo in cui è definito il fenomeno statistico: R=xn-x1 , nullo solo quando tutti i valori della distribuzione sono uguali tra loro, e vi è pertanto assenza di variabilità. Esso, tuttavia, non necessariamente aumenta al crescere della disuguaglianza tra i termini ed è sensibile ai valori anomali. Un indice molto simile a questo è la differenza interquartile , data dalla differenza tra il terzo ed il primo quartile; esso misura il range nella zona interna della mediana, ossia tra il primo quartile ed il terzo (in riferimento ad una distribuzione ordinata): W=Q3-Q1. Attraverso questo indicatore è possibile escludere le osservazioni estreme, evitando di considerare dati anomali. E’ bene notare che può tuttavia valere zero anche quando non tutti i valori sono uguali tra loro.

LA CONCENTRAZIONE

La concentrazione è una misura riferita ai caratteri quantitativi trasferibili indicante la loro ripartizione tra le unità statistiche di un collettivo ordinato. Le misure di concentrazione vengono calcolate sulle variabili che godono della proprietà di essere trasferibili  un carattere quantitativo si definisce trasferibile se ha senso ipotizzare che un’unità statistica possa cedere tutto o parte del carattere posseduto ad un’altra unità statistica CASI LIMITE  Un carattere quantitativo trasferibile X, con n valori osservati x1,x2,…,xn, si dice equidistribuito se ognuna delle n unità possiede 1/n dell’ammontare complessivo del carattere  La situazione di massima concentrazione si ha quando l’intero ammontare del carattere, A, è posseduto da una sola unità del collettivo e cioè X1= x2=…=Xn-1=0 e Xn=A Consideriamo un carattere quantitativo trasferibile X, osservato su un collettivo di n unità ordinate in senso non decrescente secondo l’ammontare di carattere posseduto, ossia x1≤x2≤…≤xn. Indichiamo con È utile mettere a confronto le distribuzioni delle Qi e Fi. Se si è nel caso in cui l’ammontare del carattere X è equidistribuito fra le unità del collettivo si ha che Qi=Fi poiché come ogni unità è un n-esimo dell’intero collettivo, anche il suo ammontare è un n-esimo dell’ammontare totale; se invece si è nel caso di massima concentrazione, tutte le Qi, esclusa Qn che è necessariamente = a 1, valgono 0. In tutte le situazioni intermedie vale la relazione: Qi ≤ Fi Così, considerando le differenze (Fi-Qi), queste saranno tutte uguali a 0 nel caso di equidistribuzione, tutte uguali a Fi (escluso il caso i=n per il quale la differenza è 0) nel caso di massima concentrazione e tutte non negative nei casi intermedi di concentrazione. Possiamo sintetizzare tali differenze attraverso il seguente indice:

Una formula del rapporto di concentrazione ancora + semplice da calcolare si ottiene utilizzando direttamente le quantità cumulate Ai: Nel caso di un carattere discreto con K modalità, in cui abbiamo a disposizione la distribuzione di frequenze, è possibile utilizzare: Nel caso in cui le modalità del carattere siano divise in classi è necessario nel calcolo dell’indice R introdurre delle ipotesi. Se si ha a disposizione l’ammontare all’interno delle classi, l’ipotesi + usuale è quella di equidistribuzione all’interno di ogni classe dell’ammontare del carattere. Quando invece NON è noto l’ammontare all’interno della classe, si porcede a stimare l’ammontare moltiplicando il valore centrale della classe per la corrispondente frequenza. In tale situazione, possiamo ottenere un’approssimazione del rapporto di concentrazione tramite la formula In cui F0 e Q0 sono state poste per convenzione uguali a zero.

Mediante le coppie di valori Qi, Fi è possibile realizzare un interessante grafico. Consideriamo un piano cartesiano in cui l’asse delle ascisse rappresenti i valori Fi e l’asse delle ordinate i valori Qi. In questa maniera ogni coppia di valori è rappresentata da un punto sul piano. I punti limitrofi possono essere congiunti da segmenti tali da formare una curva detta spezzata di concentrazione o curva di Lorenz. Nel grafico, viene rappresentata la linea di equidistribuzione che è il segmento che congiunge il punto 0,0 al punto 1,1. Ogni punto situato su tale segmento ha la proprietà di avere le coordinate uguali, cioè Qi=Fi per ogni i; così, se l’ammontare del carattere fosse equidistribuito fra tutte le unità del collettivo, i punti corrispondenti giacerebbero sulla linea di equidistribuzione. Notiamo che non a caso la curva di Lorenz giace sotto la linea di equidistribuzione, Fi è sempre maggiore o uguale a Qi. L’area della superficie compresa tra la curva di Lorenz e la linea di equidistribuzione viene detta area di concentrazione. Nel caso di massima concentrazione tutto il carattere è posseduto da una sola unità e le restanti n-1 non detengono nulla, quindi si ha che Qi=0 per i=1,…,n-1 e Qn=

CURTOSI

ANALISI DELL’ASSOCIAZIONE TRA DUE CARATTERI

ANALISI BIVARIATA: DISTRIBUZIONI DOPPIE DI FREQUENZA

L’analisi bivariata ha lo scopo di studiare la relazione fra coppie di variabili. Le sue FUNZIONI sono

  • Stabilire se date due variabili ( x ed y), esiste tra loro una relazione di INDIPENDENZA o di ASSOCIAZIONE
  • In caso di ASSOCIAZIONE, quantificare il grado di associazione tra coppie di variabili mediante coefficienti Per analizzare i caratteri in questione sarà possibile utilizzare una tavola di contingenza (o tabella a doppia entrata ): si potranno così osservare le frequenze congiunte nij, ovvero le frequenze assolute delle unità che presentano congiuntamente la modalità i del carattere x e j del carattere. La colonna e la riga del totale sono dette distribuzioni marginal i e corrispondono alle distribuzioni di frequenze relative ad un solo carattere classificatorio (monovariate); le righe e le colonne interne sono invece dette distribuzioni condizionate (varianza condizionata) e corrispondono alla distribuzione del carattere y secondo una delle modalità di x Per ogni distribuzione condizionata di un carattere quantitativo possibile calcolare la media aritmetica condizionata di una modalità i del carattere y rispetto ad una modalità j del carattere x, data da In caso di carattere suddiviso in classi, sarà possibile considerare il valore centrale della stessa. È poi possibile ricavare la varianza condizionata della modalità j del carattere y rispetto alla modalità i di un carattere x, analizzante la variabilità intorno alla propria media delle unità della distribuzione condizionata; essa è data da: Se i due caratteri sono almeno di tipo ordinato è possibile definire le frequenze cumulate per la distribuzione doppia.

MISURA DELL’ASSOCIAZIONE PER CARATTERI QUALITATIVI SCONNESSI

Esistono indici generali di associazione basati sulle differenze tra le frequenze empiriche nij e quelle di indipendenza teorica (ossia le frequenze che si sarebbero ottenute se i due caratteri fossero stati indipendenti): le differenze tra queste due grandezze sono dette contingenze, aventi somma sempre nulla. Considerando i quadrati delle contingenze, si avrà che ogni differenza contribuisce positivamente a far crescere la somma complessiva, ed è su questo assunto che si basa il chi-quadrato di Pearson Il chi-quadrato assume valore nullo se tutte le contingenze sono nulle, e si ha in tal caso situazione di indipendenza; se i due caratteri sono associati l’indice avrà invece un valore positivo tanto più alto quanto maggiore è l’associazione, tuttavia non essendo l’indice relativo non sarà possibile quantificare in maniera precisa il grado di associazione tra i due caratteri, e per di più il suo valore aumenterà all’aumentare della numerosità. Per non far dipendere il chi- quadrato dalla numerosità totale, Pearson ha introdotto l’indice phi-quadrato; rimane tuttavia irrisolto il problema relativo alla quantificazione dell’intensità del fenomeno, avendo l’indice come minimo zero e come massimo il minimo tra il numero delle righe meno uno ed il numero delle colonne meno uno. INDICE DI CONTINGENZA QUADRATICA MEDIA Cramer ha quindi proposto un indice relativo che rapporta il phi-quadrato al suo valore massimo e lo pone sotto radice: la V di Cramer varia tra 0, caso di indipendenza, ed 1, caso di dipendenza o interdipendenza perfetta. Allo stesso scopo Pearson ha introdotto l’indice relativo di contingenza.

MISURA DELLA DIPENDENZA DI UN CARATTERE QUANTITATIVO DA UN CARATTERE QUALITATIVO O

QUANTITATIVO DISCREZO: L’INDIPENDENZA IN MEDIA

Spezzata di regressione  è una funzione lineare a tratti che congiunge le medie delle distribuzioni condizionate di un carattere quantitativo Y rispetto alle modalità di un altro carattere X Quando almeno uno dei due caratteri è quantitativo è possibile utilizzare l’indipendenza in media, basata sul confronto tra le distribuzioni condizionate, per valutare l’associazione tra essi; y è indipendente in media da x se tutte le medie condizionate di y sono fra loro uguali e corrispondenti quindi alla media marginale. La media aritmetica delle medie condizionate di y rispetto ad x è uguale alla media della distribuzione marginale di y. Utilizzando tale proprietà è possibile calcolare la varianza delle medie condizionate e la media delle varianze condizionate varianza medie condizionate media delle varianze condizionate