



Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti del professore Benati sulle trasformazioni lineari
Tipologia: Dispense
1 / 6
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




Equivalenza tra due basi di dati
Fino ad ora abbiamo calcolato medie e deviazioni standard usando due tipi di basi di dati.
Nel primo caso avevamo associato ad ogni unità statistica u i una rilevazione x i. Avevamo quindi una tabella di questo tipo:
U (unità statistica) X (variabile rilevata) u 1 x 1 u 2 x 2 … … u N x N
Nel secondo caso avevamo raggruppato le unità x i a cui era associata la stessa rilevazione e quindi ne avevamo calcolato la frequenza realtiva (o percentuale) p i. Avevamo quindi una tabella di questo tipo.
X (variabile rilevata) Percentuale x 1 p 1 x 2 P 2 … … x M p M
Avete osservato in aula il diverso significato di N e di M. N rappresenta il numero di unità statistiche su cui sto conducendo l’indagine, per esempio tutti gli studenti presenti in classe, a cui chiedo che scuola hanno frequentato, supponiamo N = 105. Invece M rappresenta il numero di classi in cui suddivido la risposta (se per esempio proveniste dai soli licei “scientifici”, “classici”, “pedagogici”, allora sarebbe M = 3).
Dopo gli esercizi svolti a lezione, dovrebbe essere abbastanza chiaro che le formule di media e deviazione standard danno gli stessi risultati quando applicate alle due diverse basi di dati. L’unica cosa è applicare la formula della media aritmetica nel primo caso, la media ponderata nel secondo caso.
Va però segnalato che la formula della media ponderata è più universale, in quanto si può applicare anche al primo data base: è sufficiente ipotizzare che ad ogni rilevazione sia associato il peso 1/ N. Cioè non ho nessuna difficoltà ad ipotizzare che la prima tabella possa assere aggiornata aggiungendo un’altra colonna in questo modo:
U X Percentuale u 1 x 1 1/ N u 2 x 2 1/ N
u N x N 1/ N
A questo punto la media e varianza ponderata viene calcolata sulla base delle ultime due colonne e risulta quindi:
1 1 1
i i i i i i i
x p x x = =^ N^ N =
Da cui si vede che il primo termine, che è una media ponderata, è identico al terzo termine, che è una media aritmetica semplice.
Perciò nelle prossime dimostrazioni lavoreremo con le formule ponderate, perché sono più generali.
Trasformazioni lineari di variabili
Ora vediamo cosa è una trasformazione lineare. Una trasformazione lineare cambia ogni rilevazione x i secondo la formula
y i = a x i + b ,
dove a e b sono due numeri fissati a priori. Poiché la trasformazione si applica per ogni i , possiamo anche scrivere sinteticamente Y = aX + b.
Cosa significa tutto ciò? Per spiegare la cosa, scommetto che almeno il 95% dei testi di statistica usa la trasformazione da gradi Celsius a gradi Farheneit. Come sapete, lo 0 della scala Celsius corrisponde alla temperatura a cui ghiaccia l’acqua, mentre nella scala Farheneit lo 0 corrisponde allo scioglimento di una mistura di acqua e sale. Allo stesso modo l’unità di misura cambia, in uno si pone 100 la temperatura dell’ebollizione dell’acqua, nell’altro si pone pari a 96 la temperatura del sangue (perché proprio 96 poi…).
Se rilevo una temperatura x i = 12 gradi Celsius, per avere il dato in Farheneit devo applicare la trasformazione y i = 1.2 x i + 32.
I parametri a e b della trasformazione hanno un significato ben preciso: a corrisponde a un cambiamento di scala, con conseguente restringimento o allargamento dello spazio euclideo di riferimento. Invece b corrisponde ad uno spostamento dello 0, ovvero ad una modifica all’origine degli assi. Si consideri per esempio una trasformazione di un dato riguardante il reddito mensile di un individuo espresso in euro, poniamo x i = 1200. Se devo confrontarlo con un dato statunitense, devo trasformare il dato in euro in un dato in dollari, quindi y i = 1.35 x i. In questo caso la trasformazione è caratterizzata dai parametri a = 1.35, b = 0.
1 1 1 1
M M M M i i i i i i i i i i i i
ax b p ax p bp ax p bp = = = =
dove la seconda uguaglianza è stata ottenuta grazie alle proprietà delle sommatorie. Andiamo avanti:
1 1 1 1
M M M M i i i i i i i i i i
ax p bp a x p b p aE X b = = = =
dove alla prima uguaglianza è stata applicata un’altra proprietà delle sommatorie, mentre la seconda uguaglianza è ottenuta perché
per definizione è proprio 1
M i i i
1
M i i
la somma delle percentuali deve dare 1 (cioè il 100% dei casi).
La stessa tecnica si applica per la dimostrazione della varianza, cioè si sostituisce Y con X e si applicano le proprietà delle sommatorie. Ecco i vari passaggi:
2 2 1 1
M M i i i i i i
Var Y y E Y p ax b aE X b p = =
dove la prima uguaglianza è vera per definizione, mentre nella seconda applico il teorema precedente secondo il quale E Y ( ) = aE X ( ) + b e sostituisco.
Ovviamente b sparisce e proseguendo:
(^2 2 2 2 ) 1 1 1
M M M i i i i i i i i i
ax aE X p a x E X p a x E X p a Var X = = =
dove le prime uguaglianze sono dei puri e semplici passaggi algebrici, mentre l’ultima usa la definizione di varianza. Resta così dimostrato che Var(Y) = a^2 Var ( X ). Per dimostrare il punto 3 è sufficiente calcolare:
Operazione di standardizzazione
Supponiamo di avere una variabile statistica X , di cui abbiamo calcolato E(X) e DS(X). La trasformazione lineare:
( ) ( )
è detta standardizzazione di X e Y si chiama variabile standardizzata. L’operazione di standardizzazione trasforma X in una variabile Y che ha le seguenti due caratteristiche:
Vediamo un esempio. Supponiamo che in un questionario le risposte X ad una affermazione siano date in una scala di Likert tra 1 e 10, che sia E(X) = 6.1; DS(X) = 2.1. Prendiamo un individuo u i che abbia risposto x i = 4. La standardizzazione di X riscrive la risposta dell’individuo in:
y i
Ovviamente applico la stessa trasformazione ad ogni x i, i = 1,…,N e quindi ricodifico le risposte nelle variabili y i.
L’operazione di standardizzazione è importante quando voglio ottenere che diverse variabili siano misurate in modo omogeneo. Si assuma per esempio che X^1 sia la risposta data al quesito: “E’ importante che i figli rispettino l’autorità”. X^1 è misurata in una scala di Likert da 1 a 5, con 5 = ”molto d’accordo” e 1 l’opposto. Supponiamo che X^2 sia la risposta al quesito: “Un buon genitore non può essere amico dei propri figli”, e che X^2 sia misurato in una scala di Likert da 1 a 10, con 10 = “molto d’accordo”. Le due domande misurano atteggiamenti simili, cioè il tipo di rapporto, tradizionalista o meno, con i propri figli. Saremmo tentati di costruire un indice Z molto semplice per misurare il tradizionalismo, e cioè calcolare la somma delle due risposte:
Tuttavia ci accorgiamo di un difetto dell’indice. Un individuo massimamente d’accordo con la prima osservazione e indifferente alla seconda totalizzarebbe 5 + 5 = 10; mentre un individuo indifferente alla prima ma massimamente d’accordo sulla seconda totalizzarebbe 3 + 10 = 13. I due individui, nonostante abbiano dato risposte molto simili, sono tuttavia molto diversi nel risultato complessivo. La ragione è semplice ma abbastanza insidiosa: il modo con cui sono state imposte inizialemente due scale di Likert diverse induce a pesare la seconda risposta il doppio della prima. Se invece X^1 e X^2 sono prima standardizzate in
Y^1 e Y^2 , e poi si calcola l’indice Z = Y^1 + Y^2 , questo effetto scompare.
Mostriamo ora che l’operazione di standardizzazione porta ad una variabile standardizzata Y , in cui E(Y) = 0 e DS(Y) = 1.
L’operazione di standardizzazione può essere così riscritta: