Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


sintesi corso psicometria, Sintesi del corso di Psicometria

Sintesu degi appunti presi durante tutte le lezioni di psicometria

Tipologia: Sintesi del corso

2019/2020

Caricato il 27/08/2022

emma_franchino
emma_franchino 🇪🇸

5

(1)

2 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA DESCRITTIVA MONOVARIATA
Livello di scala Operazione canonica Tipo di variabile
0 scala nominale Classificazione Variabile categoriale
1 scala ordinale Classificazione in categorie ordinate (ordinamento) Variabile ordinale
2 scala di intervalli Misurazione (0 convenzionale, unità di misura convenzionale) Variabile cardinale
3 scala di rapporti Misurazione(0 assoluto, unità di misura convenzionale) Variabile cardinale
VARIABILI CATEGORIALI
Esempi: Sesso, Religione di appartenenza, Nazionalità, Regione geografica di provenienza
DISTRIBUZIONE DI FREQUENZA: serie sconnessa di frequenzatabella di frequenze (assolute;
relative: ∑fk=1; percentuali: ∑qk=100)
RAPPRESENTAZIONI GRAFICHE
Diagramma a barre orizzontali/verticali
Grafico a torta
OPERATORI DI TENDENZA CENTRALE
- Moda
OPERATORI DI DISPERSIONE
Indice di Gini:
E1=1 f 2
; valore massimo: (K-1)/K
VARIABILI ORDINALI
Esempi: Scala Moh della durezza dei minerali " Voti ottenuti negli esami " Grado militare " Titolo di
studio " Graduatorie in un concorso
DISTRIBUZIONE DI FREQUENZA: serie ordinata di frequenza (frequenze cumulate e retrocumulate)
RAPPRESENTAZIONE GRAFICA
Istogramma
Spezzata a gradini
OPERATORI DI TENDENZA CENTRALE
- Moda
- Mediana: se N è dispari (N+1)/2
se N è pari N/2 e N/2+1
OPERATORI DI DISPERSIONE
non si usa molto calcolare la dispersione di una variabile ordinale
OPERATORI DI POSIZIONE O QUANTILI
- Quartili
- Decili e centili
VARIABILE CARDINALE
Esempi: Temperatura(°C,°F), Data del calendario, Test di intelligenza, Test di abilità, Test di profitto,
Test di attitudine, Scale di atteggiamento.
Esempi: Lunghezza, Durata, Temperatura in gradi Kelvin, Peso, n di risposte corrette in un test di
abilità, Tempi di reazione, Ritmo cardiaco in ricerche psicofisiologiche, n di volte in cui si è verificato
un certo comportamento.
TIPO A
DISTRIBUZIONE DI FREQUENZA: seriazione di frequenza (frequenze assolute)
RAPPRESENTAZIONE GRAFICA:
Istogramma (ampiezza equivalente)
OPERATORI DI TENDENZA CENTRALE:
- Moda
- Mediana
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica sintesi corso psicometria e più Sintesi del corso in PDF di Psicometria solo su Docsity!

STATISTICA DESCRITTIVA MONOVARIATA

Livello di scala Operazione canonica Tipo di variabile 0 scala nominale Classificazione Variabile categoriale 1 scala ordinale Classificazione in categorie ordinate (ordinamento) Variabile ordinale 2 scala di intervalli Misurazione (0 convenzionale, unità di misura convenzionale) Variabile cardinale 3 scala di rapporti Misurazione(0 assoluto, unità di misura convenzionale) Variabile cardinale VARIABILI CATEGORIALI Esempi: Sesso, Religione di appartenenza, Nazionalità, Regione geografica di provenienza DISTRIBUZIONE DI FREQUENZA : serie sconnessa di frequenzatabella di frequenze (assolute; relative: ∑fk=1; percentuali: ∑qk=100) RAPPRESENTAZIONI GRAFICHE  Diagramma a barre orizzontali/verticali  Grafico a torta OPERATORI DI TENDENZA CENTRALE

  • Moda OPERATORI DI DISPERSIONE

Indice di Gini: E 1 = 1 − ∑ f^2 ; valore massimo: (K-1)/K

VARIABILI ORDINALI

Esempi: Scala Moh della durezza dei minerali " Voti ottenuti negli esami " Grado militare " Titolo di studio " Graduatorie in un concorso DISTRIBUZIONE DI FREQUENZA : serie ordinata di frequenza (frequenze cumulate e retrocumulate) RAPPRESENTAZIONE GRAFICA  Istogramma  Spezzata a gradini OPERATORI DI TENDENZA CENTRALE

  • Moda
  • Mediana: se N è dispari (N+1)/ se N è pari N/2 e N/2+ OPERATORI DI DISPERSIONE non si usa molto calcolare la dispersione di una variabile ordinale OPERATORI DI POSIZIONE O QUANTILI
  • Quartili
  • Decili e centili VARIABILE CARDINALE Esempi: Temperatura(°C,°F), Data del calendario, Test di intelligenza, Test di abilità, Test di profitto, Test di attitudine, Scale di atteggiamento. Esempi: Lunghezza, Durata, Temperatura in gradi Kelvin, Peso, n di risposte corrette in un test di abilità, Tempi di reazione, Ritmo cardiaco in ricerche psicofisiologiche, n di volte in cui si è verificato un certo comportamento. TIPO A DISTRIBUZIONE DI FREQUENZA: seriazione di frequenza (frequenze assolute) RAPPRESENTAZIONE GRAFICA:  Istogramma (ampiezza equivalente) OPERATORI DI TENDENZA CENTRALE:
  • Moda
  • Mediana
  • Media: x =¿ (^) ∑ i = 1 N

( xi ) / N ¿

OPERATORI DI DISPERSIONE:

o Varianza: s

2 ∑ i = 1 N

o Deviazione standard: s =

√∑ i = 1

N

TIPO B

DISTRIBUZIONE DI FREQUENZA: Seriazione di frequenza in classi

 LIMITI VERI: l' = limite inferiore-0,5 L' = limite superiore+0.

AMPIEZZA: ak = Lk^ '^ - lk^ '

DENSITA’: dk = nk / ak

VALORE CENTRALE: xk =¿^ ¿^ ¿

RAPPRESENTAZIONE GRAFICA:

 Istogramma  Poligonale di frequenza OPERATORI DI TENDENZA CENTRALE:

  • Moda
  • Mediana
  • Media: x =

N

k = 1 K

xk nk

OPERATORI DI DISPERSIONE:

o Varianza: s^2 =

N

k = 1 K

nk ¿ ¿

o Deviazione standard CURVA NORMALE O DI GAUSS

Parametri: μ = media

σ = deviazione standard

Intervalli tipici:

( μ -1 σ^ <x< μ +^1 σ^ ¿ 68%

( μ -2 σ <x< μ + 2 σ ¿ 95%

( μ -3 σ^ <x< μ +^3 σ^ ¿^ 99%

Indici di forma:

  • Simmetria/asimmetria positiva (media>mediana>moda) o negativa (media<mediana<moda)
  • Curtosi: leptocurtica se è più appuntita rispetto alla normale platicurtica se è meno appuntita rispetto alla normale Gamma 1 Gamma 2 I momenti omogenei:
  1. di primo ordine (media): informano sulla tendenza centrale
  2. centrali di secondo ordine: informano sulla dispersione
  3. centrali di terzo ordine: informano sulla simmetria
  4. centrali di quanto ordine: informano sulla curtosi

Assioma 1: gli eventi, sottoinsiemi di uno spazio , formano una classe additiva . Assioma 2 : a ogni evento Ei è assegnato un numero reale P(Ei) 0. Assioma 3 : P () = 1probabilità di omega= Secondo assioma + terzo assioma scala di probabilità che va da 0 a 1. Assioma 4: se Ei e Ej sono eventi incompatibili, ovvero se EiEj=, allora: P(EiEj)=P(Ei)+P(Ej). La cardinalità : in generale, indicando con n la cardinalità di ,la cardinalità di  è data da:

Principio della somma, probabilità totali: calcolare la probabilità di uno o più eventi

eventi disgiunti e non compatibili EiEj=  P(EiEj) = P(Ei) + P(Ej).  eventi non disgiunti e compatibili EiEj P(EiEj) = P(Ei) + P(Ej)-P(Ei Ej)

Principio del prodotto, probabilità composte P(Ei  Ej): verificarsi congiunto di più eventi

eventi indipendenti P(Ei|Ej)= P(Ei) P(EiEj) = P(Ei)* P(Ej) e P(EjEi) = P(Ej)* P(Ei)  eventi non indipendenti (dipendenti) P(Ei|Ej) P(Ei) P(EiEj) = P(Ei)* P(Ej|Ei) e P(EjEi) = P(Ej)* P(Ei|Ej)

2. VARIABILE ALEATORIA È un dispositivo per descrivere cosa può capitare in una circostanza di tipo aleatorio, questa descrizione viene fatta in modo probabilistico. Eventi elementari: coincidono con gli esiti che possono avere gli eventi (es. lancio della moneta). Eventi complessi: unione di più eventi elementari (es. uscita di un numero pari al lancio di un dado). Evento complementare: evento opposto a quello preso in considerazione da noi. Omega =unione degli eventi elementari Insieme delle parti associato ad , , come l’insieme di tutti gli eventi elementari e complessi che possiamo formare a partire da , compresi l’evento impossibile (insieme vuoto, indicato con ) e , l’evento certo. Evento impossibile= probabilità 0 e evento certo= probabilità 1 Le probabilità sono numeri, gli eventi NO! Posso sommare, moltiplicare tra di loro delle probabilità, ma non degli eventi! Probabilità condizionata : P(Ei|Ej) probabilità che Ei si verifichi posto che Ej si sia verificato P(Ei|Ej)= P(Ei) L’evento condizionante non modifica la probabilità dell’evento d’interesse evento indipendente. L’evento è condizionato se la sua probabilità cambia in relazione all’altro evento evento dipendente. indipendenza stocastica : P(Ei|Ej)= P(Ei) e P(Ej|Ei)= P(Ej)

Bisogna: tradurre gli elementi di omega in numeri e associare ai numeri delle probabilità. Valori numerici (omega R)= supporto numerico della variabile aleatoria. Costruzione variabili aleatorie unidimensionali discrete:

  1. Costruzione dello spazio campione 
  2. Costruzione dell’insieme delle parti 
  3. Assegnazione di una probabilità agli eventi elementari.
  4. Definizione di una funzione che assegna ad ogni evento elementare un numero reale xi
  5. Assegnazione di una probabilità ai valori xi, P(xi)
  6. Rappresentazione della v.a. X e controllo della sua corretta costruzione RPPRESENTAZIONE GRAFICA della DISTRIBUZIIONE DI PROBABILITA’ Ascisse: supporto numerico Ordinate: la probabilità (se è discreta) v.a. di Bernoulli f(x;p) funzione di probabilità PARAMETRO: p probabilità di successo VALORI CARATTERISTICI distribuzione del parametro o Valore atteso  o Varianza  v.a. binomiale è la somma di n variabili bernoulliane; queste sono i.i.d. (identicamente, indipendentemente distribuite). PARAMETRO: p governa l’andamento della probabilità, il valore atteso della variabile e anche la sua varianza. P=q distribuzione simmetrica e viceversa VALORI CARATTERISTICI o Valore atteso

E(x)=n*p

o Varianza

VAR(X)=npq

SOMMA

 Dei valori attesi: E(X)= n*p

 Delle varianze: VAR(X)= np(1-p) np*q

Variabili aleatorie unidimensionali continue: È la v.a. che descrive il punteggio che possiamo osservare estraendo a caso un individuo. n/xcoefficiente binomiale ci dice quante volte posso ottenere un determinato risultato; in quanti modi posso ottenere quel risultato numerico.

Rapporto tra v.a. normale standardizzata e radice quadrata di una v.a. chi quadrato rapportata ai suoi gdl. (La normale standardizzata e a chi quadrato sono tra loro indipendenti.) PARAMETRO: gdl crescendo la sua forma approssima sempre più la normale standardizzata (il rapporto sarà sempre più vicino a 1 (varianza tende a 1, e media 0). VALORI CARATTERISTICI: o Media o Varianza La probabilità si concentra solo su una coda positiva o negativa, se si riferisce a due code sta a metà tra le due risultati si trovano sulle tavole statistiche (si divide nel caso in cui la distribuzione viene associata all’uso ad una coda o a due code.) o

3. CONCETTO DI DISTRIBUZIONE CAMPIONARIA DI UNA STATISTICA Da un campione di N elementi si estrae un campione di n elementi, sul quale calcoliamo una statistica. Si utilizza una procedura di campionamento casuale semplice con reimmissione: ogni estrazione è indipendente.

RDN ,n = N

n Estraiamo dalla popolazione un campione casuale semplice (CSR) (tutte le unità hanno la stessa

probabilità di comporre il campione), di ampiezza n ogni Xi è NOR (μ, σ^2 ) come la variabile nella

popolazione ed è indipendente dalle altre: i.i.d. In una tabella registriamo gli esiti dell’estrazione dei vari campioni. Distribuzione indica un insieme di valori: es. distribuzione campionaria della media l’insieme delle medie di tutti campioni. Parametro : valore incognito di una popolazione che vogliamo conoscere, indicato con lettere dell’alfabeto greco. Statistica campionaria : valore calcolato sui dati del campione che usiamo per produrre informazioni sul parametro, indicata con lettera dell’alfabeto latino. Per poter generalizzare i risultati ottenuti su un campione all’intera popolazione da cui è stato estratto il campione, il campione deve essere statisticamente rappresentativo cioè ottenuto attraverso una procedura di campionamento probabilistico (casuale). Procedure di campionamento:  probabilistico  stratificato e a grappoli  non probabilistico Somma campionaria U= X1+X2…+Xn

(u= x1+ x2+…+xnvalori campioni è una determinazione della v.a. Uintera distribuzione valori)

Parametri della v.a. U, se le variabili si distribuiscono normalmente le Xi sono NOR ¿ ¿):

o Media: E(U)= n*μ

o Varianza: VAR (U)= n* σ^2

Teorema del limite centrale

Data una popolazione di qualsiasi forma, con media  e varianza ❑^2 ed estratto un campione CSR di

ampiezza n, la v.a. ZU tende a distribuirsi come una v.a. normale standardizzata.

Distribuzione della v.a. media campionaria o Valore atteso La media della distribuzione campionaria è uguale alla media della popolazione. o Varianza La sua radice è ERRORE STANDARD (SE) della media. Forma della distribuzionenormale sotto la condizione che la variabile nella popolazione sia anch’essa una normale o se la variabile è non normale ma il campione è grande (grazie al teorema del limite centrale). Se il campione è piccolo anche la media si distribuisce normalmente: sappiamo a priori quale sarà la sua forma, la sua media, ecc.

Procedure inferenziali :

 STIMA PUNTUALE

Stimatore: nome che si attribuisce alla statistica T(X1,X2,…) Stima: valore di una statistica che riteniamo sia approssimativamente vicino al valore del parametro che ci interessa. Determinazione di un campione effettivo t (x1,x2,…)

La stima viene indicata con il simbolo del parametro a cui si aggiunge l’accento circonflesso ( ^ μ ).

Stima puntuale è sempre accompagnata dall’errore standard (SE). Proprietà degli stimatori: (ci aiutano a scegliere quale stimatore sia il più valido) o Correttezza : assoluta valore atteso coincide con il parametro da stimare asintotica: distorsione dello stimatore tende a zero per n che tende a infinito. o Efficienza : quanto le singole stime sono vicine al parametro di interesse, è il reciproco dello scostamento medio che c’è tra i valori dello stimatore e il parametro che deve studiare: Stimatori corretti: è il reciproco della varianza dello stimatoreefficienza relativa: Media: stimatore corretto Varianza: asintoticamente corretto stimatore assolutamente corretto correggiamo l’espressione della varianza campionaria. : varianza campionaria corretta Parametri: valore atteso: varianza:

Il più delle volte la media si distribuisce in modo normale; la media delle media è uguale a μ; in corrispondenza dei punti di flesso, la distanza dalla media è uguale a μ-1 SE ( = μ-SE -  =μ+SE). Si sceglie che tipo di distribuzione assume la statistica in base al SIGMA:  Noto: si distribuisce come una NOR (0,1).  Ignoto: si distribuisce come una t di Student con gdl= n-1. (Si usa quando il campione è piccolo, ma è plausibile che la variabile si distribuisca normalmente.) VERIFICA DI IPOTESI Ipotesi: affermazione relativa ad un’informazione che può essere controllata empiricamente. Verificare le ipotesi: controllare la plausibilità dell’ipotesi attraverso dei dati campionari. Logica della verifica di ipotesi: Sistema di ipotesi:

1. H 0 ipotesi nulla

2. H 1 ipotesi alternativa (o di ricerca)

Si lavora sempre sull’ipotesi nulla (incompatibile con H 1 ¿, che si assume vera.

Statistica test : si calcola una statistica e se ne ricava la distribuzione campionaria assumendo come

vera H 0.

Decisione statistica : in base a dove si posiziona il valore della statistica sulla distribuzione

campionaria della statistica si decide se accettare o rifiutare H 0.

In queste statistiche le ipotesi vengono rifiutate o accettate non vengono dichiarate vere o false. Z calcolato= valore della statistica test se sulla distribuzione campionaria della statistica test: o cade vicino al valore atteso della distribuzione accettiamo l’ipotesi nulla o cade su una delle code della distribuzione rifiutiamo l’ipotesi nulla Z critico= valore soglia (cut off) separa l’intervallo dei valori che portano all’accettazione o al

rifiuto di H 0.

Quando si rifiuta H 0 (Z calcolato sta sulle code della distribuzione, fuori dallo Z critico) si commenta

con l’affermazione del livello di significatività. IPOTESI:  Bidirezionale: test a due code (/2= 0,025)  Monodirezionale: test a una coda (=0,05)  Semplice: un solo valore che rende vera l’ipotesi (quella nulla è sempre semplice).  Composte: più valori che rendono vero l’ipotesi alternativa. Distribuzione della media campionaria standardizzata e verifica di ipotesi su una media Devo assumere che la variabile si distribuisca normalmente nella popolazione. Sigma noto: la media standardizzata si distribuisce come una NOR(0,1)  z-test Sigma ignoto: La media standardizzata si distribuisce come una t di Student con gdl= n-1.  t-test Logica falsificazionista di Popper : l’ipotesi non può essere verificata una volta per tutte (non si può mai escludere che in una certa circostanza ci siano dei dati che la falsifichino), ma è possibile falsificarla.

Se le due popolazioni sono NOR, ma le varianze nella popolazione sono ignote : la statistica test si distribuisce come la t di Student e se n1>30e n2 >30 approssima la NOR standardizzata. Se nelle due popolazioni la variabile ha una distribuzione NOR: (differenza tra le medie/SE)  anche la statistica test si distribuisce come la NOR (0,1). Bisogna distinguere due tipi di test:

  1. Parametrico: vengono fatti assunti sulla distribuzione della variabile/i nella popolazione; parametri governano una distribuzione.
  2. Non parametrico o distribution free: la distribuzione della variabile/i nella popolazione può essere qualsiasi. Errori nella verifica di ipotesi

 probabilità di commettere l’errore di rifiutare H 0 veraerrore di prima specie

β  probabilità di commettere l’errore di accettare H 0 falsaerrore di seconda specie

Potenza di un test: 1-β=capacità di rifiutare ipotesi nulle false. Dipende dalla sua natura, dal valore di ; un test parametrico è più potente di uno analogo non parametrico. Il test della differenza tra due medie per campioni indipendenti Si utilizza molto in ricerche psicologiche per effettuare confronti tra genere. I due campioni sono indipendenti (campionamento casuale semplice da due urne differenti).

distribuzione campionaria della statistica descrizione della v.a. X 1 − X 2

 Valore atteso: (stimatore corretto)  Varianza: Logica del test: Sistema di ipotesi: Statistica test: Nelle due popolazioni non sono solo le medie a poter essere diverse tra loro; ma anche le varianze:  Se le varianze sono uguali: OMOSCHEDASTICITA’  Se le varianze sono diverse: ETEROSCHEDASTICITA’ Omoschedasticità varianza Stima del sigma: Stima SE nella differenza tra due medie: combinazione stime dei due campioni

Numeratore: X 1 − X 2 (non cambia) e denominatore: SE cambia.

Coefficiente di correlazione di Pearson Si utilizza ai fini descrittivi: informa sulla forza (intensità della correlazione) e sulla direzione. Numeratore: covarianza Denominatore: prodotto delle radici delle covarianze  =0 assenza di relazione lineare  =1 perfetta relazione lineare positiva  =-1 perfetta relazione lineare negativa Test sulla correlazione lineare Assunti o requisiti: osservazioni indipendenti; distribuzione delle due variabili nella normale bivariata; variabili di tipo cardinale. Sistema di ipotesi: Statistica test: Si distribuisce come una t di Student. Distribuzione normale bivariata Funzione che descrive la probabilità congiunta delle due variabili: La stima di rho è il coefficiente di correlazione PARAMETRO Si individuano i valori critici sulle tavole statistiche (t di Student; ipotesi bidirezioneale). Coefficiente di correlazione di Spearman Può essere utilizzato anche su variabili ordinali o su quelle categoriali se non rispettano l’assunto di essere delle normali bivariante. Non ci sono assunti test non parametrico (meno potente del test di correlazione di Pearson). x e y : non sono valori dei due vettori, ma i loro ranghi. Tabella di contingenza Rappresentazione della distribuzione doppia di frequenza. Distribuzione: Congiunta: insieme delle frequenze Marginale di riga: totali di riga Marginale di colonna: totali di colonna Sulle righe: modalità della prima variabile. Sulle colonne: modalità della seconda variabile. Nelle celle: numero di casi che posseggono quella modalità. Le frequenze di riga e di colonna Si ottengono dividendo i casi di una modalità fratto il totale marginale di riga/colonna. Totale marginale delle frequenze di riga e di colonna=1. Si calcola e utilizza solamente una distribuzione marginale, quella della variabile indipendente. Sono le più utili danno informazioni sulla presenza o assenza di relazione tra le variabili. xi= generica modalità di x yj= generica modalità di y I= numero di modalità di x J= numero di modalità di y nij= generica frequenza congiunta (o di cella, interna) ni. = generica frequenza marginale di riga n.j= generica frequenza marginale di colonna

Più le distribuzioni parziali differiscono tra loro e rispetto alla distribuzione marginale più c’è relazione tra variabili. Se non c’è relazione tra x e y le distribuzioni parziali di x e y sono uguali tra di loro e alle loro distribuzioni marginali. Chi quadrato Informa sull’intensità della relazione tra le due variabili. È un test non parametrico: non ci sono assunti sulla distribuzione congiunta delle due variabili a livello della popolazione. Si può calcolare solo su campioni sufficientemente grandi: non più del 20% delle celle con frequenze teoriche < 5. Somma degli scarti tra frequenze assolute (osservate) e le frequenze teoriche/attese. Se c’è indipendenza tra le variabili gli scarti valgono 0 chi quadrato=0. Valori teorici= numero di casi presenti in quella cella se tra le due variabili c’è indipendenza.  Si calcola la probabilità composta degli eventi sotto la condizione di indipendenza: probabilità del primo eventoprobabilità del secondo eventototale marginale di rigamarginale di colonna/ totale dei casi  Si passa dalla probabilità al numero di casi in ogni cella assumendo l’indipendenza. Per valutare l’intensità si confronta il valore Chi quadrato ottenuto con il suo: Massimo= (n di modalità più basso -1)n Minimo= Phi Informa sull’intensità della relazione tra le due variabili, ma, a differenza del Chi quadrato, non risente dell’ampiezza del campione. Radice di chi quadro fratto n. Test del chi quadrato per tabelle di contingenza Sistema di ipotesi: Statistica test Chi quadrato Distribuzione campionaria : Distribuzione campionaria approssima la distribuzione 2 con gradi di libertà (nu) = (I-1) * (J-1)= Valore critico e valore calcolato Si trova nelle tavole statistiche del chi quadro, in base al valore di alpha e se è uni o bidirezionale. Decisione statistica :

Se il valore osservato cade nell’intervallo di rifiuto di H 0  la relazione è statisticamente significativa

al n% (in base al valore di alpha). Accanto all’esito della verifica di ipotesi è bene sempre riportare una misura di intensità dell’effetto come il phi.

y = variabile dipendente x = variabile indipendente, fattore i = generico individuo j = generica modalità di x, generico gruppo k= ultimo gruppo, numero di gruppi n= ampiezza singolo gruppo N= totalità dei casi =nk Primo pedice: posizione dell’individuo nel proprio gruppo. Secondo pedice: a che gruppo appartiene quel caso. disegno bilanciato= campioni stessa dimensione

Introducendo più regressori si ottiene R^2 un sempre più alto che permette di tenere conto della

maggior quantità di fonti di variazione del fenomeno che stiamo studiando. Nella regressione lineare semplice il coefficiente di determinazione è uguale al coefficiente di Pearson al quadrato. ANOVA: analisi della varianza È una delle tecniche di analisi multivariata più usate. Prende nomi diversi in base al numero e alla natura delle variabili prese in considerazione:

  • One-way anova (anova ad una via): 1 VD e 1 VI
  • Anova fattoriale: 1 VD e 2 o più VI
  • Manova (anova multivariata):2 o più VD e 2 o più VI Matrice di calcolo Verifica di ipotesi one-way ANOVA Sistema di ipotesi

H 0 : 1=2=...=K (medie tutte uguali)

H 1 : almeno due medie sono tra loro differenti

Assunti o requisiti ANOVA è una procedura parametrica: -osservazioni indipendenti (se campione casuale della popolazione). -variabile dipendente nelle K pop distribuzione NOR. -omoschedasticità nelle K pop. (assomiglia a test tra due media nel caso di omoschedasticità). Tipo di variabile Dipendente: cardinale Indipendente: poche modalità ordinate o non Statistica test Significatività della statistica test il loro rapporto assumerà un valore non troppo distante da 1 soltanto se l’ipotesi nulla è vera, altrimenti sarà significativamente maggiore di 1. Se rifiutiamo l’ipotesi nulla significa che almeno tra due gruppi le medie sono diverse. Più le medie sono diverse tra di loro più è forte la relazione. Distribuzione campionaria F di Fisher-Snedecor, con (K-1) e (N-K) gradi di libertà. VARb (varianza between) e VARw (varianza within)

Sono due stime indipendenti di ❑^2 (la varianza della variabile dipendente nella popolazione).

Stima di ❑^2 :

  1. Con la relazione che tra la varianza della media campionaria e la varianza nella popolazione

 VARb: (varianza tra i gruppi) stima corretta solo se H^0 è corretta.

2. Media ponderate delle stime VARw (varianza entro i gruppi) sempre stima corretta ❑^2.

Calcolo delle due varianze Media : media parziale Somma di tutte le medie dei casi di un gruppo e si divide per n. (calcolata su un singolo gruppo). media generale Riguarda tutti i casi, non uno specifico gruppo. Devianza: devianza totale somma dei valori di un gruppo o tutti devianza tra le medie somma degli scarti - la media generale (media delle medie) prese al quadrato. devianza parziale spostamenti della media al quadrato dalla media di gruppo. Calcolata localmente (internamente ad un gruppo). Varianza: Ricordando che il rapporto tra devianza e Gradi di libertà ci restituisce una varianza corretta. varianza totale varianza delle medie Se l’ipotesi nulla è vera questa è la varianza della media campionaria. varianza parziale I valori che il caso può scegliere liberamente sono n-1. VARw= Media delle varianze parziali Per ogni gruppo prendiamo la varianza parziale, le sommiamo e facciamo una media di esse. Facendo pesare la varianza per il numero dei casi si ottiene una varianza pulled. VARb= Varianza delle media moltiplicata per n Se il disegno non è bilanciato, la formula diventa: Teorema di scomposizione della devianza

Operatore E^2