Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


PROGRAMMA STATISTICA MULTIVARIATA, Appunti di Statistica

ho scritto questo documento unendo i miei appunti, le slides e un riassunto del libro

Tipologia: Appunti

2021/2022

In vendita dal 16/06/2022

chiarapavo
chiarapavo 🇮🇹

4.6

(16)

13 documenti

1 / 57

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA QUANTO BASTA
I fondamenti logico-probabilistici della statistica. Strumenti statistici: sintesi, analisi delle relazioni,
inferenza.
L’analisi dei dati è propedeutica a qualsiasi ragionamento per esporre o trattare argomenti. La statistica è
una scienza al servizio di altre scienze sperimentali: analisi di fenomeni sociali, politici che non possono fare
a meno della statistica che studia i dati e li tramuta nel completamento dell’elaborazione dei fenomeni. I
dati servono ad una documentazione per conoscere la nascita di un fenomeno, quali sono le possibili
elaborazioni del fenomeno e le possibili rappresentazioni. Esempio: l’andamento del percorso universitario,
i voti sono una sintesi del nostro percorso; sono variabili, un insieme di dati interessanti perché devono
variare e assumere modalità differenti.
Dunque, sintetizzare e variabilità sono due concetti chiave. Almeno due variabili devono essere diverse con
modalità differenti. Questa è la parte descrittiva monovariata, analizzata da un carattere per volta; inoltre,
analizza la relazione tra variabili, due caratteri che si pongono insieme attraverso l’associazione.
In assenza di dati molto ampi, in assenza di avere tutto, si lavora per campione con un lavoro parziale di
dati. Il campione è lo strumento di cui si serve la statistica che sarebbe l’inferenza. Il campione è costruito
secondo certe modalità, come su una famiglia specifica, e su questa base l'ISTAT elabora un censimento. Il
campione è una relazione parziale per poterli inferire: attraverso strumenti rigorosi, devo riferire all'insieme
della moltitudine di oggetti che si vanno a raggiungere. In questo caso si tratta della statistica inferenziale.
Altro esempio, la previsione andamento PIL 2023: le informazioni sul futuro andamento sono incerte,
perché non sappiamo quale sarà realmente l’andamento nel coso dell’anno. L’analisi deve avvenire con lo
studio dell’andamento di un certo valore che ci si aspetta e che rimanga stabile. Si tratta dell’andamento
stimato.
Controllo delle ipotesi: si lavora in senso previsivo, servendoci di previsioni che possono essere poco
fondate se do ragione alla mia fantasia; devo raccogliere delle informazioni che devo trasformare in dati
statistici e poi devono essere elaborati su uno o più caratteri statistici che stanno in una relazione causale.
(Alla fine del corso, potremmo avere un voto elevato più alto di chi non frequenta: metto in relazione
causale chi ha avuto l’approccio con chi invece no).
Quando faccio delle stime o previsioni, faccio delle ipotesi su benefici e prestazioni. Ho deciso di fare il
corso prima; faccio un’ipotesi previsionale stimata con una logica che non è una matematica, ma è una
logica probabilistica. Mi servo degli strumenti del calcolo della probabilità, di cui non ho i dati su tutto.
La popolazione è l'insieme di tutte le unità oggetto di studio, che non sono solo persone, possono essere
oggetti, enti. Sono unità statistiche a cui sono interessata, ma non è detto che ne posso avere tutte le
informazioni. N rappresenta la dimensione della popolazione. Il parametro è una caratteristica specifica
della popolazione: sono valori calcolati usando i dati sulla popolazione.
Il campione è il sottoinsieme delle unità osservate nella popolazione. N rappresenta la dimensione del
campione. Dal campione andrò a inferire nella popolazione, con una probabilità di incorrere ad un errore.
Sui dati che ho analizzato posso attribuire solo su quel campione a tutta la popolazione. Sono concezioni ed
operazioni di probabilità, lavorando alla stima di parametri e ipotesi raccolti su un campione che hanno
interesse rispetto alla popolazione e non solo al campione. Se non ho le risorse, come quelle temporali, non
posso indagare su tutta la popolazione. La statistica è una caratteristica specifica del campione: i valori
calcolati usando i dati campionari.
La popolazione sono: tutti i potenziali votanti nelle prossime elezioni; tutti i pezzi prodotti oggi; tutti gli
scontrini di novembre. Il campione è: 1000 votanti selezionati a caso (dato osservato su un caso) per
un’intervista; alcuni pezzi selezionati per un test di distruzione; scontrini selezionati a caso per una verifica.
Controllo di qualità dei prodotti: faccio un controllo a campione su determinati pezzi, quindi un campione
sulla popolazione (gli oggetti prodotti).
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39

Anteprima parziale del testo

Scarica PROGRAMMA STATISTICA MULTIVARIATA e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA QUANTO BASTA

I fondamenti logico-probabilistici della statistica. Strumenti statistici: sintesi, analisi delle relazioni, inferenza. L’analisi dei dati è propedeutica a qualsiasi ragionamento per esporre o trattare argomenti. La statistica è una scienza al servizio di altre scienze sperimentali: analisi di fenomeni sociali, politici che non possono fare a meno della statistica che studia i dati e li tramuta nel completamento dell’elaborazione dei fenomeni. I dati servono ad una documentazione per conoscere la nascita di un fenomeno, quali sono le possibili elaborazioni del fenomeno e le possibili rappresentazioni. Esempio: l’andamento del percorso universitario, i voti sono una sintesi del nostro percorso; sono variabili, un insieme di dati interessanti perché devono variare e assumere modalità differenti. Dunque, sintetizzare e variabilità sono due concetti chiave. Almeno due variabili devono essere diverse con modalità differenti. Questa è la parte descrittiva monovariata, analizzata da un carattere per volta; inoltre, analizza la relazione tra variabili, due caratteri che si pongono insieme attraverso l’associazione. In assenza di dati molto ampi, in assenza di avere tutto, si lavora per campione con un lavoro parziale di dati. Il campione è lo strumento di cui si serve la statistica che sarebbe l’inferenza. Il campione è costruito secondo certe modalità, come su una famiglia specifica, e su questa base l'ISTAT elabora un censimento. Il campione è una relazione parziale per poterli inferire: attraverso strumenti rigorosi, devo riferire all'insieme della moltitudine di oggetti che si vanno a raggiungere. In questo caso si tratta della statistica inferenziale. Altro esempio, la previsione andamento PIL 2023: le informazioni sul futuro andamento sono incerte, perché non sappiamo quale sarà realmente l’andamento nel coso dell’anno. L’analisi deve avvenire con lo studio dell’andamento di un certo valore che ci si aspetta e che rimanga stabile. Si tratta dell’andamento stimato. Controllo delle ipotesi : si lavora in senso previsivo, servendoci di previsioni che possono essere poco fondate se do ragione alla mia fantasia; devo raccogliere delle informazioni che devo trasformare in dati statistici e poi devono essere elaborati su uno o più caratteri statistici che stanno in una relazione causale. (Alla fine del corso, potremmo avere un voto elevato più alto di chi non frequenta: metto in relazione causale chi ha avuto l’approccio con chi invece no). Quando faccio delle stime o previsioni, faccio delle ipotesi su benefici e prestazioni. Ho deciso di fare il corso prima; faccio un’ipotesi previsionale stimata con una logica che non è una matematica, ma è una logica probabilistica. Mi servo degli strumenti del calcolo della probabilità, di cui non ho i dati su tutto. La popolazione è l'insieme di tutte le unità oggetto di studio, che non sono solo persone, possono essere oggetti, enti. Sono unità statistiche a cui sono interessata, ma non è detto che ne posso avere tutte le informazioni. N rappresenta la dimensione della popolazione. Il parametro è una caratteristica specifica della popolazione: sono valori calcolati usando i dati sulla popolazione. Il campione è il sottoinsieme delle unità osservate nella popolazione. N rappresenta la dimensione del campione. Dal campione andrò a inferire nella popolazione, con una probabilità di incorrere ad un errore. Sui dati che ho analizzato posso attribuire solo su quel campione a tutta la popolazione. Sono concezioni ed operazioni di probabilità, lavorando alla stima di parametri e ipotesi raccolti su un campione che hanno interesse rispetto alla popolazione e non solo al campione. Se non ho le risorse, come quelle temporali, non posso indagare su tutta la popolazione. La statistica è una caratteristica specifica del campione: i valori calcolati usando i dati campionari. La popolazione sono: tutti i potenziali votanti nelle prossime elezioni; tutti i pezzi prodotti oggi; tutti gli scontrini di novembre. Il campione è: 1000 votanti selezionati a caso (dato osservato su un caso) per un’intervista; alcuni pezzi selezionati per un test di distruzione; scontrini selezionati a caso per una verifica. Controllo di qualità dei prodotti: faccio un controllo a campione su determinati pezzi, quindi un campione sulla popolazione (gli oggetti prodotti).

Distribuzione campionaria: è una distribuzione di tutti i possibili valori di una statistica ottenuti da campioni della stessa ampiezza estratti dalla popolazione. Siamo 8 e ne vogliamo prendere 3, potrebbe capitare che gli elementi cambiano. Si usa la combinazione fattoriale, strumento matematico per calcolare le combinazioni. Statistica  logica probabilistica (NO deterministica come in matematica). L’universo è l’insieme di tutte le possibilità di unità di analisi  enti, attribuzione metafisica Unità statistiche Non è detto che io possa avere tutte le info e i dati di cui necessito. Si fa quindi un sondaggio a campione. Sulla base di ciò che raccolgo andrò ad inferire sulla totalità. Prevedo prima la probabilità di ricorrere in errore e seguo dei criteri probabilistici. La società dei sondaggi commerciali lavorano sul tempo, dall’oggi al domani vengono distribuiti. Nemmeno l’Istat fa più statistiche per mancanza di: -tempo -risorse economiche -risorse umane Esistono tecniche statistiche che permettono di inferire da un campione soggetto a sondaggio alla totalità della popolazione. La Meloni ha il 20% di voti/approvazione, mentre prima era un partito da 3%. Sostengono questa percentuale attraverso il pre-sondaggio ma al momento della votazione l’intera popolazione mostra i veri risultati. Controllo di campione  Aziende Controllo a blocchi  Strade, infrastrutture Blocchetti di cemento analizzati in laboratorio. Es. ponte Morandi. Le twins tower: avevano previsto l’impatto aereo accidentale ma non diretto ed intenzionale. I valori calcolati sui dati del campione sono chiamati STATISTICHE. L’insieme di tutta la popolazione di riferimento è chiamata PARAMETRO. Il processo attraverso il quale si estraggono conclusioni è chiamato INFERENZA. E su questo si costruisce la distribuzione campionaria. Da una popolazione è possibile estrarre una infinita possibilità di campioni. Es. combinazione che usa i fattoriali per calcolare le combinazioni di 3 su parametri di 8. La statistica non è matematica ma si serve di alcuni elementi matematici. Statistica quanto basta: ragionare in termini probabilistici su ciò che è probabile rispetto a varissime cause. Tipi di dati: o –categorici variabili categoriche o Distribuzione di frequenze o diagrammi o -numerici o Discreti (elementi conteggiati) es. num. figli o Continui: (caratteristiche misurate): peso, voltaggio

o Mediana  è un indice di posizione: punto che in una sequenza ordinata di dato è il dato che divide in due esatte ed identiche parti la sequenza. La posizione centrale. o Moda  ricorre frequentemente ed è la modalità con la quale ricorre un dato ed è un indice di posizione (la moda non corrisponde alla massima frequenza). La moda è bimodale. La posizione più ricorrente. Quando calcolo i numeri per avere un dato più vicino alla realtà o escludo dal calcolo i valori estremi o uso la mediana. La media ponderata: i pesi posti sui numeri sono le frequenze. In statistica non si usa mai la media aritmetica perché la statistica considera le frequenze e quindi usa la ponderata. Variabilità (quando i dati sono di tipo numerico)  scarto quadratico medio mostra la variabile rispetto alla media. Ovviamente non posso usarla per dati categoriali (es. scuola di provenienza). Nei dati categoriali ho solo le frequenze. LETTERE GRECHE  POPOLAZIONE LETTERE LATINE(ARABE)  CAMPIONE Coefficiente di variazione:  Misura la variabilità relativa  Sempre in %  Variabilità relativa rispetto alla media  Confrontare due o più set di dati misurati con unità di misura diretta Analisi fattoriale include il concetto di varianza -> misura di variabilità che c’è in un insieme di dati. Varianza della popolazione Misura di variabilità, quanta variabilità c’è in un insieme di dati. Media dei quadrati delle differenze fra ciascuna osservazione è la media. Si usa la formula per calcolare la stima della popolazione Quando si divide per N ad esempio con una grande campione si calcola stima campionaria e si divide pe rN Varianza campionaria Media approssimativamente dei quadrati delle differenze fra ciascuna osservazione e la media. Quando il campione è piccolo si usa n minuscola (n-1)quando si ha un risultato distorto. Nel caso dei grandi campioni si dice che tendono verso la normalità cioè le frequenze più numerose si addensano nei valori normali/ centrali, ,legge dei grandi numeri cioè man mano che aumenta la numerosità campionaria tutte le distribuzioni tenderanno verso i valori normali (curva di Gauss). Quando il campione è grande si divide per N. Quando è piccolo si usa n: n-1 (stima non distorta della varianza della popolazione). Legge dei grandi numeri, teorema centrale. La varianza è la media dei quadrati delle differenze fra ciascuna osservazione e la media Formula della varianza della popolazione: sommatoria degli scarti al quadrato diviso n _ La X è la media di Xi =iimo^ valore variabile X

N

N= dimensione della popolazione. n= campione piccolo. Il minuscolo ed il maiuscolo mi danno l’informazione relativa alla grandezza del campione. ( pronuncia miù) = media popolazione Nel caso di grandi campioni, le distribuzioni di frequenza tendono alla normalità di GAUSS. Legge dei grandi numeri, teorema. Se il campione è grande dividere per N o N-1 non fa differenza, nel campione piccolo n o n-1 invece sì. Statistica bivariata: variabili di tipo metrico Covariazione -> entrambi le variabili si influenzano, se aumenta una aumenta pure l’altra es. estrazione e vendita nel mercato del petrolio. Non covariazione -> estrazione e vendita non sono correlate. X 1 determina X 2 : variabile causa, variabile effetto

  • Covarianza tra le variabili diretta >0 (nella stessa direzione aumentano e diminuiscono insieme)
  • Covarianza tra le variabili inversa <0 (detta anche indiretta, va da 0 a 1, è di valore negativo; in direzioni diverse, relazione di senso opposto, il valore della covarianza sarà negativo: es prezzi di produzione all’origine diminuiscono e aumentano alla vendita e viceversa)
  • Covarianza tra le variabili non lineare = 0 (pari a zero quando non c è una relazione lineare poiché la covariazione si misura secondo una retta ) Il caro benzina e l’estrazione del petrolio non hanno covarianza rispetto alla funzione lineare (magari c’è un’altra forma di relazione (es. esponenziale) ma non lineare). Se ho due variabili di tipo metrico es. aumento prezzi benzina sono in relazione all'estrazione? No, in questo momento storico non c’è covariazione. Se invece aumenta all'origine e poi aumenta i prezzi allora c’è covariazione Coefficiente di correlazione: misura la forza relativa della relazione lineare tra due variabili 1. Della popolazione 2. Campionario Covarianza campionaria: misura la forza della relazione lineare tra due variabili R=0 non c è relazione lineare ma di un altro tipo Valore da 0 a 1 Regressione col metodo dei minimi quadrati Si ragiona in termini causali (causa ed effetto), non si possono invertire le variabili. La variabile indipendente determina effetto sulla dipendente allora si ricorre alla regressione Interpretazione dei risultati r= 7. Es. esiste una relazione lineare positiva relativamente forte tra i voti in esame #1 e voti in esame # Studenti con voti nel primo esame tendono ad avere voti alti nel secondo semestre. L’angolo che la parallela forma cin k asse delle ascisse misura la tendenza. La tendenza della retta è in funzione della ampiezza dell’angolo. Se la tracciassi più in basso avrei una relazione di dipendenza più debole (aumenta x ma y poco). 5 Funzione lineare retta X variabile indipendente Y variabile dipendente Relazione inversa: Domanda e offerta:

Conteggio combinazioni: usare la formula per determinare il numero di combinazioni n oggetti presi k alla volta. k!n!!  fattoriale

P(A)= evento; P(A)= opposto dell’evento Probabilità condizionata= il verificarsi di un evento A posto B. P(A|B) = probab. A a condizione che B si sia verificato La condizione sta al denominatore, l’intersezione al numeratore. **Regole della probabilità

  1. Regola dell’evento complementare
  2. Regola additiva,** la probabilità dell'Unione di due eventi è Probabilità condizionata È la probabilità di un evento, dato che l’altro evento si è verificato: -la probabilità condizionata di A dato che B si è verificato; -la probabilità condizionata di B dato che A si è verificato TEOREMA DI BAYES Teorema delle cause a posteriori, si indaga la causa che ha determinato l’evento ma si analizza con la probabilità non con l'analisi descrittiva lineare. Ei= tante cause che determinano evento A, si ragiona in termini deterministici. Evento di k eventi mutuamente esclusivi e collettivamente esaustivi Principale probabilità condizionata: probabilità relativa al verificarsi di un evento posto che A si sia verificato  teorema delle cause a-posteriori. Qual è la causa che ha determinato quell’evento? Non saprò mai con certezza deterministica quali siano le cause. Ei= imo evento di k eventi mutualmente esclusivi collettivamente esaustivi. Hanno tutte la stessa probabilità di avere causato quell’evento? Chiaramente no, non lo cercheremmo altrimenti. P(Ei|A) = P(A|Ei)P(Ei)  si legge  è verosimile; es. probabilità della guerra posto che ci siano le risorse minerarie ed energetiche. P(Ei)  già lo so, probab. a-priori che ci siano risorse Es guerra Ucraina: quali sono le cause che hanno determinato la guerra? A= guerra Le cause sono P(A|E 1 )P(E 1 ) + P(A|E 2 )P(E 2 )+ P(A|E 3 )P(E 3 )+………P(A|Ek)P(Ek) E1= richiesta UE E2= richiesta Nato E3= basi Nato

E4= popolazioni filorusse E5= giacimenti materie prime presenti nei territori in ucraini es grano ecc Ei= risorse energetiche e minerarie Probabilità della guerra posto che (|) che ci siano le risorse energetiche P(A|Ei) P (Ei) probabilità relativa alla causa cioè qual è la probabilità che ci siano le risorse ed è a priori (già lo sappiamo) Denominatore: Si mettono i prodotti relativi ai fattori e alle cause es P(A|E1)P(E1)+ P(A |E1)P(E2) ecc. Probabilità relativa alla sussistenza cioè numero di basi nato nel territorio visto la richiesta UE e Nato, e ci sono i riscontri es paesi membri UE ma non Nato come Finlandia che è demilitarizzata. Quanto è probabile che ognuna di queste cause ha determinato la guerra? Non tutte le probabilità hanno lo stesso peso. Probabilità è una situazione di incertezza. La probab. a-priori è l’unico dato che abbiamo rispetto a ciò che è verosimile? A= fine guerra Odds: rapporto tra due quantità: il verificarsi un evento A (al numeratore) e il non verificarsi di un evento A (al denominatore) La probabilità dell'evento A condizionata dall'evento B, divisa per la probabilità di A, condizionata dall'evento B2 viene definita overinvolvement ratio : P (A1|B1)/ P (A1|B2) Un overinvolvement ratio maggiore di 1 implica che l'evento A, aumenta il rapporto degli odds condizionati in favore di B1: P (B1|A1) / P (B2| A1)> P (B1)/ P (B2) Odds condizionata: Probabilità che abbia covid posto che sono stata ad una festa e posto che sono stata in aula Superiore ad 1 quindi maggiore alla festa Se è 0, è più bassa rispetto alla aula Esempio Probabilità di trovare petrolio è del 40%? E1 (probabilità a priori) Si cercano info: pozzi di successo 60% sono stati sottoposti ad un test di successo, mentre 20% pozzi non di successo E2. 1-P(A) perché le prob. vanno da 0 a 1 quindi sono molto piccole = non finisce

VALORE T DI STUDENT (distribuzione; si usa per campioni piccoli) 1000-1300 è un campione sufficiente per studiare la popolazione N. Istituti di sondaggi sono nati negli ultimi anni perché il campione è piccolo rispetto ai censimenti ma “grande” rispetto alle leggi della statistica quindi facile da gestire. X è la media del campion, lo uso in maniera strumentale per stimare ciò che non conosco. parametro incognito della popolazione. Intervalli di confidenza ha due limiti uno inferiore e uno superiore. α  (alfa) indica i livelli di significatività e si utilizza per misurare un parametro, intervallo di confidenza.

X -Z (^) α/ COS’E’ UN’IPOTESI? È uno strumento di controllo di inferenza statistica. Una asserzione per poter inferire dai dati del campione ai dati sconosciuti della popolazione. È una affermazione (assunzione) circa il parametro della popolazione:

  • media della popolazione Esempio: In questa città, il costo medio della bolletta mensile per il cellulare è M = $
  • proporzione della popolazione Esempio: In questa città, la proporzione di adulti con il cellulare è p=. Verificare se l’ipotesi si può rifiutare o no. Karl Popper Logica falsificazionista  ci permette di passare da un’ipotesi ad un controllo dei dati empirici. Formuliamo un’ipotesi H 0 e ne opponiamo un'altra H 1 , si possono opporre infinite ipotesi (H 2 , H 3 ecc), questo vale per le medie, proporzioni ecc. Ipotesi di tipi parametrico in quanto riguarda parametro della popolazione. Prima applico test non parametrico per controllare l’affermazione delle ipotesi sulla forma e non sui dati; il test parametrico sarà il passo successivo. Logica basata su un paradigma: falsifico per rifiutare. Sempre a un paradosso ma non lo è: Raccogliere i dati per rifiutare quella posizione per poter andare avanti e proporre nuove ipotesi. Se io invece non la rifiutassi significa che sarei giunta fino al punto di arrivo ed il mio studio/ ricerca sarebbe finito. La logica del test di ipotesi si applica a valori non parametrici. Popper la scienza va avanti per tentativi ed errori. L'ipotesi Nulla, Ho
  • Rappresenta l'ipotesi (numerica) che deve essere verificata Esempio: Il numero medio di TV nelle case americane è uguale a tre (Ho: M = 3)
  • Si riferisce sempre al parametro della popolazione, non alla statistica campionaria Si costruiscono le ipotesi in 3 modi: Livello di significatività =a Aree di rifiuto cioè la possibilità di incorrere in rifiuto qual ora si commettesse un errore

Risultati e probabilità ANALISI MULTIVARIATA L’analisi dei dati nella ricerca sociale La ricerca scientifica Fare ricerca scientifica significa investigare il fenomeno seguendo il metodo scientifico, che si compone delle seguenti fasi:

  • raccogliere, ordinare e collegare informazioni sul fenomeno - formulare ipotesi
  • vagliare le ipotesi
  • accettare o rifiutare Quando i dati sono conformi alle ipotesi, la teoria è corroborata. Ogni processo di formulazione e verifica ulteriore ingloberà l’esperienza precedente. I dati possono essere analizzati in una prospettiva esplorativa , che significa descrivere in forma sintetica i dati raccolti, al fine di permettere al ricercatore di evidenziare le relazioni implicite, cioè i pattern, e ipotizzare i moduli interpretativi. Si tratta di una procedura euristica a carattere intuitivo, i cui dati dovranno essere controllati e convalidati. Una seconda prospettiva è quella confermativa , che significa verificare poche ipotesi, formulate prima della rilevazione dei dati e analizzate sulla base del metodo statistico inferenziale. Indica la potenza del test Un test è potente quando mi consente di rifiutare una ipotesi che non è corretta. Se ricorro in errore, ricomincio da capo formulando una nuova H0, un nuovo campione e un nuovo controllo dei dati. P- value deve mantenersi sempre al di sotto del livello di significatività.
  1. trattamento dei valori anomali
  2. cambio di scala delle variabili
  3. calcolo dei pesi delle variabili per ottenere stime corrette dei parametri della popolazione in presenza di probabilità diverse d’inclusione di un’unità statistica nel campione.
  • analisi dei dati (elaborazione e interpretazione) le tecniche di rappresentazione grafica dei dati permettono di posizionare le modalità e le unità su piani, per percepire la forma della distribuzione, divulgare i risultati, verificare le ipotesi. La descrizione dei dati è più facilmente interpretabile attraverso i processi di  riduzione, scrematura ed eliminazione delle ridondanze  discriminazione, identifica le caratteristiche che differenziano 2 o più insiemi di unità  classificazione, assegna le entità a delle classi  raggruppamento, definisce le classi di unità più somiglianti, che possono essere tra di loro ordinate in ordine gerarchico  ricerca di determinanti, è l’analisi della dipendenza che tende a spiegare il comportamento di una o più variabili criterio o dipendenti in funzione di variabili esplicative, predittive o indipendenti  costruzione di modelli, di analisi multivariata ossia sistemi interrelati di variabili capaci di spiegare un fenomeno  ricerca di interazioni, sinergiche (i valori medi della variabile dipendente sono superiori alla somma dei valori congiunti delle variabili indipendenti) o antagonistiche (i valori medi sono inferiori)  evidenziazione di strutture latenti, cioè fattori non manifesti e non direttamente misurabili  assegnazione di punteggi a variabili qualitative  costruzione di indici sintetici, cioè valori di sintesi per le unità statistiche
  • diffusione dei risultati vengono presentati e divulgati i seguenti step di ricerca
  • definizione del problema e della popolazione
  • procedure e piano di rilevazione, elaborazione e stima
  • strumenti e criteri
  • valutazione critica dei risultati e interpretazione Modelli per l’analisi multidimensionale dei dati Un modello di analisi dei dati è un costrutto teorico scelto per rappresentare le proprietà e le relazioni assunte tra variabili o tra unità statistiche. Le proprietà dei modelli sono:
  • la simmetria del legame tra le variabili Il modello è asimmetrico quando le variabili osservate sono tra loro in rapporto di dipendenza Y  X caratterizzato da un nesso di causalità. Le variabili osservate vengono ripartite in variabili dipendenti o criterio e variabili esplicative, predittive o predittori. Il modello è simmetrico quando le variabili hanno una relazione bidirezionale e senza nessi di causalità
  • l’esistenza delle condizioni per svolgere analisi metriche Metrica è l’analisi realizzata con variabili quantitative, rappresentabile geometricamente; non metrica è l’analisi basata su algoritmi, applicabile a qualsiasi scala di misura, oppure l’analisi della correlazione su dati trasformati in ranghi
  • la linearità Per analisi metriche si assume che la relazione tra le variabili sia lineare. Per relazione lineare s’intende che y esprimibile in funzione di x e di un termine residuale e: y=a+bx+e La variabile y si può esprimere anche in funzione di una molteplicità di variabili. Tutte le altre relazioni sono non-lineari
  • la monotonicità

È la relazione tra 2 variabili, per cui all’aumentare dei valori o dei ranghi di una, i valori o i ranghi dell’altra tendono a crescere o decrescere. Il metodo di analisi è il procedimento logico ideato per soddisfare un obiettivo di analisi, di carattere generale. La tecnica di analisi è una soluzione operativa, di carattere particolare e pratico. Tra i metodi di analisi distinguiamo i seguenti: Analisi di regressione stepwise  Osservata una variabile y e un insieme di predittori x, cerca di determinare la funzione di regressione lineare y=f(x) in grado di meglio interpretare la variabilità di y, inserendo o cancellando nell’equazione di regressione una variabile per volta, step by step. È un’analisi esplorativa, preferita quando la conoscenza teorica è insufficiente per impostare un’equazione di regressione con variabili definite dall’origine. Analisi di regressione logistica  La variabile y è dicotomica e si vuole spiegare il logit della frequenza di y nella popolazione. È preferita nell’analisi dei rischi, ad es. il fattore di rischio nell’insorgere di un morbo tra gli individui che posseggono una determinata caratteristica fisiologica. Analisi fattoriale  Dato un insieme di variabili x, per le quali si assumono relazioni simmetriche, spiega la molteplicità delle correlazioni esistenti, ricorrendo a un numero ridotto di funzioni non osservabili ed evidenzia i fattori o le dimensioni implicite nei dati, fattori latenti. Scaling multidimensionale Determina le coordinate geometriche di un insieme di entità, in genere ordinali, applicato soprattutto nella ricerca dei comportamenti e degli atteggiamenti Analisi delle corrispondenze  Determina le coordinate geometriche delle modalità poste sulle righe e di quelle poste sulle colonne per evidenziare la dimensione di dipendenza tra i due insiemi Cluster analysis  Classifica l’insieme di unità di analisi in gruppi non definiti a priori Analisi di segmentazione  Dati un insieme di predittori x e una dipendente y, suddivide progressivamente in 2 sottogruppi i gruppi di unità precedentemente formati per minimizzare la varianza residua di y.

I dati di base

Le matrici costituiscono la base informativa dell’analisi multidimensionale. Si distinguono in base a:

  • La metrica dei dati ordinati : le matrici per le quali è plausibile l’analisi metrica o è possibile solo quella non metrica
  • Il contenuto informativo : il tipo di dipendenza tra i dati sulle righe e quelli sulle colonne
  • La forma della matrice : quadrate o rettangolari. Le matrici rettangolari
    • di dati tradizionali
    • di frequenze
    • di prossimità e di dominanze non quadrate tra le quali: quelle di origine-destinazione e quelle di misurazioni congiunte. La matrice di dati Si consideri un insieme di popolazione n presso il quale sono state osservate p variabili. Gli n x p dati di base sono ordinati in una matrice rettangolare di n righe e p colonne. La matrice è ripartibile in p vettori colonna di n elementi o in n vettori riga di p elementi. Ogni riga è il profilo dell’unità statistica corrispondente: matrice dei profili. Se si tratta di dati quantitativi, ogni riga è rappresentabile geometricamente con un
  • i valori sulla diagonale sono uguali a 1, perché rappresentano le varianze di variabili standardizzate Matrice di distanze Si chiama distanza o metrica la misura tra entità caratterizzate dalle seguenti proprietà:
  • la distanza tra un’entità e se stessa è nulla
  • la distanza tra 2 entità è non negativa
  • la distanza tra 2 entità i e j è la stessa se si misura da i o se si misura da j (simmetria)
  • la distanza tra 2 entità è non superiore alla somma delle distanze tra queste e una terza (disuguaglianza triangolare)
  • la distanza tra i e j è nulla solo se i=j. Si tratta di una matrice quadrata il cui elemento generico dij è una misura di distanza tra 2 entità. Le proprietà sono le seguenti:
  • simmetriche
  • semipositive
  • di rango pari alla matrice dei dati
  • i valori sulla diagonale sono nulli Matrice di preferenze o di dominanze E’ una matrice quadrata il cui elemento generico pij è una misura dell’intensità della preferenza espressa da un giudice per l’entità sulla riga, rispetto all’entità sulla colonna. Le proprietà sono:
  • emisimmetriche, cioè la somma di elementi simmetrici rispetto alla diagonale è costante
  • hanno valori nulli sulla diagonale principale Le matrici per analisi non metriche
  • di somiglianza
  • di dissomiglianza
  • di preferenza non metriche Matrice di somiglianze Si dice di somiglianze un indice che esprime quanto due entità sono simili:
  • la somiglianza tra le entità i e j è non negativa
  • la misura di somiglianza tra le due entità è la stessa qualunque sia l’entità che si considera per prima (simmetria)
  • la somiglianza tra due entità è inferiore o uguale a quelle tra una di loro e se stessa
  • rispettano la disuguaglianza triangolare: la somiglianza tra 2 entità è non superiore alla somma della somiglianza tra queste e una terza Si dice di somiglianza o similarità la matrice quadrata e simmetrica il cui elemento generico sij è una misura di somiglianza tra le entità i e j. Matrice di dissomiglianze Si dice di dissomiglianza o dissimilarità o diversità dij è l’indice che misura quanto due entità sono dissimili:
  • la dissomiglianza tra un’entità e se stessa è nulla
  • la dissomiglianza tra due entità i e j è non negativa
  • la misura di dissomiglianza tra due entità i e j è la stessa, qualunque entità si consideri per prima
  • se vale la dissomiglianza triangolare, possono essere usate per l’analisi metrica Si dice di dissomiglianza la matrice quadrata i cui elementi rappresentano misure delle differenze tra le entità delle righe e quelle delle colonne. Il contenuto è l’opposto di quello delle matrici di somiglianze. È simmetrica e sulla diagonale si trovano zeri, come per la matrice di somiglianza.

Matrici di dominanza o preferenze per analisi non metriche È la matrice quadrata P di ordine n pari al numero di entità esaminate il cui elemento generico esprime su scala ordinale il grado di preferenza, eccedenza o dominanza dell’entità sulla riga in rispetto a quella sulla colonna j. Le proprietà sono le seguenti:

  • è emisimmetrica
  • le posizioni diagonali della matrice sono uguali al valore mediano della distribuzione dei ranghi
    • la somma dei valori opposti rispetto alla diagonale è costante

Analisi fattoriale

Il metodo dell’analisi fattoriale è appropriato per l’analisi simmetrica delle relazioni tra una pluralità di variabili. Questo metodo soddisfa 2 obiettivi:

  • spiega le correlazioni tra le variabili osservate in funzione di un numero ridotto di fattori non osservabili o variabili latenti
  • trasforma le osservazioni in una struttura semplice e informativa, perché i fattori sono ripuliti dalla variabilità ridondante , cioè già compresa in altre variabili osservate, e della variabilità spuria , cioè introdotta da variabili che stanno ai margini dei fenomeni fondamentali. L’analisi fattoriale è un metodo statistico idoneo a ridurre un sistema completo di correlazioni in uno di minori dimensioni. I principi su cui si poggia l’analisi esplorativa dei fattori sono:
  • la parsimonia nella rappresentazione matematica e grafica
  • la robustezza dell’analisi
  • l’immediata percettibilità delle rappresentazioni Analisi fattoriale: dobbiamo cercare le informazioni/i fattori latenti (speculare e osservabile), attraverso i fattoriali. Tratto latente: estroversione Variabile osservabile: ama le feste, si diverte molto, ama chiacchierare, prende l’iniziativa etc. Il costrutto è una dimensione latente non osservabile. Sulla base dei dati e delle nostre conoscenze correliamo le variabili. Combinazione lineare di queste variabili in una variabile da sintetizzare. La sintesi non si trova tra i dati ma è da calcolare nelle combinazioni dei dati attraverso il fattoriale. Contestualizzazione del dato: costrutto: può essere definito come un concetto (dimensione, fattore, tratto, classe, componente) teorico con certe conseguenze empiriche. Gli indicatori misurano quest’ultime. Il costrutto associa gli indicatori (es. legno può essere associato a tavolo, sedia, quadro, bastone, albero, casa). Da un punto di vista statistico se alcuni indicatori si correlano tra di essi, possiamo inferire la presenza di un costrutto sottostante (o viceversa). Rapporto di indicazione. Coefficiente R → lineare Covariazione (Xi – X) è la sommatoria. 0 <covariaz. < 1 DIRETTA -1 <covariaz. < 0 INDIRETTA Analisi di matrice della correlazione è fondamentale. Un possibile modello -> c’è un concetto e a questo colleghiamo delle variabili osservabili correlate. Indicatore-> misura empirica osservabile

Il modello di analisi delle componenti principali è distinto dall’analisi fattoriale, perché l’analisi fattoriale è un’ipotesi sulla struttura della variabilità comune alle osservazioni, mentre l’analisi delle componenti principali considera tutte le componenti e ne utilizza, a fini interpretativi, solo alcune. I fattori possono essere ortogonali ossia non correlati oppure obliqui ossia correlati. Se una variabile è esprimibile in fattori comuni e fattore specifico, anche la sua varianza è scomponibile in varianza comune o comunanza e varianza unica o unicità. La comunanza è la frazione di varianza di una variabile spiegata dall’insieme dei fattori comuni, essa si ottiene sommando il quadrato dei pesi fattoriali. Siccome i fattori sono comuni a tutte le variabili, la comunanza di una variabile è la parte di varianza che la variabile condivide con le altre variabili fattorizzate. L’unicità di una variabile è la parte di varianza complementare. Essa contiene 3 elementi: un errore casuale o varianza campionaria; un errore di rilevazione o varianza di rilevazione; una componente residuale o varianza specifica. Analisi delle componenti principali

  • La ACP (PCA) produce componenti, mentre la AFC produce fattori.
  • I processi della ACP e della AFC sono simili, tranne che a) nella preparazione della matrice di correlazioni osservate per l’estrazione b) nella teoria sottostante
  • Matematicamente, la differenza tra ACP e AFC è nella varianza che viene analizzata: - nella ACP viene analizzata tutta la varianza osservata nelle variabili - nella AFC viene analizzata solo la varianza condivisa (stimata tramite regressione); Non si considera la varianza non condivisa (unica di ciascuna variabile).
  • Teoricamente, la differenza tra ACP e AFC è nella ragione per cui le variabili sono associate in un fattore o in una componente: - Di solito si ritiene che i fattori ‘causino’ le variabili – il costrutto sottostante (il fattore) è ciò che produce i punteggi nelle variabili (AFC). - Le componenti sono semplici aggregati di variabili correlate (ACP). La ACP considera tutta la varianza delle variabili e la divide in varianza comune (spiegata dai fattori considerati) and varianza unica (errore o residua) La AFC prima stima la varianza condivisa e distingue tra varianza comune tra le variabili (covarianza) e varianza di errore. Analizza solo la prima e la divide in varianza comune (spiegata dai fattori considerati) e varianza specifica. Il problema della comunalità iniziale nella AFC
  • Per calcolare la varianza spiegata e quella di errore, dobbiamo prima sapere quanto è la varianza spiegabile
  • Ma per sapere quanto è la varianza spiegabile, dobbiamo sapere quanto è la varianza spiegata e quella di errore
  • Ciò crea un circolo vizioso che va risolto stimando precedentemente una quantità plausibile di varianza spiegabile ed iterando il procedimento di calcolo dei fattori finché tale quantità soddisfa alcuni criteri
  • Ogni algoritmo di calcolo (minimi quadrati, massima verosimiglianza, ecc.) usa un criterio diverso
  • Noi vediamo la logica sottostante Comunalità iniziale: Ma se tutta la varianza di un item non è inclusa nell’analisi, la matrice di correlazione iniziale non potrà avere 1 sulla diagonale Dovremmo stimare la quantità di varianza spiegabile (che sarà poi divisa in spiegata ed errore) Stima iniziale della comunalità Se la parte spiegabile di varianza di un item deve essere comune agli items e ai fattori, sicuramente non potrà essere più piccola della parte di varianza che l’item condivide con gli altri items