

















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
ho scritto questo documento unendo i miei appunti, le slides e un riassunto del libro
Tipologia: Appunti
1 / 57
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


















































I fondamenti logico-probabilistici della statistica. Strumenti statistici: sintesi, analisi delle relazioni, inferenza. L’analisi dei dati è propedeutica a qualsiasi ragionamento per esporre o trattare argomenti. La statistica è una scienza al servizio di altre scienze sperimentali: analisi di fenomeni sociali, politici che non possono fare a meno della statistica che studia i dati e li tramuta nel completamento dell’elaborazione dei fenomeni. I dati servono ad una documentazione per conoscere la nascita di un fenomeno, quali sono le possibili elaborazioni del fenomeno e le possibili rappresentazioni. Esempio: l’andamento del percorso universitario, i voti sono una sintesi del nostro percorso; sono variabili, un insieme di dati interessanti perché devono variare e assumere modalità differenti. Dunque, sintetizzare e variabilità sono due concetti chiave. Almeno due variabili devono essere diverse con modalità differenti. Questa è la parte descrittiva monovariata, analizzata da un carattere per volta; inoltre, analizza la relazione tra variabili, due caratteri che si pongono insieme attraverso l’associazione. In assenza di dati molto ampi, in assenza di avere tutto, si lavora per campione con un lavoro parziale di dati. Il campione è lo strumento di cui si serve la statistica che sarebbe l’inferenza. Il campione è costruito secondo certe modalità, come su una famiglia specifica, e su questa base l'ISTAT elabora un censimento. Il campione è una relazione parziale per poterli inferire: attraverso strumenti rigorosi, devo riferire all'insieme della moltitudine di oggetti che si vanno a raggiungere. In questo caso si tratta della statistica inferenziale. Altro esempio, la previsione andamento PIL 2023: le informazioni sul futuro andamento sono incerte, perché non sappiamo quale sarà realmente l’andamento nel coso dell’anno. L’analisi deve avvenire con lo studio dell’andamento di un certo valore che ci si aspetta e che rimanga stabile. Si tratta dell’andamento stimato. Controllo delle ipotesi : si lavora in senso previsivo, servendoci di previsioni che possono essere poco fondate se do ragione alla mia fantasia; devo raccogliere delle informazioni che devo trasformare in dati statistici e poi devono essere elaborati su uno o più caratteri statistici che stanno in una relazione causale. (Alla fine del corso, potremmo avere un voto elevato più alto di chi non frequenta: metto in relazione causale chi ha avuto l’approccio con chi invece no). Quando faccio delle stime o previsioni, faccio delle ipotesi su benefici e prestazioni. Ho deciso di fare il corso prima; faccio un’ipotesi previsionale stimata con una logica che non è una matematica, ma è una logica probabilistica. Mi servo degli strumenti del calcolo della probabilità, di cui non ho i dati su tutto. La popolazione è l'insieme di tutte le unità oggetto di studio, che non sono solo persone, possono essere oggetti, enti. Sono unità statistiche a cui sono interessata, ma non è detto che ne posso avere tutte le informazioni. N rappresenta la dimensione della popolazione. Il parametro è una caratteristica specifica della popolazione: sono valori calcolati usando i dati sulla popolazione. Il campione è il sottoinsieme delle unità osservate nella popolazione. N rappresenta la dimensione del campione. Dal campione andrò a inferire nella popolazione, con una probabilità di incorrere ad un errore. Sui dati che ho analizzato posso attribuire solo su quel campione a tutta la popolazione. Sono concezioni ed operazioni di probabilità, lavorando alla stima di parametri e ipotesi raccolti su un campione che hanno interesse rispetto alla popolazione e non solo al campione. Se non ho le risorse, come quelle temporali, non posso indagare su tutta la popolazione. La statistica è una caratteristica specifica del campione: i valori calcolati usando i dati campionari. La popolazione sono: tutti i potenziali votanti nelle prossime elezioni; tutti i pezzi prodotti oggi; tutti gli scontrini di novembre. Il campione è: 1000 votanti selezionati a caso (dato osservato su un caso) per un’intervista; alcuni pezzi selezionati per un test di distruzione; scontrini selezionati a caso per una verifica. Controllo di qualità dei prodotti: faccio un controllo a campione su determinati pezzi, quindi un campione sulla popolazione (gli oggetti prodotti).
Distribuzione campionaria: è una distribuzione di tutti i possibili valori di una statistica ottenuti da campioni della stessa ampiezza estratti dalla popolazione. Siamo 8 e ne vogliamo prendere 3, potrebbe capitare che gli elementi cambiano. Si usa la combinazione fattoriale, strumento matematico per calcolare le combinazioni. Statistica logica probabilistica (NO deterministica come in matematica). L’universo è l’insieme di tutte le possibilità di unità di analisi enti, attribuzione metafisica Unità statistiche Non è detto che io possa avere tutte le info e i dati di cui necessito. Si fa quindi un sondaggio a campione. Sulla base di ciò che raccolgo andrò ad inferire sulla totalità. Prevedo prima la probabilità di ricorrere in errore e seguo dei criteri probabilistici. La società dei sondaggi commerciali lavorano sul tempo, dall’oggi al domani vengono distribuiti. Nemmeno l’Istat fa più statistiche per mancanza di: -tempo -risorse economiche -risorse umane Esistono tecniche statistiche che permettono di inferire da un campione soggetto a sondaggio alla totalità della popolazione. La Meloni ha il 20% di voti/approvazione, mentre prima era un partito da 3%. Sostengono questa percentuale attraverso il pre-sondaggio ma al momento della votazione l’intera popolazione mostra i veri risultati. Controllo di campione Aziende Controllo a blocchi Strade, infrastrutture Blocchetti di cemento analizzati in laboratorio. Es. ponte Morandi. Le twins tower: avevano previsto l’impatto aereo accidentale ma non diretto ed intenzionale. I valori calcolati sui dati del campione sono chiamati STATISTICHE. L’insieme di tutta la popolazione di riferimento è chiamata PARAMETRO. Il processo attraverso il quale si estraggono conclusioni è chiamato INFERENZA. E su questo si costruisce la distribuzione campionaria. Da una popolazione è possibile estrarre una infinita possibilità di campioni. Es. combinazione che usa i fattoriali per calcolare le combinazioni di 3 su parametri di 8. La statistica non è matematica ma si serve di alcuni elementi matematici. Statistica quanto basta: ragionare in termini probabilistici su ciò che è probabile rispetto a varissime cause. Tipi di dati: o –categorici variabili categoriche o Distribuzione di frequenze o diagrammi o -numerici o Discreti (elementi conteggiati) es. num. figli o Continui: (caratteristiche misurate): peso, voltaggio
o Mediana è un indice di posizione: punto che in una sequenza ordinata di dato è il dato che divide in due esatte ed identiche parti la sequenza. La posizione centrale. o Moda ricorre frequentemente ed è la modalità con la quale ricorre un dato ed è un indice di posizione (la moda non corrisponde alla massima frequenza). La moda è bimodale. La posizione più ricorrente. Quando calcolo i numeri per avere un dato più vicino alla realtà o escludo dal calcolo i valori estremi o uso la mediana. La media ponderata: i pesi posti sui numeri sono le frequenze. In statistica non si usa mai la media aritmetica perché la statistica considera le frequenze e quindi usa la ponderata. Variabilità (quando i dati sono di tipo numerico) scarto quadratico medio mostra la variabile rispetto alla media. Ovviamente non posso usarla per dati categoriali (es. scuola di provenienza). Nei dati categoriali ho solo le frequenze. LETTERE GRECHE POPOLAZIONE LETTERE LATINE(ARABE) CAMPIONE Coefficiente di variazione: Misura la variabilità relativa Sempre in % Variabilità relativa rispetto alla media Confrontare due o più set di dati misurati con unità di misura diretta Analisi fattoriale include il concetto di varianza -> misura di variabilità che c’è in un insieme di dati. Varianza della popolazione Misura di variabilità, quanta variabilità c’è in un insieme di dati. Media dei quadrati delle differenze fra ciascuna osservazione è la media. Si usa la formula per calcolare la stima della popolazione Quando si divide per N ad esempio con una grande campione si calcola stima campionaria e si divide pe rN Varianza campionaria Media approssimativamente dei quadrati delle differenze fra ciascuna osservazione e la media. Quando il campione è piccolo si usa n minuscola (n-1)quando si ha un risultato distorto. Nel caso dei grandi campioni si dice che tendono verso la normalità cioè le frequenze più numerose si addensano nei valori normali/ centrali, ,legge dei grandi numeri cioè man mano che aumenta la numerosità campionaria tutte le distribuzioni tenderanno verso i valori normali (curva di Gauss). Quando il campione è grande si divide per N. Quando è piccolo si usa n: n-1 (stima non distorta della varianza della popolazione). Legge dei grandi numeri, teorema centrale. La varianza è la media dei quadrati delle differenze fra ciascuna osservazione e la media Formula della varianza della popolazione: sommatoria degli scarti al quadrato diviso n _ La X è la media di Xi =iimo^ valore variabile X
N= dimensione della popolazione. n= campione piccolo. Il minuscolo ed il maiuscolo mi danno l’informazione relativa alla grandezza del campione. ( pronuncia miù) = media popolazione Nel caso di grandi campioni, le distribuzioni di frequenza tendono alla normalità di GAUSS. Legge dei grandi numeri, teorema. Se il campione è grande dividere per N o N-1 non fa differenza, nel campione piccolo n o n-1 invece sì. Statistica bivariata: variabili di tipo metrico Covariazione -> entrambi le variabili si influenzano, se aumenta una aumenta pure l’altra es. estrazione e vendita nel mercato del petrolio. Non covariazione -> estrazione e vendita non sono correlate. X 1 determina X 2 : variabile causa, variabile effetto
Conteggio combinazioni: usare la formula per determinare il numero di combinazioni n oggetti presi k alla volta. k!n!! fattoriale
P(A)= evento; P(A)= opposto dell’evento Probabilità condizionata= il verificarsi di un evento A posto B. P(A|B) = probab. A a condizione che B si sia verificato La condizione sta al denominatore, l’intersezione al numeratore. **Regole della probabilità
E4= popolazioni filorusse E5= giacimenti materie prime presenti nei territori in ucraini es grano ecc Ei= risorse energetiche e minerarie Probabilità della guerra posto che (|) che ci siano le risorse energetiche P(A|Ei) P (Ei) probabilità relativa alla causa cioè qual è la probabilità che ci siano le risorse ed è a priori (già lo sappiamo) Denominatore: Si mettono i prodotti relativi ai fattori e alle cause es P(A|E1)P(E1)+ P(A |E1)P(E2) ecc. Probabilità relativa alla sussistenza cioè numero di basi nato nel territorio visto la richiesta UE e Nato, e ci sono i riscontri es paesi membri UE ma non Nato come Finlandia che è demilitarizzata. Quanto è probabile che ognuna di queste cause ha determinato la guerra? Non tutte le probabilità hanno lo stesso peso. Probabilità è una situazione di incertezza. La probab. a-priori è l’unico dato che abbiamo rispetto a ciò che è verosimile? A= fine guerra Odds: rapporto tra due quantità: il verificarsi un evento A (al numeratore) e il non verificarsi di un evento A (al denominatore) La probabilità dell'evento A condizionata dall'evento B, divisa per la probabilità di A, condizionata dall'evento B2 viene definita overinvolvement ratio : P (A1|B1)/ P (A1|B2) Un overinvolvement ratio maggiore di 1 implica che l'evento A, aumenta il rapporto degli odds condizionati in favore di B1: P (B1|A1) / P (B2| A1)> P (B1)/ P (B2) Odds condizionata: Probabilità che abbia covid posto che sono stata ad una festa e posto che sono stata in aula Superiore ad 1 quindi maggiore alla festa Se è 0, è più bassa rispetto alla aula Esempio Probabilità di trovare petrolio è del 40%? E1 (probabilità a priori) Si cercano info: pozzi di successo 60% sono stati sottoposti ad un test di successo, mentre 20% pozzi non di successo E2. 1-P(A) perché le prob. vanno da 0 a 1 quindi sono molto piccole = non finisce
VALORE T DI STUDENT (distribuzione; si usa per campioni piccoli) 1000-1300 è un campione sufficiente per studiare la popolazione N. Istituti di sondaggi sono nati negli ultimi anni perché il campione è piccolo rispetto ai censimenti ma “grande” rispetto alle leggi della statistica quindi facile da gestire. X è la media del campion, lo uso in maniera strumentale per stimare ciò che non conosco. parametro incognito della popolazione. Intervalli di confidenza ha due limiti uno inferiore e uno superiore. α (alfa) indica i livelli di significatività e si utilizza per misurare un parametro, intervallo di confidenza.
X -Z (^) α/ COS’E’ UN’IPOTESI? È uno strumento di controllo di inferenza statistica. Una asserzione per poter inferire dai dati del campione ai dati sconosciuti della popolazione. È una affermazione (assunzione) circa il parametro della popolazione:
Risultati e probabilità ANALISI MULTIVARIATA L’analisi dei dati nella ricerca sociale La ricerca scientifica Fare ricerca scientifica significa investigare il fenomeno seguendo il metodo scientifico, che si compone delle seguenti fasi:
È la relazione tra 2 variabili, per cui all’aumentare dei valori o dei ranghi di una, i valori o i ranghi dell’altra tendono a crescere o decrescere. Il metodo di analisi è il procedimento logico ideato per soddisfare un obiettivo di analisi, di carattere generale. La tecnica di analisi è una soluzione operativa, di carattere particolare e pratico. Tra i metodi di analisi distinguiamo i seguenti: Analisi di regressione stepwise Osservata una variabile y e un insieme di predittori x, cerca di determinare la funzione di regressione lineare y=f(x) in grado di meglio interpretare la variabilità di y, inserendo o cancellando nell’equazione di regressione una variabile per volta, step by step. È un’analisi esplorativa, preferita quando la conoscenza teorica è insufficiente per impostare un’equazione di regressione con variabili definite dall’origine. Analisi di regressione logistica La variabile y è dicotomica e si vuole spiegare il logit della frequenza di y nella popolazione. È preferita nell’analisi dei rischi, ad es. il fattore di rischio nell’insorgere di un morbo tra gli individui che posseggono una determinata caratteristica fisiologica. Analisi fattoriale Dato un insieme di variabili x, per le quali si assumono relazioni simmetriche, spiega la molteplicità delle correlazioni esistenti, ricorrendo a un numero ridotto di funzioni non osservabili ed evidenzia i fattori o le dimensioni implicite nei dati, fattori latenti. Scaling multidimensionale Determina le coordinate geometriche di un insieme di entità, in genere ordinali, applicato soprattutto nella ricerca dei comportamenti e degli atteggiamenti Analisi delle corrispondenze Determina le coordinate geometriche delle modalità poste sulle righe e di quelle poste sulle colonne per evidenziare la dimensione di dipendenza tra i due insiemi Cluster analysis Classifica l’insieme di unità di analisi in gruppi non definiti a priori Analisi di segmentazione Dati un insieme di predittori x e una dipendente y, suddivide progressivamente in 2 sottogruppi i gruppi di unità precedentemente formati per minimizzare la varianza residua di y.
Le matrici costituiscono la base informativa dell’analisi multidimensionale. Si distinguono in base a:
Matrici di dominanza o preferenze per analisi non metriche È la matrice quadrata P di ordine n pari al numero di entità esaminate il cui elemento generico esprime su scala ordinale il grado di preferenza, eccedenza o dominanza dell’entità sulla riga in rispetto a quella sulla colonna j. Le proprietà sono le seguenti:
Il metodo dell’analisi fattoriale è appropriato per l’analisi simmetrica delle relazioni tra una pluralità di variabili. Questo metodo soddisfa 2 obiettivi:
Il modello di analisi delle componenti principali è distinto dall’analisi fattoriale, perché l’analisi fattoriale è un’ipotesi sulla struttura della variabilità comune alle osservazioni, mentre l’analisi delle componenti principali considera tutte le componenti e ne utilizza, a fini interpretativi, solo alcune. I fattori possono essere ortogonali ossia non correlati oppure obliqui ossia correlati. Se una variabile è esprimibile in fattori comuni e fattore specifico, anche la sua varianza è scomponibile in varianza comune o comunanza e varianza unica o unicità. La comunanza è la frazione di varianza di una variabile spiegata dall’insieme dei fattori comuni, essa si ottiene sommando il quadrato dei pesi fattoriali. Siccome i fattori sono comuni a tutte le variabili, la comunanza di una variabile è la parte di varianza che la variabile condivide con le altre variabili fattorizzate. L’unicità di una variabile è la parte di varianza complementare. Essa contiene 3 elementi: un errore casuale o varianza campionaria; un errore di rilevazione o varianza di rilevazione; una componente residuale o varianza specifica. Analisi delle componenti principali