Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Elementi di statistica, Sintesi del corso di Statistica

Elementi di statistica , riassunti

Tipologia: Sintesi del corso

2025/2026

Caricato il 10/06/2026

sabatino-pirozzi-1
sabatino-pirozzi-1 🇮🇹

4 documenti

1 / 23

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Dispensa di Statistica (Completa!)
CAP.1 – I fenomeni sociali. Come rilevarli e trattarli in modo statistico.
L’attività scientifica si distingue perché fonda le proprie basi sull’osservazione empirica della realtà. Abbiamo
2 tipi di ricerca: quantitativa (standard), composta da fasi sequenziali e qualitativa (non standard), con un
approccio meno strutturato.
Ci sono 4 fasi della progettazione:
Disegno di Ricerca
Rilevazione dei dati (si avvia quindi la ‘fase di campo’)
Analisi dei dati (ancora fase di campo)
Comunicazione dei risultati
Nella ricerca sociale, per dato: si intende l’esito di un processo di rilevazione delle informazioni: più
specificamente si tratta del contenuto di una cella della matrice dei dati (definizione operativa, cioè la
trasformazione in numero) e quindi lo stato di un determinato caso su una determinata proprietà rilevata.
Tuttavia, la maggior parte delle proprietà rilevate nella ricerca sociale non sono immediatamente traducibili
in numeri, per questo va formulato un piano di codifica che consenta di registrare le modalità della variabile
all’interno della matrice (per esempio 1= Per niente, 2= Poco, 3= Abbastanza, 4= Molto).
Abbiamo una differenza:
Micro-dati: Dati grezzi, pre elaborazione e risultati dell’analisi.
Macro-dati: Le statistiche, ossia una sintesi dei micro-dati aggregati.
Meta-dati: Informazioni aggiuntive di un determinato dato.
Unità statistica:
Individuo.
Aggregato di individui (individuali, enti e territoriali, famiglia, azienda).
Evento (accadimento periodico unico, es. Elezioni, manifestazioni, scioperi).
Prodotto culturale (rappresentazioni simboliche, es. Libro, giornale, film, social media).
Unità si divide in:
Di raccolta/rilevamento: oggetto sociale a cui vengono riferite le caratteristiche studiate.
D’Analisi/riferimento: caratteristiche attribuite all’oggetto nell’analisi dei dati.
Popolazione: insieme di unità omogenee, si divide in:
Empirica: tute le unità che la compongono fanno effettivamente parte della ricerca.
Teorica: tutte le unità, anche le non presenti nella ricerca.
Campione: sottoinsieme composto da unità da estrarre.
Chiamiamo caratteristiche di un’unità, le proprietà che sono possedute dall’oggetto sociale su cui si effettua
la ricerca. Se queste caratteristiche assumono valori differenti ovvero modalità diverse, esse sono chiamate
variabili (per esempio: il genere, il comune di residenza, il titolo di studio, l’età, il peso, l’altezza sono tutte
variabili).
Se le proprietà sono espresse attraverso numeri cardinali, si ha una variabile quantitativa (altezza, n. di
figli), altrimenti è una variabile qualitativa (genere, credo religioso, attributi non misurabili), a loro volta
divise in dicotomiche (solo 2 modalità) e politomiche (+ di 2 modalità).
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17

Anteprima parziale del testo

Scarica Elementi di statistica e più Sintesi del corso in PDF di Statistica solo su Docsity!

Dispensa di Statistica (Completa!)

CAP.1 – I fenomeni sociali. Come rilevarli e trattarli in modo statistico. L’attività scientifica si distingue perché fonda le proprie basi sull’osservazione empirica della realtà. Abbiamo 2 tipi di ricerca: quantitativa ( standard ), composta da fasi sequenziali e qualitativa ( non standard ), con un approccio meno strutturato. Ci sono 4 fasi della progettazione:

  • Disegno di Ricerca
  • Rilevazione dei dati (si avvia quindi la ‘fase di campo’)
  • Analisi dei dati (ancora fase di campo)
  • Comunicazione dei risultati Nella ricerca sociale, per dato: si intende l’esito di un processo di rilevazione delle informazioni: più specificamente si tratta del contenuto di una cella della matrice dei dati ( definizione operativa , cioè la trasformazione in numero) e quindi lo stato di un determinato caso su una determinata proprietà rilevata. Tuttavia, la maggior parte delle proprietà rilevate nella ricerca sociale non sono immediatamente traducibili in numeri, per questo va formulato un piano di codifica che consenta di registrare le modalità della variabile all’interno della matrice (per esempio 1= Per niente, 2= Poco, 3= Abbastanza, 4= Molto). Abbiamo una differenza:  Micro-dati: Dati grezzi, pre elaborazione e risultati dell’analisi.  Macro-dati: Le statistiche, ossia una sintesi dei micro-dati aggregati.  Meta-dati: Informazioni aggiuntive di un determinato dato. Unità statistica:Individuo.  Aggregato di individui (individuali, enti e territoriali, famiglia, azienda).  Evento (accadimento periodico unico, es. Elezioni, manifestazioni, scioperi).  Prodotto culturale (rappresentazioni simboliche, es. Libro, giornale, film, social media). Unità si divide in:  Di raccolta/rilevamento: oggetto sociale a cui vengono riferite le caratteristiche studiate.  D’Analisi/riferimento: caratteristiche attribuite all’oggetto nell’analisi dei dati. Popolazione: insieme di unità omogenee, si divide in:  Empirica: tute le unità che la compongono fanno effettivamente parte della ricerca.  Teorica: tutte le unità, anche le non presenti nella ricerca. Campione: sottoinsieme composto da unità da estrarre. Chiamiamo caratteristiche di un’unità, le proprietà che sono possedute dall’oggetto sociale su cui si effettua la ricerca. Se queste caratteristiche assumono valori differenti ovvero modalità diverse, esse sono chiamate variabili (per esempio: il genere, il comune di residenza, il titolo di studio, l’età, il peso, l’altezza sono tutte variabili). Se le proprietà sono espresse attraverso numeri cardinali, si ha una variabile quantitativa (altezza, n. di figli), altrimenti è una variabile qualitativa (genere, credo religioso, attributi non misurabili), a loro volta divise in dicotomiche (solo 2 modalità) e politomiche ( + di 2 modalità).

Nelle variabili quantitative, distinguiamo le variabili discrete (proprietà con un numero finito di stati, per esempio la variabile numero di figli può assumere come modalità solo NUMERI INTERI) e continue (proprietà che hanno un numero infinito di stati come l’altezza o il peso, VALORI DECIMALI). Discrete: esito di un conteggio. (insieme dei numeri naturali 1,2,3,4...) Continue: esito di una misurazione. (insieme dei numeri reali o intervallo dei numeri) Nelle variabili qualitative, distinguiamo le variabili sconnesse (ovvero le modalità non posseggono alcun ordine naturale: moro biondo nero) e ordinabili (se le modalità posseggono naturalmente un ordine, ovvero possono essere disposte in una scala di classificazione – cattivo medio buono). Abbiamo variabili dipendenti e indipendenti ; latenti e manifeste. Spesso chi fa ricerca si trova ad analizzare una grande quantità di dati. La statistica descrittiva ha l’obiettivo di ridurre i dati e rappresentarli in forma sintetica attraverso distribuzioni, grafici. La sintesi dei dati consente un’interpretazione degli stessi. Infatti spesso si studiano fenomeni sociali per i quali non è possibile prendere in considerazione un numero di individui sufficientemente elevato, per cui si procede estraendo a caso da un gruppo più grande un sottogruppo di individui, risalendo così alle caratteristiche dell’intera popolazione. Tale procedura è detta inferenza statistica (e si basa sulla teoria della probabilità, consente la generalizzazione dei risultati). Analisi:Univariata/Monovariata: variabili studiate singolarmente.  Bivariata: legame tra 2 variabili.  Multidimensionale/Multivariata: legami tra 3 o più variabili. La tecnica di raccolta più utilizzata è il questionario. I dati più utilizzati sono i dati amministrativi (anagrafi comunali). Vengono effettuati anche dei censimenti , in base agli scopi gestionali/amministrativi. Tra le fonti statistiche abbiamo anche le inchieste campionarie realizzate da enti pubblici. CAP.2 – Rappresentazione delle variabili: tabelle e grafici. DISTRIBUZIONE DI FREQUENZA: La distribuzione di frequenza di una variabile è una rappresentazione in cui ad ogni valore (modalità) della variabile viene associato il numero di casi che lo presenta (la sua frequenza).

  • Le frequenze assolute sono il conteggio del numero dei casi che presenta ciascuna modalità della variabile.
  • Le frequenze relative relativizzano ciascun valore assoluto per permettere il confronto tra diverse distribuzioni. La frequenza relativa è il rapporto tra la frequenza assoluta e il numero totale dei casi della distribuzione. La somma delle frequenze relative è uguale a 1.
  • Le proporzioni possono essere poi trasformate in percentuali moltiplicando le frequenze relative per 100 e in questo caso la loro somma sarà uguale a 100.
  • PITTOGRAMMA: Il pittogramma o diagramma è un grafico generalmente indirizzato a un pubblico di non esperti. Consiste in figure o simboli che ricordano l’oggetto al quale si riferisce la proprietà rappresentata, e che vengono ripetuti tante volte quant’è la frequenza o quantità della relativa modalità, o ne hanno le dimensioni proporzionali.
  • ORTOGRAMMA: Essi riportano la distribuzione di frequenza su un piano cartesiano, disponendo su un asse le modalità della variabile e sull’altro le corrispondenti frequenze. Le modalità delle variabili sono rappresentate da linee o rettangoli aventi tutti base uguale ed equidistanti tra loro. Queste linee e rettangoli possono essere disposte orizzontalmente (diagramma a nastri) o verticalmente (diagramma a colonne) con lunghezza (o altezza) proporzionale alle frequenze delle corrispondenti modalità.
  • AEROGRAMMI: L’aerogramma è un grafico in cui la distribuzione di frequenza viene rappresentata suddividendo l’area di una figura piana in parti proporzionali alle varie frequenze. L’aerogramma più noto è il cosiddetto diagramma a torta che divide l’area di un cerchio in settori proporzionali alle frequenze delle rispettive categorie. Il diagramma a torta, che a volte può essere presentato senza centro, prendendo il nome di diagramma ad anello, presenta il vantaggio di non indurre il lettore alla percezione di un ordine o di una gerarchia tra le categorie. Un altro aerogramma è il diagramma a barre suddivise. È molto utile quando si vogliono confrontare le composizioni di due o più gruppi e consiste in un rettangolo suddiviso in fasce d’altezza proporzionali alle frequenze delle varie categorie. Un ultimo aerogramma è il diagramma a radar, che consiste in un poligono con tanti vertici quante sono le modalità della variabile.
  • ISTOGRAMMA: E’ una rappresentazione grafica costruita da più rettangoli adiacenti, ognuno dei quali ha per base un certo intervallo della variabile (asse delle ascisse, x) e per altezza le frequenze assolute o percentuali (asse delle ordinate, y). Questo tipo di istogramma è noto come istogramma a basi uguali ed è molto simile al diagramma a colonne, solo che tra le categorie non vengono lasciati spazi. Se le classi hanno uguale ampiezza, si piò utilizzare l’istogramma a basi uguali. Se le classi hanno differenze ampiezza sarà necessario calcolare la densità di frequenza. Si definisce 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑎 come rapporto tra la frequenza della classe e la relativa ampiezza (d = ) 𝑎𝑚𝑝𝑖𝑒𝑧𝑧𝑎 Essa può intendersi come una misura dell’addensamento delle frequenze all’interno di ciascun intervallo. Sarà la densità di frequenza a essere posta sull’asse delle ordinate. La frequenza di ciascuna classe corrisponderà all’area del rettangolo. Tale istogramma è definito istogramma a basi differenti. Cartogrammi: grafici eseguiti su carte geografiche, dove il territorio di riferimento è suddiviso ripartizioni geografiche, che assumono colori o tratteggi diversi, in base ai valori che assume la proprietà in quella ripartizione. È molto leggibile e facile, anche per un pubblico di non esperti.

La moda può essere determinata facilmente anche se la distribuzione di frequenze è rappresentata graficamente. In un istogramma, la moda è rappresentata per esempio dal rettangolo più alto. In una distribuzione di frequenze è possibile che ci sia più di una moda quando più modalità presentano il massimo delle frequenze. Se la distribuzione ha una sola moda si dice unimodale, se ha due mode bimodale, se ne ha tre trimodale ecc. Se le frequenze della modalità di una distribuzione sono tutte uguali, la distribuzione non ha una moda oppure ogni modalità è la moda. ------------------------------------------------ In statistica la mediana (Me) è un indice di posizione e occupa il posto centrale nella distribuzione ordinata, bipartendola in due parti uguali. Quindi per calcolare la mediana è necessario innanzitutto ordinare le N unità in ordine crescente ottenendo una distribuzione ordinata, per cui metà delle unità avranno valori uguali o inferiori al valore posseduto dall’unità centrale e metà delle unità avranno valori uguali o maggiori del valore dell’unità centrale. Se N (unità) è dispari la mediana della distribuzione occupa la posizione centrale della distribuzione 𝑁+1 ordinata, e si calcola con la formula. 2 Es: 7,3,5 → 3,5,7 → 3+1=4 /2= 2 posizione Se N (unità) è pari non ci sarà una sola mediana ma due punti centrali della distribuzione. Se questi due punti sono occupati dalla stessa modalità, quella sarà la mediana, altrimenti la distribuzione avrà due modalità mediane. Tuttavia (se la variabile è quantitativa) si può considerare mediana della distribuzione la semisomma dei valori delle due unità centrali, in questo caso 5/2= 2.5), se N è pari la mediana quindi non coincide con un valore osservato ma con una media tra i due valori centrali. 𝑁 𝑁 Le due modalità si calcolano con e +1. 2 2 Es: 2,3,1,4 → 1,2,3,4 → Me=2 e 3. Se la distribuzione della variabile invece è in classi, la classe che contiene la mediana è chiamata classe mediana e si calcola attraverso una formula ben precisa: lm: limite inferiore della classe mediana Fm-1: frequenza relativa cumulata fino alla classe precedente a quella mediana Fm: frequenza relativa cumulata fino alla classe mediana Δm: ampiezza della classe mediana

Se la mediana suddivide la distribuzione ordinata in due distribuzioni che hanno ciascuna il 50% dei casi, si deve notare che questa suddivisione può essere eseguita in un numero qualsiasi di distribuzioni parziali q, avanti ognuna la q-esima parte della numerosità complessiva della distribuzione. La modalità che si pone tra le varie distribuzioni parziali è detta genericamente quantile. I quantili sono indici di posizione non centrali.

Quando q=2 avremo la mediana (secondo quartile), quando q=3 avremo i terzili, per q=4 i quartili, per q=5 i quintili, per q=10 i decili, per q=100 i centili. 1 CASO : Se il numero delle unità N è un multiplo dei quantili q, si divide la distribuzione dei casi (ordinati) in distribuzioni parziali di c unità ciascuna (e quindi stesso numero di casi) Calcolando poi la semisomma dell’ultima unità di ognuna di queste distribuzioni parziali e il primo di quella successiva, determiniamo i quantili;

  • es: 8 casi 1,2,2,3,4,5,6,6 essendo 8 un multiplo di 4 ed essendo che i quartili dividono la distribuzione in 4 parti che hanno ognuno il 25% della numerosità totale, possiamo dividere la distribuzione in 4 distribuzioni parziali dello stesso numero di casi Il primo quartile è 2 ( ), il secondo quartile è 3.5 ( ), il terzo quartile è 5.5 ( ). 2 CASO : Se il numero delle unità N non è un multiplo dei quantili q, si determina il minimo comune multiplo m di N e q (ovvero numero di unità e il quartile scelto), si crea una distribuzione duplicata in cui ogni caso m della distribuzione è ripetuto volte (minimo comune multiplo/numero unità). 𝑁 Anche in questo caso i quantili si determinano calcolando la semisomma del valore dell’ultima unità di ognuna di queste distribuzioni parziali e del valore della prima di quella successiva.
  • es: 6 casi 1;2;2;3;4;6 vogliamo calcolare il quartile ma 6 non è un multiplo di 4, allora bisogna calcolare il minimo comune multiplo di 6 e 4, ovvero 12. Per questo dalla distribuzione data si crea una distribuzione duplicata di 12 unità: 1;1;2;2;2;2;3;3;4;4;6; che può essere suddivisa in 4 distribuzioni parziali da 3 unità: 1;1;2 2;2;2 3;3;4 4;6; Calcolando la semisomma, i quartili saranno= 2; 2.5 e 4.

La media aritmetica , quella calcolata più di frequente, è indicata generalmente con M(x) ed è la somma dei ∑ 𝑥𝑖 valori divisa per il loro numero. La formula è: M(x)= 𝑁

  • La media aritmetica è sempre della stessa unità di misura con cui sono espressi i valori della variabile
  • È sempre compresa tra il min e il max valore della distribuzione (CRITERIO DI INTERNALITA’)
  • Sostituendo la media a tutti gli altri valori, il risultato dell’ammontare del carattere non cambia • La somma degli scarti della media è sempre uguale a 0 Se invece di una distribuzione semplice avessimo una distribuzione di frequenze, dobbiamo calcolare la media aritmetica sommando i prodotti dei valori per le corrispondenti frequenze assolute e dividendo questa somma per il numero totale dei casi.

I più diffusi considerano la differenza dei valori della media aritmetica, detti scarti della media. Gli indici basati sugli scarti della media sono quattro: scostamento semplice medio, devianza, varianza e scarto quadratico medio (o deviazione standard). SCOSTAMENTO SEMPLICE MEDIO (o scarto semplice medio) Solo in questo indice gli scarti sono presi in valore assoluto (negli altri indici vengono elevati al quadrato), poiché se così non fosse e fossero presi con i loro segni, la loro somma darebbe 0. E’ la media aritmetica degli scarti tra ciascun valore della distribuzione e la sua media, presi in valore assoluto. Ovvero: Questa misura è tuttavia poco utilizzata in quanto i valori assoluti, privi di segno, vengono trattati con difficoltà nell’analisi matematica. Infatti: DEVIANZA Siccome nell’analisi matematica i valori assoluti vengono trattati con difficoltà, si tenderà ad elevarli al quadrato così da rendere tutti i valori positivi. Vengono così utilizzati i quadrati degli scarti della media, la cui somma prende il nome invece di devianza. (xi – Mx) scarti della media Poiché la devianza è sensibile al numero dei casi ed aumenta a prescindere da quanto sia variabile la distribuzione, per ottenere un indice stabile, occorre dividerla per la numerosità campionaria. In questa maniera si ottiene la varianza. VARIANZA Essa si definisce come media degli scarti al quadrato. L’elevazione al quadrato assicura che differenze negative e positive non si annullino a vicenda. SCARTO QUADRATICO MEDIO (o deviazione standard) Lo scarto quadratico medio è la radice quadrata della varianza. Per eliminare l’elevazione della varianza (𝜎^2 ), è necessario metterla sotto radice, ottenendo lo scarto quadratico medio, ovvero la grandezza lineare che viene maggiormente utilizzata nell’analisi monovariata: LA STANDARDIZZAZIONE Nella ricerca sociale, come nella vita quotidiana, spesso si ha l’esigenza di confrontare valori di due o più distribuzioni che non hanno la stessa unità di misura. Un esempio è il voto conseguito al diploma di scuola media superiore che oggi è espresso in centesimi e in passato in sessantesimi. Si rende quindi necessario porre i differenti voti sulla stessa unità di misura. Tale trasformazione si ottiene calcolando il rapporto tra gli scarti della media e lo scarto quadratico medio (deviazione standard):

COEFFICIENTE DI VARIAZIONE

È un indice statistico RELATIVO molto utilizzato perché permette di confrontare fenomeni con unità di misura diverse. Viene calcolato come rapporto tra lo scarto quadratico medio (σ) e la media della distribuzione M(x). Un ulteriore modo per calcolare la variabilità di una distribuzione prendendo in considerazione due valori che sono caratteristici della distribuzione, quali il valore minimo e il valore massimo, è il: CAMPO DI VARIAZIONE (RANGE) Ovvero la differenza tra il valore massimo e il valore minimo Range(X)= max(X) – min(X) BOX PLOT Il grafico a scatola, più comunemente conosciuto con il nome di box plot è uno dei migliori modi per rappresentare, in un solo grafico, molti aspetti sintetici di una distribuzione di frequenza tramite indici di dispersione e indici di posizione. Nello specifico ogni boxplot è composto dai seguenti elementi:

  • è un grafico basato sui quartili che delimitano la scatola
  • al suo interno viene collocata una linea continua (non tratteggiata) che indica il valore della mediana sul minimo e il massimo della distribuzione. se la mediana è al centro del box la distribuzione è perfettamente simmetrica qualora i baffetti siano equidistanti e non ci siano valori estremi
  • un box che congiunge quindi i valori che occupano il primo e il terzo quartile, nel quale si colloca il 50% dei dati
  • i suoi estremi vengono detti “baffetti”
  • Rappresenta contemporaneamente la tendenza centrale, la variabilità e la forma di una distribuzione. ASIMMETRIA (M3) di Fisher Esistono principalmente due misure che studiano qual è la forma di una distribuzione: l’asimmetria e la curtosi. È possibile rintracciare la simmetria e l’asimmetria considerando il valore minimo (xmin) in relazione al Q e il valore massimo (xmax) in relazione al Q3.
  • Infatti c’è simmetria quando Q1-xmin = xmax-Q3, ovvero quando la distanza tra xmin e il primo quartile e la distanza tra xmax e il terzo quartile è uguale. C’è equidistribuzione perché la mediana divide perfettamente la distribuzione.
  • Asimmetria positiva quando Q1-xmin < xmax-Q3, ovvero quando la distanza tra xmin e il primo quartile è minore della distanza tra xmax e il terzo quartile. Coda lunga a destra.
  • Asimmetria negativa quando Q1-xmin > xmax-Q3, ovvero quando la distanza tra xmin e il primo quartile è maggiore della distanza tra xmax e il terzo quartile. Coda lunga a sinistra. Una distribuzione è asimmetrica quando non è possibile individuare un asse verticale che suddivida la distribuzione in due parti uguali. L’asimmetria si misura confrontando gli indici di posizione più comuni: moda, mediana e media. -se la media supera la mediana si avrà asimmetria positiva (a destra) -se la media è inferiore alla mediana si avrà asimmetria negativa (a sinistra)

L’area compresa tra la spezzata di concentrazione e il segmento (0A) di equidistribuzione è l’area di concentrazione. Essa è nulla in caso di equidistribuzione (mentre è pari al triangolo OBA nel caso di massima concentrazione). CURVA DI LORENZ Un altro strumento che permette di valutare il grado di concentrazione è la curva di Lorenz. Nel grafico di Lorenz, vi sarà perfetta distribuzione quando tutti i punti del grafico, ovvero i dati che corrispondono alla nostra distribuzione, poggiano sul segmento. Se invece non c’è equidistribuzione, il grafico darà luogo ad una SPEZZATA. Maggiore è l’area tra la curva di Lorenz e la bisettrice, maggiore è la concentrazione. Numeri Indice: Consentono di studiare l’intesità del cambiamento di uno stesso fenomeno nel tempo o nello spazio, rapportandolo ad un contesto di riferimento, chiamato base del numero indice. CAP. 5 – Analisi delle relazioni tra due caratteri Mentre, la distribuzione di frequenze semplice è un modo di organizzare ogni singola variabile in una tabella, in modo tale da far corrispondere, a ogni modalità di una variabile, il numero di unità che possiedono tale modalità, la distribuzione di frequenza multipla è invece basata sulla coppia di modalità (xi, yi) di due variabili (X e Y), da cui si ricava la frequenza congiunta (nij), ovvero il numero di unità che possiedono contemporaneamente la modalità xi della variabile X e la modalità yj della variabile Y. Dunque siano X e Y due variabili rispettivamente con k ( righe ) e h modalità ( colonne ). Le frequenze congiunte ( nij ) vengono riportate in una tabella di contingenza , o anche detta tabella a doppia entrata. Sulla tabella di contingenza si possono fare diverse considerazioni: la parte centrale della tabella è la distribuzione di frequenza assoluta congiunta delle due variabili. Ci sono due diversi tipi di totali: “totale di riga” che corrisponde all’ultima colonna della tabella e “totale di colonna” che corrisponde all’ultima riga della tabella. Ogni totale di riga, per esempio, si ottiene sommando le frequenze che si trovano su quella riga. I totali di colonna vengono anche chiamati “ Frequenze marginali ”. Se si considerano, invece, una sola riga o una sola colonna interna alla tabella, si ha una distribuzione condizionata. ANALISI DELLA DIPENDENZA Un primo tipo di relazione che può sussistere tra due variabili X e Y è il rapporto di causa ed effetto , ovvero al variare della X varia conseguentemente anche la Y. Tecnicamente, si parla di dipendenza logica tra due o più caratteri quando tra questi sono note a priori relazioni causa-effetto. Quando due variabili sono logicamente dipendenti, ci si aspetta che siano anche statisticamente dipendenti, ovvero che la conoscenza delle modalità di una delle due variabili ci permetta di fare ipotesi sulle modalità dell’altra. Si parla di indipendenza logica tra due o più caratteri quando si suppone a priori che tra queste non possa sussistere alcuna relazione causa effetto. Quando due variabili sono logicamente indipendenti ci si aspetta che siano anche statisticamente indipendenti.

Quando si studia il legame tra due variabili in ambito sociale è possibile misurare solo una parte della relazione che le lega. Per esempio tra il reddito (X) e la spesa per cultura e spettacoli (Y) si presuppone una dipendenza logica di Y da X. Ciò presuppone che all’aumentare del reddito aumenti la spesa per cultura e spettacoli. Non sempre però questo accade. In sintesi non è possibile determinare in maniera “esatta” il legame tra le due variabili. Ciò è dovuto al fatto che il reddito (X) è influenzato a sua volta da altre variabili quali genere, età, livello di istruzione, professione etc. che a loro volta influiscono sulla variabile spesa per cultura per spettacoli (Y). Poiché la relazione di dipendenza logica presuppone che se accade qualcosa a X, allora accade qualcosa a Y, si dice che la variabile X è l’ antecedente logico della relazione e la variabile Y è il conseguente logico. La spesa per cultura e spettacoli dipende dal reddito ma non vale la relazione inversa. Questo tipo di relazione si dice unidirezionale e in statistica viene studiata con l’analisi della dipendenza. Tuttavia, nelle situazioni reali due variabili possono risultare più o meno dipendenti, ma ben difficile è che la relazione che le lega sia perfetta. La situazione di DIPENDENZA PERFETTA infatti si presenta quando a ciascuna delle determinazioni con cui può manifestarsi una variabile è associata una sola delle diverse determinazioni dell’altra variabile. Può avvicinarsi per esempio il grado di dipendenza che c’è tra età e classe frequentata dai bambini (molto elevata). INDIPENDENZA: La situazione limite opposta, detta di indipendenza , si ha quando non esiste alcuna associazione fra le due variabili, nel senso che la conoscenza della determinazione assunta da una di esse non fornisce alcuna informazione sulla probabile determinazione dell’altra. [Se tra le variabili non vi è alcun tipo di dipendenza logica, l’indipendenza è detta stocastica ]. Se il carattere X è indipendente dal carattere Y, allora vale anche la relazione contraria : anche il carattere Y sarà indipendente dal carattere X. La frequenza congiunta che si otterrebbe in caso di indipendenza assoluta tra i caratteri X e Y, viene chiamata frequenza teorica , che è pari al prodotto del totale della riga (ni) per il totale della colonna (nj) 𝑡𝑜𝑡 𝑟𝑖𝑔𝑎. 𝑡𝑜𝑡 𝑐𝑜𝑙𝑜𝑛𝑛𝑎 diviso il numero complessivo di unità: 𝑡𝑜𝑡 𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑒 La frequenza teorica viene indicata con un asterisco , quindi sarà: n*ij = ni x nj / N Inoltre, in molte situazioni in cui vengono rilevati due caratteri non è possibile stabilire quale dei due caratteri sia quello antecedente, si parla in questi casi di interdipendenza (legame bidirezionale). Qualora tra due variabili non esistesse né dipendenza logica né indipendenza stocastica, c’è bisogno di opportuni indici per misurare il grado di connessione tra le variabili. CHI-QUADRATO DI PEARSON L’indice più comunemente usato per valutare il grado di dipendenza assoluta fra due variabili. Il chi-

quadrato (indicato con il simbolo ꭓ^2 ) è detto anche indice di Pearson e fornisce un criterio per

stabilire se ci sia connessione o meno tra due caratteri statistici X e Y. Bisogna elevare la sommatoria al quadrato e dividere il tutto per le frequenze teoriche. -assume sempre valori positivi, > -non tiene conto della direzione della dipendenza, qualora scambiassimo il ruolo di X e Y

  • assume valore 0 nel caso di indipendenza tra X e Y -il valore è vicino allo 0 nel caso di bassa associazione
  • si tratta di CONCORDANZA se al crescere o al decrescere di X, cresce o decresce anche Y, e questo tipo di correlazione verrà definita correlazione lineare positiva
  • si tratta di DISCORDANZA se al crescere di X, Y decresce o se al decrescere di X, Y cresce e questo tipo di correlazione verrà definita correlazione lineare negativa queste relazioni di concordanza e discordanza vengono esplicate molto bene attraverso lo scatter o grafico a dispersione. CODEVIANZA L’indice assoluto che studia il grado di concordanza e discordanza è la codevianza, che è la sommatoria del prodotto degli scarti delle rispettive medie delle due variabili x e y: La correlazione lineare del tipo positivo o negativo si può evincere dal valore che assume la Codevianza, infatti: se la codevianza > 0 si ha la concordanza (correlazione lineare positiva) se la codevianza < 0 si ha la discordanza (correlazione lineare negativa) Dividendo la codevianza per N (la numerosità del collettivo) si ottiene la covarianza. COVARIANZA La covarianza è un indice assoluto di concordanza/discordanza ed è definita anche come media del prodotto degli scarti. -la covarianza = 0 quando X e Y sono indipendenti. Tuttavia è possibile tuttavia escludere una dipendenza di tipo lineare ma non un altro tipo di correlazione. Per depurare la Covarianza dalle differenti unità di misura, si rapporta l’indice assoluto al suo valore massimo. Il valore massimo per la covarianza è il risultato del prodotto degli scarti quadratici medi delle variabili x e y (ovvero la radice quadrata del prodotto delle VARIANZE x e y): (C’è perfetta correlazione lineare crescente quando tutti i punti sono allineati su una retta crescente). COEFFICIENTE DI CORRELAZIONE lineare DI BERAVAIS-PEARSON A prescindere che si conosca o meno il verso della dipendenza, serve a capire se la retta è crescente o decrescente. Rapportando la codevianza al suo massimo si ottiene il coefficiente 𝝆 (rho) di correlazione lineare di Bravais-Pearson. Tale indice simmetrico misura l’interdipendenza lineare si può ottenere: -sia rapportando la codevianza alla radice del prodotto delle devianze
  • sia rapportando la covarianza (x,y) al massimo della covarianza (vedi sopra come si calcola) Inoltre: -è un indice simmetrico e varia tra -1 e 1 -quando ρ = 1 la concordanza è perfetta (perfetta correlazione lineare, cioè al crescere di X, Y cresce)

-quando ρ = -1 la discordanza è perfetta (perfetta correlazione lineare, cioè al crescere di X, Y decresce) -quando ρ > 0 c’è concordanza (retta crescente) [vedi significato] -quando ρ < 0 c’è discordanza (retta decrescente) [vedi significato] -quando ρ = 0 c’è indipendenza (fra X e Y non sussiste relazione) RETTA DI REGRESSION E E’ una rappresentazione semplificata della realtà osservata. E’ un sistema che consente di tracciare la retta che meglio rappresenta l’andamento della nuvola di punti e consente di interpretare e prevedere come al variare della variabile indipendente, varia la variabile dipendente. E’ basato sul modello matematico Y=a + bx Gli elementi a e b sono i due parametri che caratterizzano una retta: in particolare a è l’intercetta sull’asse delle Y (e cioè il valore assunto da Y quando x=0) e b è il coefficiente angolare (ovvero la pendenza della retta). Il parametro b in statistica è chiamato coefficiente di regressione. In statistica questi parametri sono il risultato di un processo detto STIMA. Ora, se la retta di sovrapponesse perfettamente a tutti i punti osservati di Y, potremmo scrivere la funzione matematica Y=a + bx Considerato però che la retta non passa per tutti i punti, dobbiamo scrivere l’equazione in modo statistico, ovvero: Y=a + bx + ε dove ε indica il residuo (ovvero l’errore) che serve a correggere i dati. In altre parole dopo aver calcolato il valore di Y sulla base della retta di regressione (che chiameremo Y stimato), possiamo calcolare l’ errore come differenza del valore osservato e il valore stimato. Tuttavia, poiché l’errore cambia per ogni valore di Y mentre a e b restano uguali per l’intera retta, applicheremo il metodo dei METODO DEI MINIMI QUADRATI , con cui è possibile determinare la stima del coefficiente di regressione della retta che interpola al meglio la nuvola dei punti, producendo dunque gli errori più piccoli (più piccoli sono gli errori infatti, più la retta si avvicina a tutti i punti). Secondo il metodo dei minimi quadrati, la stima di b sarà (pendenza della retta) (b=coefficiente di regressione la cui stima dei minimi quadrati è uguale al rapporto tra la codevianza e la devianza di X) Se b > 0 = c’è concordanza, con pendenza positiva della retta Se b < 0 = c’è discordanza, con pendenza negativa della retta Se b = 0 c’è indipendenza lineare, e la retta risulterà parallela all’asse delle ascisse Secondo il metodo dei minimi quadrati, la stima di a sarà invece: (a=intercetta di regressione la cui stima dei minimi quadrati è uguale alla differenza tra la Media di y e il prodotto tra il coefficiente di regressione lineare e la media di x) La retta ottenuta con il metodo dei minimi quadrati, passa per il baricentro dei dati ed il segno di b è quello della codevianza fra le due variabili. BONTA’ DEL MODELLO E’ necessario valutare la bontà, ovvero la bontà dell’approssimazione della retta alla nuvola di punti. Il metodo dei minimi quadrati assicura che la retta trovata sia la migliore tra tutte le possibili rette, ma questo non assicura che la retta in sé sia il miglior modello per rappresentare i dati. Per capire quanto la retta di regressione sia adatta a rappresentare i dati, ci sono due strategie: -utilizzare un opportuno indice (coefficiente di determinazione 𝝆𝟐) -analizzare graficamente i residui

Indagine Campionaria: indagine su una parte della popolazione. Si parla, quindi, di statistica inferenziale , cioè l’insieme di teorie e tecniche, che consentono di estendere i risultati ottenuti su una parte della popolazione, chiamata campione, di numerosità n , a tutta la popolazione, di numerosità N , con un certo grado di incertezza. Quantificare il grado di incertezza significa associare una probabilità , ovvero calcolare la probabilità che gli stessi siano validi per l’intera popolazione. Abbiamo diversi concetti connessi alla probabilità:  Prova (i): ogni esperimento soggetto ad incertezza, dove l’insieme degli esiti è detto spazio campione (Ω) e invece i singoli esiti sono detti punti campionari (ω).  Evento (E): sottoinsieme dello spazio campione, costituito da un unico esito, detto evento elementare oppure costituito da due o più esiti, detto evento composto.  Probabilità (P): associata al verificarsi di un evento, è un numero compreso tra 0 e 1, atto a misurare il grado di incertezza del verificarsi dell’evento. Questi concetti sono tra loro connessi: in una data prova i, l’evento E dello spazio campione Ω, si verifica una certa probabilità P(E). Esempio:  Prova : Lancio di un dado a 6 facce (non truccato);  Spazio Campione : (faccia numero 1, faccia numero 2, faccia numero 3, ecc…);  Evento : faccia numero 1;  Probabilità : 1/6. Laplace , studioso delle probabilità dei giochi di azzardo, definì: la probabilità è data dal rapporto fra il numero di casi favorevoli all’evento e il numero di casi possibili, a condizione che questi vincoli siano tutti egualmente possibili (equiprobabili). Viene definita a priori , cioè prima che l’evento si verifichi. Questa è la definizione classica, che può essere applicata solo quando i possibili risultati di una prova sono noti, finiti, e con la stessa probabilità di verificarsi. P(E) = Numero di casi favorevoli / Numero di casi possibili Esempio del dado: P(E) = 1/ Successivamente, nasce l’impostazione frequentista : probabilità come limite a cui tende la frequenza relativa dell’evento al crescere del numero degli esperimenti. Si applica nei casi in cui manca la condizione di equiprobabilità degli eventi elementari. Si applica a fenomeni dei quali si posseggono dati statistici (probabilità di morte/sopravvivenza/nascita). Va calcolata a posteriori , cioè dopo aver effettuato l’esperimento. Non si può applicare a casi singolari non ripetibili o mai realizzatisi. 𝑃 ( 𝐸 )=lim 𝑛 →∞ 𝑛𝑒/𝑛  P(E): La probabilità dell'evento E.  ne: Il numero di volte che l'evento E si è verificato (casi favorevoli).  n: Il numero totale di prove effettuate (casi possibili).  lim(n → ∞): Indica che, aumentando indefinitivamente il numero di prove (n), il rapporto tende a stabilizzarsi su un valore che rappresenta la vera probabilità dell'evento. Entrambe le impostazioni rientrano nel campo della probabilità oggettiva e hanno due regole fondamentali: la probabilità di ciascun evento deve avere un valore compreso tra 0 ed 1 e la somma delle probabilità di tutti i possibili eventi deve essere 1. L’impostazione soggettiva , dice che: la probabilità di un evento è la misura del grado di fiducia che un individuo coerente attribuisce al verificarsi dell’evento. Le probabilità di uno stesso evento possono essere

anche diverse, se fornite da soggetti diversi. Uno dei maggiori sostenitori è de Finetti , che studiava le scommesse. ALGEBRA DI BOOLE Gli eventi sono indicati con lettere maiuscole (A, B, C), abbiamo 3 operazioni fondamentali:  Unione tra due eventi: A u B, si verifica quando almeno uno dei due eventi si verifica, cioè deve verificarsi l’evento A o l’evento B o entrambi.  Interesezione tra due eventi: A n B, si verifica quando si verificano entrambi gli eventi contemporaneamente.  Negazione di un evento: Ā, si verifica quando non si verifica A. Diagramma di Eulero-Venn: Evento impossibile : evento che non potrà mai verificarsi, la probabilità è pari a 0. Evento certo : evento che si verifica sempre, la probabilità è pari a 1. Incompatibilità fra due eventi: quando non possono verificarsi contemporaneamente, l’intersezione tra i due eventi è l’insieme vuoto. Tre postulati fondamentali:  Positività (I): P(A) >= 0. La probabilità di un evento è sempre maggiore o uguale a 0, è pari a 0 nel caso in cui è un evento impossibile.  Certezza (II): P(Ω) = 1. La probabilità associata allo spazio campione è sempre pari a 1.  Unione (III): P(A u B) = P(A) + P(B) se A n B = O/. Eventi non compatibili, la probabilità è data dalla somma delle probabilità dei singoli eventi ( principio delle probabilità totali ). Dati 2 eventi: P(A u B) = P(A) + P(B) – P(A n B) —> probabilità totali per eventi compatibili. Probabilità condizionata:  probabilità che si verifichi l’evento A, dopo che si è verificato l’evento B. Si indica con P (A|B) : probabilità dell’evento A dato B.  Probabilità che l’evento B, dopo che si è verificato l’evento A. Si indica con P (B|A) : probabilità dell’evento B dato A. Formula: P(A|B) = P(A n B) / P(B) o P(B|A) = P(A n B) / P(A). Statisticamente Indipendenti: si dicono così solo se il verificarsi di A, non influisce sulla probabilità del verificarsi di B, ovvero non la condiziona e viceversa. È diverso dal dire che due eventi sono incompatibili.