Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


statistica di base fulvia mecatti, Appunti di Statistica

riassunto delle lezioni e del libri

Tipologia: Appunti

2024/2025

Caricato il 07/08/2025

sarac_
sarac_ 🇮🇹

4.4

(23)

27 documenti

1 / 42

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
CAPITOLO 1 E 2: COS’È LA STATISTICA.
La statistica è una scienza che permettere di raccogliere, analizzare ed interpretare i dati.
Siamo nell’era dei big data, e proprio per questo è necessario saper fare una selezione delle
informazioni utili. In Italia chi produce statistica è l’ISTAT, che si occupa di svariati campi (ad
esempio statistiche sull’occupazione, sui redditi, demografia etc.).
La statistica è una scienza dei dati, è l’insieme di metodologie e tecniche per la conoscenza
quantitativa, l’analisi e la comprensione di uno o più fenomeni (osservati nella realtà sociale,
in natura, in laboratorio o al computer), singolarmente o congiuntamente considerati, che si
presentano nella realtà con un insieme di diverse manifestazioni, osservabili totalmente o
parzialmente.
È multidisciplinare, infatti si può applicare a vari campi come sociologia, politica, economia,
salute pubblica, medicina.
Quindi la statistica si occupa della trattazione quantitativa dei fenomeni.
Per trattazione quantitativa intendiamo la realizzazione del seguente processo logico:
Osservazione: raccolgo i dati
Analisi: elaboro il dato raccolto
Conoscenza (comprensione):
trasformo i dati in informazioni
Decisioni: dopo questo processo
logico potrò prendere decisioni
L’operazione di raccolta dei dati a fini statistici è chiamata rilevazione, o anche osservazione
e registrazione.
I fenomeni d’interesse per la statistica prendono il nome di “fenomeni statistici”, ed essi si
manifestano in molteplici modi. In termini tecnici ci si riferisce a ciò parlando di tendenza (del
fenomeno) a variare.
I supporti delle diverse manifestazioni del fenomeno statistico sono detti unità statistiche. È
presso le unità statistiche che è possibile osservare e registrare le manifestazioni del
fenomeno di interesse, ossia rilevare i dati.
L’insieme delle unità statistiche sulle quali interessa studiare il fenomeno è chiamato
popolazione statistica o universo (U) di riferimento.
Il numero di unità statistiche che compongono la popolazione statistica di riferimento è
chiamato numerosità o dimensione di U; la notazione che useremo è N (quindi non la si può
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a

Anteprima parziale del testo

Scarica statistica di base fulvia mecatti e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

CAPITOLO 1 E 2: COS’È LA STATISTICA.

La statistica è una scienza che permettere di raccogliere, analizzare ed interpretare i dati. Siamo nell’era dei big data , e proprio per questo è necessario saper fare una selezione delle informazioni utili. In Italia chi produce statistica è l’ISTAT , che si occupa di svariati campi (ad esempio statistiche sull’occupazione, sui redditi, demografia etc.). La statistica è una scienza dei dati , è l’insieme di metodologie e tecniche per la conoscenza quantitativa, l’analisi e la comprensione di uno o più fenomeni (osservati nella realtà sociale, in natura, in laboratorio o al computer) , singolarmente o congiuntamente considerati, che si presentano nella realtà con un insieme di diverse manifestazioni, osservabili totalmente o parzialmente. È multidisciplinare , infatti si può applicare a vari campi come sociologia, politica, economia, salute pubblica, medicina. Quindi la statistica si occupa della trattazione quantitativa dei fenomeni. Per trattazione quantitativa intendiamo la realizzazione del seguente processo logico : Osservazione : raccolgo i dati Analisi : elaboro il dato raccolto Conoscenza (comprensione) : trasformo i dati in informazioni Decisioni : dopo questo processo logico potrò prendere decisioni L’operazione di raccolta dei dati a fini statistici è chiamata rilevazione , o anche osservazione e registrazione. I fenomeni d’interesse per la statistica prendono il nome di “fenomeni statistici” , ed essi si manifestano in molteplici modi. In termini tecnici ci si riferisce a ciò parlando di tendenza (del fenomeno ) a variare. I supporti delle diverse manifestazioni del fenomeno statistico sono detti unità statistiche. È presso le unità statistiche che è possibile osservare e registrare le manifestazioni del fenomeno di interesse, ossia rilevare i dati. L’insieme delle unità statistiche sulle quali interessa studiare il fenomeno è chiamato popolazione statistica o universo (U) di riferimento. Il numero di unità statistiche che compongono la popolazione statistica di riferimento è chiamato numerosità o dimensione di U ; la notazione che useremo è N (quindi non la si può

usare per indicare i fenomeni). I fenomeni d’interesse nelle scienze sociali si manifestano in genere su popolazioni umane e finite (N è un numero intero e positivo). Talvolta la dimensione N di U, pur essendo finita, è talmente elevata che conviene pensarla come infinita ai fini dell’analisi statistica.

ELEMENTI DI BASE E NOTAZIONE

  • U : popolazione o universo statistico (ad esempio chi ha risposto al questionario mobilità in aula)
  • N : numerosità o dimensione di U (ad esempio N=14 0 se abbiamo risposto in 14 0 )
  • X, Y, W, A : fenomeni statistici, quello che voglio rilevare
  • x,y,w,a: singola manifestazione del fenomeno statistico (modalità o valori del fenomeno) Ovviamente qualora ci fossero più modalità tutto va accompagnato da numeri piccoli sotto. Esempio di quello che abbiamo fatto in aula: “hai mai studiato statistica” - → è la domanda che mi serve per rilevare qualcosa chi è U? → popolazione presente in aula. chi è A → lo studio precedente della statistica chi è a → Si /No

ALTRI ELEMENTI DI NOTAZIONE:

  • k : numero delle diverse modalità previste dalla scala utilizzata per la rilevazione di X su U ad esempio, k=5 se ci sono cinque modalità
  • i: indice per distinguere le diverse modalità x del fenomeno X: la rilevazione di X su U avviene con la scala di modalità x1, x2,.. ., xk o xi, i = 1,... , k.

CLASSIFICAZIONE DEI FENOMENI STATISTICI :

I fenomeni non sono tutti uguali e definirne la natura correttamente è il pre-requisito all’individuazione della strumentazione statistica adatta alla raccolta e all’analisi dati. Il fenomeno statistico può essere classificato in qualitativo o quantitativo. I fenomeni qualitativi si manifestano nella popolazione osservata attraverso attributi o categorie (ad esempio il genere, la squadra tifata, il titolo di studio): le modalità di risposta sono quindi espresse in parole. Per i fenomeni qualitativi è importante la sotto- classificazione , che li distingue in base alla possibilità di ordinarne le manifestazioni.

  • Fenomeni qualitativi ordinali : fenomeni che si manifestano con attributi e categorie ordinabili secondo un criterio oggettivo/convenzionalmente accettato ( ad esempio il livello di istruzione ).
  • Fenomeni qualitativi categoriali : fenomeni per cui non abbiamo un criterio oggettivo (ma solo personale e variabile) per ordinarne le categorie ( ad esempio il colore preferito ) I fenomeni quantitativi si manifestano nella popolazione osservata attraverso numeri e misure (ad esempio i numeri di accesso ad un sito ogni giorno). Le manifestazioni dei fenomeni

La scala delle modalità con cui si rileva X è l’insieme di tutte le diverse manifestazioni di X osservabili su U. La scala delle modalità con cui si effettua una rilevazione avere le proprietà di :

  • Esaustività : la scala deve prevedere tutte le possibili manifestazioni di X che potenzialmente si possono osservare su U.
  • Mutua esclusività : la scala deve prevedere solo modalità che si escludono a vicenda , senza possibilità di confusione o sovrapposizione. Una unità deve potersi sempre classificare in una ed una sola modalità. Esempi di scale sbagliate e ragioni per cui lo sono: Questa scala è sbagliata, perché Milano non esclude Lombardia. Per quando riguarda il tipo di scala è qualitativa e categorica (non vi sono variabili ordinali). La categoria che manca potrebbe essere “Mondo (non Europa)” Questa scala è sbagliata perché esclude tutti gli over 80 ed inoltre chi ha 18 anni non sa dove classificarsi. È inoltre bene sottolineare che la natura del fenomeno di interesse condiziona la tipologia della scala della modalità che può essere scelta per la rilevazione, che a sua volta determina la qualità ed il tipo di dati. Dobbiamo quindi imparare a classificare anche le scale di modalità. Distinguiamo tra due tipi di scale :
  • SCALA QUALITATIVA : In una scala qualitativa le modalità sono attributi o categorie (possono essere espresse con parole, frasi, ecc). Es: Genere, Livello di scolarità, Livello di felicita, Accordo su un certo argomento, .... Fra le scale qualitative effettuiamo un importante sotto classificazione : o Scala categorica (non ordinale o sconnessa): Gli attributi o le categorie non ammettono un ordinamento oggettivo ma solo un ordinamento casuale o personale. Esempi: Genere, luogo di residenza, colore dei capelli, .... Una scala qualitativa sconnessa ammette solo relazioni di uguaglianza (=) o differenza (≠) Un interessante tipo di scala sconnessa è la scala dicotomica o binaria , che ha al suo interno solo due modalità (ad esempio vero o falso, si o no etc.)

o Scala ordinale: Gli attributi o le categorie possono essere ordinati secondo un qualche criterio oggettivo o convenzionalmente accettato. Esempi: Titolo di studio, Livello di felicita Una scala qualitativa ordinale ammette relazioni di uguaglianza (=) o differenza (≠), maggiore (>) o minore (<)

  • SCALA QUANTITATIVA : In una scala quantitativa le modalità sono numeri (quantità). Esempi: Età in anni compiuti, numero di componenti nella famiglia, peso, altezza, .... Le scale quantitative sono sempre ordinali, ma si distinguono per origine (ovvero da dove partono):
    • Origine assoluta ( scale rapporto ), se l’origine della scala è il numero 0 con significato assoluto , cioè quando indica l’assenza del fenomeno

(es. numero di figli → se dico zero ne ho effettivamente zero)

Una scala quantitativa rapporto ammette le operazioni di uguaglianza , disuguaglianza , di ordinamento , di somma e sottrazione , di moltiplicazione e divisione.

  • Origine convenzionale ( scale non rapporto ), se l’origine della scala (generalmente ancora lo 0) ha significato solamente convenzionale (es: la temperatura in gradi Celsius) Una scala quantitativa con origine convenzionale ammette le operazioni di uguaglianza , disuguaglianza , di ordinamento , di somma (+) e sottrazione (–). È importante effettuare queste distinzioni perché questo avrà impatto su quali tipi di conti statistici dovremmo fare sui dati. La scelta del termine “rapporto” e “non rapporto” non è casuale ; infatti, mentre la prima produce dati che è legittimo rapportare l’altra non lo fa (ad esempio se un italiano ed un americano producono dati sulla temperatura non ha senso metterle a rapporto perché l’unita di misura convenzionale è diversa).

LE FASI DELL’ANALISI STATISTICA

Trattare quantitativamente uno o più fenomeni statistici significa condurre le seguenti fasi:

  • Osservare le manifestazioni : recarsi fisicamente presso le unità statistiche per registrare le diverse manifestazioni di un fenomeno. In questo modo si creano i nostri dati grezzi (dataset) (che potrebbero anche già esistere, es → ISTAT). Tecnicamente è la fase di rilevazione
  • Organizzare il risultato della rilevazione: bisogna rendere il tutto più chiaro e leggibile. Tecnicamente è la fase della strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza.
  • Elaborare i dati strutturati : l’obbiettivo è quello di far emergere più chiaramente dai dati le informazioni che possono rispondere agli interrogativi di ricerca e catturare quei meccanismi che determinano la distribuzione delle diverse manifestazioni del fenomeno

Quando N è un numero grande il risultato della rilevazione è un insieme confuso di N modalità xi di X che non aiuta al raggiungimento del nostro scopo, cioè la descrizione del comportamento di X su U. Il risultato della rilevazione fornisce quindi dati grezzi. L’analisi statistica procede per sintesi successive: l’obiettivo è far emergere un passo alla volta dai dati informazioni utili a spiegare il comportamento di X su U. La prima sintesi consiste nel dare una struttura ai dati grezzi , organizzandoli in tabelle e grafici in modo da renderli leggibili.

DISTRIBUZIONE DI FREQUENZE E VARIABILI STATISTICHE

Effettuando l’operazione di conteggio delle modalità di X che si ripetono in U, i dati grezzi vengono organizzati in una tabella. Il numero di volte in cui una modalità xi è stata rilevata in U si chiama frequenza (assoluta). La somma delle frequenze assolute riproduce la numerosità N di U.

  • La frequenza assoluta di ciascuna modalità osservata xi è il numero di unità statistiche che fra le N osservate manifesta quella modalità xi di X. Ne segue che la somma di tutte le frequenze assolute riproducono la numerosità N di U. La indicheremo come fi L’insieme delle k frequenze assolute è detta distribuzione di frequenze assolute di X su U. La distribuzione di frequenze avviene per conteggio e consente di organizzare i dati in una forma tabellare Esempio di tabella di distribuzione di frequenza assoluta: La colonna di destra costituisce la distribuzione di frequenza. La colonna delle modalità xi (in questo caso i vari km) può contenere attributi, categorie, numeri o intervalli. La colonna delle frequenze assolute invece avrà numeri interi ≥ 0 e con somma pari a N Il complesso della tabella costituisce la variabile statistica (v.s.), che è quindi un insieme di k coppie del tipo “modalità, frequenza”. Possiamo tradurre tutti questi concetti con la definizione di variabile statistica sotto forma di insieme: v.s = {(xi, fi), i =1, …, k, i= k Σ fi= N} Il passaggio dai dati grezzi alla v.s. ci ha portato il vantaggio di rendere i dati più organizzati e leggibili, ma ci ha fatto perdere l’informazione circa l’ordine in cui i dati sono stati rilevati. A ogni livello di elaborazione da un lato si ottiene di far emergere dai dati un’informazione. Ma dall’altro la sintesi comporta la perdita di informazioni.

FREQUENZE RELATIVE E PERCENTUALI

Se il nostro obbiettivo è confrontare le distribuzioni di frequenza di X di due o più popolazioni con numerosità diversa occorre depurare le frequenze assolute dall’influenza di N costruendo le frequenze relative

  • La frequenza relativa associata alla modalità xi è il rapporto fra la frequenza assoluta di xi e la numerosità N di U (pi = fi /N). Indicheremo la frequenza relativa con pi. La formula è pi = N/fi Le frequenze relative sono quantità adimensionali (private della dimensione) e pertanto sono sempre confrontabili. Sono rapporti particolari con il denominatore che rappresenta il totale del numeratore. Sono sempre comprese tra 0 e 1 e la loro somma è sempre pari a 1 Infatti, le frequenze relative hanno le seguenti proprietà:
  1. P con i può assumere valori tra 0 ed 1 inclusi per ogni i che va da 1 a k → Se ne deduce che, quando la frequenza assoluta è pari a zero lo è anche la frequenza relativa. È pari ad uno quando tutta la frequenza assoluta è su una modalità
  2. Se sommo tutte le frequenze relative la loro somma deve essere pari ad uno. Le percentuali solo le frequenze relative moltiplicate per cento. A livello di analisi statistica è preferibile lavorare con le frequenze relative, mentre per quanto riguarda la parte di interpretazione e comunicazione dei risultati è conveniente passare alle percentuali. In una tabella inerente alle frequenze relative la colonna che le contiene rappresenta la distribuzione delle frequenze relative di X su U,

CONFRONTARE E VALUTARE: INDICI RELATIVI E NORMALIZZAZIONE

Le quantità assolute non sono né confrontabili né valutabili. Per fare ciò è necessaria costruzione di grandezze relative , che sono rapporti in cui al denominatore si pone la dimensione che disturba e impedisce il confronto della quantità che poniamo al numeratore. Si tratterà poi di valutare ogni volta che l'interrogativo statistico è del tipo “è tanto o poco?”. In questo caso si richiede la normalizzazione : il procedimento di trasformazione di una quantità statistica assoluta in una percentuale. Per illustrarla in generale chiamiamo I una qualunque misura statistica assoluta , di una qualche caratteristica del comportamento di X su U. Il valore minimo , chiamato Imin, è il valore che I assumerebbe in assenza di ciò che stiamo misurando di X. Il valore massimo , chiamato Imax, è il valore che I assumerebbe nel caso che X presenti al livello massimo ciò che stiamo misurando. È possibile trasformare I in percentuale, normalizzandolo.

Le frequenze cumulate assolute sono numeri interi compresi fra 0 e N , mentre quelle relative sono comprese tra 0 e 1. La prima frequenza cumulata coincide con le frequenze della modalità più piccola; l’ultima frequenza cumulata coincide con la numerosità N di U se parliamo di frequenze cumulate assolute, coincide con 1 se parliamo di frequenze cumulate relative. Fra le frequenze e le corrispondenti frequenze cumulate esiste una corrispondenza biunivoca : data una distribuzione è possibile passare all’altra e viceversa. Se conosciamo le frequenze possiamo ottenere le cumulate e se conosciamo le cumulate possiamo ri-ottenere le frequenze non cumulate. Si tratta di formule ricorsive.

FENOMENI CONTINUI E DENSITÀ DI FREQUENZA

Se X è continuo le modalità xi sono intervalli. Questo ci porta a dover affrontare due aspetti:

  1. Nel caso “continuo” la v.s. si limita ad informarci che al generico intervallo xi: xlxL appartengono fi unità statistiche. La distribuzione di frequenza all’interno degli intervalli è ignota, non si vede. Siamo di fronte a una mancanza di informazione che può rappresentare un ostacolo all’analisi statistica. Per superare l’ostacolo si ricorre all’emissione di assunzioni in sostituzione delle informazioni ignote. Questo si può effettuare in diversi modi:
    • ASSUNTO DEL VALORE CENTRALE: l’obiettivo è di assegnare a ciascuna delle fi unità statistiche che cadono nell’intervallo xi: xlxL un unico punto , interno all’intervallo stesso_. Il principio adottato è in medio stat virtus_. Il metodo consiste nell’associare tutte le fi al valore centrale dell’intervallo ( ***** ). xi = (xl +xL)/ 2* Con l’ipotesi del valore centrale si attua la discretizzazione della v.s.: si supera il problema dell’ignota distribuzione di frequenza all’interno degli intervalli, ma se ne perde di vista la natura continua. L’ipotesi del valore centrale è adottata per la sua semplicità.
    • ASSUNTO DI DISTRIBUZIONE UNIFORME : bisogna considerare alla pari ogni possibilità. Se non si hanno informazioni le distribuiamo in modo uniforme ed equidistante lungo tutto l’intervallo. I metodi pratici per realizzare la distribuzione uniforme sono molti, con e senza discretizzazione della v.s.
  1. Il secondo aspetto su cui dobbiamo soffermarci riguarda il fatto che gli intervalli possono avere un’ampiezza diversa. L’ampiezza di un intervallo la indichiamo come xi: xlxL. La si calcola con la seguente formula: xL – xl. L’ampiezza influenza le frequenze associate , sia le assolute che le relative. Più un intervallo è ampio più è facile che contenga più casi rispetto ad un intervallo meno ampio. A parità di frequenze, un intervallo più ampio sarà meno denso di uno più stretto. La densità di frequenza di un intervallo è la frequenza depurata dall’influenza dell’ampiezza ( φ ). Come calcolare la densità di frequenza dell’intervallo : Qualora si volesse ricavare la densità di frequenza relativa basterà dividerle il risultato per il numero di N. Nb: comprendere o meno gli estremi di un intervallo non cambia

LE RAPPRESENTAZIONI GRAFICHE

Dalle distribuzioni di frequenza ( assolute, relative, % e cumulate ) si possono costruire grafici. I grafici sono un’alternativa alle tabelle : non si tratta di una ulteriore forma di sintesi, ma solo di una diversa presentazione, preferibile in fase di interpretazione e comunicazione dei risultati di ricerca, soprattutto poi quando K è grande. La tipologia e l’interpretazione della rappresentazione grafica è molto diversa a seconda del carattere del fenomeno (ad esempio ordinale, nominale, continuo, discreto etc.).

  • CARATTERI QUALITATIVI SU SCALA SCONNESSA (NOMINALE) Per i fenomeni qualitativi il grafico è un semplice disegno (barre, torte...) , in cui l’altezza/lunghezza delle barre o la dimensione dello spicchio della torta danno un’idea della frequenza associata a ciascuna categoria xi osservata. Non si parla di un grafico cartesiano. Sull’asse delle y in sto caso ci sono le frequenze assolute (ma si potrebbero mettere pure relative) mentre sull’asse delle x mettiamo “si” e “no”. In foto un esempio: Il confronto grafico qualora lo si volesse fare su due o più popolazioni rende obbligatorio l’uso delle frequenze relative ; inoltre, esso si può fare anche sullo stesso grafico Ricorda il grafico a torta solo per caratteri qualitativi su scala sconnessa

L’area totale sottesa all’istogramma è pari a N se si rappresentano le frequenze assolute fi (φi sulle ordinate); pari a 1 se si rappresentano le frequenze relative pi (φi /N sulle ordinate). È bene infine sottolineare che in questo caso si sta facendo uso di un vero e proprio piano cartesiano. L’istogramma è la rappresentazione grafica sensata quando la v.s. si presenta con intervalli di ampiezza diversa. Per una rappresentazione grafica di quello scritto sopra guarda iPad. CAPITOLO 5: I VALORI MEDI In questo capitolo vogliamo spingere la sintesi della v.s. fino all’individuazione di un unico valore che da solo ci dia un’idea del comportamento di X su U e del suo ordine di grandezza. Si tratta quasi di una sintesi estrema: passare da un’intera distribuzione di frequenza a un singolo valore, il valore medio.

La moda

La moda ( la indicheremo con x 0 , letto x con zero ) o norma di una variabile statistica è la modalità a cui è associata la frequenza più elevata tra le k osservate, cioè la modalità più osservata. È calcolabile per qualsiasi X (qualitativa o quantitativa, categoriale o ordinale, discreta o continua) Ѐ tanto più informativa quanto più elevata è la frequenza corrispondente , cioè il numero di unità statistiche che rappresenta. A livello di presentazione e comunicazione dei risultati è buona pratica associare alla moda di X la corrispondente frequenza ( relativa o percentuale ) che ne aiuta l’interpretazione e rappresenta una misura della sua capacità di descrivere sinteticamente il fenomeno su quella popolazione. La moda è un valore medio di sintesi calcolabile per X qualunque. Quando la v.s. è data sotto forma di tabella basta scorrere la colonna delle frequenze e individuare la più elevata. Quando la v.s. è rappresentata graficamente, la frequenza più elevata si individua a occhio. Un accorgimento particolare va effettuato nel caso X fosse continua , quindi con modalità che sono intervalli. In questo caso la frequenza (sia assoluta che relativa) è influenzata dall’ampiezza degli intervalli: è allora necessario utilizzare le densità di frequenza per individuare la moda. L’intervallo a cui è associata la densità di frequenza più elevata si chiama intervallo modale. È poi convenzione diffusa far coincidere la moda x 0 con il valore centrale dell’intervallo modale. Talvolta la v.s. è priva di moda o è difficile individuare una modalità che spicca fra le rimanenti in quanto a frequenza associata. In tali casi la moda non è un buon valore medio e non svolge adeguatamente il compito di indicatore sintetico del comportamento di X su U. Talvolta si presenta con più di una moda, quindi fenomeno bi-modale.

LA MEDIANA

È una sintesi di caratteri che sono almeno su scala ordinale (quindi o qualitativi ordinali o quantitativi). Il significato è quel valore che bipartisce in due la distribuzione, ovvero quel valore che ha alla sua sx il 50% delle osservazioni ed alla sua dx l’altra 50%. Per dirla in termini tecnici: il 50% di U manifesta modalità xi ≤ x0.5, l’altro 50% modalità xi ≥ x0. Si può dire quindi che la mediana di X è la modalità che nell’ordinamento crescente occupa la posizione centrale. Per indicarla useremo la notazione x0. Per il calcolo della mediana ci vengono in soccorso le frequenze cumulate: una volta costruita una distribuzione di frequenza delle frequenze cumulate relative prendiamo la modalità che supera il 50%. Per quanto riguarda i fenomeni quantitativi continui va fatto un discorso diverso: Ricordiamo che le modalità in questo caso sono composte da intervalli: scorrendo le frequenze cumulate relative, laddove si raggiunge o si supera 0.5, si individua un intervallo chiamato intervallo mediano. Una volta fatto ciò non sappiamo però la distribuzione all’interno degli intervalli: non ci resta che adottare quindi un assunto iniziale , per esempio quello del valore centrale o della distribuzione uniforme. FORMULA PER IL CALCOLO DELLA MEDIANA PER MODALITÀ INTERVALLARI: nota bene ; la frazione può diventare φ in quanto lo sposti al denominatore. nota bene ; in caso venissero usate frequenze assolute N/2 diverrebbe 0.5 e il tutto sarebbe diviso per φ/N sull’iPad trovi una rappresentazione grafica con l’istogramma e la spiegazione matematica

LA MEDIA ARITMETICA

Finora abbiamo effettuato la sintesi della variabile statistica privilegiando una modalità rispetto alle altre.

CAPITOLO 6: LE PROPRIETÀ DELLA MEDIA ARTIMETICA La ragione per cui la media è il valore medio di sintesi più utilizzato risiede nel fatto che gode di molte proprietà utili.

  • PROPRIETÀ DI INTERNALITÀ: il valore della media aritmetica è sempre compreso fra la più piccola e la più grande delle modalità osservate di X 𝒙𝒎𝒊𝒏 ≤ 𝒙̅ ≤ 𝒙𝒎𝒂𝒙
  • PROPRIETÀ DI OMOGENEITÀ: Se X e Y sono due fenomeni diversi ma collegati fra loro dalla formula Y=αX, dove α è un qualche numero diverso da 0, si dice che Y è una trasformazione di scala di X; la media di Y si ottiene dalla media di X con la stessa identica trasformazione, cioè: 𝒚̅ = 𝒂 ∗ 𝒙̅ Esempio x capirci: xetà di persone in anni (20,25,30) / yetà di persone in mesi (quindi a=12/ y=a*x). la media di x è 25media di y= 12*25= 300
  • PROPRIETÀ ASSOCIATIVA: la media (generale) di X (su U) è sempre raggiungibile dai dati aggregati (sulle sottopopolazioni Uj), basta calcolare la media delle medie delle sottopopolazioni. Si tratta di usare le medie parziali (𝒙̅𝒋 ) al posto delle modalità xi e le numerosità parziali Nj al posto delle frequenze fi. 𝒙̅ =

𝒉 𝒋=𝟏

j che va da 1 a h dove h sono il numero di gruppi presenti nella popolazione Questa proprietà esiste per aiutarci in quei casi in cui abbiamo i dati aggregati ma non i dati individuali. Formalmente si tratta di considerare U di numerosità N, suddivisa in un certo numero (ci riferiremo al numero con h) di sottopopolazioni (che chiamiamo Uj), ciascuna di numerosità Nj, con j=1, …, h e ∑ 𝒌 𝒋=𝟏𝑵𝒋 = 𝑵 Esempio: innanzitutto calcolo il valore centrale : (400+180)/2= 290, successivamente lo moltiplico per le frequenze relative. Una volta fatto ciò per ogni modalità sommo i risultati che mi sono usciti , trovando in questo caso 468.535 e 489.808.

Faccio quindi una nuova tabella, in cui scrivo le numerosità parziali delle due sottopopolazioni, le quali poi sommerò. Una volta fatto ciò calcolo la media ponderata. tecnicamente se moltiplichi i valori centrali per le frequenze relative e poi li sommi dovrebbe uscirti (in sto caso non esce bene per via di degli arrotondamenti) lo stesso totale Internalità, omogeneità e associatività sono le principali proprietà soddisfatte da tutte le medie appartenenti alla classe delle medie potenziate. Tra esse la media aritmetica è la più nota e la più utilizzata perché gode di alcune proprietà esclusivamente sue.

  • PROPRIETÀ DI LINEARITÀ: Se X e Y sono due fenomeni diversi ma legati dalla formula: Y = a + bX con a e b numeri reali qualunque e b diverso da 0, si dice che Y è una trasformazione lineare di X. La media di Y si ottiene dalla media aritmetica di X con la stessa identica trasformazione cioè : 𝒚̅ = 𝒂 + 𝒃𝒙̅. Può essere utile, ad esempio, per convertire temperature se ciò che le lega è una relazione fissa. Oltre a quanto detto sopra è possibile calcolare quanto un valore si discosti dalla media , calcolando il suo scarto. La formula da utilizzare è 𝑥𝑖 − 𝑥̅. Si può calcolare anche lo scarto ponderato moltiplicandone il risultato per fi. Quando lo scarto è positivo (>0) si dice che xi è un valore sopra-media ; quando invece lo scarto è negativo (<0) si dice che xi è un valore sotto-media. I valori sopra e sotto media si compensano , cioè se si sommano tutti i k scarti ponderati si ottiene 0. Questa proprietà è detta di ANNULLAMENTO DEGLI SCARTI e vale solo per la media aritmetica. ∑(𝑥𝑖 − 𝑥̅ )𝑓𝑖 𝑘 𝑖= 1

Il fatto che solo la media annulli la somma degli scarti ponderati conferisce alla media il ruolo di baricentro della v.s. e quindi ne rappresenta una sintesi della tendenza centrale.

  • TOTALE DI X : la somma di tutti i valori di X su tutte le N unità osservate prende il nome di totale di X

Una misura di variabilità più raffinata e quindi meno sensibile agli eventuali valori anomali numeri è la deviazione standard di x ( chiamata anche scarto quadrato medio ). Si tratta della misura di variabilità più nota ed utilizzata. La sua notazione è σ. Consiste nel confrontare le modalità di X con un unico valore fisso, scelto come polo di confronto. 𝜎 = √

∑(𝑥𝑖 − 𝑥̅ )^2 𝑓𝑖

𝑘 𝑖= 1

  • σ misura la variabilità di X considerando la dispersione dei suoi valori intorno al suo valore medio 𝑥̅.
  • σ è espressa nella stessa unità di misura con cui è rilevato X e in cui è espressa la media 𝑥̅.
  • σ ci dice che X si manifesta su U con valori che in media distano da 𝑥̅ per ±σ. La descrizione sintetica di una v.s. X quantitativa può essere scritta come 𝒙̅ ± σ Nb;(più o meno sigma). Il valore di σ si può ottenere anche con una formula alternativa che è più veloce quando si eseguono i conti a mano con la calcolatrice. La formula è la seguente: 𝜎 = √

∑ 𝑥𝑖^2 ∗ 𝑓𝑖 − 𝑥̅̅^2 ̅

𝑘 𝑖= 1

Oltre a ciò:

La deviazione standard elevata al quadrato (cioè, eliminando la radice quadrata) è la varianza di X. Si noti che la formula corrisponde anche la media aritmetica degli scarti al quadrato. Risponde in parte alle caratteristiche della variabilità (non ha la stessa unità di misura) La devianza invece è N moltiplicato per sigma. Ha gli stessi difetti della varianza ed inoltre è un totale e non una media.

VALUTAZIONI E CONFRONTI DI VARIABILITÀ: IL COEFFICIENTE DI

VARIAZIONE.

La deviazione standard e la varianza sono misure assolute di variabilità, cioè, sono influenzate dalla visione di grandezza. Di conseguenza non sono né valutabili né confrontabili Per confrontare la variabilità di X su due diverse popolazioni, occorre costruire una misura di variabilità relativa → costruzione di un indice relativo. La misura di variabilità relativa più note utilizzata è il coefficiente di variazione che si costruisce ponendo la deviazione standard a rapporto con la media aritmetica 𝑐𝑣 =

Di seguito indichiamo le caratteristiche del coefficiente di variazione:

  • È un numero puro
  • È confrontabile tra fenomeni con diverso ordine di grandezza e diversa unità di misura, oppure rilevati su popolazioni diverse
  • È valutabile in sé come percentuale della media (e in questo senso ci dice quanto bene la media rappresenta la popolazione) In genere la variabile che ha il cv maggiore è quella che ha la variabilità maggiore. Valutare la variabilità di un fenomeno quantitativo serve anche a valutare la capacità di sintesi della media aritmetica: più è alta la variabilità del fenomeno meno informativa risulta la media

VARIABILITÀ RISPETTO ALLA MEDIA:

La variabilità rispetto alla media la si calcola in termini percentuali, con la seguente formula: 𝑐𝑣 = 𝜎 𝑥 e successivamente la si moltiplica per 100 PARTE II: STATISTICA BIVARIATA CAPITOLO 9: TABELLE A DOPPIA ENTRATA. In questa seconda parte ci concentriamo sulla rilevazione congiunta di una coppia di fenomeni statistici sulla stessa U; li indicheremo con X e Y. Il nostro obbiettivo diventa la descrizione del comportamento congiunto di X e Y su U e l’analisi eventuale della relazione statistica esistente fra i due fenomeni. Due fenomeni X e Y sono osservati congiuntamente (insieme) su ciascuna delle N unità che compongono la popolazione di interesse U. Il risultato è un insieme di N coppie del tipo (x, y). N coppie (X, Y ).