Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Variabili, Distribuzioni di Frequenza e Misure di Posizione, Dispense di Statistica

basi di statistica per il corso di data analysis

Tipologia: Dispense

2018/2019

Caricato il 11/11/2019

michela_castenetti
michela_castenetti 🇮🇹

4.3

(9)

18 documenti

1 / 36

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1: RACCOLTA DELLE
INFORMAZIONI.
La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni al
fine di pervenire a una o più conclusioni. Quindi, fornisce risposte a specifiche domande di ricerca,
fornendo inoltre una misura di probabilità associata ad ogni conclusione raccolta.
Il processo statistico parte dalla raccolta dell’informazione. Un’informazione opportunamente codificata e
organizzata fornisce i dati e le modalità. I dati possono essere numerici, come l’altezza o non numerici,
come il genere. In ogni caso, i dati descrivono le caratteristiche di un individuo. L’uso scorretto dei dati può
essere pericoloso; questa situazione si presenta quando i dati sono ottenuti o analizzati in maniera
inappropriata. Ogni volta che osserviamo i dati, dovremmo conoscere da dove essi provengono e come
sono stati selezionati.
Un aspetto caratterizzante dei dati è che essi sono soggetti a variabilità: considerando gli studenti di una
stessa classe ci si può chiedere se essi abbiano tutti la stessa altezza o se abbiano tutti lo stesso colore di
occhi. A causa della variabilità i risultati ottenuto utilizzando i dati possono variare a loro volta.
L’intero gruppo di individui studiato è chiamato popolazione. Un individuo è una persona o un oggetto che
è membro della popolazione indagata. Un campione è un sottoinsieme della popolazione che sta per essere
studiato.
La statistica descrittiva procede a descrivere i risultati del campione senza fare nessuna conclusione
generale sulla popolazione. La statistica descrittiva semplifica la panoramica di ciò che i dati ci stanno
comunicando.
Una statistica è un descrittore del campione. Un parametro è un descrittore della popolazione. La statistica
descrittiva consiste nell’organizzare e riassumere i dati. Essa descrive i dati attraverso la sintesi numerica,
tabelle e grafici. Il parametro è la sintesi numerica della popolazione; la statistica è la sintesi numerica di
un campione.
L’inferenza statistica si concentra sui risultati ottenuti da un campione e li estende all’intera popolazione
misurandone l’affidabilità. Questo tipo di inferenza include un livello di confidenza nei risultati conseguiti,
fornendo inoltre un intervallo (range) di valori che tengono conto della variabilità dei risultati.
PROCESSO STATISTICO:
1. Identificare l’obiettivo della ricerca, definendo le domande di ricerca a cui intende fornire una
risposta.
2. Raccogliere i dati necessari per fornire una risposta alle domande del punto 1, osservando un
campione specifico.
3. Descrivere i dati, ottenendo così una panoramica generale di dati e suggeriscono i metodi statistici
che il ricercatore potrebbe utilizzare.
4. Fare inferenza, ossia l’applicazione delle tecniche appropriate per estendere i risultati ottenuti del
campione alla popolazione e riportare un livello di affidabilità dei risultati medesimi.
DISTINGUERE TRA VARIABILI QUALITATIVE E VARIABILI QUANTITATIVE.
Successivamente bisogna individuare le unità statistiche che detengono le informazioni necessarie. Le
caratteristiche di un individuo appartenente alla popolazione si indicano variabili.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Variabili, Distribuzioni di Frequenza e Misure di Posizione e più Dispense in PDF di Statistica solo su Docsity!

CAPITOLO 1: RACCOLTA DELLE

INFORMAZIONI.

La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni al fine di pervenire a una o più conclusioni. Quindi, fornisce risposte a specifiche domande di ricerca, fornendo inoltre una misura di probabilità associata ad ogni conclusione raccolta.

Il processo statistico parte dalla raccolta dell’informazione. Un’informazione opportunamente codificata e organizzata fornisce i dati e le modalità. I dati possono essere numerici, come l’altezza o non numerici, come il genere. In ogni caso, i dati descrivono le caratteristiche di un individuo. L’uso scorretto dei dati può essere pericoloso; questa situazione si presenta quando i dati sono ottenuti o analizzati in maniera inappropriata. Ogni volta che osserviamo i dati, dovremmo conoscere da dove essi provengono e come sono stati selezionati.

Un aspetto caratterizzante dei dati è che essi sono soggetti a variabilità : considerando gli studenti di una stessa classe ci si può chiedere se essi abbiano tutti la stessa altezza o se abbiano tutti lo stesso colore di occhi. A causa della variabilità i risultati ottenuto utilizzando i dati possono variare a loro volta.

L’intero gruppo di individui studiato è chiamato popolazione. Un individuo è una persona o un oggetto che è membro della popolazione indagata. Un campione è un sottoinsieme della popolazione che sta per essere studiato.

La statistica descrittiva procede a descrivere i risultati del campione senza fare nessuna conclusione generale sulla popolazione. La statistica descrittiva semplifica la panoramica di ciò che i dati ci stanno comunicando.

Una statistica è un descrittore del campione. Un parametro è un descrittore della popolazione. La statistica descrittiva consiste nell’organizzare e riassumere i dati. Essa descrive i dati attraverso la sintesi numerica, tabelle e grafici. Il parametro è la sintesi numerica della popolazione; la statistica è la sintesi numerica di un campione.

L’ inferenza statistica si concentra sui risultati ottenuti da un campione e li estende all’intera popolazione misurandone l’affidabilità. Questo tipo di inferenza include un livello di confidenza nei risultati conseguiti, fornendo inoltre un intervallo (range) di valori che tengono conto della variabilità dei risultati.

PROCESSO STATISTICO:

1. Identificare l’obiettivo della ricerca, definendo le domande di ricerca a cui intende fornire una

risposta.

2. Raccogliere i dati necessari per fornire una risposta alle domande del punto 1, osservando un

campione specifico.

3. Descrivere i dati, ottenendo così una panoramica generale di dati e suggeriscono i metodi statistici

che il ricercatore potrebbe utilizzare.

4. Fare inferenza, ossia l’applicazione delle tecniche appropriate per estendere i risultati ottenuti del

campione alla popolazione e riportare un livello di affidabilità dei risultati medesimi.

DISTINGUERE TRA VARIABILI QUALITATIVE E VARIABILI QUANTITATIVE.

Successivamente bisogna individuare le unità statistiche che detengono le informazioni necessarie. Le caratteristiche di un individuo appartenente alla popolazione si indicano variabili.

Le variabili qualitative sono quelle che consentono la classificazione delle unità statistiche sulla base di alcuni attributi, caratteristiche o qualità. Le variabili quantitative sono quelle che forniscono una caratteristica numerica delle unità statistiche. Le singole caratteristiche delle variabili si chiamano modalità (dati). Sulle modalità delle variabili qualitative non si può eseguire alcuna operazione matematica; sulle modalità delle variabili quantitative si possono eseguire addizioni, sottrazioni, ottenendo risultati importanti alla comprensione della realtà circostante.

Il metodo rappresenta un possibile suggerimento per la risoluzione del problema, ma non è l’unico modo per risolvere il problema, poiché problemi differenti possono essere affrontati con modalità valide.

Possiamo classificare le variabili quantitative in due tipi: discrete e continue; una variabile discreta è una variabile quantitative le cui modalità le cui modalità assumono un numero finito o una infinità numerabile di valori. Il termine numerabile significa che i valori risultano da un conteggio, come 0, 1, 2, 3 e così via. Una variabile continua è una variabile quantitativa le cui modalità assumono un numero infinito di possibili valori che non son numerabili.

Le variabili continue son spesso oggetto di arrotondamento. L’elenco dei valori osservati di una particolare rappresentano i dati. Il genere è una variabile; le osservazioni come maschio e femmina sono i dati. I dati qualitativi sono osservazioni corrispondenti a variabili qualitative. I dati quantitativi sono osservazioni corrispondenti a variabili quantitative. I dati discreti sono osservazioni corrispondenti a variabili discrete e i dati continui sono osservazioni corrispondenti a variabili continue.

DETERMINARE LA SCALA DI MISURAZIONE DI UNA VARIABILE. Una variabile è rilevata su scala

nominale se le sue modalità sono nomi, etichette o categorie. Fra le modalità stesse non è possibile istituire nessun tipo di ordinamento.

Una variabile è rilevata su scala ordinale se presenta le proprietà della scala nominale e fra le modalità del carattere è possibile istituire uno specifico ordine.

Una variabile è rilevata su scala a intervalli se gode delle stesse proprietà della scala ordinale e le differenze delle sue modalità hanno significato. Le operazioni di addizione e sottrazione possono essere effettuate sulle modalità di una variabile.

Una variabile rilevata su scala a rapporti ha le stesse proprietà della scala a intervalli e i rapporti dei suoi valori significativi hanno un significato logico. Un valore pari a zero nella scala rapporti significa assenza della quantità.

CAMPIONAMENTO CASUALE SEMPLICE.

CAMPIONAMENTO: il campionamento casuale è il processo che utilizza il caso per selezionare gli individui da una popolazione da includere in un campione. I risultati di una indagine sono affidabili quando le caratteristiche degli individui nel campione rappresentano le caratteristiche degli individui nella popolazione, in questo caso si parla di campione rappresentativo. Un campione è rappresentativo della popolazione solo se la scelta degli individui da campionare si basa sulla casualità piuttosto che sulla comodità.

Il metodo più semplice per ottenere un campione è il campionamento casuale semplice. Un campione di grandezza n è ottenuto attraverso il campionamento casuale semplice da una popolazione di grandezza N se ogni possibile campione di grandezza ha una medesima probabilità di essere selezionato. Tale campione è detto campionamento casuale semplice.

Tipicamente si assegna a ogni individuo della popolazione un unico numero compreso tra 1 e N, dove N è l’ampiezza della popolazione. Successivamente, n numeri casuali sono selezionati da questo elenco, dove n

In tutti i processi statistici la determinazione dell’ampiezza del campione assume un ruolo chiave: i ricercatori dovrebbero trovare il corretto equilibrio tra affidabilità dei risultati e i costi per l’ottenimento degli stessi. Esistono tecniche per determinare l’ampiezza del campione richiesto per stimare le caratteristiche della popolazione all’interno di certi margini di errore.

ERRORE DI CAMPIONAMENTO.

Se i risultati di un campione non sono rappresentativi della popolazione, allora il campione ha un errore. Vi sono tre fonti di errore nel campionamento:

  1. Errore di campionamento.
  2. Errore legato ai non rispondenti.
  3. Errore legati ai rispondenti.

ERRORE DI CAMPIONAMENTO. L’errore di campionamento si riferisce al fatto che le tecniche usate per selezionare gli individui da includere nel campione tendono a favorire una parte della popolazione piuttosto che un’altra. Per esempio, un campione a risposta volontaria avrà un errore di campionamento poiché le opinioni degli individui che saranno inclusi nell’indagine sono poco rappresentativi dell’intera popolazione.

Gli errori di campionamento sono dovuti anche alla sottocopertura, che si verifica quando la proporzione di un segmento della popolazione è più bassa nel campione che nella popolazione. La sottocopertura può manifestarsi quando la lista di campionamento usata per ottenere il campione è incompleta o non rappresentativa della popolazione.

L’errore di campionamento si riferisce alla formulazione di previsioni non corrette.

ERRORE LEGATO AI NON RISPONDENTI. Si presenta quando gli individui appartenenti al campione che non hanno risposto all’indagine hanno opinioni differenti da coloro che invece vi partecipano. I non rispondenti sono gli individui inclusi nel campione che non desiderano rispondere all’indagine o che l’intervistatore non riesce a contattare. L’errore dei non rispondenti può essere tenuto sotto controllo effettuando un contatto successivo.

Un altro metodo per ridurre il problema dei non rispondenti è usare un meccanismo a premi e incentivi: i premi possono includere il pagamento in contanti per completare il questionario; gli incentivi possono includere una lettera di accompagnamento che dichiara che le risposte al questionario determineranno la futura politica del paese.

ERRORE LEGATO AI RISPONDENTI. Si presenta quando le risposte sull’indagine non riflettono i veri sentimenti degli intervistati.

Per ottenere informazioni accurate da un’indagine è essenziale avere un intervistatore qualificato: un buon intervistatore avrà l’abilità necessaria per ottenere risposte dagli individui appartenenti al campione e sarà in grado di mettere l’intervistato a proprio agio, al punto da ottenere risposte veritiere.

Alcune domande dell’indagine portano a risposte che travisano i fatti o sono bugie senza mezzi termini.

La formulazione di una domanda gioca un ruolo importante nel tipo di risposta ottenuta. Il modo in cui una domanda viene formulata può portare a un errore nella risposta; per questo le domande devono essere fatte in forma equilibrata: per esempio la domanda con risposta sì/no. Nella formulazione della domanda non bisogna essere vaghi.

Molte indagini riorganizzeranno l’ordine delle domande all’interno di un questionario in modo che le risposte non siano influenzate dalle domande precedenti.

Una delle prime considerazioni nel definire una domanda è determinare se questa debba essere aperta o chiusa: una domanda aperta è quella per la quale l’intervistato è libero di scegliere la sua risposta; una domanda chiusa è quella per la quale l’intervistato deve scegliere da un elenco di risposte predeterminate. Nelle domande a risposta chiusa non dovremmo limitarci a considerare soltanto l’ordine in cui dette domande vengono poste e come certe parole sono riorganizzate all’interno della frase. Gli intervistati sono molto spesso propensi a selezionare le alternative inserite all’interno della lista delle risposte possibili, piuttosto che a quelle finali. Il beneficio della domanda chiusa è la facilità della raccolta dei dati e la successiva analisi.

L’idea di fondo è quella di limitare il numero di possibili risposte a una domanda chiusa, senza costringere l’intervistato a scegliere una opzione che diversamente non avrebbe considerato.

Gli errori non legati al campionamento derivano da sottocopertura, risposte mancanti, risposte errate o inserimento non corretto dei dati. Questi potrebbero presentarsi anche in un censimento completo della popolazione. L’errore di campionamento deriva dall’utilizzo di un campione per la stima di informazioni riguardanti una determinata popolazione. Tale tipo di errore si verifica poiché un campione fornisce informazioni incomplete relative alla popolazione.

CAPITOLO 2: ORGANIZZARE E SINTETIZZARE

I DATI.

Una distribuzione di frequenze assolute elenca tutte le tipologie di modalità riportando il corrispondente numero di occorrenze osservate.

La frequenza assoluta è il numero di volte in cui la modalità i di una variabile (o carattere) viene osservata nel collettivo.

ni

Per costruire una distribuzione di frequenze assolute, dobbiamo innanzitutto creare una lista, procedendo poi allo spoglio associando a ciascuna delle modalità tante linee verticali. La numerosità delle linee verticali sarà pari al numero delle ripetizioni per ciascuna modalità. L’ultima operazione è il conteggio delle linee verticali e la loro sostituzione in numeri. Questi numeri indicano quante volte la singola modalità si è presentata e denotano la frequenza assoluta per ciascuna modalità. Quando si ha una distribuzione di frequenze assolute, si consiglia di controllare che la somma dei valori della colonna “frequenze assolute” corrisponda al numero di osservazioni “oggetto di studio”.

ESEMPIO: frequenza assoluta delle modalità laurea della variabile titolo di studio, cercando di ottenere il numero di laureati nel collettivo. Quante volte si presentano le variabili? Come si possono sintetizzare le informazioni contenute in una matrice di dati?

MODALITA’ SPOGLIO Elementare I Media inferiore II Media superiore III Laurea IIIIIIIIII Totale 15

Una distribuzione di frequenze assolute elenca tutte le modalità di una variabile riportando, per ciasuna di esse, il corrispondente numero di volte in cui queste sono state osservate nel collettivo.

TITOLO DI STUDIO. ni ELEMENTARE 1 MEDIA INFERIORE 2 MEDIA SUPERIORE 3 LAUREA 9 TOTALE 15

ETA’ ni 18 2 20 6 21 3 22 4 TOTALE 15 Le frequenze cumulate ci dicono le unità del collettivo che presentano la modalità considerata e/o una modalità precedente. Quindi, gli individui con un titolo di studio inferiore alla media superiore sono 3 (1+2), mentre le persone con età minore o uguale a 21 anni sono 11 (6+3+2).

La frequenza cumulata riferita alla modalità i, indicata con Ni, è data dalla somma della frequenza assoluta associata a quella modalità con quella delle modalità precedenti. La frequenza cumulata relativa riferita alla modalità i, indicata con Fi, è data dalla somma della frequenza relativa associata a quelle modalità con quella delle modalità precedenti.

La frequenza cumulata percentuale riferita alla modalità i, indicata con Pi, è data dalla somma della frequenza percentuale associata a quella modalità con quella delle modalità precedenti.

Quando i dati sono quantitativi, la costruzione delle distribuzioni di frequenze si può fare raggruppando le singole modalità in classi  intervalli numerici. La suddivisione in classi è opportuna quando:

 Variabili quantitative discrete  se hanno molte modalità.  Variabili quantitative continue  sempre.

Le classi sono caratterizzate da:

 Limite inferiore, ossia il valore più piccolo contenuto nella classe.  Limite superiore, ossia ila valore più elevato contenuto nella classe.  Ampiezza, ossia la differenza tra il limite inferiore di una classe e il limite inferiore della classe successiva.

Le classi per variabile quantitative continue si possono rappresentare anche con una barra orizzontale tra un valore e l’altro; la barra indica la classe in cui l’estremo è incluso.

Determinare classi di uguali ampiezza:

 Decidere il numero delle classi (k).  Calcolare l’ampiezza della classe che si ottiene sottraendo il valore più elevato dal valore più piccolo e dividendolo poi per il numero di classi = range/K.  Arrotondare il risultato per eccesso.

ESEMPIO: variabile quantitativa discreta -> età. In un collettivo statistico (N = 10) sono state rilevate le seguenti età:

18-20-21-22-22-23-31-42-54.

Determinare tre classi di uguale ampiezza:

  1. Le modalità estreme della distribuzione sono: 18 e 54 -> RANGE = 54 -18 =36.
  2. Ipotizzo tre classi: l=3.
  3. Range/K, ossia 36/3 = 12.
  4. 12 è l’ampiezza di ogni classe.

ETA’ (CLASSI) ni 18-30 7 31-43 2 44-54 1 TOTALE 10

COSTRUIRE UN GRAFICO A BARRE. I grafici ci permettono di visualizzare i dati e di comprendere il

contributo informativo apportato dalle unità statistiche in esame. Le rappresentazioni grafiche dei dati hanno un maggior impatto informativo rispetto alle tabelle. Uno dei sistemi più comuni per rappresentare graficamente i dati qualitativi è il grafico a barre, con cui possiamo facilmente presentare sia i dati nominali sia quelli ordinali.

I grafici possono risultare molti utili per confrontare due insiemi di dati. Per confrontare due insiemi di dati, possiamo farlo attraverso un grafico a barre affiancate. Per evitare che la comparazione sia influenzata dalla dimensione della popolazione o dalla numerosità campionaria, quando si confrontano differenti insiemi di dati conviene utilizzare le frequenze relative, ricordandosi che queste da sole non sono molto sufficienti.

I grafici a barre sono utili per comparare le differenti parti di una variabile, non necessariamente rispetto all’interno.

Un grafico a barre verticali è costituito indicando ciascuna modalità sull’asse orizzontale e la corrispondente frequenza assoluta o relativa sull’altro asse. Per ciascuna unità disegniamo un rettangolo con altezza pari alla frequenza assoluta o relativa della categoria stessa e con ampiezza costante per tutte le barre del grafico.

superiore di classe è il valore più elevato contenuto nella classe. L’ampiezza di classe è pari alla differenza tra il limite interiore di quella classe e il limite inferiore della classe successiva. È importante sottolineare che le classi non si sovrappongano. Si ha una tabella aperta quando non viene fissato il limite inferiore della prima classe o il limite superiore dell’ultima classe.

Un numero esiguo di classi crea un effetto affollamento dei dati, mentre un numero elevato di classi origina un effetto dispersione che limita l’identificazione di possibili raggruppamenti delle osservazioni. Quando si costruisce una distribuzione di frequenze assolute si cerca i avere un numero di classi compreso tra 5 e 20: se il dataset è piccolo, preferiremo un numero di classi ridotto, mentre se il dataset è piuttosto grande, cercheremo di avere un numero di classi elevato.

Per determinare l’ampiezza della classe bisogna fare affidamento alla seguente formula:

GRAFICO A PUNTI.

IDENTIFICARE LA FORMA DI UNA DISTRIBUZIONE. Le forme distributive sono tipicamente classificabili in simmetriche, asimmetriche negative e asimmetriche positive.

Possiamo definire le distribuzioni simmetriche quando il lato sinistro è l’immagine speculare del lato destro e viceversa. Si definisce distribuzione uniforme quando la frequenza relativa per ciascun valore della variabilità è distribuita uniformemente tra i valori della variabile stessa.

Una distribuzione a campana viene definita tale quando la frequenza relativa più elevata si riscontra nel mezzo della distribuzione, per poi diminuire in modo simmetrico nelle code di sinistra e destra.

Una distribuzione asimmetrica positiva (o asimmetrica destra) vien definita tale in quanto la forma è caratterizzata da una coda allungata verso destra, cioè la coda a destra del picco è più lunga di quella di sinistra.

Una distribuzione asimmetrica negativa (o asimmetrica sinistra) vien definita tale in quanto la forma è caratterizzata da una coda lunga verso sinistra, cioè la coda a sinistra del picco è più lunga di quella a destra.

Valore più elevato – valore più piccolo.

AMPIEZZA DELLA CLASSE: numero delle classi

Si ottiene indicando su una retta orizzontale le osservazioni del carattere quantitativo in ordine crescente e ponendo un puntino sopra di esse ogni volta che nei dati si riscontra una frequenza assoluta.

DISEGNARE UN GRAFICO PER SERIE STORICHE. Se i valori della variabile oggetto di studio misurano differenti punti nel tempo, i dati vengono indicati come serie storica.

RAPPRESENTAZIONI GRAFICHE ERRATE.

Le rappresentazioni grafiche rendono più diretto il messaggio presente nei dati grezzi o nelle tabelle dei dati. I grafici sono fuorvianti se determinano un’impressione errata dei dati in modo non intenzionale; mentre li chiameremo ingannevoli se essi tentano approssimatamene di fornire un’idea sbagliata dei dati.

Le più comuni rappresentazioni errate dei dati sono determinate da una manipolazione delle unità di misura, tipicamente si utilizza un sistema di misura incoerente o un’origine mal posizionata.

Ricorrere a effetti tridimensionali è sconsigliato poiché rende difficile la lettura del grafico, distraendo l’attenzione del lettore dai dati stessi. Nei grafici a barre e negli istogrammi, le barre devono avere la stessa ampiezza.

Per costruire dei buoni grafici è necessario:

 I titoli dei grafici e le etichette degli assi orizzontali e verticali devono essere chiari.  Le distorsioni sono da evitare.  Lo spazio bianco è da ridurre il più possibile, dobbiamo usare lo spazio disponibile per far risaltare i dati.  No sovraffollamento del grafico.  Evitare tridimensionalità.  Non utilizzare più di un disegno all’interno dello stesso grafico.  Evitare i grafici in termini relativi che sono privi di dati o scale.

CAPITOLO 3: SINTETIZZARE

NUMERICAMENTE I DATI.

Le misure di posizione o di tendenza centrale sono indici che consentono di sintetizzare una distribuzione attraverso un valore rappresentativo. Le principali misure di posizione o di tendenza centrale di una distribuzione sono:

Il grafico di una serie storica si ottiene indicando sull’asse orizzontale il tempo in cui la variabile è misurata e sull’asse verticale il corrispondente valore della variabile, rilevato a quella data. Poi si uniscono i punti tramite segmenti rettilinei.

Rappresentare graficamente una serie storica è molto utile per identificare l’andamento o tendenza di fondo dei dati nel tempo.

MEDIANA: VARIABILE ORDINALE. Calcolare la mediana della seguente distribuzione di frequenze rispetto al grado di istruzione.

ISTRUZIONE ni Ni ELEMENTARE 2 2 MEDIA INFERIORE 3 5 MEDIA SUPERIORE 4 9 TOTALE 9 Posizione mediana N+1/2 = 10/2=5. Il 50% delle persone ha un’istruzione minore o uguale alla licenza media inferiore.

CASO PARTICOLARE. In alcuni casi la mediana non esiste o è indefinita come unico valore. Quando? Nei casi di variabili misurate su scale ordinali quando la posizione mediana ricade tra due differenti categorie o modalità. ESEMPIO: calcolare la mediana del livello di istruzione in un collettivo di N=72 persone.

ISTRUZIONE ni Ni ELEMENTARE 5 5 MEDIA INFERIORE 7 12 MEDIA SUPERIORE 24 36 LAUREA 36 72 TOTALE 72 In questo caso la mediana è indeterminata poiché sarebbe il valore tra le posizioni 36 e 37, alle quali corrispondono i titoli di media superiore e laurea.

STATISTICA ROBUSTA. Una misura di sintesi di una distribuzione si dice robusta se non risulta sensibile ai valori estremi.

 La media aritmetica è influenzata dai valori anomali o estremi.  La mediana è una misura robusta.

ESEMPIO: in una indagine è stato chiesto il numero di acquisti online effettuati da un collettivo di 12 persone:

1-7-4-1-2-4-3-48-3-5-3-8.

Quale misura di posizione può essere utilizzata per sintetizzare in maniera adeguata il numero di acquisti online? Una soluzione potrebbe essere il grafico a punti, ma media o mediana? La mediana è 3,5.

MODA. La moda di una variabile è la modalità che si presenta con la frequenza più alta (assoluta, relativa o percentuale). Per calcolare la moda di una distribuzione è necessario individuare quale modalità ha la frequenza più elevata. In generale, le distribuzioni possono non avere la moda, avere una sola moda o più di una moda.

VIAGGI ni 0 2 1 5 2 12 3 4 4 1 TOTALE 24 In generale, le distribuzioni di solito hanno una sola moda, possono averne più di una moda o non avere la moda.

DISPERSIONE O VARIABILITA’, COS’E’? è l’attitudine delle unità di un collettivo ad assumere

differenti modalità di un carattere. È necessario verificare se le unità statistiche assumono modalità molto diverse (alta variabilità) o se presentano modalità simili, vicine ad una misura di tendenza centrale (bassa variabilità).

Se, ad esempio, prendessimo l’aula come collettivo di riferimento:

 Abbiamo tutti la stessa statura?  Percepiamo lo stesso stipendio?  Ci rechiamo nella stessa località di villeggiatura?  Scegliamo le stesse auto?

Se le stature fossero tutte uguali fra loro si direbbe che non c’è variabilità. La variabilità s può misurare con diversi tipi di indicatori, ognuno dei quali deve rispettare alcuni requisiti:

 Se la variabilità è nulla, l’indicatore deve assumere valore zero.  L’indicatore deve crescere al crescere della variabilità.  L’indicatore può assumere soltanto valori positivi.

Misure di dispersione o variabilità

  1. Campo di variazione o range

  2. Differenza interquartile o intervallo interquartile (IQR)

  3. Varianza

  4. Scarto quadratico medio (sqm)

  5. z-scores

RANGE O CAMPO DI VARIAZIONE: l’intervallo di variazione R di una distribuzione è dato dalla differenza tra l’intensità più grande e l’intensità più piccola.

Range = XMAX - XMIN

Il range ha diversi svantaggi:

 Ignora la distribuzione dei dati.  È sensibile ai valori estremi.

Il range è una misura idonea a rappresentare la variabilità dei dati intorno alla media? Solo se rispetta la seguente regola:

CALCOLARE LA VARIANZA. La varianza è la misura della distanza media di ciascuna osservazione dalla media aritmetica.

La varianza si basa sulla deviazione della media, grazie a cui possiamo misurare la varianza della popolazione e del campione.

La varianza della popolazione di una variabile è la somma delle deviazioni al quadrato della media della popolazione, diviso per il numero di osservazioni nella popolazione N. la varianza della popolazione è la

Z-SCORE. Uno z-score rappresenta la distanza di ciascun valore dalla media, in unità di deviazione standard. Si ottiene sottraendo la media dal valore della variabile e dividendo questo risultato per la deviazione standard. Esiste sia lo z-score di una popolazione, sia lo z-score di un campione.

La formula dello z-score di una popolazione è la seguente:

La formula di uno z-score di un campione è la seguente:

z= x-xˉ/

Lo z-score non ha unità di misura, ha media 0 e deviazione standard pari a 1. Se un valore osservato nei dati è maggiore della media, lo z-score sarà positivo; se un valore osservato nei dati è minore della media, lo z- score sarà negativo; se un valore osservato nei dati è uguale alla media, lo z-score sarà zero.

In sintesi:

INTERPRETARE I PERCENTILI. Il k-esimo percentile, denotato con Pk, di una distribuzione è quel valore tale per cui k per cento delle osservazioni cadono al di sotto di esso. Quindi i percentili dividono una distribuzione ordinata in senso crescente in 100 parti. I percentili vengono usati per indicare la posizione relativa occupata da una osservazione.

INTERVALLO INTERQUARTILE.