Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Scala e Misurazione: Caratteri Qualitativi e Quantitativi, Dispense di Statistica

Come costruire scale per caratteri qualitativi e quantitativi, con un focus sui caratteri qualitativi sconnessi, rettilinei, e quantitativi discreti e continuo. Viene anche introdotto il concetto di misurazione e le scale proporzionali e intervallare. Il documento include esempi pratici e spiega come creare tabelle di frequenza e distribuzioni statistiche.

Tipologia: Dispense

2020/2021

Caricato il 13/10/2021

Antonio99815
Antonio99815 🇮🇹

4.5

(11)

51 documenti

1 / 20

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA 2021
Che cos’è la statistica?
La statistica è la scienza che ha come obbiettivo di indagare sui fenomeni collettivi, ossia fenomeni che
coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie
al quale sia possibile prendere decisioni in condizioni di incertezza.
Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica:
1. Formulazione del problema → capire che cosa voglio indagare
2. Individuazione dei dati pertinenti → comprendere quali sono i da da raccogliere > risposta
3. Programmazione della rilevazione dei dati → Individuazione criteri di rilevazione da. Come rilevare la
programmazione dati, comprendere la modalità attraverso cui eseguire la rilevazione dei dati (modalità,
tempo)
4. Analisi dei dati → Comprendere il significato delle risposte > ricerca risposte significave
5. Interpretazione dei risultati → Risposta al problema iniziale (conclusione dell’indagine statistica)
Nomenclatura della statistica
Classificazione statistica in statistica descrittiva e statistica inferenziale a seconda degli obiettivi da
perseguire
Terminologia essenziale
Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di
riferimento. Chi è che viene sottoposto
Unità statistica. Il caso individuale componente del collettivo statistico. [un’azienda, una singola
ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]
Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo. [numero
di addetti, peso dell’oggetto, stato occupazionale],
Statistica descrittiva
Si occupa di individuare le tecniche per organizzare, riassumere e presentare i
dati.
Ha come obiettivo di descrivere cio che è il risultato della racolta ed elaborazione
dati attraverso rappresentazioni numeriche
Statistica inferenziale
Si occupa di individuare le tecniche (matematiche) per generalizzare all'intera
popolazione e con un certo margine di errore i risultati ottenuti da un
sottoinsieme della popolazione, detto campione
Partire risultati dal campione ed estrapolarne i dati significativi cercando di
comprendere quanto questi possano essere rappresentativi dell'intera
popolazione
Pone 2 domande: è possibile generalizzare i dati del campione sulla popolazione e
quali sono i margini di errori relativo al risultato?
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Anteprima parziale del testo

Scarica Scala e Misurazione: Caratteri Qualitativi e Quantitativi e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA 2021

Che cos’è la statistica?

La statistica è la scienza che ha come obbiettivo di indagare sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica:

  1. Formulazione del problema → capire che cosa voglio indagare
  2. Individuazione dei dati pertinenti → comprendere quali sono i daƟ da raccogliere > risposta
  3. Programmazione della rilevazione dei dati → Individuazione criteri di rilevazione daƟ. Come rilevare la programmazione dati, comprendere la modalità attraverso cui eseguire la rilevazione dei dati (modalità, tempo)
  4. Analisi dei dati → Comprendere il significato delle risposte > ricerca risposte significaƟve
  5. Interpretazione dei risultati → Risposta al problema iniziale (conclusione dell’indagine statistica)

Nomenclatura della statistica

Classificazione statistica in statistica descrittiva e statistica inferenziale a seconda degli obiettivi da perseguire

Terminologia essenziale

Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento. Chi è che viene sottoposto  Unità statistica. Il caso individuale componente del collettivo statistico. [un’azienda, una singola ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]  Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo. [numero di addetti, peso dell’oggetto, stato occupazionale],

Statistica descrittiva

  • Si occupa di individuare le tecniche per organizzare, riassumere e presentare i

dati.

  • Ha come obiettivo di descrivere cio che è il risultato della racolta ed elaborazione

dati attraverso rappresentazioni numeriche

Statistica inferenziale

  • Si occupa di individuare le tecniche (matematiche) per generalizzare all'intera

popolazione e con un certo margine di errore i risultati ottenuti da un

sottoinsieme della popolazione, detto campione

  • Partire risultati dal campione ed estrapolarne i dati significativi cercando di

comprendere quanto questi possano essere rappresentativi dell'intera

popolazione

  • Pone 2 domande: è possibile generalizzare i dati del campione sulla popolazione e

quali sono i margini di errori relativo al risultato?

Modalità. Come un certo carattere si presenta nelle unità statistiche del collettivo. [nello stato occupazionale: occupato, disoccupato, in cerca della prima occupazione; nella professione: imprenditore, libero professionista, impiegato; numero di vani di abitazioni: 1, 2, 3, ...]

CARATTERE

Qualitativo Quantitativo Hanno modalità costituite da espressioni verbali. Possono essere:  ordinabili (rettilinei): esiste gerarchia  non ordinabili (sconnessi): no gerarchia che ordina gli elementi

Hanno modalità associate a numeri. Vengono detti anche variabili.

  • Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili. [numero di vani di un’abitazione]
  • Continui. Possono assumere tutti i valori in un certo intervallo di numeri reali. [statura di una persona]

Possono essere trasferibile (carattere tale che può passare da un’unità statistica ad un’altra) Ex: patrimonio o reddito

I caratteri possono essere classificabili in:

 Di stato (caratteri immutabili nel tempo) n° vani, memoria del PC  Di movimento (caratteri mutabili nel tempo)

In questa classificazione di tipo dicotomica si prende in considerazione il tempo

Come si misurano i caratteri? I caratteri possono essere misurabili attraverso delle scale (anche se la parola avvolte contiene ambiguità in alcuni casi)

Carattere

Qualitativo

Ordinale

Sconnesso

Quantitative

Discreto

Continue

La tabella di frequenza

Elementi:

Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta / (ex: su 100 persone rilevate per l’indagine sui capelli, 10 hanno i capelli neri > 10 in cui si presenta la modalità rossa).

Si dice frequenza relativa il rapporto fra la frequenza assoluta ed il numero totale di osservazioni (taglia > quanti soggetti sono soggetti al sondaggio) (ex: 0,10 delle persone hanno capelli rossi).

Si dice distribuzione di frequenze uno schema (tabella istogramma) in cui vengono riportate in una colonna le varie modalità di un carattere ed in quelle successive le frequenze assolute e/o relative associate a ciascuna modalità (qualunque il tipo di rappresentazione in cui ad ogni modalità viene associata la sua frequenza assoluta o relativa che sia, modalità con cui comunico la frequenza con la quale ciascuna modalità è occorsa, che sia essa assoluta o relativa).

Frequenze cumulative

Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x 1 , x 2 , ..., x (k=numero di modalità) le modalità ordinate.

Chiamiamo n 1 , n 2 , ..., nk le corrispondenti frequenze assolute e f 1 , f 2 , ..., fk le corrispondenti frequenze relative.

Si dice frequenza cumulata h-esima la quantità (somma frequenze assolute)

N 1 =n 1

N 2 =n 1 +n 2

….

Nh=n 1 +n 2 +...+nh, per h =1, ..., k

Si dice frequenza relativa cumulata h-esima la quantità (Somma frequenza relative)

F 1 =f 1

F 2 =f 1 +f 2

….

Fk=

Fh=f 1 +f 2 +...+fh, per h=1, ..., k

Frequenze percentuali significa riportare a cento ciò che prima era riportato ad uno. Si prende la frequenza relativa alla si moltiplica per 100 e per aggiungere il simbolo per favore

Frequenze percentuali cumulate: sommando di volta in volta la frequenza cumulata della frequenza relativa considerata. L’ultima deve avere come risultato 100

Esempio 1

Un metodo di rappresentazione dati è la tabella

Colore capelli > carattere qualitativo (parole) sconnesso (ordine nominale)

Individui: 22

Colore capelli: carattere (oggetto indagine)

Neri, castani, rossi, bianchi: modalità carattere (COME IL CARATTERE SI Può ESPRIMERE)

Seconda colonna > frequenza assoluta di ogni modalità

Ultima riga > taglia campione (numerosità totale statistica)

In questo caso abbiamo una tabella di distribuzione di frequenza (questo di tipo assoluta)

Esempio 2

Quantitativo > modalità attraverso uso di numeri

Discreto > Numero finito di modalità o le modalità sono contabili (corrispondenza con i numeri naturali)

#=numeri (cardinalità insiemi) in matematica

Carattere: quante sono le stanze presenti in 6350 (da uno a 7)

Unità: appartamento

Carattere: # stanze

Modalità: 1, 2, 3, 4, 5, 6, 7

EX

Campione di taglia non elevata (15 campioni rilevati sul carattere peso)

In questo caso, pur non essendo necessario, posso creare il raggruppamento in classi (di ampiezza 10 > creo 3 classi d’intervallo)

Differenza tra distribuzione di frequenza assoluta e distribuzione di frequenza per classi di modalità

EX. 3 (Carattere qualitativo > indagine su gradimento professori)

Le modalità si esprimono in maniera verbale

In questo caso è una variabile qualitativo di tipo rettilineo (ordinabile dal peggiore al migliore) > verifica se le modalità sono ordinate (in questo caso in maniera crescente)

Questa è una tabella di distribuzione di frequenza: ci sono le frequenze assolute, frequenze relative e frequenze cumulative (assolute e percentuali)

INDAGINI STATISTICHE

Si parte da una popolazione finita (quantità finita di dati) e si può procedere in uno dei seguenti modi:

 Rilevazioni censuaria (CENSIMENTO): l’indagine si estende (viene sottoposta ad indagine) a tutte le unità della popolazione.  Rilevazione campionaria (CAMPIONI): l’indagine viene effettuata (viene sottoposta ad indagine) ad una porzione di popolazione.

I dati sono raccolti da un sottoinsieme della popolazione (determinazione del campione), scelto mediante un campionamento casuale o probabilistico (a seconda del carattere, bisogna indicare le modalità di campionamento).

Dopo una rilevazione campionaria si procede al c.d. riporto all’universo, ossia, si estendono all’intera popolazione le elaborazioni effettuate, secondo opportuni procedimenti sul campione.

Quando si effettua una rilevazione campionaria (indagine riferito al campione), l'obiettivo finale (oggetto di studio di statistica inferenziale) è quello di cercare di capire, attraverso strumenti che fanno appello alla teoria di probabilità, come questi dati possono essere riportati all'universo (popolazione che vogliamo indagare, cioè quella che avremo sottoposto all'indagine se fosse possibile un'indagine censuaria)

Come si seleziona un campionamento semplice

Ci sono più modi di procedere ad un campionamento casuale:

 Campionamento casuale semplice: Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione. (sorteggio 100 studenti)  Campionamento casuale stratificato: Campionamento casuale semplice su singole sottopopolazioni derivanti dalla suddivisione della popolazione in sottoinsiemi omogenei (stratificazione) (ex: opinioni nord, centro, sud > individuate 33 persone per ogni regione, opinione per ogni regione su nucleare).

Un esempio tipico di campionamento casuale stratificato è quello cosiddetto a due stadi. Nel primo stadio viene estratto casualmente un certo numero di unità di primo stadio (sottoinsiemi); da ciascuna di queste viene estratto un nuovo campione casuale di unità elementari dette unità di secondo stadio. Cioè si procede ad una prima suddivisione (determinando le unità del 1mo stadio) della popolazione e poi si suddividono i sottogruppi (unità 2ndo stadio)

Oggetto: incidenti stradali

Modalità: regioni

Unità statistiche: auto-incidentati

Variabile: quantitativa discreta

Indipendentemente dai criteri di rappresentazione, la Lombardia ha incidenza maggiore.

Un’indagine statistica fatta in maniera intelligente deve raggiungere l’obiettivo che si vuole perseguire. Se l’obiettivo principale era di riconoscere la regione nella quale avvengono più incidenti, questa rappresentazione grafica va più che bene.

Entrando nel concreto delle applicazioni della statistica, immaginiamo che un’agenzia assicurativa decida di aprire una nuova sede, di concentrarsi su una regione dell’Italia dove ottiene maggiore convenienza ad investire e commissiona quindi un'indagine statistica sugli incidenti che avvengono in Italia per cercare di capire dove gli conviene maggiormente.

A fronte di quel istogramma, il committente può opporsi dicendo che in Lombardia ci sono molti più incidenti quanti non ce ne siano per esempio in Campania. Tuttavia quindi mi viene da sospettare che in Lombardia si riesce ad assicurare anche molte più auto di quanto non ne assicuri in Campania. Con questi dati mi stai vedendo i contro (incidenti), non i pro (macchine da assicurare).

Un’indagine statistica fatta in maniera intelligente mi va a valutare non solo i veicoli incidentati, ma anche i veicoli immatricolati (assicurabili, a cui posso fare promozione come assicurazione)

Il dato significativo non è più tanto quanti sono gli incidenti per ogni regione, ma qual è il rapporto tra numero di incidenti e veicoli (rappresentati anche in percentuale, per vedere più numeri decimali rispetto all’unità). Esso valuta quanti incidenti matricolati hanno avuto incidenti.

  • prevalente

Incidenti stradali in Italia Regioni Veicoli Incidenti Tasso Tasso % Abruzzo 1131299 7252 0,006 0, Basilicata 457376 1726 0,004 0, Calabria 1565296 6570 0,004 0, Campania 4.350.447 21587 0,005 0, Emilia Romagna 3.724.937 38497 0,010 1, Friuli Venezia Giulia 1.010.877 8207 0,008 0, Lazio 4.859.950 53240 0,011 1, Liguria 1.328.553 17048 0,013 1, Lombardia 7.693.053 74672 0,010 0, Marche 1.350.814 12373 0,009 0, Molise 272.883 933 0,003 0, Piemonte 3.710.183 25341 0,007 0, Puglia 2.862.659 24377 0,009 0, Sardegna 1.303.464 8628 0,007 0, Sicilia 4.257.928 26528 0,006 0, Toscana 3.289.007 34380 0,010 1, Trentino Alto Adige 1.050.066 5097 0,005 0, Umbria 803.525 5680 0,007 0, Valle d’Aosta 201.564 642 0,003 0, Veneto 3.903.220 29396 0,008 0,

Riporto su questo istogramma non più sull’asse delle ascisse la frequenza assoluta ma il tasso, che un elemento interessante da valutare per la mia indagine statistica se fosse commissionata da un’agenzia assicurativa.

La Lombardia detiene ancora la prevalenza di incidenti? No, la Lombardia non detiene il primato di incidenti ma la Liguria. In Valle d’Aosta si guida tranquilli (tasso di incidenti bassi)

  • prevalente

Se la stessa distribuzione la voglio rappresentare attraverso ideogrammi dove le figure non sono date attraverso la numerosità ma attraverso i volumi (proporzioni di aree che deve essere consistente con la proporzione numerica della distribuzione)

2 volte la produzione devo utilizzare l’area che sia il doppio (raddoppio sia base e altezza (dimensione) > valore cresce di 4 volte rispetto alla prima, moltiplicazione è per radical 2)

DIAGRAMMA CARTESIANO

Essa è utile per studiare un fenomeno nel tempo

EX: vendite auto FIAT

Asse x: Anni

Asse y: vendite auto

Punti: dati

Unione punti non sono rilevanti: non serve a descrivere il grafico, ma è una indicazione grafica ma mi aiuta ad identificare il trend (andamento in crescita o discesa) relativo alla vendita auto

EX 2: DISTRIBUZIONE STATISTICA

A differenza della distribuzione di frequenza (ogni modalità ha la sua frequenza), la distribuzione statistica è una rappresentazione di come le modalità di uno (distribuzione semplice) o più caratteri (distribuzione multipla) si presentano attribuite alle unità statistiche del collettivo.

Si dice distribuzione statistica quando io attraverso una rappresentazione schematica riporto in corrispondenza di una ciascuna unità statistica (sottoposte a indagine) il valore che assume il carattere

EX

Si considerano peso e altezza (2 caratteri). Su un campione costituito da 10 unità statistiche, ad ogni unità statistica, io associo la modalità attraverso cui si esprime ciascun carattere.

Nella tabella rappresento le unità statistiche e modalità in cui vengono espressi i caratteri considerati in relazione a quell’unità statistica (soggetti sottoposti ad indagine). Non esistono frequenze in questo caso, ma il valore che assume (caratteri quantitativo in questo caso).

Una domanda che si può porre in modo da utilizzare il diagramma cartesiano è: se è possibile ipotizzare che tra peso e altezza esista una relazione lineare (relazione tra 2 caratteri che si possono rappresentare graficamente attraverso una retta)?

Se vado a valutare in corrispondenza di ciascuna persona peso e altezza, si crea una dipendenza lineare tra peso e altezza cioè se sull’asse x porto il peso e in y l’altezza di ciascuna unità, unendo i punti allora mi viene creata una retta.

Ciascun punto individua una unità statistica.

Ci domandiamo: esiste una retta che unisce i punti o che non sia troppo lontana dai punti della retta tra le unità statistiche?

Questa è la più idonea:

Ma non da indicazione di una relazione lineare in quanto i punti sono lontani dalla retta

In conclusione si può dire che mediamente la dipendenza tra altezza e peso nelle persone e non è data da una dipendenza lineare (in quanto si hanno anche anoressici e obesi all’interno)

Un esempio di dipendenza lineare tra peso e altezza ci possono rientrare gli atleti

La relazione lineare è nell’ambito della correlazione lineare.

Possiamo anche rappresentarlo anche per diagramma a torte.

La torta rappresenta il tutto. (totalità delle frequenze, 100%)

Ciascuno spicchio rappresenta in area la porzione percentuale data dalla frequenza relativa. (ogni area del settore > frequenza relativa alla modalità corrispondente)

Gli spicchi devono essere in proporzione dell’area totale del cerchio con la stessa proporzione con la quale la frequenza corrispondente appare.

Calcolo la modalità percentuale e successivamente calcolo l’area del settore rapportandolo a pi greco (π)

ISTOGRAMMA PER VARIABILI CONTINUE

Vediamo per le variabili continue.

Per le variabili continue, il problema sta nella difficoltà di rappresentazione dei dati raccolti per il fatto che le modalità, essendo espressa all'interno di un intervallo (variabili continue hanno le modalità in un dato intervallo) sono infinite e quindi le elencazioni di tutte le modalità diventa praticamente impossibile

EX: tempo può essere una variabile continua

ESEMPIO:

Il preside di una scuola deve preparare un rapporto sul numero di ore (con prima cifra decimale > decimi di ore, si rapporta a 60 minuti) a settimana che gli studenti trascorrono a studiare. Seleziona pertanto un campione di 30 studenti e chiede a ciascuno di loro questa informazione.

Ottiene la seguente distribuzione di 30 dati:

Dopo di che, siccome siamo in presenza di un carattere quantitativo, allora le modalità sono numeri, quindi si procede ad un ordinamento dei dati in modo crescente o decrescente (in questo caso si procede ad ordinare i dati in modo crescente)

Primo tentativo di rappresentazione grafica (senza ordine delle ore):

Si pone sull’asse x le unità statistiche sottoposte ad indagine (studenti) e sulle ordinate le ore di studio. Quello che si ottiene è questo:

In questo caso la rappresentazione non è utile perché non serve sapere che il secondo studente studia di più del primo o del terzo per esempio.

Quando devo rappresentare i dati raccolti, tenendo presente qual è il mio obiettivo finale da perseguire, la rappresentazione deve essere efficace.

In questo caso, una opportuna rappresentazione grafica si ottiene attraverso un preliminare raggruppamento in classi (consigliabile per le variabili quantitative continue > intervalli) finalizzato alla costruzione di un istogramma (più utile come rappresentazione grafica).

L’istogramma sarebbe utile per la rappresentazione grafica variabili continue perché mi darebbe indicazione attraverso l’altezza di ciascuna barra di individuare quanti studenti studiano dalle 15 alle 20 ore, dalle 20 alle 30 ore per esempio (+ interessante rispetto al dettaglio del singolo).

Una rappresentazione per distribuzioni di frequenze una volta raggruppati in classi di modalità, sarebbe utile ad ottenere indicazioni sulla quantità di ore che mediamente vengono impiegati per lo studio all’interno di quel campione.

Per far ciò si rappresenta mediante istogramma e riportare le classi di modalità su asse x (rappresentati da sotto-intervalli, raggruppare le ore di studio) e su y le frequenze (quanti studenti sono presenti in quell’intervallo che si considera)

Fasi

Stabilire il campo di variazione (range): differenza valore minimi e massimi della nostra raccolta dati (dataset), intervallo dove si trovano i nostri dati

݉ܽܿ ݅݀ ݋݌ ݁݊݋݅ݖܽ݅ݎܽݒ ܺܣܯ = ܰܫܯ −

Per pareggiare l’ampiezza totale e il campo di variazione, per determinare l’estremo superiore del primo intervallo, occorrere aggiungere al campo di variazione due valori pari alla semidifferenza delle lunghezze

Estremo inferiore ܰܫܯ −݀ Estremo superiore ݁ݎݐݔ. ݂݊݅ − ℎ

I calcoli sopraindicati servono per individuare il primo sottointervallo. Gli altri si ottengono attraverso i successivi intervalli di altezza h.

Contare quanti elementi cadono in ciascuna classe: ordine dei dati in maniera crescente (dal più piccolo al più grande) e successivamente ripartirle in base alle classi di modalità precedentemente calcolate

Tutti quei valori che vanno da 10 fino a 14 (escluso)

Ripartizione:

Realizzare l’istogramma per classi (per frequenza assoluta o relativa)

Asse x: classi di modalità

Asse y: ore di studio (frequenze)

Determinazione area totale dei rettangoli dell’istogramma:

Confrontando i due istogrammi, il profilo dei due diagrammi non cambiano. Quello che succede è un fattore di contrazione delle altezze (dovute ad un parametro corrispondente ad 1/30).

Gli schemi sotto indicati sono delle tabelle di distribuzione di frequenze suddivise in classi di modalità