Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Stima di Popolazioni: Campionamento, Variabili Quantitative e Grafici, Sintesi del corso di Statistica

Una introduzione alla stima di popolazioni attraverso l'esplorazione del campionamento, delle variabili quantitative e dei grafici. come valutare approssimativamente il valore numerico di una grandezza, definire una stima e una stima di un parametro di una popolazione. Viene inoltre discusso il metodo di selezione casuale di campioni e le modalità di variabili quantitative. Infine, vengono presentati i grafici come strumenti per sintetizzare e descrivere informazioni.

Tipologia: Sintesi del corso

2019/2020

Caricato il 14/09/2021

M.b1999
M.b1999 🇮🇹

1

(1)

3 documenti

1 / 33

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
CAPITOLO 1
La statistica è la scienza che permette di raccogliere , organizzare , sintetizzare e analizzare le
informazioni al fine di pervenire ad una o più conclusioni.
In altri termini, la statistica fornisce risposte a specifiche domande di ricerca.
La statistica fornisce inoltre una misura di probabilità associata ad ogni conclusione
raggiunta.
1. Obbiettivo domanda di ricerca: chi comprerà il mio nuovo prodotto?
2. Chi sono i protagonisti? popolazione o campione: mi rivolgo a poche persone
o a tutti i consumatori di un prodotto simile?
3. Quali aspetti devono misurare variabili: sono interessato a conoscere il loro
gradimento sul package, sulla funzionalità
4. Scoperte analisi: risultati
Statistica descrittiva : analisi descrittiva
Si basa sulla popolazione (che viene chiamata collettivo statistico)
Basato su tecniche per collezionare, sintetizzare ed elaborare i dati in modo da
trasformarli in informazioni.
Inferenza statistica
Statistica inferenziale : analisi inferenziale
Si basa sui campioni
Trae conclusioni su una popolazione basandosi sui risultati di un campione
Fornisce le basi per le previsioni e per le stime che consentono di trasformare le
informazioni in conoscenze espresse in termini di probabilità
Statistica multivariata : machine learning, AI
Si basa sui big data
Consente di elaborare grandi mole di dati che indicano gli scenari futuri
STATISTICA DESCRITTIVA : studia i modi in cui un fenomeno collettivo può essere sintetizzato,
analizzato e quindi compreso. Sto fotografando e analizzando una situazione cosi come è (es.
censimento). Consiste nell’organizzare e riassumere i dati, descrive i dati attraverso la sintesi
numerica, le tabelle e i grafici.
Censimento popolazione italiana statistica descrittiva
Fonti istat
Statistica studia fenomeni collettivi – si basa sull’insieme di unità statistiche
Censimenti:
Significa rilevare-misurare
Consente di: quantificare gli abitanti, conoscere le loro caratteristiche, prevedere la
dinamica della popolazione (saldi demografici, saldi migratori).
Oggi (dal 2018), le rilevazioni sono diventate annuali e “a campione”: ogni anno
coinvolgono 1 milione e 400 mila famiglie e circa 2800 comuni. Entro il 2021, tutti i comuni
d’Italia avranno partecipato almeno una volta alle rilevazioni (ISTAT 2020).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Anteprima parziale del testo

Scarica Stima di Popolazioni: Campionamento, Variabili Quantitative e Grafici e più Sintesi del corso in PDF di Statistica solo su Docsity!

STATISTICA

CAPITOLO 1

La statistica è la scienza che permette di raccogliere , organizzare , sintetizzare e analizzare le informazioni al fine di pervenire ad una o più conclusioni.  In altri termini, la statistica fornisce risposte a specifiche domande di ricerca.  La statistica fornisce inoltre una misura di probabilità associata ad ogni conclusione raggiunta.

  1. Obbiettivo  domanda di ricerca: chi comprerà il mio nuovo prodotto?
  2. Chi sono i protagonisti?  popolazione o campione : mi rivolgo a poche persone o a tutti i consumatori di un prodotto simile?
  3. Quali aspetti devono misurare  variabili : sono interessato a conoscere il loro gradimento sul package, sulla funzionalità
  4. Scoperte  analisi : risultati

Statistica descrittiva : analisi descrittiva  Si basa sulla popolazione (che viene chiamata collettivo statistico)  Basato su tecniche per collezionare, sintetizzare ed elaborare i dati  in modo da trasformarli in informazioni.  Inferenza statistica

Statistica inferenziale : analisi inferenziale  Si basa sui campioni  Trae conclusioni su una popolazione basandosi sui risultati di un campione  Fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenze espresse in termini di probabilità

Statistica multivariata : machine learning, AI  Si basa sui big data  Consente di elaborare grandi mole di dati che indicano gli scenari futuri

STATISTICA DESCRITTIVA : studia i modi in cui un fenomeno collettivo può essere sintetizzato, analizzato e quindi compreso. Sto fotografando e analizzando una situazione cosi come è (es. censimento). Consiste nell’organizzare e riassumere i dati, descrive i dati attraverso la sintesi numerica, le tabelle e i grafici. Censimento popolazione italiana  statistica descrittiva Fonti  istat Statistica  studia fenomeni collettivi – si basa sull’insieme di unità statistiche

Censimenti:  Significa rilevare-misurare  Consente di: quantificare gli abitanti, conoscere le loro caratteristiche, prevedere la dinamica della popolazione (saldi demografici, saldi migratori).  Oggi (dal 2018), le rilevazioni sono diventate annuali e “a campione”: ogni anno coinvolgono 1 milione e 400 mila famiglie e circa 2800 comuni. Entro il 2021, tutti i comuni d’Italia avranno partecipato almeno una volta alle rilevazioni (ISTAT 2020).

Esempi di popolazione:  Iscritti nelle liste elettorali di Milano  Azioni quotate alla Borsa di Milano  I redditi delle famiglie che abitano in Lombardia

POPOLAZIONE = intero gruppo di individui studiato. INDIVIDUO = persona o oggetto che è membro della popolazione indagata. CAMPIONE = sottoinsieme della popolazione che sta per essere studiato. È la riproduzione in miniatura delle stesse identiche caratterisitche della popolazione, quindi il campione deve essere rappresentativo della popolazione.

PARAMETRO = La misura di una caratteristica riferita ad una popolazione; descrittore della popolazione.  L’età media degli iscritti alle liste elettorali è 52 anni.  Il rendimento medio delle azioni è stato pari al 2.8%.  Il 78% dei redditi è inferiore a 28.000 euro. STATISTICA = La misura di una caratteristica riferita al campione; descrittore del campione.  L’età media degli iscritti alle liste elettorali nelle città campione è 52 anni  Il rendimento medio delle azioni del campione è stato pari al 2.8%  Il 78% dei redditi nel campione di famiglie selezionate è inferiore a 28.000 euro.

Distinzione tra parametro e statistica: esempio Supponiamo che il 48% degli studenti della vostra università possiede un’auto. Questo valore rappresenta un parametro poiché è una sintesi numerica della popolazione. Supponiamo di estrarre un campione di 100 studenti e da questo campione rileviamo che il 46% degli stessi possiede un’auto. Questo valore rappresenta una statistica perché è la sintesi numerica di un campione.

Inferenza statistica = quando passiamo dal campione alla popolazione tramite probabilità. Si concentra dunque sui risultati ottenuti da un campione e li estende all’intera popolazione misurandone l’affidabilità.

Es: se ricorriamo all’inferenza statistica, invece che affermare, per esempio, che il 78% della popolazione restituirebbe 100 euro trovati per terra diremmo che: al 95% (livello di confidenza/misura di affidabilità) confidiamo nel fatto che la percentuale di popolazione che restituirà i soldi potrebbe variare tra il 76% e l’80% (range di valori che tiene conto della variabilità dei dati).

Il processo statistico

1. Identificare l’obbiettivo della ricerca: definire le domande in modo dettagliato e identificare la popolazione da esaminare.

Campione casuale = il campione casuale è il processo che utilizza il caso per selezionare gli individui a includere in un campione. Il concetto di caso è però strettamente connesso a quello di probabilità: il caso è un concetto intuitivo strettamente collegato all’idea di impossibilità di previsione, di individuare un ordine, un legame.

Campionamento non probabilistico = quando ciascuna unità della popolazione è selezionata in maniera non casuale (non tutte le persone della popolazione hanno la stessa probabilità di entrare a far parte di un campione, non vi è una probabilità di riferimento, non è rappresentativo della popolazione). Ciò che si ottiene è un campione di comodo, il quale appunto non è rappresentativo della popolazione perché le persone sono scelte senza regole o logica (es: campioni autoselezionati o a risposta volontaria). Metodi:

  1. Campione di comodo : il ricercatore sceglie in maniera arbitraria le unità più facilmente raggiungibili (magari sfruttando le proprie relazioni, esempio: televoto).
  2. Campione di scelta ragionata : le unità campionarie vengono scelte dal ricercatore in base ad alcune loro caratteristiche, perché meglio rappresentano il fenomeno in esame; di solito si utilizza quando l’ampiezza del campione è limitata. Campione per quote : analogo al campionamento stratificato, ma le quote all’interno di ciascuno strato sono selezionate dai ricercatori con criteri non probabilistici. 3. Snowball : effetto valanga , tecnica di indagine sui social media. Indagine dunque che parte da un numero limitato di persone per poi successivamente espandersi.

Campionamento probabilistico = quando ciascuna unità della popolazione è selezionata in maniera casuale e ha una probabilità positiva e nota di entrare a far parte del campione (il campione dunque è rappresentativo della popolazione). Metodi:

  1. Campionamento casuale semplice : ogni elemento della popolazione ha la stessa probabilità di essere campionato.
  2. Campionamento sistematico : si divide la popolazione in N gruppi e si estrae casualmente un primo elemento dal 1° gruppo ed i restanti vengono estratti ogni N dal primo.
  3. Campionamento stratificato : si suddivide la popolazione in strati omogenei all’interno e si seleziona casualmente un certo numero di elementi da ogni strato.
  4. Campionamento a grappolo : Si suddivide la popolazione in gruppi eterogenei all’interno e si seleziona casualmente un grappolo.
  5. Campionamento multistadio : combinazione a più livelli di uno o più dei metodi precedenti.

1.CAMPIONAMENTO CASUALE SEMPLICE (o random sampling)

N=numerosità della popolazione n= numerosità del campione Un campione di numerosità n è ottenuto attraverso il campionamento causale semplice da una popolazione di N , se tutte le unità della popolazione hanno la stessa probabilità di essere scelte. Conoscere a priori tutte le unità della popolazionelista di campionamento (frame)Tutte le unità hanno la stessa probabilità di essere selezionate e devono essere reperibiliSi deve procedere all’estrazione causale delle unità

La selezione del campione casuale semplice può essere fatta secondo due modalità:  Con reinserimento : l’unità selezionata viene reinserita nella popolazione e può essere estratta di nuovo (più rari; ad esempio se devo comporre un codice).

Senza reinserimento : l’unità selezionata viene rimossa dalla popolazione e non può più essere scelta (quasi sempre). L’unità non può apparire due volte nello stesso campione.

Come costruirlo?

1. Costruire un elenco di tutta la popolazione (lista o frame) (la popolazione di riferimento deve essere nota)

  1. Numerare tutti gli individui, l’ultimo individuo corrisponderà a N (numerosità della popolazione).
  2. Usare una tavola dei numeri casuali o un software per generare n numeri in cui n corrisponde all’ampiezza del campione.

Lista di campionamento (frame) = elenco di tutti gli individui della popolazione. Per esempio la lista di tutti i possibili elettori al senato potrebbe essere un frame.

Esempio :

  1. Ipotesi di ricerca: studiare il livello di preferenza della serie: Scuola di Sopravvivenza (N=20 espisodi) Popolazione
  2. Decido di estrarre un campione di 5 episodi (n=5) Campione
  3. Numerare tutti gli individui , l’ultimo individuo corrisponderà a N
  4. Utilizzo Excel per estrarre e 5 unità componenti il campione

2.CAMPIONE STRATIFICATO (stratifield sampling)

Un campione stratificato è ottenuto separando la popolazione in gruppi non sovrapposti chiamati strati. Da ogni strato, vengono poi estratte le unità con un campionamento casuale semplice. Le unità all’interno di ogni strato dovrebbero essere omogenee rispetto a certe caratteristiche. Utile quando voglio garantire che la popolazione di riferimento sia equamente rappresentata. Problema : il rettore di un’università vuole effettuare un’indagine sulla sicurezza del campus. Il rettore divide la comunità universitaria in 3 gruppi: studenti residenti (28%), studenti non residenti (61%) e staff (11%). Il rettore vuole ottenere un campione di grandezza 100, dove il numero di individui selezionato da ogni strato è proporzionale al peso che lo strato ha sulla popolazione. Il rettore farà dunque un’indagine su 28 studenti residenti, 61 studenti non residenti e 11 persone dello staff. Metodo: per ottenere un campione stratificato si conduce un campionamento casuale semplice all’interno di ogni gruppo. Ovvero otteniamo un campione casuale semplice di 28 studenti residenti, un campione casuale di 61 studenti non residenti e un campione casuale di 11 persone dello staff.

3.CAMPIONE SISTEMATICO

Si ottiene un campione sistematico selezionando dalla popolazione un unità ogni k. La prima unità selezionata corrisponde ad un numero casuale compreso tra 1 e k. K si chiama tasso di campionamento.

o Dividiamo la popolazione in gruppi disomogenei (cluster), che presentano le

stesse caratteristiche della popolazione,

o E poi studiamo titti gli individui all’interno del cluster scelto casualmente.

5.CAMPIONAMENTO A DUE STADI

Rappresenta una variante del campionamento a grappoli. Si differenzia da questo poiché sostituisce la fase finale di rilevazione totale delle unità all’interno dei grappoli con un’estrazione causale. Un campione a due stadi è ottenuto selezionando:

  1. Al primo stadio un certo numero di grappoli con un’estrazione casuale.
  2. Al secondo stadio, da ciascun grappolo si seleziona un certo numero di unità campionarie, sempre attraverso un’estrazione casuale senza ripetizione.

Vi sono delle situazioni in cui l’elenco delle unità delle popolazioni (lista) è eccessivamente lungo o complicato da costruire. In tal caso si è soliti ricorrere al campionamento a due stadi che consiste in due estrazioni consecutive.

Esempio: Indagini sui consumi delle famiglie italiane 1° stadio: si estraggono i Comuni italiani. 2° stadio: si estraggono delle famiglie dai Comuni selezionati al primo stadio (proporzionalmente alla dimensione del singolo campione). Indagini sui consumi, forze di lavoro,ecc…

ERRORI DI CAMPIONAMENTO (non affrontata a lezione)

Se i risultati di un campione non sono rappresentativi della popolazione, allora il campione ha un errore. L’errore di campionamento si riferisce al fatto che le tecniche usate per selezionare gli individui da includere nel campione tendono a favorire una parte della popolazione piuttosto che un’altra. Ogni campionamento non-probabilistico ha l’errore di campionamento perché gli individui non sono scelti attraverso un campione casuale. Gli errori di campionamento sono dovuti anche alla sottocopertura. La sottocopertura si verifica quando la proporzione di un segmento della popolazione è più bassa nel campione che nella popolazione; può manifestarsi quando la lista di campionamento usata per ottenere il campione è incompleta o non rappresentativa della popolazione.

VARIABILI E SCALE DI MISURA

Tabelle:  Titolo  Descrizione sintetica  Tipo di fenomeno ( carattere-variabile )

 Come si presenta ( modalità )  Numero di volte in cui si presentano le caratteristiche ( frequenza )  Fonte

Cosa rileviamo?aspetti o caratteri Come si presentano?modalità Quante volte si presentano?frequenza

Le variabili possono essere classificate in due gruppi:  Qualitative (o categoriche) = quelle consentono la classificazione delle unità statistiche sulla base di alcuni attributi, caratteristiche o qualità  colore dei capelli, colore occhi, genere, livello di istruzione, cap.  Quantitative (numeriche) = quelle che forniscono una caratteristica numerica delle unità statistiche  figli, scarpe, collane, peso, altezza, distanza, temperatura, ecc.

La distinzione tra variabili quantitative e qualitative è importante per scegliere il metodo da utilizzare. Molto spesso la classificazione di una variabile dipende da come viene misurata. Metodo = il metodo rappresenta un possibile suggerimento per la risoluzione del problema, ma non è l’unico modo per risolvere il problema, poiché problemi differenti possono essere affrontati con diversi approcci comunque validi . Simbologia:  X (maiuscolo)  indica i diversi caratteri o variabili; generalmente si utilizza X ma si possono utilizzare anche Y,Z.  x (minuscolo)  indica la modalità associata all’unità statistica.

Modalità = le possibili rappresentazioni dei caratteri (o variabili); l’elenco dei valori osservati di una particolare variabile. Il genere è una variabile, mentre le osservazioni di maschi e femmine sono le modalità; le singole caratteristiche delle variabili. Sulle modalità delle variabili qualitative non si può eseguire alcuna operazione matematica; sulle modalità delle variabili quantitative si possono eseguire operazioni aritmetiche.

Variabili quantitative: o Variabile discreta = variabile quantitativa le cui modalità assumono un numero finito o un’infinità numerabile di valori. Il termine numerabile significa che i valori risultano da un conteggio, come 0-1-2-3 e così via, e sono rilevate senza virgola.. Possono essere espresse con numeri interi (es: numero figli, n° libri, n° scarpe). o Variabile continua = variabile quantitativa le cui modalità assumono un numero infinito di possibili valori che non sono numerabili. Asse dei numeri completo, tutti i numeri possibili, quindi anche quelli con la virgola (es: peso, altezza, distanza).

In sintesi: se contiamo per ottenere il valore di una variabile quantitativa, questa è discreta. Se misuriamo per ottenere il valore di una variabile quantitativa, questa è continua. Quindi per decidere se una variabile è discreta o continua chiediamoci se dobbiamo contare o misurare.

Esercizio: variabili discrete o continue?

  1. numero di teste ottenute in una serie di 5 lanci di una moneta  variabile discreta
  2. numero di macchine che arrivano al McDrive tra le 19 e le 20  variabile discreta
  3. km percorsi con un litro di benzina da una Toyota  variabile continua

 confrontano le modalità possiamo dire che hanno un loro ordine.  Ti interessa la statistica?  per nulla – più no che si – più si che no – si

Scala ad intervalli:  un valore pari a zero non significa assenza di quantità. I due sistemi presi in esame non hanno lo stesso punto di inizio/origine. Il rapporto tra due valori non ha senso.  La temperatura è una variabile misurata su scala a intervalli poiché le differenze tra i valori della variabile non hanno senso. Per esempio, la temperatura di 20°C è 5°C più calda di 15°C. Notiamo però che il rapporto fra le temperature non ha alcun significato: per esempio 20°C non significa un caldo doppio di 10°C. inoltre 0°C non significa assenza di calore.

Scala a rapporti:  permette di affermare che un valore è il doppio dell’altro. Possibilità di esprimere rapporti grazie alla presenza di uno zero assoluto come punto di partenza. esempio: consumi nell’ultimo mese, risparmio, distanza percorsa, giorni di vacanza, litri di benzina, calorie.  Il numero di volte che uno studente è andato al cinema la scorsa settimana è una variabile misurata su scala a rapporti, perchè il rapporto tra due valori ha senso, come pure il valore zero. Per esempio, se lo studente Francesco ha visto 4 film al cinema mentre lo studente Tommaso ha visto solo 2 film, potremmo affermare che Tommaso ha visto la metà dei film di Francesco, oppure che Francesco ha visto il doppio di film rispetto a Tommaso.

CAPITOLO 2

FREQUENZE

= Mi consentono di contare le unità statistiche che soddisfano le diverse modalità. Numero di

volte in cui la specifica modalità si riscontra.

Frequenza assoluta = (ni) numero di volte in cui la modalità i di una variabile (o

carattere) viene osservata nel collettivo. Esempio: frequenza assoluta della modalità laurea della variabile titolo di studio  numero di laureati nel collettivo.

Una distribuzione di frequenze assolute elenca tutte le modalità di una variabile riportando,

per ciascuna di esse, il corrispondente numero di volte in cui queste sono state osservate nel collettivo. Le frequenze assolute si indicano con ni  numero di volte che si presenta la modalità i-esima. Il totale delle frequenze assolute (ni) è N.

Come si sintetizza la distribuzione di frequenze assolute?

i = 1

k ¿= N

DISTRIBUZIONE DI FREQUNZE IN CLASSI

Quando i dati sono quantitativi , la costruzione delle distribuzioni di frequenze si può fare raggruppando le singole modalità in classi. Classi = intervalli numerici

La suddivisione in classi è opportuna quando :  Variabili quantitative discrete  se hanno molte modalità  Variabili quantitative continue  sempre

Le classi sono caratterizzate:

 Limite inferiore  il più piccolo valore contenuto nella classe

 Limite superiore  il valore più elevato contenuto nella classe

 Ampiezza di una classe  differenza tra il limite inferiore di

una classe e il limite inferiore della classe successiva

 Distribuzione in classi: ad ogni classe si associa la relativa frequenza assoluta (ni),

relativa (fi) o percentuale (pi).

Le classi per variabili quantitative continue si possono rappresentare anche nel seguente modo:

Determinare classi di uguale ampiezza:

Tabella aperta = tabelle in cui non è fissato il limite inferiore della prima classe e il limite superiore dell’ultima.

 Decidere il numero delle classi (k) - k soggettivo (k lo ipotizzo o è dato dall’esercizio)  Calcolare ampiezza della classe ¿^

valore più elevatovalore più piccolo ( range ) numero di classi ( k )  Arrotondare il risultato per eccesso

RAPPRESENTAZIONI GRAFICHE

 I grafici sintetizzano e danno informazioni  Hanno lo scopo di descrivere un fenomeno, ma non devono offrire una visione distorta del fenomeno  I grafici rappresentano una forma di comunicazione  Lo sviluppo dei grafici è stato (ed è tuttora) caratterizzato da finalità descrittive e strategiche  Forte impulso alla diffusione dei grafici è imputabile alla diffusione dei pc  Argomento molto importante per: infografica, data visualization, graphic design.

Chartjunk  tutti gli elementi visivi presenti nelle tabelle e nei grafici che non sono neccessari alla comprensione e distraggono il lettore

Le rappresentazioni grafiche hanno lo scopo di descrivere una distribuzione , di frequenze o di intensità, in funzione delle modalità, qualitative o quantitative, di una o più variabili.

  1. Figure

1° trim. 2° trim. 3° trim. 4° trim.

3. DIAGRAMMA A BARRE O BARPLOT

Variabili qualitative ordinali (es: gerarchia militare), ma anche quantitative discrete In un grafico a barre le modalità della variabile sono rappresentate da rettangoli distanti la cui altezza, se costruito in modo standard (o la lunghezza se orizzontale) è proporzionale alla frequenza (assoluta, relativa o percentuale).

(^0) Categoria 1 Categoria 2 Categoria 3 Categoria 4

1

2

3

4

5

6

Serie 1 Colonna2 Colonna

MODALITA' ORDINALI O NOMINALI

FREQUENZE

4. SERIE STORICHE O TIMEPLOT

Variabili quantitative Rappresentano l’andamento di un fenomeno nel tempo  sequenza di osservazioni della stessa variabile. La rappresentazione grafica si basa sul sistema dimetrico:  Sull’asse x  troviamo il tempo  Sull’asse y  troviamo la variabile esaminata espressa in frequenza assoluta, relativa o percentuale

2000 2002 2004 2006

0

1

2

3

4

5

6

7

8

Serie 1 Colonna2 Colonna

5. ISTOGRAMMA

Variabili quantitative continue (anche discrete quando ho tanti dati). Variabili continue. Si può anche costruire un istogramma con variabili discrete, solo quando vi è un elevato numero di valori diversi tra loro. In un istogramma si opera su classi che vengono rappresentate da rettangoli non distanziati, con basi uguali o diverse.

Classi di uguale ampiezza  l’altezza del rettangolo è proporzionale alla frequenza della classe. Classi di ampiezza diversa  l’altezza del rettangolo è proporzionale alla densità di frequenza della classe.

di = ¿ ai di = densità di frequenza assoluta alla classe i-esima ni = frequenza assoluta associata alla classe i-esima ai = ampiezza della classe i-esima.

Esempio di classi con ampiezza diversa.

In questo caso le classi sono di uguale ampiezza per cui l’altezza del rettangolo è proporzionale alla frequenza della classe. Se, nel caso contrario, le classi fossero state di ampiezza differente allora l’altezza del rettangolo sarebbe stata proporzionale alla densità di frequenza della classe.

Differenza tra grafico a barre e istogramma per variabili discrete Le barre nei grafici a barre sono staccate, mentre negli istogrammi per variabili discrete sono attaccate. Una variabile discreta si rappresenta con l’istogramma quando ha molti dati e, per questo, creo delle classi di dati. Un istogramma per variabili discrete si costruisce disegnando un rettangolo per ogni classe di dati:  L’ampiezza è uguale per tutte le modalità  L’altezza corrisponde alla frequenza assoluta o relativa associata ad ogni classe di dati. Entrambi si basano sul sistema dimetrico però: Il grafico a barre riporta:  sull’asse x  le modalità

1. Treemap Il grafico definito treemap non utilizza le tabelle di frequenza ma parte dai dati grezzi (non organizzati) effettuando una aggregazione delle modalità. Most ra l’incidenza relativa di ogni singola modalità. 2. confronti percentuali : è una specifica del barplot

da cosa sono determinati i maggiori errori?

  1. da una manipolazione dell’unità di misura del grafico (scala incoerente o origine mal posizionata).
  2. segni di graduazione non costanti.
  3. scale diverse, in caso di comparazione tra grafici.
  4. punto 0 posizionato in un punto diverso dall’intersezione dei due assi.

CAPITOLO 3

Le misure di posizione ( o di tendenza centrale ) di una distribuzione sono indici che consentono di sintetizzare una distribuzione attraverso un valore rappresentativo. o Media aritmetica  variabili quantitative o Moda  variabili quantitative/qualitative o Mediana  variabili quantitative e ordinali

MEDIANA

La mediana (M) di una variabile è il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente e divide un collettivo e divide un collettivo in due sottoinsiemi di uguale numerosità. La mediana si può calcolare su variabili misurate su scala ordinale e sulle variabili quantitative (discrete e continue) e non si può calcolare su variabili misurate su scala nominale.

Perché la distribuzione va ordinata? Perché la mediana occupa la posizione centrale, ossia quel valore che ha lo stesso numero di osservazioni sia alla sua destra che alla sua sinistra.

Metodo di calcolo

  1. ordino la distribuzione in senso crescente
  2. determino il numero delle osservazioni (N)
  3. individuare l’unità centrale:

o se N è dispari  la mediana è il valore che occupa il valore centrale N+1/

o se N è pari  la mediana è la media dei due valori che occupano le posizioni

centrali N/2 e N/2 +

Mediana: distribuzione di frequenze unitarie

Mediana: distribuzione di frequenze assolutecalcolare la distribuzione cumulata!

Mediana: distribuzione di frequenze, scala ordinale

Mediana indefinita o indeterminata: Si parla di mediana indefinita o indeterminata nei casi di variabili misurate su scale ordinali quando la posizione mediana ricade tra due differenti categorie o modalità.