Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Descrizione e Analisi dei Dati, Appunti di Statistica

Una introduzione alla statistica, comprensiva della rilevazione statistica totale e parziale, della statistica descrittiva e della sua divisione in grafica e numerica. Vengono presentate le modalità di caratteri, i caratteri quantitativi discreti e continui, le scale di misurazione e le distribuzioni statistiche. Il testo include anche esempi e grafici per illustrare le concept.

Tipologia: Appunti

2018/2019

Caricato il 13/06/2019

lorenzo-ranno
lorenzo-ranno 🇮🇹

1 documento

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1 – Perché studiare la Statistica?
IL CAMPIONAMENTO.
Il principale obiettivo della statistica è la conoscenza quantitativa dei fenomeni collettivi.
Il FENOMENO COLLETTIVO è una manifestazione (situazione o fatto) empirica la cui
conoscenza e misura richiede l’osservazione di più unità statistiche elementari.
Le UNITA’ STATISTICHE ELEMENTARI sono unità portatrici di informazioni sul fenomeno
oggetto di studio. (Es. singola azienda che lavora nel settore tessile).
POPOLAZIONE: insieme completo di tutte le unità statistiche oggetto di studio del fenomeno
collettivo che sono uguali rispetto ad alcuni loro caratteri. La popolazione viene indicata con N
(Es. insieme di tutte le aziende che operano nel settore tessile).
CAMPIONE: è un sottoinsieme della popolazione, e cioè delle unità osservate nella popolazione.
Viene indicato con n (Es. parte delle aziende che operano nel settore tessile).
L’obbiettivo dello studio del campione è quello di arrivare ad informazioni che siano attendibili
anche sull’intera popolazione.
Il CAMPIONAMENTO CASUALE SEMPLICE, è il procedimento utilizzato per estrarre un
campione n di oggetti da una popolazione.
Da tale procedimento si ottiene un campione casuale.
Nel campionamento casuale:
Ciascuna unità della popolazione è scelta rigorosamente a caso;
Ciascuna unità ha la stessa opportunità di essere scelta;
Ogni possibile campione di dimensione assegnata ha la stessa possibilità di essere
selezionato.
Possiamo infine effettuare la seguente distinzione:
parleremo di statistica riferendoci ad una caratteristica specifica di un campione;
parleremo di parametro riferendoci ad una caratteristica specifica di una popolazione.
STATISTICA DESCRITTIVA E STATISTICA INFERENZIALE.
La statistica si pone come obbiettivo quello di ottenere informazioni dall’analisi di un problema
attraverso la rilevazione statistica. Essa si concretizza in un insieme complesso di operazioni volte
ad acquisire informazioni sul fenomeno oggetto di studio. Possiamo distinguere:
Rilevazione Statistica Totale: l’acquisizione delle informazioni viene condotta su tutta la
popolazione
Rilevazione Statistica Parziale: l’acquisizione delle informazioni viene condotta su una
parte della popolazione (campione).
I risultati di una rilevazione statistica vengono codificati in una matrice dei dati disposta su n (o N)
righe ed un certo numero di colonne: le righe rappresentano le unità statistiche, le colonne
rappresentano i caratteri rilevati.
L’incrocio tra una riga ed una colonna individua la modalità con cui il carattere si presenta
nell’unità statistica.
È possibile individuare due branche della statistica:
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Statistica: Descrizione e Analisi dei Dati e più Appunti in PDF di Statistica solo su Docsity!

CAPITOLO 1 – Perché studiare la Statistica?

IL CAMPIONAMENTO.

Il principale obiettivo della statistica è la conoscenza quantitativa dei fenomeni collettivi.

Il FENOMENO COLLETTIVO è una manifestazione (situazione o fatto) empirica la cui conoscenza e misura richiede l’osservazione di più unità statistiche elementari.

Le UNITA’ STATISTICHE ELEMENTARI sono unità portatrici di informazioni sul fenomeno oggetto di studio. (Es. singola azienda che lavora nel settore tessile).

POPOLAZIONE : insieme completo di tutte le unità statistiche oggetto di studio del fenomeno collettivo che sono uguali rispetto ad alcuni loro caratteri. La popolazione viene indicata con N (Es. insieme di tutte le aziende che operano nel settore tessile).

CAMPIONE : è un sottoinsieme della popolazione, e cioè delle unità osservate nella popolazione. Viene indicato con n (Es. parte delle aziende che operano nel settore tessile). L’obbiettivo dello studio del campione è quello di arrivare ad informazioni che siano attendibili anche sull’intera popolazione.

Il CAMPIONAMENTO CASUALE SEMPLICE , è il procedimento utilizzato per estrarre un campione n di oggetti da una popolazione. Da tale procedimento si ottiene un campione casuale. Nel campionamento casuale:

  • Ciascuna unità della popolazione è scelta rigorosamente a caso;
  • Ciascuna unità ha la stessa opportunità di essere scelta;
  • Ogni possibile campione di dimensione assegnata ha la stessa possibilità di essere selezionato.

Possiamo infine effettuare la seguente distinzione: ▲ parleremo di statistica riferendoci ad una caratteristica specifica di un campione; ▲ parleremo di parametro riferendoci ad una caratteristica specifica di una popolazione.

STATISTICA DESCRITTIVA E STATISTICA INFERENZIALE.

La statistica si pone come obbiettivo quello di ottenere informazioni dall’analisi di un problema attraverso la rilevazione statistica. Essa si concretizza in un insieme complesso di operazioni volte ad acquisire informazioni sul fenomeno oggetto di studio. Possiamo distinguere:

  • Rilevazione Statistica Totale : l’acquisizione delle informazioni viene condotta su tutta la popolazione
  • Rilevazione Statistica Parziale : l’acquisizione delle informazioni viene condotta su una parte della popolazione (campione).

I risultati di una rilevazione statistica vengono codificati in una matrice dei dati disposta su n (o N) righe ed un certo numero di colonne: le righe rappresentano le unità statistiche, le colonne rappresentano i caratteri rilevati. L’incrocio tra una riga ed una colonna individua la modalità con cui il carattere si presenta nell’unità statistica. È possibile individuare due branche della statistica:

  • Statistica descrittiva: comprende metodi grafici e numerici che sono usati per sintetizzare, elaborare e descrivere i dati raccolti tramite una rilevazione totale o parziale, in modo da trasformarli in informazioni;
  • Statistica inferenziale: insieme di procedimenti che consentono di giungere a delle conclusioni o di prendere decisioni su una popolazione sulla base di risultati campionari. Fornisce le basi per previsioni e stime che consentono di trasformare informazioni in conoscenza.

CAPITOLO 2 – Descrizione grafica dei dati.

CLASSIFICAZIONE DELLE VARIABILI.

Ogni unità statistica presenta delle caratteristiche: i caratteri. Ciascuna unità statistica è, generalmente, portatrice di infiniti caratteri. Ogni carattere è presente in ogni unità statistica con una determinata modalità. Le modalità di ogni carattere non sono definibili a priori, in modo oggettivo e unico, ma la loro determinazione è frutto di una scelta fra varie possibilità, che dipendono sia dal problema oggetto di studio, sia dal soggetto che li esamina, sia dal fenomeno. Le modalità, in breve, sono descrizioni. Es. Carattere= Nazionalità dell’individuo; Modalità= Italiana / Greca / ecc.

I caratteri sono di natura diversa e si suddividono nel modo seguente:

  • Mutabile: se le modalità nelle quali viene classificato un fenomeno sono di natura qualitativa.
  • Variabile: se le modalità sono di natura quantitativa. Le scale di misurazione corrispondono al modo in cui le modalità sono registrate e catalogate. Nella teoria della misurazione i caratteri sono classificati in funzione della maggiore/minore complessità delle operazioni che è lecito condurre tra le modalità dei caratteri. A seconda della tipologia di carattere applicheremo una differente scala di misurazione:

Per i caratteri quantitativi (o variabili numeriche) utilizzeremo:

  • Scala ad intervallo: Viene utilizzata per i caratteri quantitativi continui. Indica l’ordine e la distanza da un’origine arbitraria misurata con una determinata unità di misura: i valori sono cioè ottenuti in relazione ad un determinato punto di riferimento (es. temperatura).
  • Scala di rapporto: Viene utilizzata per i caratteri quantitativi discreti. Indica l’ordine e la distanza da un’origine assoluta (0) e il rapporto tra due misure, ha un significato numerico ben preciso. (es. una persona di 100 kg pesa il doppio di una di 50 kg).

Per i caratteri quantitativi HA quindi significato la differenza di intensità fra coppie di misure.

Per i caratteri qualitativi (o variabili categoriche) utilizzeremo:

  • Scala di dati nominali: Considerata il livello inferiore di misurazione dei dati, poiché la codifica numerica viene scelta per pura convenienza. Non ha alcun significato se non quello di classificazione.
  • Scala di dati ordinali: Indica un ordine gerarchico degli elementi. I valori numerici assunti sono semplicemente etichette che descrivono le risposte. (Es. giudizio sulla qualità di un prodotto).

Per i caratteri qualitativi la differenza di intensità fra coppie di misure NON HA significato.

Possiamo stilare una “classifica” dell’importanza statistica delle diverse scale di misurazione, basata sulla quantità e qualità delle informazioni che vengono fornite:

La classificazione delle unità statistiche secondo le modalità distinte (classi di modalità) di uno (o più) caratteri dà luogo ad una distribuzione statistica secondo i caratteri considerati. Una distribuzione statistica può essere: ▲ Semplice: la classificazione viene effettuata rispetto ad un solo carattere. Per questa tipologia di distribuzione si usano diverse denominazioni a seconda del tipo di carattere rispetto al quale è fatta la classificazione che dà luogo alla distribuzione. Se il carattere è quantitativo la distribuzione è anche detta seriazione di frequenza. Se il carattere è qualitativo la distribuzione è anche detta serie di frequenza. In particolare se il carattere è il tempo si è soliti usare il termine serie storica, se il carattere è lo spazio si è soliti parlare di serie territoriale. ▲ Multipla: la classificazione viene fatta rispetto a più caratteri.

Inoltre una distribuzione statistica potrà essere: ▲ Di frequenza (assoluta): quando ad ogni modalità distinta (o classe di modalità) si associa il numero di unità statistiche che presentano quella modalità (o classe di modalità) del carattere. È una tabella dove ogni colonna di sinistra contiene le modalità, ogni colonna di destra le frequenze. ▲ Di intensità (o quantità): quando ad ogni modalità distinta (o classe di modalità) si associa un dato statistico detto intensità (riferito alle unità che presentano quella modalità) rappresentativo non solo di un ammontare ma anche di una media, un rapporto…

Per frequenza assoluta si intende il numero di volte che la modalità si presenta o il numero di unità che presentano la modalità del carattere. Attraverso la formula otteniamo la frequenza relativa che consisterà sempre in un numero compreso fra 0 ed 1. Moltiplicando questa per 100 avremo la frequenza relativa percentuale (sempre compresa fra 0 e 100). La frequenza cumulata assoluta indica invece quante unità hanno valore del carattere fino ad un determinato carattere (non può essere costituita per variabili non cumulabili). Es.

La frequenza cumulata relativa è la somma delle frequenze relative. Moltiplicando per 100 avremo la frequenza cumulata relativa percentuale.

RAPPRESENTAZIONI GRAFICHE PER DESCRIVERE LE VARIABILI CATEGORICHE.

Possiamo descrivere le variabili categoriche (o caratteri qualitativi) usando: a. Diagramma a barre: focalizza l’attenzione sulla frequenza di ogni categoria. L’altezza della barra rappresenta la frequenza assoluta/relativa. Le barre normalmente non vengono attaccate. b. Diagramma a torta: sottolinea la proporzione di ciascuna categoria. L’ampiezza delle sezioni rappresenta la frequenza assoluta/relativa. c. Grafico per serie storiche: rappresenta una serie di dati rilevanti in istanti di tempo diversi. Se si considera l’asse orizzontale come asse temporale e si pongono sull’asse verticale le quantità numeriche oggetto della misurazione si otterrà, per ogni osservazione un punto sul piano cartesiano. Il grafico si ottiene congiungendo i vari punti con una linea spezzata.

a. b.

  • Una distribuzione asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al valore centrale. Possiamo avere distribuzioni oblique a destra (o con asimmetria positiva) o distribuzioni oblique a sinistra (o con asimmetria negativa). Congiungendo i punti di mezzo dei diversi rettangoli verticali adiacenti otterremo il poligono di frequenza.

b. Ogiva: viene anche chiamata curva delle frequenze cumulate ed è una spezzata che rappresenta la distribuzione delle frequenze percentuali cumulate. Unisce i punti che rappresentano le percentuali cumulate di osservazioni con valori minori del limite superiore di ciascuna di esse.

a.

b. Per quanto riguarda invece le variabili numeriche discrete , possiamo procedere alla loro rappresentazione grafica utilizzando:

a. Diagramma a bastoncini: sull’asse delle ascisse posizioneremo le modalità mentre sulle ordinate le frequenze. In corrispondenza di ogni modalità alzeremo una linea verticale (bastoncino) fino al punto corrispondente alla frequenza relativa a tale modalità. b. Diagramma a gradini: anche in questo diagramma avremo sulle ascisse le modalità mentre sulle ordinate posizioneremo la frequenza cumulata relativa (pertanto l’asse verticale si estenderà da 0 a 1). La funzione rappresentata attraverso il diagramma a gradini è quindi una funzione continua a destra in corrispondenza del punto uno. Osservando la figura il pallino pieno indica che quella modalità appartiene alla frequenza cumulata a cui si riferisce la linea orizzontale in questione. Il pallino vuoto indica la situazione opposta.

a. b.

RAPPRESENTAZIONI GRAFICHE E TABELLE PER DESCRIVERE LE RALAZIONI

TRA VARIABILI.

Fino ad ora abbiamo parlato di grafici che tenevano in considerazione una sola variabile. Vediamo ora due grafici che ci consentono di studiare le possibili relazioni fra due differenti variabili.

a. Per studiare le possibili relazioni tra due variabili numeriche useremo il Diagramma di dispersione. Possiamo preparare questo diagramma associando un punto del piano cartesiano ad ogni coppia di valori che costituiscono un’osservazione congiunta delle due variabili Il diagramma di dispersione fornisce una descrizione dei dati, in particolare evidenzia:

  1. I possibili valori di ogni variabile;
  2. La distribuzione dei dati all’interno dei valori possibili;
  3. L’eventuale relazione fra le due variabili;
  4. La presenza di eventuali valori anomali ( outlier ).

b. Per studiare le possibili relazioni fra variabili qualitative useremo invece le tabelle a doppia entrata (utilizzabili anche con variabili numeriche se prima adeguatamente riclassificate). Le tabelle a doppia entrata elencano la frequenza delle osservazioni per ogni combinazione di classi di misura di due variabili. Il numero di celle è determinato dalla combinazione di tutte le possibili classi per ognuna delle due variabili. Una tabella con r righe e c colonne viene indicata come tabella r x c. Quando le due variabili sono entrambe qualitative avremo una tabella di contingenza. Quanto rilevato in tabella verrà poi rappresentato con diagrammi a barre.

Le medie sono indici sintetici di un carattere che ci danno un ordine di grandezza riaspetto a ciò che stiamo misurando La MEDIA ARITMETICA di un insieme di dati è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni. Avremo:

  • MEDIA DELLA POPOLAZIONE (μ):

• MEDIA CAMPIONARIA ():

MEDIANA : per determinare la mediana bisogna innanzitutto ordinare le osservazioni in modo non decrescente (o non crescente). La mediana è infatti l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente (o non crescente). Se n è un numero dispari la mediana è il valore centrale; se n è pari la mediana si ottiene dalla media delle due osservazioni centrali. La mediana non è calcolabile per caratteri non ordinati (cioè per i caratteri qualitativi sconnessi). Essa divide in due parti uguali le osservazioni ed è considerata una media “robusta” in quanto non dipendente da eventuali outlier. La mediana è pertanto migliore della media se siamo in presenza di valori estremi. Calcoleremo quindi la mediana del seguente modo:

n dispari : e scegliamo l’osservazione corrispondente al numero ottenuto (dopo aver ordinato le osservazioni in modo non decrescente);

n pari : scegliamo le osservazioni corrispondenti ai due numeri ottenuti (dopo aver ordinato tutte le osservazioni in modo non decrescente) e facciamo la media aritmetica dei valori corrispondenti a tali osservazioni.

MODA : dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste, è la modalità che si ripete il maggior numero di volte.

Osserviamo che:

  • MEDIA e MEDIANA di una distribuzione simmetrica sono uguali, poiché le osservazioni sono distribuite in modo speculare rispetto al valore centrale;
  • La MEDIA è invece maggiore della MEDIANA nelle distribuzioni oblique a destra;
  • La MEDIA è infine minore della MEDIANA nelle distribuzioni oblique a sinistra.

MISURE DI VARIABILITA’.

Anche se due insiemi di dati possono avere la stessa media, le singole osservazioni del primo insieme possono variare di più dalla media di quanto non lo facciano quelle del secondo insieme. Occorrono perciò degli indici che descrivano in modo sintetico questa variabilità:

CAMPO DI VARIAZIONE (o range) : è la differenza tra il massimo ed il minimo dei valori osservati.

Se le modalità sono tutte uguali fra loro non vi è variabilità ed il campo di variazione sarà uguale a

È evidente come il campo di variazione risulterà fortemente influenzato da eventuali valori anomali.

DIFFERENZA INTERQUARTILE (IQR) : misura la variabilità del 50% centrale dei dati: in una sequenza di osservazioni ordinate in modo non decrescente è la differenza tra l’osservazione , terzo quartile (o 75-esimo percentile) e l’osservazione , primo quartile (o 25-esimo percentile).

Il primo quartile si trova nella posizione 0,25(n+1); Il terzo quartile si trova nella posizione 0,75(n+1). Nel loro calcolo se la posizione ottenuta si trova esattamente a metà tra altre due, la misura cercata si ottiene dalla media dei valori corrispondente a quelle due posizioni.

Si parlerà più genericamente di quantili per indicare accumuli di una generica quantità di frequenze in una sequenza ordinata.

I CINQUE NUMERI DI SINTESI : si riferiscono a cinque misure descrittive:

Una visualizzazione grafica dei “cinque numeri di sintesi” la si può ottenere con il diagramma a scatola e baffi (box plot).

Talvolta nel diagramma a scatola e baffi viene indicata anche la media. Per determinare il limite inferiore () ed il limite superiore () del diagramma a scatola e baffi utilizzeremo le seguenti formule:

Se il minimo è minore del limite inferiore sul piano cartesiano rappresenteremo sia che. Se il massimo è superiore del limite superiore sul piano cartesiano rappresenteremo sia che. Se queste due condizioni non si verificano sul piano cartesiano riporteremo solo massimo e minimo senza limite inferiore e limite superiore.

Il box-plot racchiude quindi al suo interno le seguenti informazioni:

  • Indice di posizione (misurato con la mediana ed i quartili);
  • Indice di variabilità (misurato con la differenza interquartile e con il campo di variazione);
  • Forma della distribuzione:
    1. Se abbiamo una DISTRIBUZIONE SIMMETRICA