Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Caratteri statistici e variabili, Appunti di Statistica

Una panoramica approfondita sui concetti fondamentali della statistica descrittiva, come la classificazione delle variabili (qualitative e quantitative), gli strumenti della statistica descrittiva (distribuzione di frequenza, rappresentazione grafica, indici sintetici), le misure di tendenza centrale (media, mediana) e di variabilità (varianza, deviazione standard, coefficiente di variazione). Vengono inoltre trattati gli argomenti della distribuzione doppia di frequenza, della regressione lineare semplice e del coefficiente di determinazione. Questo documento rappresenta un valido supporto per lo studio e l'approfondimento dei principali temi della statistica descrittiva, utile sia per studenti universitari che per professionisti che necessitano di una solida base teorica in questo ambito.

Tipologia: Appunti

2022/2023

Caricato il 22/08/2024

nayeli-galli
nayeli-galli 🇮🇹

3

(1)

3 documenti

1 / 31

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA SOCIALE
È la disciplina che si occupa dell’elaborazione dei risultati dell’osservazione di uno o più caratteri
posseduti dagli elementi di un insieme determinato, con l’intento di
o Esprimere un giudizio e/o
o Prendere una decisione
In merito ad alcuni aspetti di una realtà di interesse che, in quanto riferita ad un insieme e non ai
singoli elementi che lo compongono, viene chiamata
fenomeno collettivo.
I
fenomeni collettivi
sono tutti quei fenomeni che presentano una
pluralità
di manifestazioni
diverse.
La statistica, quindi, è l'insieme delle metodologie per. Raccogliere, organizzare, sintetizzare,
analizzare, interpretare le manifestazioni dei fenomeni collettivi e, laddove, vene sano le condizioni,
generalizzare le evidenze osservate e trasformale in informazioni utili per i processi decisionali.
L’assenza della statistica
La ragion d’essere della statistica è la presenza di un certo livello di variabilità nei dati. Nello studio
dei fenomeni collettivi si è consapevoli che al variare dell’unità statistica u entro una certa
popolazione P= (u) variano certe caratteristiche misurate su u.
In altre parole, per lo studio di un fenomeno caratterizzato da assenza e variabilità non serve
scomodare uno statistico.
La statistica è quindi il fondamento logico e metodologico per la risoluzione dei problem decisionali
in condizioni di incertezza.
Le branche della statistica
La statistica descrittiva:
In questo settore rientrano i metodi per sintetizzare con opportune grandezze le
caratteristiche salienti dei fenomeni collettivi.
La descrizione passa attraverso le fasi di formazione del dato statistico e del trattamento
matematico dello stesso.
Per formazione del dato statistico si può intendere:
o L’elaborazione di dati preesistenti in natura.
o La necessità di procedere all’affettiva rivelazione delle informazioni necessarie alla
comprensione del fenomeno interesse.
Il processo di rilevazione delle informazioni
Il processo di rilevazione delle informazioni è generalmente distinto nelle fasi di:
o Definizione del piano rilevazione
o Raccolta delle informazioni
o Spoglio e classificazione
La fase più delicata è senza dubbio la prima, soprattutto in relazione al tipo di fenomeno collettivo
che si vuole indagare:
La statistica descrittiva è l’insieme di metodologie statistiche che si occupano della descrizione, cioè
dell’organizzazione della sintesi, dei dati osservati.
Tipologie di caratteri o variabili
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Anteprima parziale del testo

Scarica Caratteri statistici e variabili e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA SOCIALE

È la disciplina che si occupa dell’elaborazione dei risultati dell’osservazione di uno o più caratteri posseduti dagli elementi di un insieme determinato, con l’intento di o Esprimere un giudizio e/o o Prendere una decisione In merito ad alcuni aspetti di una realtà di interesse che, in quanto riferita ad un insieme e non ai

singoli elementi che lo compongono, viene chiamata fenomeno collettivo.

I fenomeni collettivi sono tutti quei fenomeni che presentano una pluralità di manifestazioni diverse.

La statistica, quindi, è l'insieme delle metodologie per. Raccogliere, organizzare, sintetizzare, analizzare, interpretare le manifestazioni dei fenomeni collettivi e, laddove, vene sano le condizioni, generalizzare le evidenze osservate e trasformale in informazioni utili per i processi decisionali. L’assenza della statistica La ragion d’essere della statistica è la presenza di un certo livello di variabilità nei dati. Nello studio dei fenomeni collettivi si è consapevoli che al variare dell’unità statistica u entro una certa popolazione P= (u) variano certe caratteristiche misurate su u. In altre parole, per lo studio di un fenomeno caratterizzato da assenza e variabilità non serve scomodare uno statistico. La statistica è quindi il fondamento logico e metodologico per la risoluzione dei problem decisionali in condizioni di incertezza. Le branche della statistica

  • La statistica descrittiva: In questo settore rientrano i metodi per sintetizzare con opportune grandezze le caratteristiche salienti dei fenomeni collettivi. La descrizione passa attraverso le fasi di formazione del dato statistico e del trattamento matematico dello stesso. Per formazione del dato statistico si può intendere: o L’elaborazione di dati preesistenti in natura. o La necessità di procedere all’affettiva rivelazione delle informazioni necessarie alla comprensione del fenomeno interesse. Il processo di rilevazione delle informazioni Il processo di rilevazione delle informazioni è generalmente distinto nelle fasi di: o Definizione del piano rilevazione o Raccolta delle informazioni o Spoglio e classificazione La fase più delicata è senza dubbio la prima, soprattutto in relazione al tipo di fenomeno collettivo che si vuole indagare: La statistica descrittiva è l’insieme di metodologie statistiche che si occupano della descrizione, cioè dell’organizzazione della sintesi, dei dati osservati.

Tipologie di caratteri o variabili

Le informazioni tratte dal processo di organizzazione e sintesi consentono di un prevenire ad una conoscenza del fenomeno collettivo studiato che è limitata all’insieme di dati osservati. Caratteri statistici o variabili o carattere statistico= variabile

  • i caratteri o variabili rappresentano i fenomeni collettivi oggetto di studio
  • una variabile è una qualunque caratteristica misurata sulle unità statistiche
  • una variabile può assumere modalità differenti in corrispondenza delle diverse unità statistiche della popolazione
  • l’insieme dei valori delle variabili deve essere esaustivo e i valori che la variabile può assumere non deve sovrapporsi. Classifica delle variabili
  • Variabile qualitativa II valori della variabile sono espressi da parole. Opportunità. Di usare codici.
  • Variabile quantitativa II valori della variabile sono di tipo numerico. Si ottengono da operazioni di conteggio o di misurazione

Sotto-classificazione delle variabili qualitative

  • Variabili e qualitative sconnessa È misurabile su scala nominale Date due modalità, è possibile solo dire se sono uguali o diverse
  • Variabili qualitative ordinata È misurabile su scala ordinale Date due modalità, è possibile definire un ordine 8ma non una distanza)
  • Variabile quantitativa discreta L’insieme delle modalità è un sottoinsieme di numeri interi I possibili valori della variabili formano un insieme di numeri distinti
  • Variabili quantitativa continua L’insieme della modalità è un sottoinsieme di numeri reali La variabile può assumere come valore ogni possibile numero reale incluso in un continuum infinito. Popolazione e campione
  • Popolazione: è l’insieme di tutte le unità statistiche oggetto di studio
  • Campione: è un qualsiasi sottoinsieme proprio delle unità statistiche che costituiscono la popolazione.

LA POPOLAZIONE

Insieme finito o infinito di unità che non interessano prese singolarmente ma per il contribuito che danno allo studio del fenomeno collettivo d’interesse. Esaustività: l'insieme dei valori della variabile deve includere tutti i possibili valori teoricamente osservabili della stessa. Non sovrapposizione: la variabile non può assumere valori diversi su una stessa unità statistica.

Perché studiare la statistica? Perché la statistica fornisce metodi, strumenti che permettono di prendere decisioni consapevoli basate su informazioni incomplete. Le scienze empiriche usano in maniera massiccia la Statistica al fine di studiare ed interpretare fenomeni di natura sociale e/o economica. ORIGINI DELLA STATISTICA

  • Il termine “statistica” deriva da” stato”: all’inizio la statistica riguardava la raccolta d dati relativi allo stato.
  • La formalizzazione matematica della statistica è recente: XVIII e XIX secolo: calcolo delle probabilità Prima metà del XX secolo: inferenza statistica, disegno degli esperimenti, campionamento stitico Anni 40- anni 70: sviluppi legati alle capacità di calcolo dei computer. COS’È LA STATISTICA Contesto → astrazione → contesto Scelta dei dati → metodologie statistica→interpretazione

Fasi di un’analisi statistica

1. Definizione degli obiettivi della ricerca

2. Rilevazione dei dati

3. Elaborazione metodologica

4. Presentazione ed interpretazione dei risultati

5. Utilizzazione dei risultati della ricerca

La disciplina statistica

  • Definizione statistica: scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni al fine di prevedere ad una o più conclusioni
  • Rappresentazione e studio quotitativo della realtà, di eventi e fenomeni complessi
  • Dal dato individuale al dato aggregato: il paradigma statistico è la sintesi delle informazioni.

La statistica sociale…

  • Studia i fenomeni sociali sotto l’aspetto antistatico
  • Cercando evidenziare le regolarità e tutte le possibili relazioni. →sociale: aggettivo di ampio significato e non univoco, ad, es:
  • Aspetti non economici delle relazioni tra essere umani
  • Qualsiasi fatto (anche accidentale) purché avvertito dal sistema nel senso di “societario”, pertinente al sistema sociale. →sociale: oggi questo, concetto tende ad ampliarsi, includendo diversi aspetti “sociali” perché percepiti dalla società.
  • Include ad es: qualità della vita, problemi ecologici e ambientali, processi educativi, espressioni di voto, modalità sociale e turistica, sport, tempo libero e comunicazione, psicologia… Sapere cosa pensano le persone, come vivono o si comportano, quali interessi hanno e perché, sono informazioni utili in tutti quei casi in cui si devono prendere delle decisioni. Una parte importante della statistica sociale riguarda la rilevazione e l’analisi statistica di comportamenti, opinioni e motivazioni soggettive in svariati campi →la natura e le caratteristiche dei fenomeni sociali impongono alcune specificità nelle fasi della raccolta delle iforrmzaioni e delle analisi descrittive e inferenziale.

Popolazione

  • Insieme delle unità in cui si manifesta il fenomeno oggetto di studio. La dimensione della popolazione è il numero delle unità statistiche della popolazione. Il relativo simbolo è N. La popolazione è l'oggetto di studio del Censimento

Campione

  • Sottoinsieme della popolazione in cui si manifesta il fenomeno oggetto di studio. La dimensione del campione, ossia il numero di unità statistiche che lo compone si indica con n.
  • Il campione è l’oggetto di studio delle indagini campionarie.

Parametro e Statistica

• Parametro: descrittore della popolazione. Valore numerico che descrive una caratteristica della

popolazione

• Statistica: descrittore del campione. Valore numerico che descrive una caratteristica del campione.

Statistica: principale

  • Statistica descrittiva: tecniche e metodi per collezionare, sintetizzare ed elaborare i dati in modo da trasformarli in informazioni.
  • Statistica inferenziale: tecniche e metodi per estendere i risultai ottenuti da un campione e li estende all’intera popolazione misurandone l’affidabilità.

La statistica descrittiva

Una caratteristica rilevata su una unità statistica prende nome di variabile o carattere. I possibili valori di una variabile prendono il nome di MODAITA’

Variabili qualitative vs variabili quantitative

  • Variabili qualitative: le modalità sono espresse con parole
  • Variabili quantitative: le modalità sono espresse con numeri (che derivano da un’operazione di misura o di conteggio)
  • La distinzione fra variabili qualitative e quantitative è importante per scegliere il metodo di analisi da utilizzare.

Variabili qualitative

  • Variabili sconnesse: non esiste un criterio logico secondo il quale ordinare le modalità
  • Variabile clicliche: esiste un criterio logico secondo il quale ordinare le modlità in livelli; la scelta della rima e l’ultima modalità dipende da una convenzione

Variabili quantitative

  • Variabili discrete: possono assumere solo determinati valori. Questi valori sono spesso numeri interi o comunque non decimali.
  • Variabili continue: possono assumere un infinito numero di varii possibili entro un intervallo di valori della scala numerica. Tali valori sono molto spesso il risultato di misurazioni.

Remark

Indagine Gallipoli:

  • Alcune migliaia di interviste ad elettori estratti casualmente dall'interazione popolazione.
  • Risultato previsto: Roosvelt 60% Landon 40%

Gli errori della Literary Digest

  1. Errori di copertura
    • le liste utilizzate non erano complete;
    • gli elenchi di proprietari di auto e di intestarsi di telefono non erano rappresentati del’intera nazione ma solo dei ceti più abbienti; Questi ceti tendevano a votare prevalentemente repubblicano.
  2. Autoselezione del campione
  • Le caratteristiche socio-demografiche dei cittadini che risposero al sondaggio erano presumibilmente diverse da quelle di colo che non risposero.
  • Tali caratteristiche erano tutte correlate al voto.

Indagine campionaria

Per indagine campionaria si intende un modo di rilevare informazioni:

  1. Interrogando → mediante interviste
  2. Gli stessi individui oggetto della ricerca
  3. E appartenenti ad un campione rappresentativo
  4. Mediante una procedura standardizzata di interrogazione
  5. Allo scopo di studiare le relazioni esistenti tra le variabili

Rilevazione dei dati

  • indagine censuarie vs indagini campionarie
  • campione probabilistico vs campione NON probabilistico
  • studio osservazione le vs studio sperimentale
  • indagine trasversali vs indagini retrospettive vs indagini prospettive.

Tipologie di indagine

Sono attivissime e su svariati argomenti, difficili farne una difficile elencazione. In primo luogo, è necessario decidere se l’indagine sarà:

  • Longitudinale: riferita a una coorte di individui seguiti nel temp; misura dell’evoluzione nel tempo delle caratteristiche di interesse; descrivono e analizzano adeguatamente i processi di mobilità/inerzia; controllano l’eterogeneità non osservata; conducono analisi su comportamento individuale.
  • Trasversale: se riferita ad un periodo per stimare le caratteristiche della popolazione.

IL CAMPIONAMENTO

Definizione e logica del campionamento

  • Il campionamento è sottoinsieme o una proporzione della popolazione totale, ovver un insieme di unità rappresentative della popolazione.
  • Per costruire un campionamento è però prima necessario conoscere qual è la popolazione oggetto di indagine: Logica del campionamento: individuazione della popolazione che ci interessa esaminare, e quindi selezione di un sottoinsieme di questa popolazione. Il sottoinsieme: così trovato deve rappresentare adeguatamente la popolazione. Rappresentatività: l’informazione ottenuta deve possedere lo stesso grado di accuratezza di quella che avremmo ottenuto esaminando l’intera popolazione.

Ampiezza del campione

  • Non esiste un REGOLA GENERALE
  • Dipende dalla NATURA della popolazione e dalle FINALITÀ dell’indagine.
  • La numerosità dovrà tenere conto di diversi fattori, quali: la variabilità tra gli elementi della popolazione Il livello d precisione che vuole raggiungere Il costo del campione
  • Problema della NON RISPOSTA Totale o parziale.

Costruzione del campione

  • Lista di campionamento: contiene tutti i membri della popolazione, dalla quale vengono estratti i soggetti che faranno parte del campione.
  • Presenza nella lista UNA SOLA VOLTA. Se la lista è RIDONDANTE non è. Garantita l’uguale probabilità di selezione.
  • Le liste non soo sempre complete ed accurate specialmente se riguardano una popolazione molto stesa.
  • Problemi: mancano aggiornamento delle liste → costruzione di una lista ad hoc per l’indagine da svolgere. Soggetti che rimangono esclusi dalla lista.

Campionamento probabilistico vs campionamento non probabilistico

Stratificati A grappolo A stadi La selezione è affidata a regole probabilistiche. La probabilità che ogni soggetto ha di sere estratto è nota. Il campione è detto rappresentativo.

  • Campionamento non probabilistici Accidentale A valanga Per quota Per testimoni privilegiati Per obiettivi o a scelta ragionata La probabilità che ogni soggetto ha di essere estratto è nota. Il campione è non rappresentativo.

Campionamento causale semplice

  • È il metodo più semplice: si estrae a caso il numero di individui necessari dalla lisa di campionamento;
  • Si devono conoscere le unità della popolazione;
  • Tutte le unità devono essere reperibili;
  • Ogni unità della popolazione ha la stessa probabilità di essere estratta;
  • L’estrazione non dece favorire individui con certe caratteristiche piuttosto che altre, altrimenti il campione risulterebbe DISTORTO: non ritrarre la realtà in modo veritiero.

Campionamento sistematico

  • Il campionamento è costruito selezionando un elemento dalla lista di campionamento ogni k elementi.il primo elemento è scelto in modo causale

Campionamento stratificato

  • La popolazione viene suddivisa in strati che contengono soggetti con caratteristiche omogenee tra loro.
  • Da ogni strato viene estratto, in maniera indipendente un campionamento causale semplice per costruire il campionamento complessivo.
  • Il numero appropriato di cassi può variare da strato a strato
  • Si possono anche combinare gli strati.

Campionamento a grappolo

  • È una procedura molto simile a quella del C. A stadi e viene utilizzata quando la popolazione è naturalmente suddivisa in gruppo. Di unità spazialmente contigue.
  • È utile quando manca l lista delle unità elementari.
  • Si scelgono casualmente dei grappoli di unità e si considerano tutte le unità appartenenti a tali grappoli.

Comportamento a stadi

  • Non comporta un aumento di efficienza rispetto al CCS ma una semplificazione della procedura di estrazione ed una diminuzione dei costi di rilevazione.
  • Rappresenta una scelta forzata quando manca la lista completa delle unità della popolazione.
  • Nel caso più semplice le unità vengono divise in unità primarie e unità secondarie e solo per queste ultime sarà necessario disporre della lista. Un campionamento su più stadi, o su più livelli, prevede:
  1. Una selezione dei punti di vendita;
  2. L’estrazione di un campionamento da ciascuno dei punti vendita selezionati.

Campionamento NON probabilistici

  • SVANTAGGIO: non essendo nota la probabilità, non si possono fare delle stime del grado di scostamento delle proprie misure dalla realtà: → mancata stima dell’errore di campionamento.
  • VANTAGGI:
    • tecniche di facile implementazione
    • poco costose
    • richiedono poco tempo per essere realizzate
    • consentono di approfittare della disponibilità di colo che sono disponibili a fare un’intervista.

Gli errori nella ricerca sociale

Fonti di errore

  • Errori campionari
    • riguarda solo i metodi di campionamento probabilistici
    • deriva dalla scelta del campionamento della popolazione
    • può essere stimato
  • Errori non campionari
  • legato alle assi di progettazione, esecuzione ed elaborazione di un’indagine
  • ha un’impatto maggiore rispetto all’errore campionario
  • necessita metodi ad hoc per essere stimato.

Errore di non-risposta

Le cause dell’errore di non-risposta:

  • Mancato contratto con oggetti estratti
    • difficoltà a raggiungere i soggetti estratti
    • irreperibilità de soggetti campionati
  • Rifiuto a rispondere
  • diffidenza nei confronti dell’estraneo
  • insicurezza nei confronti di una prova
  • rifiuto di carattere ideologico Come affrontare l’errore di non-risposta:
  • Ripetuti ritorni sulle persone non raggiunte dall’intervista
  • Tecniche di ponderazione

Statistica descrittiva

  • Qualche volta, l’insieme di valori assunti da una variabile assumono un ampio spettro di valori
  • In situazioni di questo tipo si può ricorre ad una distribuzione di frequenza in classi
  • La prima colonna elenca, in questo casso, gruppi, o meglio classi, di valori invece di singoli valori.
  • Solitamente le classi hanno la stessa ampiezza, pari a 5 o 10 e così via
  • Ciascun intervallo inizia con un valore che è un multiplo della larghezza dell’intervallo stesso.

Classi

Ripartizione della modalità in classi per:

  • Caratteri qualitativi ordinali
  • Caratteri quantitativi discreti
  • Caratteri quantitativi continui

Variabili quantitative: raggruppamento in classi

  • L’ampiezza e il numero delle classi dipende dal fenomeno studiato ed alla sua variabilità
  • Per le variabili discrete: il raggruppamento in classi è facoltativo
  • Per le variabili continue: il raggruppamento in classi è necessario

Distribuzioni di frequenza raggruppate in classi

Una distribuzione di frequenza raggruppata in classi consiste nel raggruppamento in classi esaustive e mutuamente esclusive che riportino il numero di osservazioni che riportino il numero di osservazioni in ciascuna classe.

Linee guida per la creazione delle classi

  • Le classi non devono sovrapporsi
  • Creare classi aventi la stessa ampiezza
  • Scegliere un’ampiezza di classe conveniente
  • Creare classi continue
  • Ordinare le classi in ordine crescente o decrescente

Rappresentazioni grafiche

Pro

  • Immediatezza e leggibilità
  • Ampia fruibilità Contro
  • Mancanza di dettagli
  • Utilizzo strumentale

Grafico a settori circolare

Diagramma a barre

Altri due tipi di diagramma a barre….

Strumenti della statistica descrittiva

  • Variabili considerate singolarmente:
    • rappresentazione grafica delle distribuzioni di frequenza
    • distribuzione di frequenza per ogni variabile
    • indice sintetici
  • Più variabili considerate congiuntamente
    • tabelle a doppia entrata
    • misura della relazione e dell’associazione tra due variabili
    • costruzione di indici statistici

Categorie di indici

  • Indici assoluti: misure che assumono valori senza limitazioni, il cui campo di variazioni dipende unicamente dalla variabile sotto osservazione; L’unità di misura dipende unicamente dall’Umm della variabile in oggetto.
  • Indice relativi: numeri pur senza udm; Utili per confronti fra misure di fenomeni simili;
  • Indice normalizzati: indici relativi che variano in un intervallo finito (generalmente [0,1] oppure [-1,+1]; Utili per sintesi e confronti di qualsiasi tipo fenomeno.

Indice di tendenza centrale

  • Valore rappresentativo della variabile nella sua globalità capace di sostituire in qualche modo tutte le osservazioni;
  • Calcolato per deteriorare un “centro” attorno al quale sono distribuite le osservazioni.

Moda

  • Moda (valore modale): modalità cui corrisponde la massima frequenza di una distribuzione di frequenza;
  • Se vi sono due o più mode si parla di distribuzione bimodali o multimodali;
  • Classe modale: classe di modalità cui corrisponde la massima frequenza o classe con densità di frequenza più elevata (se le classi non sono equi-ampie);
  • Vantaggi:
    • falicità di calcolo;
    • valore assunto dalle osservazioni;
  • Svantaggio: può rivelarsi un indice di posizione inutile

Proprietà della moda

  • Tutte le tipologie di dati hanno la moda, anche i dati qualitativi nominali.
  • Tutti i valori sono utilizzati nell’identificazione della moda.
  • Non è unica

Distribuzione senza moda: se tutte le osservazione hanno valore differente, la frequenza di tutte le modalità è pari a una. Distribuzione multimediale: se più di una modalità ha la stessa frequenza massima.

  • Facile da calcolare
  • Non è affetta da valori estremi: misura robusta

Media

  • Definizione: somma di tutti i valori assunti dalla variabile per ciascuna osservazione, divisa per il numero totale di osservazione;
  • Denominazione: media, media aritmetica, valor medio;
  • Calcolo della media di una variabile X: ci sono tre espressioni a seconda di come sono strutturate i nostri dati….

Primo criterio di calcolo della media aritmetica

Se abbiamo l'elenco esaustivo del valore assunto da ogni osservazione della popolazione

Secondo criterio di calcolo della media aritmetica

Se abbiamo la distribuzione di frequenza della variabile X, non ripartita in classi, che può assumere k modalità.

Valori estremi

  • Com’è influenzata la edita dai valori estremi? Supponiamo le nostre osservazioni siano: 1,1,1,1, 100 → la media è pari a 20.8.
  • Sebbene 20.8 la media, essa non rappresenta il comportamento tipico delle osservazioni!
  • Valori estremi rispetto agli altri valori sono chiamati outliers.
  • L'analisi dei dati al fine di identificare valori estremi (outlier) può essere molto utili al fine di: Identificare distribuzione asimmetriche Identificare valori errati in fase di immissione dati Fornire spunti interessanti sulla natura e distribuzione dei dati.

Proprietà della media aritmetica

  • Può essere calcolata solo per variabili quantitative
  • Tutti i valori sono utilizzanti e la media è compresa fra il minimo e il massimo valore delle osservazioni.
  • La media è unica
  • È facilmente influenzata da valori estremi (numeri molto grandi o molto piccolo compresi nel set di osservazioni): è una misura non-robusta

Mediana

  • Mediana:
    • termine centrale della distribuzione
    • modalità dell’unità statistica che occupa il posto centrale nella distribuzione ordinata delle osservazioni;
  • Calcolo della mediana
  • Proprietà della mediana: robusta agli outliers Valore che minimizza la somma degli scarti assoluti N:B: se la variabile è qualitativa ordinale e n è pari, non si calcola il valor medio, ma si indicano semplicemente i due valori.

Proprietà della media

  • Per poter essere calcolata richiede che il dato sia ordinale o quantitativo.
  • Tutte le osservazioni sono utilizzate

Un quintale-p, è quel valore che divide una distribuzione statistica in p parti uguali, ognuna delle quali contiene la p-esima parte della numerosità della distribuzione totale.

  • Se p=4 Quartili: dividono la distribuzione in quattro parti uguali.
  • Se p=10 Decili: dividono la distribuzione in dieci parti uguali
  • Se p=100 Percentili: dividono la distribuzione in cento parti uguali La mediana si può considerare il 2 quartile e il 50 percentile. Le quattro distribuzioni individuate dai quartili contengono ognuno il 25% delle numeosità totale:
  • L' 1 quartile è il quel valore maggiore o uguale del 25% delle osservazioni ordinate e inferiore al 75% delle restanti osservazioni
  • Il 2 quartile è quel valore ci ripartisce esattamente a metà la distribuzione ordinata.
  • Il 3 quartile è quel valore maggiore o uguale del 75% delle osservazioni ordinate e inferiore al 25% delle restanti osservazioni.

Misure di variabilità

Statistiche descrittive

  • L’obiettivo delle statistiche descrittive è quello di sintetizzare i dati per rendere fruibili le n formazioni in essi contenute
  • Descrivere i dati con grafici e tabelle
  • Descrizione numerica attraverso indici di sintesi di: centralità, variabilità, posizione.

Le misure di variabilità

La variabilità indica il grado di dispersione di un carattere, cioè la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere

  • Fonti di variabilità Quando il fenomeno si manifesta su unità statistiche distinte. Quando il fenomeno si manifesta ripetutamente sulla stessa unità statistica
  • Criteri per la costruzione delle misure di variabilità Confronto delle unità statistiche tra loro Confronto delle unità statistiche con una misura di centralità Numero di osservazioni coinvolte nel calcolo della misura: tutte o soltanto alcune
  • Proprietà di un indice di variabilità È nullo in assenza di variabilità, cioè quando tutte le unità della distribuzione presentano uguale modalità del carattere È tanto piùù grande quanto maggiore è la tendenza delle unità a presentare modalità tra loro diverse.

Variabilità ed eterogeneità

  • Gli indici di variabilità coinvolgono caratteri qualitativi.
  • Il concetto equivalente di dispersione per un carattere qualitativo è denominativo eterogeneità.
  • Le misure di eterogeneità sono basate sulle frequenze relative.
  • Le misure di eterogeneità non sono oggetto di questo corso. Le misure di variabilità di nostro interesse
  • Intervallo di variazione
  • Differenza
  • Varianza
  • Deviazione standard
  • Coefficiente di variazione

Intervallo di variazione

  • La più semplice di variabilità
  • Differenza tra massimo e il minimo dei valori osservati: intervallo di variazione R=Y (massimo) – Y (minimo)

Svantaggi dell'intervallo di variazione

  • L’intervallo di variazione ignora il mondo in cui i dati sono distribuiti
  • L’intervallo di variazione è molto sensibile agli outlier

Differenza interquartile

Differenza tra il terzo quartale e il primo quartile dei valori osservati: Differenzia interquartile IQR= Q (3) - Q ( 1 ) Rispetto all’intervallo di variazione non risente di dati anomali (outliers) Prende in considerazione soltanto il 50% di termini della distribuzione Può essere = 0 anche se l variabilità della distribuzione non è nulla, quando q(1) e q(3) hanno lo stesso valore.

Varianza e deviazione standard

  • Intervallo di variazione e differenza interquartile hanno un’utilità limitata perché prendono in considerazione soltanto due valori
  • Per questo motivo si è solidi calcolare misure di variabilità che coinvolgono le modalità di tutte le unità statistiche osservate
  • Noi ci focalizziamo sugli scostamenti dalla media aritmetica

Indici basati sullo scostamento dalla media aritmetica

  • Esistono misure di variabilità che sono basate sulle deviazioni dei dati da una misura di tendenza centrale come la media
  • Deviazione di un’osservazione dalla media campionaria y (o dalla media della popolazione) è l differenza tra i due valori
  • Ogni osservazione ha una deviazione: la deviazione è positiva quando ‘osservazione ha un valore al di sopra della media; negativa quando ha un valore di sotto.
  • La somma delle variazioni, ossia la somma delle differenze tra i valori y e la loro media aritmetica è sempre pari a zero
  • Per ovviare a questo problema, le misure di variabilità fanno uso o dei valori assoluti o dei quadrati delle deviazioni.
  • In effetti, a noi non interessa il segno delle deviazioni, ma soltanto l’intensità
  • In questo corso ci concentriamo sulle misure che fanno uso dei quadrati delle deviazioni.

Somma dei quadrati

  • Somma dei quadrati = somma delle deviazioni al quadrato
  • In formule: la Somma di quadrati di n valori di una variabile Y scartati dalla propria media aritmetica
  • La somma dei quadrati viene chiamata Devianza di Y

Varianza della popolazione

Se i dati sono riferiti all'intera popolazione (obiettivo: descrivere i dati)

  • Varianza = Media dei quadrati delle differenze fra ciascuno osservazioni e la media aritmetica
  • Formula

Varianza del campione

Se i dati sono riferiti a un campione

  • Varianza campionaria: media dei quadrati delle differenze fra ciascuna osservazione e la medi aritmetica
  • Formula

Perché divido per n-1?