Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Caratteristiche Quantitative e Qualitative e Distribuzioni Statistiche, Appunti di Statistica

Le caratteristiche quantitative e qualitative nelle statistica, inclusi continui e discreti, e discute la distribuzione statistica semplice di frequenza e intensità. Viene inoltre illustrata la costruzione di una distribuzione di frequenza e le distribuzioni relative, cumulate, percentuali relative e l'istogramma. Inoltre, vengono presentate le proprietà della media aritmetica e la modalità, mediana e interquartile.

Tipologia: Appunti

2020/2021

Caricato il 06/07/2021

caterinason
caterinason 🇮🇹

5

(1)

2 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1
la STATISTICA: studia e conosce i fenomeni collettivi (manifestazione di accadimenti, fatti per cui è
necessario analizzare per unità statistiche elementari, le unità statistiche sono portatrici di informazione sul
fenomeno oggetto di studio).
È necessario quindi prendere in riferimento più unità per avere indicazioni precise e specifiche sul
fenomeno.
Ciascun carattere è presente in ogni unità statistica con una determinata modalità. Ciascuna unità presenta
delle caratteristiche che si chiamano caratteri.
1) CARATTERI QUANTITATIVI (numerici): possono essere misurabili e sono il risultato di un conteggio,
quindi si possono esprimere con numeri cardinali su cui fare espressioni algebriche.
- Continui : se comunque si prendono due modalità è possibile individuare un’altra modalità
(infinità non numerabile di modalità). Es peso, età.
- Discreti : le modalità sono numeri interi (infinità numerabile di modalità) es numero dei fratelli
2) CARATTERI QUALITATIVI: le modalità sono espresse da espressioni alfabetiche o da numeri ordinali
(non esprimono una quantità). Sono chiamati anche caratteri categorici, quando le modalità
indicano qualità, categorie e attributi.
- Sconnessi o nominali : non è possibile graduare la diversità. Es religione
- Ordinali : si individuano a seconda se sia possibile o meno graduare la diversità delle
modalità. Es titolo di studio.
I fenomeni collettivi
- Mutabili: se le modalità nelle quali viene classificato un fenomeno sono di natura
qualitativa
- Variabile: se le modalità sono di natura quantitativa
Scale di misurazione: modo in cui le modalità registrate o catalogate. Scala nominale, scala ordinale, scala
ad intervallo e scala di rapporto.
La popolazione è l’insieme completo di tutte le unità oggetto di studio del fenomeno collettivo (N).
Il campione è il sottoinsieme delle unità osservate nella popolazione (n).
Campionamento causale semplice: procedimento usato per selezionare un campione di n oggetti da una
popolazione e ciascuna unità è scelta a caso. Il campione ottenuto quindi è causale.
STATISTICA DESCRITTIVA: comprende metodi grafici e numerici usati per sintetizzare ed elaborare i dati in
modo da trasformarli in informazioni.
STATISTICA INFERENZIALE: fornisce le basi per le previsioni e per le stime che consentono di trasformare le
informazioni in conoscenza.
MATRICE DI DATI: righe (individuano le unità statistiche) e colonne (individuano il carattere).
La rilevazione statistica (operazioni svolte ad acquisire info sul fenomeno di oggetto di studio): totale o
parziale. Un carattere è dicotomico se presenta solo due variabili.
La variabilità è l’attitudine del vostro carattere ad avere modalità diverse fra loro.
1
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Statistica: Caratteristiche Quantitative e Qualitative e Distribuzioni Statistiche e più Appunti in PDF di Statistica solo su Docsity!

CAPITOLO 1

la STATISTICA: studia e conosce i fenomeni collettivi (manifestazione di accadimenti, fatti per cui è necessario analizzare per unità statistiche elementari, le unità statistiche sono portatrici di informazione sul fenomeno oggetto di studio). È necessario quindi prendere in riferimento più unità per avere indicazioni precise e specifiche sul fenomeno. Ciascun carattere è presente in ogni unità statistica con una determinata modalità. Ciascuna unità presenta delle caratteristiche che si chiamano caratteri.

  1. CARATTERI QUANTITATIVI (numerici): possono essere misurabili e sono il risultato di un conteggio, quindi si possono esprimere con numeri cardinali su cui fare espressioni algebriche.
  • Continui: se comunque si prendono due modalità è possibile individuare un’altra modalità (infinità non numerabile di modalità). Es peso, età.
  • Discreti: le modalità sono numeri interi (infinità numerabile di modalità) es numero dei fratelli
  1. CARATTERI QUALITATIVI: le modalità sono espresse da espressioni alfabetiche o da numeri ordinali (non esprimono una quantità). Sono chiamati anche caratteri categorici, quando le modalità indicano qualità, categorie e attributi.
  • Sconnessi o nominali: non è possibile graduare la diversità. Es religione
  • Ordinali: si individuano a seconda se sia possibile o meno graduare la diversità delle modalità. Es titolo di studio. I fenomeni collettivi
  • Mutabili: se le modalità nelle quali viene classificato un fenomeno sono di natura qualitativa
  • Variabile: se le modalità sono di natura quantitativa Scale di misurazione: modo in cui le modalità registrate o catalogate. Scala nominale, scala ordinale, scala ad intervallo e scala di rapporto. La popolazione è l’insieme completo di tutte le unità oggetto di studio del fenomeno collettivo (N). Il campione è il sottoinsieme delle unità osservate nella popolazione (n). Campionamento causale semplice: procedimento usato per selezionare un campione di n oggetti da una popolazione e ciascuna unità è scelta a caso. Il campione ottenuto quindi è causale. STATISTICA DESCRITTIVA: comprende metodi grafici e numerici usati per sintetizzare ed elaborare i dati in modo da trasformarli in informazioni. STATISTICA INFERENZIALE: fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza. MATRICE DI DATI: righe (individuano le unità statistiche) e colonne (individuano il carattere). La rilevazione statistica (operazioni svolte ad acquisire info sul fenomeno di oggetto di studio): totale o parziale. Un carattere è dicotomico se presenta solo due variabili. La variabilità è l’attitudine del vostro carattere ad avere modalità diverse fra loro.

CAPITOLO 2

DISTRIBUZIONE STATISTICA: consiste nell’individuare quali sono le modalità distinte (classi di modalità) di uno o più caratteri. Si parla di distribuzione (statistica) di frequenza semplice quando ad ogni modalità distinta (o classe di modalità) DI UN SOLO CARATTERE si associa il numero di unità statistiche che presentano quella modalità (o classe di modalità) del carattere. Si parla di distribuzione (statistica) di intensità (di quantità) semplice quando ad ogni modalità distinta (o classe di modalità) DI UN SOLO CARATTERE si associa un dato statistico detto intensità (riferito alle unità che presentano quella modalità) rappresentativo non solo di un ammontare ma anche di una media, un rapporto ecc. DISTRIBUZIONE DI FREQUENZE: è una tabella per organizzare i dati, contiene due colonne, quella di sinistra contiene le modalità o classi di misura (contiene tutte le possibili risposte relative alla variabile oggetto di studio), quella di destra contiene l’elenco delle frequenze (numero di osservazioni) per ogni classe. Le frequenze possono essere

  • assolute: numero di unità assolute che presentono le medesime modalità del carattere,
  • relative: quota o percentuale (se moltiplicata per 100) di unità statistiche che presentono le modalità del carattere, si trova frequenza assoluta diviso il numero totale delle osservazioni. Per costruire una distribuzione di frequenza bisogna seguire:
  • regola 1: determinare k, il numero delle classi di intervallo si decide in modo arbitrario, se selezioniamo troppe poche classi determiniamo una perdita di informazioni sulle caratteristiche della distribuzione, se selezioniamo troppe classi potremmo scoprire che alcune non contengono osservazioni e hanno una frequenza molto bassa,
  • regola 2: le classi di intervallo possono avere la stessa ampiezza w determinata nel modo seguente

( valore massimo − valore minimo ) ÷ numero diclassi

w può essere arrotondato per eccesso, preferibilmente all’intero successivo

  • regola 3: le classi di intervallo devono essere collettivamente esaustive e mutuamente esclusive (senza sovrapposizioni), ciascuna osservazione deve appartenere a una e una sola classe, i limiti (estremi) di una classe devono essere definiti chiaramente. 1)distribuzioni di frequenze relative: è ottenuta dividendo ciascuna frequenza assoluta per il numero complessivo di osservazione, moltiplicando per il 100% si ottiene la distribuzione delle frequenze percentuali 2)distribuzione di frequenze cumulate: contiene il numero totale di osservazioni con valori minori del limite superiore di ciascuna classe, la distribuzione di frequenze cumulate si ottiene sommando alla frequenza della classe corrente le frequenze di tutte le classi precedenti. 3)distribuzione di frequenze relative cumulate si cumulano le frequenze relative (il numero deve essere compreso fra 0 e 1), per ottenerla si sommano le percentuali del numero delle unità, per ottenere le frequenze cumulate assolute si sommano il numero delle unità 4)distribuzione di frequenze percentuali relative: si cumulano le frequenze percentuali.
  1. DIAGRAMMA RAMO-FOGLIA: i dati sono raggruppati secondo le loro cifre più significative (rami), mentre le cifre meno significative di ogni osservazione (foglie) sono elencate a destra di ogni ramo, separatamente e in ordine non decrescente. TIPI DI DISTRIBUZIONE:
  • SIMMETRICA: le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro.
  • ASIMMETRICA: le osservazioni non sono distribuite in modo simmetrico rispetto al centro. Asimmetrica positiva se ha una coda che si estende a destra. Asimmetrica negativa se ha una coda che si estende a sinistra. CAPITOLO 3 MISURE DI TENDENZA CENTRALE MEDIA ARITMETICA: la media di un insieme di dati è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni. È la misura di tendenza più comune. La media è un numero centrale, compreso fra la modalità più piccola e la modalità più grande. La media aritmetica si indica con M(x). La media aritmetica si trasforma nello stesso modo in cui si trasformano i dati. La media aritmetica ha la stessa unità di misura dei dati coinvolti. La media aritmetica non si calcola su qualunque carattere, solo su quelli quantitativi. La media aritmetica è influenzabile dai valori estremi (outliers). La media aritmetica rappresenta il valore di x che ogni unità statistica assumerebbe in caso di perfetta eguaglianza nella distribuzione di x, lasciando inalterato il totale. Proprietà:
  1. La media è sempre compresa fra il valore minimo e il valore massimo delle osservazioni.
  2. Proprietà di omogeneità a M(x)= M (a x).
  3. Proprietà di linearità  M (a +x) = M(x) +a si ha una trasformazione lineare di tutte le modalità e quindi anche la media si trasforma allo stesso modo.
  4. M (a x +b) = a M(x) +b
  5. M(x-a) = M(x) -a
  6. Gli scarti semplici della media aritmetica sono ad esempio: x-M Se si fa la media degli scarti si ottiene zero. M (x-M) =0. La somma degli scarti dalla media è sempre zero. La somma degli scarti negativi è positiva e la somma degli scarti positivi è negativa, la loro somma (essendo di segno diverso) fa zero. La somma del quadrato degli scarti dalla media è minima.
  1. La media pesata è la media in cui le unità statistiche non hanno tutte lo stesso valore ma a ciascuna è associato un peso (che indica l’importanza del valore). MODA: la moda di un insieme di osservazioni (numeriche o categoriche) è la modalità che si presenta il maggior numero di volte. È quella modalità (o classe di modalità) che corrisponde alla massima frequenza assoluta o relativa alla quale è associata (a parità di ampiezza delle classi). La moda si applica su qualunque carattere (variabili quantitative, qualitative ordinali e variabili nominali). La moda corrisponde al rettangolo più alto nell’istogramma. La densità riduce una distribuzione di frequenza di classi ad avere ampiezza uguale a 1. Non è influenzata dai valori estremi. Fra dei dati può non esserci una moda, come può esserci più di una moda. MEDIANA: la mediana è l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente (o non crescente). La mediana è la modalità che divide in due parti uguali la distribuzione una volta che questa è messa in ordine non decrescente. La mediana è chiamata anche indice di indicazione. No è influenzata dai valori estremi. La mediana divide in due parti la distribuzione, la parte a sinistra è minore/uguale, la parte a destra è maggiore uguale. La mediana può essere calcolata sia per variabili quantitative che qualitative ordinali (modalità ordinate).
  • Se n (la dimensione del campione) è un numero dispari, la mediana è l’osservazione centrale,
  • Se n è un numero pari, la mediana si ottiene dalla media delle due osservazioni centrali. VARIABILITA’: l’attitudine di un carattere ad assumere diverse modalità INDICI DI VARIABILITA’: misurano la diversità dei dati, evidenziano la diversità. Gli indici di variabilità sono sempre ≥0. Devono avere la stessa unità di misura dei dati presi in considerazione. Quando la diversità è nulla (tutte le stesse modalità), la variabilità è zero (nulla). La variabilità è >0 quando almeno una modalità è diversa dalle altre. La variabilità fornisce informazioni sulla dispersione dei dati. La variabilità esiste in tutti i campi.
  • Campo di variazione: è la differenza tra il massimo e il minimo dei valori osservati, più è grande la variabilità dei dati rispetto al centro della distribuzione, più sarà grande il campo di variazione. Ha la stessa unità di misura dei dati. È uguale a 0 quando la modalità max= modalità min. Lo svantaggio del campo di variazione è che ignora il modo in cui i dati sono distribuiti ed è sensibile ai valori estremi.
  • Differenza interquartile: misura la variabilità del 50% dei valori centrali, in una sequenza di osservazioni ordinate in modo non decrescente è la differenza tra l’osservazione del terzo quartile e l’osservazione del primo quartile. Differenza interquartile= Q (3) – Q (1). Quartili: modalità che dividono la sequenza ordinata di dati in 4 segmenti contenenti lo stesso numero di valori, i quartili della distribuzione sono 3, e il secondo quartile coincide con la mediana. Q(1)= 0,25 (n+1), Q(2)= 0,50 (n+1) e Q(3)= 0,75 (n+1).
  • Scarto quadratico medio: misura della distanza fra ciascuna modalità e la media della popolazione, gli scarti sono tanti quanti sono le modalità di partenza. Gli scarti quadratici medi non possono essere confrontati fra loro perché dipendono dall’unità di misura e dall’ordine di grandezza.

MISURE DELLE RELAZIONI FRA VARIABILI

Indici di correlazione lineare: indici numerici che descrivono una relazione lineare fra le variabili che permettono di valutare l’intensità di questa relazione lineare. 2 variabili quantitative possono avere

  • associazione positiva: se vince il 1° e il 3°quadrante, le due variabili aumentano o diminuiscono simultaneamente, c’è quindi una relazione crescente
  • associazione negativa: se vince il 2° e il 4° quadrante, c’è una relazione inversa (negativa) fra la variabile x e la variabile y, cioè all’aumentare delle x la y diminuisce COVARIANZA: è una misura della relazione lineare fra due variabili, il valore della covarianza dipende dall’unità di misura e quindi non si tratta di un indice adeguato per valutare l’intensità della relazione lineare fra due variabili. Se cov(x,y) >0  relazione positiva o diretta Se cov(x,y) <0  relazione negativa o inversa COEFFICIENTE DI CORRELAZIONE LINEARE:
  • è un indice simmetrico (le 2 variabili sullo stesso piano)
  • è calcolato dividendo la covarianza per il prodotto degli scarti quadratici medi delle due variabili
  • è un numero puro (non ha unità di misura)
  • è sempre -1≤coeff≥
  • è tanto più vicino a 1 o a -1 quanto più le variabili x e y tendono a essere perfettamente allineate
  • è un indice di associazione lineare. RELAZIONI LINEARI Date due variabili quantitative talvolta si usa la x e per prevedere la y, la variabile x è detta variabile esplicativa, y dipendente. Talvolta la relazione tra x e y è circa lineare Usiamo per previsione approssimata la retta dei minimi quadrati, rende minima la distanza tra i dati e la retta Somma

La pendenza dei minimi quadrati si trova La retta  Pendenza positiva (>0) se r > Pendenza negativa (<0) se r< Pendenza nulla (=0) se r=