Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Dispensa di Statistica, Dispense di Statistica

Dispensa di Statistica - Università di Firenze - Facoltà di Economia - Prof. Emanuela Dreassi - Anno 22/23. La dispensa contiene gli appunti presi durante le lezioni con esempi sugli esercizi fatti dalla professoressa, fondamentali per effettuare l'esame. Gli appunti sono stati integrati con le slide e il libro fornito dalla prof.

Tipologia: Dispense

2022/2023

In vendita dal 09/06/2023

irecorsini
irecorsini 🇮🇹

4

(6)

47 documenti

1 / 53

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
Prof. Emanuela Dreassi - Università di Firenze - Facoltà di Economia
22/02/2023
Origini della statistica - Cap. 1
-“Statistica” viene da “stato”, perché veniva utilizzata soltanto da chi governava lo
stato per raccogliere dati relativi alla popolazione, numero di cannoni, quantità di
raccolto. Recentemente si è agganciata alla matematica con il calcolo della
probabilità, primi anni ‘900.
-Statistica = insieme di metodi che servono per prendere informazioni da ciò che
vedo (dati) per aumentare la nostra conoscenza su un fenomeno. Viene utilizzata
per fare previsioni, analizzare un fenomeno o prendere decisioni.
- La statistica è sempre legata ad un contesto. Es: una malattia ha un tasso di
mortalità pari a 0,1%, il numero di morti dipende dal numero dei malati.
- Fasi del metodo statistico:
- disegno -> come reperire le informazioni
- descrizione -> come sintetizzare e descrivere i dati raccolti
- inferenza -> si usa il metodo induttivo, cioè dal campione si riporta le
informazioni su tutta la popolazione
-statistica descrittiva, cioè descrivere i dati (raccolta dati, presentazione dati e
caratterizzazione) e statistica inferenziale, si occupa di un problema ma si
osserva solo su 1 campione, per poi generalizzare il caso sull’intera collettività.
Termini statistici:
-popolazione o collettivo statistico = insieme che voglio studiare, es. studenti
italiani o edifici di firenze.
-unità statistica = un elemento della popolazione, es. uno studente italiano o ogni
edificio.
-campione = sottoinsieme della popolazione o insieme di unità statistiche, es.
classe del corso C-E o insieme di edifici di novoli.
-dati = risultato della rilevazione-misurazione di caratteristiche delle unità
statistiche, es. misuro altezza studenti del corso.
-variabile = X o Y, qualcosa che può variare, fenomeno su cui sto facendo
l’indagine, es. altezza dello studente.
-modalità = valori distinti ottenuti dalla variabile, es. 166 cm.
-parametro = quello che non conosciamo, es. altezza media degli studenti (parte
inferenziale).
-statistica = ciò che voglio osservare, es. media di altezza del campione (parte
inferenziale).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35

Anteprima parziale del testo

Scarica Dispensa di Statistica e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA

Prof. Emanuela Dreassi - Università di Firenze - Facoltà di Economia 22/02/

Origini della statistica - Cap. 1

  • “Statistica” viene da “stato”, perché veniva utilizzata soltanto da chi governava lo stato per raccogliere dati relativi alla popolazione, numero di cannoni, quantità di raccolto. Recentemente si è agganciata alla matematica con il calcolo della probabilità, primi anni ‘900.
  • Statistica = insieme di metodi che servono per prendere informazioni da ciò che vedo (dati) per aumentare la nostra conoscenza su un fenomeno. Viene utilizzata per fare previsioni, analizzare un fenomeno o prendere decisioni.
  • La statistica è sempre legata ad un contesto. Es: una malattia ha un tasso di mortalità pari a 0,1%, il numero di morti dipende dal numero dei malati. - Fasi del metodo statistico:
    • disegno -> come reperire le informazioni
    • descrizione -> come sintetizzare e descrivere i dati raccolti
    • inferenza -> si usa il metodo induttivo, cioè dal campione si riporta le informazioni su tutta la popolazione
  • statistica descrittiva, cioè descrivere i dati (raccolta dati, presentazione dati e caratterizzazione) e statistica inferenziale , si occupa di un problema ma si osserva solo su 1 campione, per poi generalizzare il caso sull’intera collettività.

Termini statistici:

  • popolazione o collettivo statistico = insieme che voglio studiare, es. studenti italiani o edifici di firenze.
  • unità statistica = un elemento della popolazione, es. uno studente italiano o ogni edificio.
  • campione = sottoinsieme della popolazione o insieme di unità statistiche, es. classe del corso C-E o insieme di edifici di novoli.
  • dati = risultato della rilevazione-misurazione di caratteristiche delle unità statistiche, es. misuro altezza studenti del corso.
  • variabile = X o Y, qualcosa che può variare, fenomeno su cui sto facendo l’indagine, es. altezza dello studente.
  • modalità = valori distinti ottenuti dalla variabile, es. 166 cm.
  • parametro = quello che non conosciamo, es. altezza media degli studenti (parte inferenziale).
  • statistica = ciò che voglio osservare, es. media di altezza del campione (parte inferenziale).

Fonti di variabilità:

La variabilità nei dati si riscontra:

  • in due misurazioni dello stesso oggetto (es. due misurazioni in contemporanea del battito cardiaco).
  • misurazione di due oggetti diversi (es. battito cardiaco di due persone oppure battito cardiaco della stessa persona in due momenti).
  • nei processi casuali (es. due estrazioni da un’urna contenente palline numerate da 1 a 20).

Matrice dei dati

  • forma rettangolare, ogni riga è riferita ad un’unità statistica e ogni colonna alle variabili.
  • spesso le modalità delle variabili qualitative sono espresse tramite codici per facilitare la registrazione dei dati (es. 1 per maschio, 2 per femmina).
  • controllare la coerenza dei dati (a livello concettuale, arrotondamenti ed errori di inserimento) e i dati missing (mancanti). 23/02/

Cap. 2 - Descrizione grafica dei dati:

(non fare p.11 scala rapporto e scala intervallo)

Tipi di variabili:

  • quantitative o numeriche = sono misurate in numero (es. numero di figli, altezza), sono variabili continue (hanno un numero di modalità infinito non numerabile, es. altezza, peso) e variabili discrete (hanno un numero di modalità

Variabili categoriche = qualitative Distribuzione di frequenza -> “frequenza assoluta” è quante volte si ripete una modalità (maschio o femmina). La somma delle frequenze assolute deve dare il totale. Distribuzione statistica disgregata = dati grezzi. Frequenze relative (wi di una modalità xi della variabile X): come trovarle? Frequenza assoluta Frequenza relativa maschi = 5 ⅝ = 0,625100 = 62,5% femmine = 3 ⅜ = 0,375100 = 37,5% totale = 8 totale = 100% E’ la frazione o proporzione di unità statistiche che presentano tale modalità.

Grafici per variabili qualitative:

Diagrammi a barre e diagrammi a torta sono spesso usati per dati qualitativi. L’altezza delle barre o l’area dei settori circolari rappresenta la frequenza relativa o assoluta di ciascuna categoria. MEGLIO DIAGRAMMA A BARRE

Grafici per variabili quantitative:

Quando ho tante modalità si crea delle classi e si calcola la frequenza delle classi. Le classi devono essere:

  • di solito con la stessa ampiezza, e si determina:
  • usare almeno 5 intervalli ma non più di 15-20 intervalli
  • gli intervalli non si devono sovrapporre
  • arrotondare l’ampiezza dell’intervallo per ottenere gli estremi della classe desiderati Il grafico che si utilizza per rappresentare le classi di questi dati è l’ istogramma.

La differenza tra l’istogramma e il diagramma a barre è la distanza tra le barre che c’è nel diagramma a barre. Nel diagramma a barre l’altezza è la frequenza relativa e nell’istogramma l’area è la frequenza relativa. 03/03/ Come raggruppare i dati in classi:

  1. determinare il numero di classi di intervallo (solitamente da 5 a 20)
  2. determinare l’ampiezza degli intervalli (vedere se tutti uguali) = (max - min) / n. classi
  3. determinare la regola di chiusura degli intervalli (chiusura a dx o sx)
  4. costruire l’istogramma (può essere costruito con fr. relative, assolute e percentuali) Istogramma con basi di diversa ampiezza: Altezza = ordinata -> fr. ass. / ampiezza Base = ascissa -> ampiezza Ogiva = serve per rappresentare le fr. cumulate, si rappresenta come una linea spezzata sopra l’istogramma (guarda es. 2.10 sul qua)

Grafici e tabelle per descrivere relazioni tra due variabili:

  • variabili qualitative -> tabelle a doppia entrata o di contingenza (es. su qua). Per ogni combinazione di due variabili categoriche si riporta la fr. ass. o rel. - variabili quantitative -> diagramma a dispersione (si mette nelle y la variabile che dipende dall’altra, es. il costo dipende dal volume di produzione). 08/03/ Tabella di contingenza basata sulle percentuali totali (49/ x 100 = 40.50) (14/121 = 11.57)

(14/49 = 0.2857 x 100 = 28.57) fr. condizionata per riga (14/17 = 0.8235 x 100 = 82.35) fr. condizionata per colonna Frequenza condizionata = frequenza delle aziende che hanno un livello di rischio alto, dato che hanno come obiettivo la crescita (esempio su qua). Con il diagramma a barre accostate, si rappresenta la stessa modalità della variabile, ogni barra è l’incrocio delle modalità. Paradosso di simpson -> il 32% è morto in elicottero, il 24% è morto in ambulanza ma questo non basta.

Moda = modalità che vedo più frequentemente (anche per variabili qualitative e quantitative). Non influenzata da valori estremi. Può non esserci una moda e ci può essere più di una moda. Riassumendo: Mediana = 5+½ = 3° posizione = $300. Media e mediana non coincidono perché la media è maggiore della mediana. Media geometrica (es. sul qua)

Indici di variabilità = forniscono informazioni sulla dispersione o variabilità dei valori

Il grafico ha stessa media e stessa mediana ma variabilità diversa. La curva di distribuzione più bassa è più variabile rispetto a quella più alta.

Campo di variazione = differenza che osservo tra il valore più grande e il valore più piccolo. Ignora il modo in cui i dati sono distribuiti ed è molto sensibile agli outlier. Quartili = dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori. 1° quartile = ¼ 2° quartile = 2/4 cioè la mediana 3° quartile = ¾ 4° quartile = 4/4 cioè 100% Come si divide in quartili: (esempio sul qua)

  1. ordino i dati
  2. trovo la posizione (es. Q1 = (n+1) x 0,25; Q2 = (n+1) x 0,50 )
  3. individuo il valore Differenza interquartile: si usa per eliminare il problema degli outliers, elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati. Differenza interquartile = 3° quartile - 1° quartile Diagramma a scatola e baffi -> per variabili quantitative. Differenza interquartile = scatola (da Q1 a Q3) e da Xmin e Q1 è il baffo.

Si usa per confrontare la variabilità del fatturato di aziende di piccole e grandi dimensioni. Approssimazione per classi: si crea una tabella con i valori centrali delle classi e le loro frequenze assolute, poi si fa una media ponderata delle classi, la deviazione standard (S) si fa con la radice del (valore centrale x fr. assoluta - media classi)^2 / tot. fr. assolute (es. sul qua)

Forma della distribuzione:

Disuguaglianza di Chebyshev = da informazioni sulla proporzione degli intervalli ,

all’interno degli intervalli ci sta almeno tot. proporzioni di dati. Per un insieme di dati qualunque con media mu e deviazione standard sigma, si sceglie un valore K >= 1 Disegno su qua

K = 2 almeno il 75%

Che cosa ha di differente con la regola empirica? Si applica solo alle distribuzioni

simmetriche (campanulare) e non da un limite inferiore ma un circa. K = 2 circa il 95% Es. su qua

Trasformazione dei dati: moltiplicazione per una costante c

mu = media sigma quadro = S^2 = varianza sigma = S = scarto quadratico medio o dev. stand. Addizione di una costante a media + costante varianza e scarto rimangono inalterati

    • il valore di x è minore della media e il valore di y è maggiore della media (valori discordanti)
        • il valore di x è maggiore della media e il valore di y è minore della media (valori discordanti) Per ottenere un indice di associazione basta sommare i prodotti degli scarti:
      • indice positivo -> valori concordanti (cresce x quindi cresce y)
      • indice negativo -> valori discordanti (cresce x quindi decresce y)
      • se nulla -> nessuna tendenza, non c’è legame lineare (solitamente nelle parabole), il legame c’è ma non lineare. Esempio: 1.353 -> somma media di X 51.533 -> somma media di Y prodotto = prodotto tra le medie (1.466 = -0.103 x -14.233) Covarianza = somma dei prodotti / n- 1° dato sta nel - - (concordanti) 2° dato sta nel - - (concordanti) 3° dato sta nel + - (discordanti) 4° dato sta nel + - (discordanti) Dalla covarianza si passa al coefficiente di correlazione , cioè covarianza / prodotto degli scarti quadratici medi (Sx e Sy dati dal testo) e sta sempre tra -1 e 1. La correlazione è pari a 0 se la covarianza è 0 , quindi se non ho un legame lineare tra le variabili. Quindi il segno della correlazione seguirà il segno della covarianza:
      • correlazione > 0 allora la retta è crescente
      • correlazione < 0 allora la retta è decrescente
        • se r = -1 e 1 la retta passa sopra i punti
        • se r = 0 al variare di x, la y varia come vuole
        • se r = 0 non c’è relazione al variare di x

Una correlazione forte non determina la causalità, es. l’analisi tra le nascite e le cicogne nell’unità statistica degli stati del sud america, non vuol dire che sono le cicogne a portare i bambini ma l’unità statistica che lega le due variabili è la ruralità. Esempio di relazione lineare crescente Spiegazione su qua

  • y varia al variare di x costante. Regressione lineare semplice Se voglio osservare un punto preciso vicino la retta di regressione (esempio su qua) Errore = epsilon Regressione con il metodo dei minimi quadrati = cerca la retta blu che deve passare dal baricentro e gli da un’angolazione che stia nel mezzo il più possibile, cioè cerca di minimizzare la somma delle distanze tra i punti e la retta (scarti). S = covarianza S^2 = varianza r = coefficiente di correlazione lineare = covarianza / prodotto degli scarti quadratici medi