Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


STATISTICA BASE - Zanarotti, Appunti di Statistica

all'interno troverete tutto ciò che serve per superare al meglio l'esame!

Tipologia: Appunti

2020/2021

In vendita dal 22/05/2021

shereen-zangane
shereen-zangane 🇮🇹

4.6

(27)

25 documenti

1 / 82

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
INTRODUZIONE
È una scienza che studia i fenomeni collettivi attraverso la raccolta di dati (informazioni) che
vengono analizzati e interpretati (graficamente e non solo) dopo averli inseriti in matrice.
La statistica rappresenta sostanzialmente un insieme mondo vasto di strumenti e tecniche
che servono poi nelle discipline più disparate (economia, medicina, psicologia…).
La statistica è una disciplina al servizio delle altre: infatti in molti casi il contesto applicativo
fa si che la statistica si declini in modi particolari, nel senso che a seconda della disciplina in
cui viene utilizzata, si affinano alcune tecniche statistiche piuttosto che altre.
La statistica stessa si divide in branche (psicometria, biometria…).
Alla base di tutte queste metodologie vi sono dei rudimenti fondamentali (strumenti di base
su cui vengono costruiti strumenti più sofisticati). Molti dei metodi statistici sono trasversali,
soprattutto quelli basilari che saranno oggetto del corso.
ATTENZIONE: non confondere la statistica (disciplina) con le statistiche (prodotti
dell’elaborazione statistica ossia tabelle, grafici…).
TERMINOLOGIA
La statistica analizza in termini quantitativi i fenomeni collettivi, ossia i fenomeni il cui lo
studio richiede l’osservazione di un insieme di manifestazioni individuali.
(ESEMPI:
- Consumo di un determinato bene in un periodo fissato
- Reddito di un insieme di individui
- Statura di un insieme di individui
- I prezzi di uno stesso bene praticati in punti vendita diversi
- Il numero di pezzi difettosi prodotti in impianti diversi
- Quantità di pioggia caduta in un luogo nei 365 gg dell’anno
- Il n° di autoveicoli transitati al casello autostradale in un
mese
- La % di bambini che frequentano le materne comunali
- Il livello di istruzione di un gruppo di individui).
Chiameremo questi fenomeni collettivi CARATTERI oVARIABILI
Chiameremo MODALITA i possibili modi con cui ciascun carattere o variabile si
manifesta
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52

Anteprima parziale del testo

Scarica STATISTICA BASE - Zanarotti e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

INTRODUZIONE

È una scienza che studia i fenomeni collettivi attraverso la raccolta di dati (informazioni) che vengono analizzati e interpretati (graficamente e non solo) dopo averli inseriti in matrice. La statistica rappresenta sostanzialmente un insieme mondo vasto di strumenti e tecniche che servono poi nelle discipline più disparate (economia, medicina, psicologia…). La statistica è una disciplina al servizio delle altre: infatti in molti casi il contesto applicativo fa si che la statistica si declini in modi particolari, nel senso che a seconda della disciplina in cui viene utilizzata, si affinano alcune tecniche statistiche piuttosto che altre. La statistica stessa si divide in branche (psicometria, biometria…). Alla base di tutte queste metodologie vi sono dei rudimenti fondamentali (strumenti di base su cui vengono costruiti strumenti più sofisticati). Molti dei metodi statistici sono trasversali, soprattutto quelli basilari che saranno oggetto del corso. ATTENZIONE: non confondere la statistica (disciplina) con le statistiche (prodotti dell’elaborazione statistica ossia tabelle, grafici…). TERMINOLOGIA La statistica analizza in termini quantitativi i fenomeni collettivi, ossia i fenomeni il cui lo studio richiede l’osservazione di un insieme di manifestazioni individuali. (ESEMPI:

  • Consumo di un determinato bene in un periodo fissato
  • Reddito di un insieme di individui
  • Statura di un insieme di individui
  • I prezzi di uno stesso bene praticati in punti vendita diversi
  • Il numero di pezzi difettosi prodotti in impianti diversi
  • Quantità di pioggia caduta in un luogo nei 365 gg dell’anno
  • Il n° di autoveicoli transitati al casello autostradale in un mese
  • La % di bambini che frequentano le materne comunali
  • Il livello di istruzione di un gruppo di individui).
  • Chiameremo questi fenomeni collettivi CARATTERI o VARIABILI
  • Chiameremo MODALITA’ i possibili modi con cui ciascun carattere o variabile si manifesta
  • UNITÀ STATISTICA è l’unità elementare su cui vengono osservati i caratteri oggetto di studio (spesso le unità statistiche sono rappresentate da individui ma non lo sono necessariamente: potrebbero essere gruppi di individui/aggregati come famiglie, oggetti quali fatti culturali oppure oggetti in ambito produttivo, aggregati territoriali, eventi accaduti o periodi di tempo).
  • COLLETTIVO STATISTICO o POPOLAZIONE è un insieme di unità statistiche (è un aggregato). Va correttamente specificata la popolazione definendo con precisione (evitando ambiguità) quali unità statistiche appartengono alla mia popolazione di riferimento e quali no (devo specificare cosa intendo per “italiani”). Come son fatte le popolazioni? È istintivo pensarla come finita ma potrebbe anche essere infinita. Bisogna pertanto distinguere tra:
    • POPOLAZIONE INFINITA è formata da un numero infinito di unità statistiche (es. l’insieme dei malati di una certa malattia o l’insieme dei fatti criminosi che vi sono e vi saranno. Questi potrebbero diventare popolazione finita isolandoli in un campione di periodo di tempo o in un luogo specifico).
    • POPOLAZIONE FINITA è formata da un numero finito di unità statistiche (es. studenti presenti ora in quest’aula o le automobili vendute in Italia nel 2020). CLASSIFICAZIONE DEI CARATTERI STATISTICI L’elenco o insieme delle modalità (ossia tutti i possibili modi in cui questi caratteri si possono manifestare) assumibili da un carattere è detto SCALA DELLE MODALITÀ. I requisiti di tali scale sono:
  • ESAUSTIVE ossia le modalità elencate devono rappresentare tutti i possibili modi di essere del carattere. Non ci dev’essere una sola unità statistica che non si ritrovi nella scala.
  • MUTUAMENTE ESCLUSIVE ossia ad ogni unità statistica deve risultare associata una sola modalità. Non può accadere che una persona sia alta 1.87 cm ma anche 1.79. La principale distinzione che facciamo per i caratteri è tra:
  • CARATTERI QUANTITATIVI quando le modalità sono rappresentate da numeri.
  • CARATTERI QUALITATIVI quando le modalità sono rappresentate da parole A loro volta i caratteri qualitativi sono divisibili in due sottocategorie:
    • SCONNESSI o misurati su SCALA NOMINALE sono tutti quei caratteri tra le cui modalità NON ESISTE UN ORDINE

costruito, non deve succedere che una modalità ne resti esclusa.

  • QUANDO POSSIBILE E’ MEGLIO SE HANNO LA STESSA AMPIEZZA in alcuni casi è più sensata la scelta di un’ampiezza diversa. ESEMPIO: Carattere “reddito mensile” che è considerato un carattere quantitativo continuo, con un campo di variazione da 0 a + ∞. Se io considerassi un collettivo statistico di individui: gli italiani, mi troverei davanti a un numero vastissimo di modalità = interpretazione complicata. Costruisco dunque delle classi (in fasce di reddito).

Il simbolo |- è un modo per stabilire quale e se dei due estremi appartiene alla

classe (le classi devono essere disgiunte e contenere tutte le possibili modalità). Il trattino verticale significa che ciò che sta alla sua destra o sinistra (in questo caso ciò che sta alla sua sinistra dove non vi è il trattino orizzontale) è compreso nella classe. Dove vi è il trattino orizzontale implica che l’estremo è escluso dalla classe. In questo caso lo 0 è incluso nella prima classe mentre 25° è escluso. Se uno guadagna esattamente 250£ ricade nella seconda classe. Il 250£ a sinistra è detto estremo inferiore mentre il 500£ a destra è detto estremo superiore. È un esempio dove non ha senso costruire classi della stessa ampiezza ma ha senso crearle crescenti (non ha senso procedere di 250£ per volta soprattutto quando si giunge a redditi altissimi). Con le grandezze economiche ha senso ampliare le classi. N.B. l’estremo di sinistra è incluso nella classe mentre l’estremo di destra ne è escluso. AMPIEZZA CLASSE = estremo superiore – estremo inferiore. L'aggregazione di modalità di caratteri quantitativi avviene sia per quelli continui (per cui generalmente si lavora con classi) che per quelli discreti. ESEMPIO: Carattere “età” in anni compiuti di una popolazione di maggiorenni che è considerato un carattere quantitativo discreto con un campo di variazione 18-Oltre

Si procede anche in questo caso con una divisione per classi.

Si noti la notazione che corrisponde in questo caso a un semplicissimo trattino orizzontale senza parti verticali come in precedenza. La differenza rispetto a prima è che l’estremo inferiore di una classe non coincide con l’estremo superiore della classe precedente. Non vi è nulla tra 25 e 26 anni perché essendo un carattere discreto segue numeri interi senza intermediari. AMPIEZZA DI CLASSE = in questo caso bisogna considerare quante modalità sono raggruppate in quella classe. Non basta fare la sottrazione come nel caso precedente: 30-26= 4 ma bisogna contare 26, 27, 28, 29 e 30. Quando raggruppo in classi un carattere quantitativo discreto dove l’estremo superiore di ogni classe non coincide con l’estremo inferiore della classe successiva per individuare l’ampiezza della classe dovrò fare: Estremo superiore – estremo inferiore + 1 che mi dice quante distinte modalità sono contenute in ciascuna classe. N.B i due caratteri (reddito ed età) a seguito della classificazione in classi sono diventati formalmente dei caratteri qualitativi ordinali (da quantitativi che erano si sono perse di vista le singole modalità). ATTENZIONE: si può sempre passare da un livello di misura ad un livello di misura inferiore (da qualitativi sconnessi ai qualitativi ordinali e i quantitativi). Posso passare da un livello superiore a uno inferiore ossia: da un quantitativo farlo diventare un qualitativo ordinale o da un qualitativo ordinale a un qualitativo. ESEMPIO: da quantitativo continuo a quantitativo discreto; da quantitativo a qualitativo. Ma non posso fare l’operazione inversa che è ESTREMAMENTE ARBITRARIA e suscettibile di far sì che a seconda di come io effettuo questa trasformazione produco qualcosa che è viziato dal modo in cui ho fatto tale trasformazione. Pertanto i risultati che ottengo sono viziati. La classe non è un numero ma un qualitativo ordinale. Far diventare un qualitativo un quantitativo è un’operazione molto più delicata e complessa perché devo attribuire numeri e valori a delle modalità che non sono numeriche. Questa operazione viene comunque fatta spessissimo perché è molto più facile lavorare con i numeri. COME FACCIO AD ASSOCIARE DEI NUMERI A DELLE MODALITÀ’? ESEMPIO: carattere titolo di studio che è un carattere qualitativo ordinato. Associando dei numeri potrei fare: nessun titolo = 0 licenza elementare = 1 licenza media = 2 ecc… una volta attribuiti i numeri valgono le proprietà numeriche quindi licenza media sarebbe 2 volte la licenza elementare o la metà di qualche altra licenza. Non vi è più solo un ordinamento, e affermare che un titolo di studio sia il doppio dell’altro

RILEVAZIONE DEI DATI

La statistica è un insieme di strumenti per analizzare dati, per poterlo fare dobbiamo disporre dei dati, come fare?

  • raccogliere i dati che ci interessano
  • Utilizzare dati già raccolti/disponibili (magari non si trovano dati grezzi ma già lavorati in parte) Come si raccolgono i dati? Lo strumento principale è il questionario, può essere somministrato in vari modi:
  • intervista diretta
  • intervista telefonica
  • autocompilazione
  • compilazione mediante terzi Attenzione alle risposte mancate! Spesso le mancate risposte non sono equidistribuite rispetto alla popolazione obiettivo, ovvero ci saranno delle persone che rispondono e altre che non lo fanno e queste ultime sono tipologie particolari di unità statistiche ottenute casualmente (dobbiamo tenerne conto se no si hanno dei dati sbagliati) Come deve essere fatto un questionario? esistono regole in proposito (viste con il prof caselli). ● I dati possono essere già stati raccolti. Quali sono i principali produttori ufficiali di dati? In italia ci sono numerosi enti pubblici e privati che effettuano indagini statistiche, il principale è l’ISTAT (che appartiene ad un sistema statistico che collabora con unità locali SISTAN) Fa indagini di tipo censuario, rilevano informazioni su tutta la popolazione obiettivo. Quali sono le principali indagini?
  • censimento generale della popolazione e delle abitazioni (dall’unità d’Italia si fa ogni 10 anni, ma da quest’anno si ha una nuova modalità di censimento, censimento permanente, con rotazione periodica della popolazione indagata non più fatto con cadenza decennale ma in modo continuo)
  • Censimento generale delle industrie del commercio dei servizi e dell’artigianato
  • Censimento generale dell’agricoltura Di fatto l’ISTAT svolge moltissime altre indagini non censuarie (ovvero campionarie)
  • tutto ciò che riguarda il mondo del lavoro (tasso di occupazione, disoccupazione etc)
  • Indagine sui consumi delle famiglie (info sull’andamento dei prezzi)
  • Indagini multiscopo (ogni anno l’ISTAT sceglie dei temi attuali dal punto di vista sociale e approfondisce le tematiche attraverso indagini, produce pubblicazioni su queste tematiche) ISTAT è coordinata a livello europeo con EUROSTAT. Garantisce il confronto delle informazioni raccolte anche a livello europeo.

Altri produttori di dati in italia: Banca d’Italia Censis Istituti di ricerca privati (Eurispes, ISPO, EURISKO, DEMOSCOPEA, DOXA,…) in europa: ONU UNESCO FAO (Food and Agricoltural Org) WHO (World Health Org) WTO (World Trade Org) FMI • WORLD BANK OCSE/OECD (Organization for Economic Cooperation and Development) IOM (International Org for Migration) ELABORAZIONE DEI DATI Ora Supponiamo di avere i dati e doverli elaborare per avere una descrizione della nostra popolazione. Dobbiamo organizzare i dati con grafici e tabelle (attraverso l’uso di software statistici). Come si presentano i dati? Si presentano tramite la matrice dei dati , insieme di valori organizzati per righe e colonne. Convenzione vuole che in ogni riga vengano riportate le informazioni di un’unità statistica e ogni colonna riporta uno dei caratteri statistici considerati.

Precisiamo la terminologia: Frequenza assoluta è un numero associato ad ogni modalità di un carattere che mi dice quante volte quella modalità si è presentata nel collettivo statistico. Distribuzione di frequenza descrizione (ordinata quando è possibile) delle modalità assumibili da un carattere e delle corrispondenti frequenze. frequenza relativa e frequenza percentuale Abbiamo visto la distribuzione con le frequenze assolute, ma spesso si vuole capire la percentuale di unità statistiche che presenta una certa modalità. Ecco che oltre alle frequenze assolute possiamo costruire delle altre frequenze:

  • frequenze relative , ovvero frequenze assolute divise per la numerosità del collettivo.
  • Se le frequenze relative le moltiplico per 100 trovo le frequenze percentuali.

frequenze cumulate Ma potremmo anche chiederci: quante unità statistiche hanno meno di 40 anni? si usano le frequenze cumulate, ovvero quante modalità statistiche presentano una modalità inferiore o pari a quello che sto studiando. (Cumulo le frequenze prima, sommo quelle prima) tra le frequenze cumulate possiamo trovare anche quelle:

  • cumulate relative (frequenza cumualata / n)
  • cumulate percentuali. carattere: reddito Consideriamo la distribuzione del carattere reddito con riferimento a due popolazioni distinte. Reddito è un carattere quantitativo continuo Associo a queste classi ho la corrispondente frequenza assoluta. Non ha senso, però, confrontare queste due popolazioni, perché hanno densità diverse (ho più unità statistiche in B). Ricorreremo quindi alle frequenze relative o percentuali (NON ASSOLUTE), riconducendoci ad una popolazione di 1 unità o 100 unità per rendere comprensibile e confrontabile la distribuzione in merito a popolazioni con densità diverse.
  • Indichiamo con p con il deponente le frequenze percentuali (per quanto riguarda quelle non cumulate)
  • indichiamo con N 1 , N 2 ,...,Nk le frequenze cumulate assolute, associate alle k modalità del carattere X
  • indichiamo con F 1 , F 2 ,..., Fk le frequenze cumulate relative associate alle k modalità del carattere X
  • indichiamo con P1, P2,..., Pk le frequenze cumulate percentuali associate alle k modalità del carattere X TABELLA RIEPILOGATIVA NOTAZIONI

Buone norme per la costruzione delle tabelle di frequenza

  • titolo chiaro, a chi/cosa, dove o/a quando i dati si riferiscono. Se diventa troppo oneroso inserire tutte le informazioni dettagliate nel titolo si inseriscono delle note
  • Ogni riga e ogni colonna deve avere un’intestazione chiara
  • Non dimenticare di specificare l’unità di misura utilizzata
  • Utilizzare note per specificare il titolo
  • Specificare sempre la fonte dei dati (sotto la tabella)
  • Allineare le informazioni in modo che siano leggibili
  • Usare lo stesso numero di cifre decimali (in caso ci siano)
  • Sempre meglio includere i totali
  • Usare le classi se ci sono tante modalità SOMMATORIE Σ Questa lettera si chiama sigma , la ritroviamo all’interno dell’alfabeto greco e in statistica si legge “sommatoria”. Rappresenta un simbolo che consente di scrivere in modo compatto la somma di un numero finito o infinito di termini. Si compone di più parti:

𝑖= 3 ∑ 𝑥𝑖 = 2 + 5 + 4 = 11 ● 𝑖= 4 ∑ 𝑥𝑖 = 5 + 4 − 2 = 7 ● 𝑖=1 𝑚𝑎 ≠ 4 ∑ 𝑥𝑖 = 2 + 4 − 2 = 4 proprietà delle sommatorie: ● 𝑖=

∑ 𝑥𝑖 · 𝑦𝑖 ≠ 𝑖=

∑ 𝑥𝑖 · 𝑖=

∑ 𝑦𝑖 introduciamo la lettera c, che sta ad indicare una costante. quindi 𝑖= 𝑘 ∑ 𝑐 = 𝑐 + 𝑐 + 𝑐 +.... + 𝑐 𝑘 𝑣𝑜𝑙𝑡𝑒 = 𝑘 · 𝑐 prendiamo in esempio che c= ● 𝑖=

∑ 𝑐 · 𝑥𝑖 = 𝑐 · 𝑖=

∑ 𝑥𝑖 ● 𝑖=

∑ (𝑥𝑖 + 𝑦𝑖) = 𝑖=

∑ 𝑥𝑖 + 𝑖=

∑ 𝑦𝑖 particolari tipi di distribuzioni di frequenza ● Distribuzioni di quantità A volte i caratteri su cui fissiamo l’attenzione sono tali per cui non assoceremo per le diverse modalità delle frequenze, ma ci assoceremo delle quantità. É una situazione frequente nell’ambito economico e produttivo. Anziché delle frequenze, associamo alle distinte modalità del carattere le corrispondenti quantità (ad esempio prodotte, scambiate, trasportate, lavorate….)

esempio Consideriamo la produzione di un’azienda per tipo di mangime prodotto carattere. Tipi di mangime a diverse modalità (tipologie diverse) e associo la quantità prodotta alle diverse tipologie (specificare sempre l’unità di misura). il totale saranno le tonnellate complessive prodotte dall’azienda. ● serie storiche o temporali Le distribuzioni di quantità non sono l’unico caso da trattare in modo particolare. C’è anche il caso in cui i caratteri vengono rilevati nel corso del tempo (es. i dati della pandemia). Questo caso va trattato in modo diverso, si parla di serie storiche o temporali , dove le rilevazioni riguardano lo studio di uno o più caratteri nella loro evoluzione temporale. esempio Immatricolati in scienze politiche in italia dal 1998 al 2002. A destra troviamo il numero di immatricolati e a sinistra le fasce di tempo. ● serie spaziali o territoriali Può capitare di dover considerare le serie spaziali o territoriali. In questo caso le rilevazioni riguardano lo studio di uno o più caratteri nella loro distribuzione nello spazio. esempio Tabella con riferimento ai dati del covid per ogni regione italiana.

Sull'asse delle ascisse inserisco le due modalità (maschio e femmina) e sulle ordinate inserisco le frequenze. In questo caso solo l’asse delle ordinate ha significato numerico, ma posso anche rappresentare il grafico invertendo gli assi (non cambia nulla). Importante: uno solo degli assi deve avere significato numerico. esempio 2 Un caso particolare di grafico a barre. Quando si rappresentano due popolazioni si possono usare sempre i grafici a nastri mettendo le due popolazioni sullo stesso nastro, colorando in modo diverso le barre. Se metto sullo stesso grafico popolazioni diverse devo usare le frequenze percentuali e non assolute!

grafico a torta , in cui costruisco un cerchio e lo suddivido in spicchi, ciascuno sarà corrispondente ad una modalità e avrà una dimensione che dipende dalla relativa frequenza percentuale. Per la costituzione di grafici a torta bisogna fare in modo che l’angolo al centro corrispondente ad ogni fetta rispetti la proporzionalità esistente tra le frequenze. proporzione la frequenza percentuale : 100 = l’angolo al centro della fetta : 360

Dove 𝑔𝑗è l’angolo al centro della fetta corrispondente alla modalità j-esima (cui risulta associata la frequenza percentuale 𝑝𝑗).

risolvo la proporzione

𝑗 360

per i caratteri quantitativi (dove le modalità sono numeri) utilizzeremo gli assi cartesiani, ma entrambi avranno significato numerico. In questo caso si inseriscono sempre le modalità/ le classi/le intensità sull’asse delle ascisse (X) e le frequenze sull’asse delle ordinate (Y). ★ quantitativi discreti ➔ viene utilizzato un grafico ad aste , dove vado a mettere: sull’asse delle ascisse le distinte modalità, sull’asse delle ordinate metto le frequenze