Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica basilare, Appunti di Statistica Economica

Le basi della statistica descrittiva e inferenziale. tendenza centrale e dispersione frequenze grafici ...

Tipologia: Appunti

2019/2020

Caricato il 17/09/2021

alessia-baldi-11
alessia-baldi-11 🇮🇹

1 documento

1 / 40

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAPITOLO 1
La statistica è la scienza che si occupa della trattazione dei dati osservati
riguarda fenomeni misurabili per ottenere informazioni.
La statistica è una scienza a supporto di tutte le altre scienze empiriche (
intendiamo tutte le discipline in fondano le loro teorie sulle osservazioni del
mondo reale chimica, economia, fisica…)
L'obiettivo si può classificare in due tipologie:
-rappresentare e descrivere i fenomeni (es. feedback del
rendimento=riassumere informazioni). Il suo obiettivo rientra nella
statistica descrittiva cioè raccoglie un insieme di tecniche svolta a
riassumere un insieme di dati
-ottenere informazioni su una popolazione di interesse osservata
parzialmente. Il suo obiettivo consiste nella statistica inferenziale cioè
dividere per avere le informazioni base.
La statistica viene vista come scienza dei dati a supporto di tutte le scienze
empiriche.
Serve la statistica per elaborare dati e trarre le loro informazioni sono:
1- I fenomeni si manifestano in maniera variabile e disomogenea.
(più i dati sono simili più è facile riuscire ad avere la performance)
2- La molteplicità dei dati
La statistica è l’arte e la scienza di raccogliere, analizzare, interpretare e
presentare dati nell’intento di trasformarli in informazioni utili.
Nell’ambito delle scienza economiche e aziendali, essa traduce i dati grezzi in
informazioni utili creando le basi per il processo di decision making.
I Rami della Statistica:
- statistica descrittiva: sono tecniche e metodi per la raccolta, la
rappresentazione (grafica), la visualizzazione e la sintesi (mediante il calcolo
dei parametri) dei dati presenti in un campione.
in questo caso la statistica viene utilizzata per indicare una misura sintesi dei
dati campionari.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28

Anteprima parziale del testo

Scarica Statistica basilare e più Appunti in PDF di Statistica Economica solo su Docsity!

CAPITOLO 1

La statistica è la scienza che si occupa della trattazione dei dati osservati→ riguarda fenomeni misurabili per ottenere informazioni. La statistica è una scienza a supporto di tutte le altre scienze empiriche ( intendiamo tutte le discipline in fondano le loro teorie sulle osservazioni del mondo reale→ chimica, economia, fisica…) L'obiettivo si può classificare in due tipologie:

  • rappresentare e descrivere i fenomeni (es. feedback del rendimento=riassumere informazioni). Il suo obiettivo rientra nella statistica descrittiva cioè raccoglie un insieme di tecniche svolta a riassumere un insieme di dati
  • ottenere informazioni su una popolazione di interesse osservata parzialmente. Il suo obiettivo consiste nella statistica inferenziale cioè dividere per avere le informazioni base. La statistica viene vista come scienza dei dati a supporto di tutte le scienze empiriche. Serve la statistica per elaborare dati e trarre le loro informazioni sono: 1- I fenomeni si manifestano in maniera variabile e disomogenea. (più i dati sono simili più è facile riuscire ad avere la performance) 2- La molteplicità dei dati La statistica è l’arte e la scienza di raccogliere, analizzare, interpretare e presentare dati nell’intento di trasformarli in informazioni utili. Nell’ambito delle scienza economiche e aziendali, essa traduce i dati grezzi in informazioni utili creando le basi per il processo di decision making. I Rami della Statistica:
  • statistica descrittiva: sono tecniche e metodi per la raccolta, la rappresentazione (grafica), la visualizzazione e la sintesi (mediante il calcolo dei parametri) dei dati presenti in un campione. in questo caso la statistica viene utilizzata per indicare una misura sintesi dei dati campionari.

Invece una misura di sintesi dei dati osservati sull’intera popolazione viene indicata come parametro.

  • statistica inferenziale: si occupa di selezionare un campione dalla popolazione ed elaborare i dati per trarre delle informazione sui parametri della popolazione NON certe. Le tecniche si differenziano in: **- Stima
  • verificare le ipotesi** Popolazione e campione hanno significati diversi: Popolazione → è costituita da tutti gli elementi (individui, oggetti, articolo) i cui i caratteri vengono studiati. Può essere chiamata anche popolazione bersaglio Campione→ una parte della popolazione selezionata per lo studio. **terminologia:
  • Variabile→** È un fenomeno o una caratteristica misurabile osservato su individui, animali, oggetti…(es. voti, occupato o disoccupato...)
  • Modalità→ è un valore che una variabile può assumere (possono essere di tipo numerico, categoriale ordinata o nominale…)
  • Unità statistica→ è ogni singolo elemento su cui sono rivelati i dati. Quindi è un individuo, animale, oggetto....

Quelli numerici detti anche dati quantitativi derivano da misurazioni o conteggi. Serie storiche dati cross Section In presenza di dati statistici raccolti nel corso del tempo, si parla di serie storiche. Quando i dati si riferiscono ad un istante o periodo di tempo fisso ma a diversi paesi, famiglie, individui si parla di dati cross Section. Ad esempio, per le serie storiche, si pone il problema di come confrontare i redditi del 1960 con quelli del 2017, perché all'aumentare della distanza temporale vari fenomeni possono accadere. Un fenomeno simile all'autocorrelazione nel tempo può manifestarsi anche con dati cross Section. In questo caso si parla di autocorrelazione spaziale geografico. Scala di misura È principalmente dedicato al trattamento statistico di dati di tipo numerico. Sia nel caso cross Section che in presenza di serie temporali, si pone il problema del processo di misurazione. E quindi importante fare una riflessione in merito alle diverse scale di misura. Per ogni scala di misura è necessario l'utilizzo di tecniche statistiche specifiche e appropriate. Nella scelta dei metodi di analisi è opportuno individuare preliminarmente la scala di misura dei dati. E possiamo distinguere quattro scale di misura. ● a livello più basso abbiamo la scala nominale —> Dove i dati rappresentano nomi o etichette. ● Su scala ordinale (soddisfazione, dimensione dell'auto, livello di istruzione, condizione socio economico)—> contengono più informazioni dei dati. Per esempio "decisamente sì" "è più sì che no”…. Tutti questi esempi esprimono diversi gradi di soddisfazione e non possiamo misurare di quanto un “cliente” può essere soddisfatto.

La distanza tra le varie soddisfazioni non è quantificabile perché i dati sono espressi su una scala perfettamente ordinale. ● Scala intervallo —> consentono un ordinamento delle osservazioni e la quantificazione uniforme ben definita delle distanze tra valori successivi nella scala stessa. (gradi, tempo del calendario in anni, quoziente di intelligenza). ● La scala rapporto —> include tutte le proprietà ma in aggiunta a 10 naturale, non soggettivo, che permette un confronto tra dati anche in termini di rapporto. (reddito, prezzo, età, peso, fatturato) Fonti dei dati: L'insieme di attività poste in essere per la raccolta dei dati grezzi (cioè di dati da elaborare statisticamente) viene indicato con il termine rilevazione. La rilevazione dei dati è una fase molto delicata perché adesso dipende strettamente la qualità delle informazioni raccolte e quindi dei risultati finali. Alcuni importanti fonti dei dati sono: ● Internet: c'è una buona probabilità di raggiungere anche i dati più nascosti oltre a quelli più visibili. ● Enti pubblici o privati: agenzie-governative aziende pubbliche o private rappresentano un'importante fonte di dati economico aziendali. Istituti di statistica nazionali o sovranazionali (come Istat o euro start) ma anche banche centrali l’UNESCO. Nel settore privato, società come bloomberg, forniscono importanti e dettagliati i dati su fai finanza. ● Studi originali: le informazioni cercate possono essere ottenuti e progettando e realizzando uno studio originale. Nella pratica esso si traduce nell'impostare e condurre un esperimento o un’indagine. Analizzando e confrontando le quantità vendute in funzione del prezzo, è possibile valutare l'effetto di questo sui volumi di vendita. La somministrazione del questionario ai rispondenti, è molto delicate ed affrontare con la dovuta cautela (per esempio come vengono scritte le domande come vengono presentate). Quando l'indagine implica la rilevazione dei dati su tutta la popolazione oggetto di studio, si parla di

Le variabili categoriali nominali→ sono modalità non intrinsecamente ordinali (come l’occupazione) (cittadinanza, settore attività, affiliazione politica) Le variabili categoriali binarie-dicotomica → esistono due sole modalità possibili. Consistono nel fornire informazione su assenza o presenza di una certa caratteristica nella unità statistica. (sesso, occupazione) Le variabili numeriche ( quantitative) → le modalità sono numeri Le variabili numeriche discrete → sono modalità che derivano da un conteggio (difetti, numero di clienti procurati, numero di figli, anzianità) Le variabili numeriche continue→ modalità che derivano da una misurazione (età, altezza, peso, reddito) Dataset: Il dataset è l'insieme dei dati grezzi, organizzati in modo tale da poter essere elaborati statisticamente in funzione degli obiettivi informativi dello studio. La prima regola: è che le modalità di ciascuna variabile dovrebbero essere opportunamente codificate, tenendo conto delle esigenze e della natura dei dati. per ogni variabile ordinale le etichette dovrebbero essere a loro volta ordinabili (ad esempio in base alle lettere dell’alfabeto). La regola universalmente riconosciuta e che le righe del dataset corrispondono all'unità statistiche e le colonne alle variabili. È possibile, per errore di rilevazione, di trascrizione del dato o di tipo informatico, che alcuni dati, siano mancanti.ciò va indicato utilizzando un simbolo specifico ( ?, * ). Dipende dal tipo di software adottato. In questi casi non è detto che la scelta migliore da fare sia quella di rimuovere le unità statistiche su cui si registrano dei mancanti. Talvolta opportuno e conveniente stimare i dati mancanti utilizzando l'informazione disponibile.

Ovviamente non è fattibile quando tutti i dati sono mancanti. CAPITOLO 2. Esempio variabili numeriche sul quaderno Tendenza centrale e dispersione (20, 16,25, 32,18, 17,15, 19,28) Vi sono fondi che rendono di più e altri che rendono di meno. L'obiettivo però è quello di valutare l'intera categoria presi in analisi. Per valutare se investire, è necessario valutare l'ordine di grandezza del rendimento, se il rendimento di questi fondi tendono a distribuirsi su valori elevati o meno. Statisticamente parlando siamo interessati alla tendenza centrale di questi valori numerici. Un altro elemento da considerare ai fini della decisione di investimento, attiene all'incertezza dello stesso, cioè al rischio. Quanto più fondi di questo tipo tendono ad avere un rendimento simile, tanto più basso è il rischio che, il rendimento sia inadeguato perché lontano dalla tendenza centrale. Dobbiamo valutare quindi la dispersione dei valori numerici che rappresentano i rendimenti. Tendenza centrale DEF: La tendenza centrale o posizione di un insieme di dati numerici fa riferimento a dove tendenzialmente sono posizionati i dati, cioè attorno a quali valori essi tendono a distribuirsi o a concentrarsi. Ciò significa che la categoria di fonti i cui rendimenti tendono a distribuirsi su valori più elevati sarà ovviamente preferibile. Questo non vuol dire che tutti i fondi di tale categoria abbiano rendimento maggiore di quelli dell’altra. Variabilità

Se indichiamo con Vj il J-esimo di cinque distinti valori osservati e con Fj il numero di volte in cui quel valore osservato. V1=1 V2=2 V3=3 V4=4 V5=5 sono le modalità mentre F1=1 F2=1 F3= F4=2 F5=3 (osservate) sono le frequenze assolute. È evidente che il caso più frequente è di cinque, mentre è raro l'uno e il due. Quindi 3 e 4 sono variabili limitate. È quindi opportuno raggruppare i dati definendo delle classi e calcolando quante osservazioni cadono in ciascuna. Non c'è un unico modo universalmente condiviso per scegliere il numero e l'ampiezza delle classi. Bisogna considerare che un numero eccessivo di classi non semplifica abbastanza la lettura dei dati. E anche un numero troppo ridotto di classi può creare problemi. Dato che l'obiettivo di ogni metodo di statistica descrittiva è quello di semplificare la lettura di dati, l'unica regola da seguire è quella della semplicità, nel calcolo e nell'interpretazione dei risultati. È comunque importante che siano chiare esplicite le scelte adottate, in modo che l'interpretazione dei risultati sia comprensibile non ambigua. Quando è utile e sensato si può considerare un valore rappresentativo per ogni classe. È ragionevole porre come valore rappresentativo il punto medio dell’intervallo. In presenza di frequenze assolute, la distribuzione di frequenza consiste quindi nell'elenco delle modalità o delle classi di valori e delle corrispondenti frequenze assolute. Ovviamente la somma delle frequenze assolute coincide con il numero di dati in esame cioè quelle osservate. Per confrontare le frequenze di insiemi di dati con diversa numerosità è opportuno ricorrere alle frequenze relative. (cumulata o semplice) esempio su quad dela differenza tra le due

CAPITOLO 2.

Distribuzione di frequenze relative percentuali Una tabella di frequenza relativa è un modo alternativo di riassumere i dati di una variabile numerica. Essa rappresenta la proporzione di casi in cui si osserva un certo valore o una certa classe. Ipotizzando che il numero di unità statistiche sotto esame sia pari ad N, la frequenza relativa della j.esima modalità o della j.esima classe è pari a: freq. relativa semplice <— Pj = Fj / N —> num. oss. Freq ass. Dove Fj è la frequenza assoluta. La frequenza relativa della modalità o della classe j.esima è un numero compreso tra 0 e 1, che indica la frazione di dati uguali a Vj o che cadono nella J-esima classe. A volte la frequenza relativa viene indicata come percentuale. Frequenze percentuali si ottiene moltiplicando x cento la frequenza relativa: 100 x Pj = 100 x Fj / N Ma è necessario confrontare due o più distribuzioni di frequenza. Mando il numero di dati analizzati nei diversi gruppi non è il medesimo, il confronto delle distribuzioni va fatto ricorrendo alla frequenza relativa o a quelle percentuali. Confrontare le frequenze di una certa modalità riguardanti due distribuzioni diverse non ha alcun senso se le frequenze stesse non sono espressi in termini relativi. Esempio: se il numero di femmine della classe fosse pari a 9 e numero di maschi pari a 5 , Le frequenze relative sarebbero rispettivamente 3 / 9 = 0, e 2 / 5 = 0,40.

Ovviamente la frequenza relativa cumulata si può tenere anche come rapporto tra la frequenza assoluta cumulata il numero di osservazione ovvero: Pj=Fj / N GRAFICI: Diagramma È un grafico utile a rappresentare la distribuzione di frequenza ( assoluta, relativa, non cumulata o cumulata e anche le variabili categoriali) di una variabile numerica con dati non raggruppati. Un asse del grafico rappresenta I valori della variabile, mentre l'altro rappresenta le frequenze. in corrispondenza dell'asse orizzontale viene tracciato un rettangolo o barra, la cui lunghezza è proporzionale alla frequenza e la larghezza è uguale per ogni Barra. Il grafico fornisce informazione anche riguardo alla variabilità del fenomeno. La variabile quindi può essere valutata in base alla velocità di crescita prima del massimo e di decrescita dopo il massimo. Quanto più rapidamente le frequenze crescono prima e decrescono dopo il valore massimo, tanto minore è la variabilità, e viceversa. Se la rapidità di crescita o decrescita delle barre del grafico è alta, significa che si osservano molti dati con valori vicini a quelli centrali e pochi dati con valori lontani da quelli centrali e quindi la dispersione bassa. Istogramma E’ un tipo particolare di diagramma a barre→ tale che ogni barra-rettangolo ha base corrispondente ad una classe e area proporzionale alla frequenza di quella classe. (quindi altezze proporzionali alle frequenze) E’ un grafico utilizzato per rappresentare una distribuzione di frequenza di variabili numeriche per dati raggruppati in classi (quindi per rappresentare classi e le frequenze associate alle classi ) Esempio sul quaderno-->pag

La densità di frequenza è il rapporto tra la frequenza e l’ampiezza della classe. Poligono di frequenza: (Assoluto relativa, non cumulata o cumulata) È uno strumento grafico per rappresentare distribuzione di frequenze di variabili numeriche. Di fatto è un istogramma perché parte da esso e collega i punti medi dei lati superiore delle barre (traccia una spezzata che collega i vari lati superiori). Si parte da zero e arriva a zero. Esso è preferibile soprattutto per confrontare due o più distribuzioni di frequenza. Esempio sul quaderno-->pag Variabili categoriali (si manifestano attraverso categorie) La distribuzione di frequenze consiste nell'elenco delle modalità (i modi in cui la variabile si manifesta, possibili valori che essa può assumere) e delle corrispondenti frequenze. La frequenza assoluta di una modalità è il conteggio di unità statistica su cui viene osservata quella modalità. La frequenza relativa è la proporzione di unità statistiche su cui viene osservata quella modalità Esempio sul quaderno-->pag Diagramme a barre per variabili categoriali Consiste nel rappresentare frequenze con dei rettangoli o barre che corrispondono ad una modalità, e ha lunghezza proporzionale alla frequenza di quella modalità. Esempio sul quaderno-->pag6ù

la media di X per la popolazione è: la media campionaria di X è: n<N La media può quindi considerarsi come il punto centrale punto di equilibrio. La media rappresenta il punto in cui collocare il fulcro per garantire l'equilibrio. I dati palestra sono bilanciati da quelli a sinistra, gli scarti sono pari a zero. In realtà una variazione, anche minima, comporta una variazione della media, perché viene calcolata utilizzando tutti i dati ovvero tutte le informazioni. Vantaggio→ nel suo calcolo utilizza tutte le informazioni osservate. semplicità di calcolo Svantaggio→ La media quindi ha un indice poco robusto perché sensibile alla presenza di outlier (dati anomali). Media troncata permetto di utilizzare sempre quasi tutte le informazioni ma è più robusto non prendendo gli estremi. MEDIANA =La mediana di un insieme di dati è un valore tale che almeno metà dei dati è minore o uguale ad essa e almeno metà dei dati è maggiore o uguale ad esso Esempio sul quaderno-->pag Consiste in un valore centrale nella successione ordinata dei dati. La procedura per determinarla, cambia a seconda che il numero di dati sia dispari o pari. Il calcolo della mediana presuppone l'ordinamento dei dati in senso crescente e l'individuazione della posizione centrale.

Se il numero dei dati è dispari, la posizione mediana : N + 1 / 2 per la popolazione n + 1 / 2 per il campione. Se il numero di dati è pari esistono due posizioni centrali: N / 2 ed N / 2 + 1 per la popolazione, e n / 2 ed n / 2 + 1 per il campione Vantaggio→ La mediana è un indice robusto in presenza degli outliers. Infatti l'ordine di grandezza dei valori estremi non cambia il valore centrale o la media dei due valori centrali. Utilizzabili per dati categoriali ordinali. MODA = La moda di un insieme di dati è il valore con frequenza, assoluta o relativa, maggiore. Essa implica la scelta della modalità più frequente, come valore tipico, che rappresenta l’insieme dei dati osservati. Quando non cè un valore più frequente degli altri, allora non si ha una moda. Vantaggio→ utilizzabile per dati categoriali nominali. Esempio sul quaderno-->pag

Misure di variabilità Esempio sul quaderno-->pag3A Misura di dispersione Così come per la tendenza centrale, per approfondire l'analisi empirica, è senz'altro utile e opportuno quantificare il grado di variabilità calcolando una misura di dispersione. A tale scopo esistono diversi indici, con diverso livello di robustezza, alcuni semplici e veloci da calcolare altri più complessi ma più idonei. Un indice di dispersione assume valori positivi quanto più grande è la variabilità dei dati. Inoltre Esso assume valore 0 quando la variabilità dei dati è nulla, cioè tutte le osservazioni della variabile coincidono con un unico valore, quindi abbiamo a che fare con una costante. Range o campo di variazione Xmax - Xmin E’ l’ampiezza dell’intervallo in cui cadono i dati Il Range o campo di variazione di un insieme di dati numerici è la differenza tra i due valori estremi, cioè la differenza tra Massimo e il minimo di questi dati. Vantaggio: è un indice molto semplice da calcolare ed interpretare perché non usa tutte le informazioni. Svantaggio: non utilizzando tutte le informazioni non è robusto alla presenza di outliers Esempio sul quaderno-->pag3A Range interquartile Q3 - Q L’ampiezza dell’intervallo in cui cade il 50% dei dati centrali. Meno sensibile alla presenza degli outliers Esempio sul quaderno-->pag3A ↓ Per individuare gli outlier abbiamo bisogno di Soglie:

  • Soglia inferiore→ Q1 - 1.5 * (Q3 - Q1)
  • Q3 + 1.5 * ( Q3 - Q1) Esempio sul quaderno-->pag3A

Box-plot è un grafico che rappresenta i 5 numeri di sintesi, di una distribuzione di dati numerici. Minimo, Q1, Mediana, Q3, Massimo Esempio sul quaderno-->pag4A Deviazione media assoluta Essa utilizza tutte le informazioni disponibili |dati osservati - media| + |dati osservati - media| + …. / numero di osservazioni MAD per la popolazione= / N MAD campionaria= / n Variazione si tratta della media dei quadrati degli scarti= (la differenza tra un singolo valore e la media). L'idea è quella di misurare la distanza dei dati dalla media, a prescindere dal segno della differenza Per come è costruita, la varianza è espressa nel quadrato dell’unità di misura utilizzata per la variabile. ( dati osservati - media) al quadrato / N o N - 1