Introduzione alla Statistica: Concetti Fondamentali e Applicazioni | Appunti di Statistica

Statistica 1

La statistica è una disciplina che ha come fine principale lo studio di un

particolare fenomeno in condizioni di incertezza e di razionalità limitata.

È dunque orientata a raccogliere, analizzare, presentare ed interpretare

dei dati, al fine di: ottenere informazioni affidabili e che siano di supporto

alle decisioni, inferire dai dati studiati qualche conoscenza sul problema

e prevedere eventi futuri (chiave: “incertezza” / “informazioni”).

Terminologia della statistica:

PIL – parametro più frequente per stimare le dimensioni globali di

un’economia; mentre il Pil Pro Capite è uno dei tanti indicatori

derivati, che serve per comparare i tenori di vita o per monitorare il

processo di convergenza o di divergenza economica, all’interno

dell’UE (ISTAT / EUROSTAT);

BES – “Benessere Equo-Sostenibile”, ha l’obiettivo di valutare il

progresso della società non solo dal punto di vista economico, ma

anche da un punto di vista sociale e ambientale. Dal 2016 oltre agli

indicatori e alle analisi di questo studio, ci sono anche i 17 obiettivi

dell’Agenza 2030 (SDGs -> Sustainable Development Goals);

Finanza – punta a trovare una soluzione ottimale sugli investimenti;

Marketing – punta alla valutazione e al miglioramento delle vendite

aziendali;

Processi produttivi – punta al controllo della qualità della funzione

produttiva;

Unità statistiche – entità su cui sono rilevati i dati;

Popolazione – insieme di elementi di interesse per l’indagine;

Campione – sottoinsieme della popolazione, ma che sia

rappresentativa della stessa. Per farsi che sia rappresentativo, tutte

le unità devono avere uguale probabilità di essere scelte (metodo

casuale);

Modalità – valori distinti assunti da una variabile;

Variabili – caratteristiche e aspetti rilevate sulle unità statistiche;

quindi rappresenta l’aspetto che la statistica sta studiando;

Frequenza assoluta – numero di volte con cui si presenta una certa

modalità;

Frequenza relativa – (frequenza assoluta / totale della frequenza

assoluta);

Frequenza percentuale – (frequenza relativa x 100);

Moda – rappresenta la frequenza più alta;

Oltre al campo economico e finanziario dove è possibile reperire le

informazioni necessarie allo studio di un certo fenomeno, esiste anche

un’altra fonte cui si possono attingere certe informazioni: ovvero quello

tecnologico attraverso i Big Data, che secondo il modello di Douglas

Laney (modello delle 3V), i Big Data possiedono le seguenti

caratteristiche:

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Concetti Fondamentali e Applicazioni e più Appunti in PDF di Statistica solo su Docsity!

Statistica 1

La statistica è una disciplina che ha come fine principale lo studio di un particolare fenomeno in condizioni di incertezza e di razionalità limitata. È dunque orientata a raccogliere, analizzare, presentare ed interpretare dei dati, al fine di: ottenere informazioni affidabili e che siano di supporto alle decisioni, inferire dai dati studiati qualche conoscenza sul problema e prevedere eventi futuri (chiave: “incertezza” / “informazioni”). Terminologia della statistica:  PIL – parametro più frequente per stimare le dimensioni globali di un’economia; mentre il Pil Pro Capite è uno dei tanti indicatori derivati, che serve per comparare i tenori di vita o per monitorare il processo di convergenza o di divergenza economica, all’interno dell’UE (ISTAT / EUROSTAT);  BES – “Benessere Equo-Sostenibile”, ha l’obiettivo di valutare il progresso della società non solo dal punto di vista economico, ma anche da un punto di vista sociale e ambientale. Dal 2016 oltre agli indicatori e alle analisi di questo studio, ci sono anche i 17 obiettivi dell’Agenza 2030 (SDGs -> Sustainable Development Goals);  Finanza – punta a trovare una soluzione ottimale sugli investimenti;  Marketing – punta alla valutazione e al miglioramento delle vendite aziendali;  Processi produttivi – punta al controllo della qualità della funzione produttiva;  Unità statistiche – entità su cui sono rilevati i dati;  Popolazione – insieme di elementi di interesse per l’indagine;  Campione – sottoinsieme della popolazione, ma che sia rappresentativa della stessa. Per farsi che sia rappresentativo, tutte le unità devono avere uguale probabilità di essere scelte (metodo casuale);  Modalità – valori distinti assunti da una variabile;  Variabili – caratteristiche e aspetti rilevate sulle unità statistiche; quindi rappresenta l’aspetto che la statistica sta studiando;  Frequenza assoluta – numero di volte con cui si presenta una certa modalità;  Frequenza relativa – (frequenza assoluta / totale della frequenza assoluta);  Frequenza percentuale – (frequenza relativa x 100);  Moda – rappresenta la frequenza più alta; Oltre al campo economico e finanziario dove è possibile reperire le informazioni necessarie allo studio di un certo fenomeno, esiste anche un’altra fonte cui si possono attingere certe informazioni: ovvero quello tecnologico attraverso i Big Data, che secondo il modello di Douglas Laney (modello delle 3V), i Big Data possiedono le seguenti caratteristiche:

 Volume, che si riferisce alla quantità di dati generati ogni secondo da sorgenti eterogenee, quali: sensori, log, eventi, email, social media e database tradizionali;  Varietà, che si riferisce alla differente tipologia di dati che vengono generati, accumulati ed utilizzati;  Velocità, che si riferisce alla velocità con cui i nuovi dati vengono generati;  Veridicità (+), in cui considerando la varietà dei dati e la velocità alla quale tali dati possono variare, è molto probabile che non si riesca a garantire la stessa qualità di dati in ingresso ai sistemi di analisi normalmente disponibile in processi tradizionali. È evidente che se i dati alla base delle analisi sono poco accurati, i risultati delle analisi non saranno migliori. È fondamentale quindi assegnare un indice di veridicità ai dati su cui si basano le analisi, in modo da avere una misura dell'affidabilità;  Valore (+), che si riferisce alla capacità di trasformare i dati in valore. Le variabili possono essere di due tipi:  Qualitativa (aggettivi / etichetta): o Sconnessa – nessun ordinamento naturale (sesso); o Ordinale – c’è un ordinamento naturale, quindi una disposizione a “scala” (voto sul comportamento);  Quantitativa (numeri): o Discreta – numeri interi (numero dei clienti); o Continua – numeri reali (tempo di trasferimento dei file). Come rappresentare i dati?  Con dati qualitativi è meglio usare un diagramma a barre (separate) o un diagramma a torta (angolo=frequenza relativa x 360);  Con dati quantitativi discreti è utile un diagramma a bastoncino; mentre per quelli continui è utile un istogramma (attaccato);  Se i dati sono molti, è utile raggrupparli in classi. Le regole da seguire sono: o Numero delle classi – è meglio tra le 5 e le 20; o Ampiezza delle classi – ([N;N) distanza) -> (w=(V.Max – V.min) / numero delle classi); o Limiti delle classi – ogni unità deve appartenere ad una e una sola classe. Nel caso in cui le classi dovessero avere ampiezze diverse, per la loro analisi è utile valutare la loro densità (frequenza relativa della classe / ampiezza della classe);  Una distribuzione di frequenza cumulata mostra il numero di unità che hanno valore inferiore o uguale al limite di ciascuna classe. La frequenza cumulata è calcolata come la somma delle frequenze di tutte le classi con valori o inferiori al limite della classe (è come se fosse una somma “a cascata” / stesso procedimento di prima). Per la rappresentazione di queste frequenze è utile un’Ogiva (che è costruito disegnando un punto in corrispondenza della frequenza cumulata di ciascuna classe, connettendo i punti disegnati tramite linee) o un diagramma stem-and-leaf (che evidenzia sia la

o Mediana, che è l’osservazione che occupa la posizione centrale. Se le osservazioni sono dispari, la formula è: (n+1)/2; mentre se le osservazioni sono pari, la formula è: media tra n/2 e (n/2)+1 (N.B.=queste formule indicano la posizione dell’osservazione interessata). Confrontandola con la media:  Se media = mediana -> grafico simmetrico;  Se media < mediana -> grafico asimmetrico a SX;  Se media > mediana -> grafico asimmetrico a DX; o Moda, che rappresenta la frequenza più alta (per l’analisi può essere richiesta anche più di una moda -> dati bimodali o plurimodali); o Percentili, che forniscono informazioni su come i dati si distribuiscono nell’intervallo tra il valore minimo e massimo (p-esimo -> X0.p). La formula del percentile è la seguente: Se il risultato (i -> posizione dell’osservazione) da un numero reale, bisogna arrotondarlo per eccesso; mentre se da un numero intero, bisogna fare la media tra i e i+1. Una forma famosa dei percentili sono i quartili, che sono la stessa cosa dei percentili, solo che sono calcolati tra il 25% (Q1), 50% (Q -> mediana) e 75% (Q3) (p); stessa regola di calcolo anche per i quartili;  Dispersione, che da l’idea di quanto i valori del campione o della popolazione sono distribuiti o dispersi intorno alla media. Essa consiste in: o Range, che è sostanzialmente la differenza tra il valore massimo e il valore minimo. Da considerare che essa tiene conto solo degli estremi e non della maggioranza delle osservazioni, e che è molto sensibile per la presenza di eventuali valori anonimi; o Scarto interquartile, che è l’intervallo che contiene il 50% dei dati posizionati in mezzo alla distribuzione di dati. La formula di calcolo è: IQR = Q3 – Q1; o Varianza, che fornisce una misura della variabilità dei valori assunti da una certa variabile, cioè fornisce la misura di quanto essi si discostino dalla media. Essa si basa sulla differenza tra ciascuna osservazione e la media (scarto della media). Le formule di calcolo sono:

o Deviazione standard (o scarto quadratico medio), che è definita come la radice quadrata della varianza (misura la dispersione dei valori attorno alla media); o Coefficiente di variazione, che misura la deviazione standard in relazione alla media. La formula di calcolo è la seguente: o Z-Score, che mostrano quanto un’osservazione è lontano dalla media. La formula di calcolo è: Zi = (xi – media)/s. Per dati che hanno una distribuzione simmetrica a campana, esiste una “regola empirica” che permette di determinare la % di osservazioni che si trovano entro un numero specificato di deviazioni standard dalla media:  Circa il 68% delle osservazioni, si trova in un intervallo di lunghezza pari a +/- una deviazione standard dalla media [media +/- s];  Circa il 95% delle osservazioni, si trova in un intervallo di lunghezza pari a +/- due deviazioni standard dalla media [media +/- 2s];  Circa il 99% delle osservazioni, si trova in un intervallo di lunghezza pari a +/- tre deviazioni standard dalla media [media +/- 3s]; Attraverso questo tipo di dati e attraverso la regola empirica, si possono identificare un particolare tipo di dati: i dati anomali (outliers). Per l’analisi di dati raggruppati, si utilizza il punto centrale di ogni classe (Mj) come elemento rappresentativo di quella determinata classe. Un sistema statistico che permette di evidenziare dati anomali e il grafico boxplot, che ha come dati input le seguenti statistiche: valore massimo, valore minimo, mediana, primo quartile e terzo quartile.

 Esperimento casuale, che è la situazione che ha più possibili esiti (incertezza);  Evento elementare (E), che rappresenta il risultato semplice dell’esperimento;  Spazio campionario (S), che è un insieme di eventi elementari;  Evento, che è un sottoinsieme dello spazio, e un insieme di eventi elementari. Essi possono essere: impossibili (vuoto=[]); o certi (S). Per la loro rappresentazione è utile un diagramma a Venn (stesse regole e principi degli insiemi). Inoltre un evento si dice complementare (Ac), quando un insieme di eventi appartiene ad S e non a A (N.B.: vuoto c=S e Sc=vuoto). Alcune operazioni riguardanti gli insiemi sono: unione -> insieme di tutti gli eventi elementari di S che appartengono ad almeno uno tra A e B (AUB) e intersezione -> insieme di tutti gli eventi elementari di S che appartengono sia ad A sia a B (AAB). Due eventi si dicono incompatibili se AAB=vuoto; mentre si dicono collettivamente esaustivi se A1UA2UAk=S; e per finire con una collezione di eventi esaustivi ma incompatibili tra di loro, si chiama “partizione”. Affinché la probabilità sia una misura coerente del grado di incertezza sul verificarsi di un evento, il calcolo deve rispettare i seguenti assiomi:  Non negatività: P(A)>=0;  Normalizzazione: P(S)=1;  Additività semplice: P(A1UA2UAk)=P(A1)+P(A2)+P(Ak). Conseguenze degli assiomi:  P(A)<=1;  P(Ac)=1-P(A);  Se AAB <> vuoto, allora P(AUB)=P(A)+P(B)-P(AAB);  P(vuoto)=0;  Se AcB, allora P(A)<=P(B). Formula di calcolo della probabilità La probabilità condizionata consiste nel valutare se la probabilità A si verifichi o no, a seguito del verificarsi dell’evento B (quindi essendo certo diventa S). L’evento si identifica come “P(A/B)”. Se questa probabilità è diversa da P(A), allora significa che il verificarsi di B modifica la probabilità assegnata ad A. La formula di calcolo è la seguente: con P(B/A), il denominatore è (in A). Principio della “legge del prodotto”: dati due eventi A e B tali che le loro probabilità siano >0, si ha che: P(AAB)=P(A/B)xP(B)=P(B/A)xP(A). L’indipendenza si verifica quando il verificarsi di un evento, non influenza la probabilità del verificarsi dell’altro -> P(B/A)=P(B), P(A/B)=P(A),

P(AAB)=P(A)xP(B); mentre l’incompatibilità si verifica quando il verificarsi di un evento, impedisce il verificarsi dell’altro e viceversa -> P(AAB)=0. Sia A1, A2, Ak una partizione dello spazio campionario, ovvero un insieme esaustivo ed esclusivo di eventi. La probabilità P(Ai) si chiama “probabilità a priori”. Sia inoltre B un altro evento e sia P(B/Ai) la probabilità condizionata di B a ogni evento A. È quindi possibile calcolare le “probabilità a posteriori” di ogni evento A dato che B è certo. Altre formule del Teorema di Bayes: P(A/B)=P(B/A)xP(A)/P(B) / P(A/B)=P(B/A)xP(A)/(P(B/A)xP(A)+P(B/Ac)xP(Ac))

P(B)=P(A)xP(A/B)+P(Ac)xP(Ac/B)

Il calcolo combinatorio è utile per contare il numero di casi favorevoli e possibili quando abbiamo a che fare con un numero elevato di casi. Partendo da un insieme S=[sN] di N elementi, quanti di n elementi si possono formare? Questo dipende da:  Tipo di estrazione (c’è la possibilità di una ripetizione di un certo elemento): o Con reinserimento; o Senza reinserimento.  Tipo di ordine (se conta una certa sequenza di elementi): o Rilevante; o Non rilevante. Principio del conteggio – Se un esperimento può essere realizzato con k fasi in modo che i vari nk possano dare risultati diversi, allora il totale dei risultati possibili sarà: “n1xn2xnk”. Una combinazione di N elementi di classe n, è un gruppo di n elementi scelti tra N oggetti diversi, nel quale non si possono avere ripetizioni di uno stesso oggetto e nel quale non si considera l’ordine degli elementi. Una permutazione di n elementi, è un gruppo formato da n elementi diversi, o dai medesimi elementi, purché disposti in modo diverso,

a ciascun possibile valore x€Sx la stessa probabilità -> f(x) = P(X=x) = 1/n; o Di Bernoulli, che si verifica quando una v.c. può assumere il valore 1 come probabilità “p” (A -> successo) o il valore 0 come probabilità “1-p” (Ac -> insuccesso) -> la singola esecuzione di tale esperimento è detto “prova Bernulliana” (X- Ber(p)). La funzione quindi è: f(x) = P(X=x) = p x (1-p) 1-x con x=0, 1 (E = p/V = p(1 – p)); o Binomiale, (X-Bin(n, p)) che rappresenta il numero di successi che si possono presentare in n prove Bernulliane indipendenti, nelle quali è costante la probabilità di successo o insuccesso. Quindi il numero di successi X è uguale alla somma delle prove Bernulliane: X=Y1+Y2+Y3+…+Yn. La funzione di probabilità è la seguente: (E = np/V = np(1 – p)) Da tener presente che: x€Sx=[0, 1, …, n]; 0<=p<=1; e (n x)=n!/(x!(n-x)!); o Di Poisson, (X-Poisson(landa)) che è una v.c. discreta che può assumere qualsiasi valore intero x>=0 e con distribuzione della probabilità pari a: Questa variabile si può usar anche per rappresentare il numero di eventi di un certo tipo che si verificano in intervallo di tempo o spazio prefissato (V = lan);  Continuo, che riguarda un qualunque valore numerico, in un intervallo o in un insieme di intervalli (es.: demografia e salute, in cui la v.c.X è il tasso percentuale di disoccupazione in Italia, mentre la Sx = [0,100] -> “QUALSIASI VALORE”). In questo tipo di dati si ricorre ad una particolare funzione, ovvero la funzione di densità (f(x)). L’area al di sotto della seguente funzione, corrispondente ad un intervallo, fornisce la probabilità che la v.c.X assuma un valore in quell’intervallo: P(a<=X<=b)=area sottostante la curva tra a e b. Per una v.c.X, per qualsiasi possibile valore di x: P(X=x) = P(x<=X<=x) = 0. Inoltre sempre secondo la funzione densità: più l’ampiezza degli intervalli si riduce, più l’approssimazione del grafico è precisa. Proprietà delle variabili casuali continue: o f(x) >= 0; o f(x) <> P(X=x); o P(-infinito<=X<=+infinito) = 1;

o P(a<=X<=b) = P(a<=X<b) = P(a<X<=b) = P(a<X<b). Media Varianza Deviazione standard La funzione di ripartizione (o funzione di probabilità cumulata) della v.c.X, è una funzione che associa a ciascun valore x la probabilità dell’evento; per cui la v.c.X assume valori minori o uguali a x -> F(x)=P(X<=x) -> 0<=F(x)<=1. In questa funzione esiste una relazione univoca (una e una sola) tra la funzione di ripartizione e la funzione di densità (per X continua) o di probabilità (per X discreta). Per calcolare la probabilità di un intervallo: o (a; b] -> P(a<X<=b) = P(X<=b) – P(X<=a) = F(b) – F(a); o [a; b]. Se X è:  Continua -> P(a<=X<=b) = P(a<X<=b) = F(b) – F(a);  Discreta -> P(a<=X<=b) = P(a<X<=b) + P(X=a) = F(b)

F(a) + f(a). Adesso vediamo alcuni modelli matematici: o Uniforme continua, (X-U(a, b)) che è una variabile che assume valori reali in un intervallo limitato [a; b], con a e b numeri reali e a<b, tale per cui la probabilità di ogni intervallo di valori contenuto in [a; b] è proporzionale alla lunghezza dell’intervallo stesso (E = (a+b)/2/V = (b – a) 2 /12)); o Gaussiana (o Normale), (X-N(media, varianza) che è una variabile continua che assume valori su tutto l’asse reale, con funzione densità: Osservazioni:

ambito dobbiamo tener presente due termini: statistica descrittiva, in cui si descrivono le caratteristiche di una popolazione rispetto a una o più variabili, attraverso strumenti statistici (tabelle, grafici, ecc.); e teoria della probabilità, in cui si deducono le probabilità dei possibili esiti di un esperimento, le corrispondenti distribuzioni e i parametri che la caratterizzano. Per arrivare ad accurate inferenze si utilizza la “teoria dei campioni”. In questa teoria esistono due tipi di campionamento:  Probabilistico (regole probabilistiche);  Non probabilistico (conoscenze ad al giudizio del ricercatore). Un altro punto per arrivare a delle informazioni esatte sulla popolazione, si utilizza anche il calcolo della probabilità. Infatti esso è l’anello di congiunzione tra popolazione e campione. Grazie ad esso: permette di determinare con quale probabilità i risultati provenienti dal campione riflettono i risultati ottenibili dall’intera popolazione; e fornisce una misura dell’errore commesso. Ogni inferenza si basa sui seguenti elementi:  Popolazione di riferimento, che può essere: finita (insieme di N unità statistiche) o infinita (insieme infinito di unità potenzialmente osservabili). Dopo aver definito la mia popolazione, passo a tradurre il mio problema in termini statistici, introducendo le v.c. adatte al modellamento del fenomeno all’interno della popolazione (in questo caso v.c. e popolazioni diventano sinonimi). Formula: Dove: o f – distribuzione; o teta – parametro che specifica le caratteristiche della v.c.. L’insieme dei possibili valori che il parametro può assumere, si chiama spazio parametrico; o X – v.c. in cui se è discreta, f è una funzione di probabilità; mentre se è continua, f è una funzione di densità;  Campione casuale, che è un prelevamento dalla popolazione. Essa può essere: finita (di dimensione n da una popolazione finita N, selezionato in modo tale che ogni campione abbia la stessa probabilità di essere scelto); o infinita (ciascuno degli elementi campionati è indipendente e segue la medesima distribuzione di probabilità definita per la popolazione). Un campione casuale semplice quindi, è una collezione di v.c.X, se le X, sono indipendenti ed identicamente distribuite (i.i.d.), come la distribuzione del modello descritto dalla popolazione;  Procedura di raccolta e selezione di informazioni;

 Tecnica inferenziale per giungere alla popolazione. Con esse le informazioni campionarie vengono rapportate alla conoscenza della popolazione. Abbiamo tre teorie che supportano queste procedure: o Teoria della stima: dal campione osservato si traggono informazioni per determinare un valore numerico per il parametro (teta) che caratterizza la popolazione; o Teoria degli intervalli: dal campione osservato si cerca di determinare un intervallo di valori reali, in cui riporre il parametro (teta) con una elevata fiducia; o Teoria del test delle ipotesi: dal campione osservato si traggono informazioni per verificare quale tra due ipotesi statistiche sul parametro (teta) sia ritenuta più verosimile;  Giudizio di validità statistica: in presenza di incertezza, si rendo necessario un “giudizio” sulla validità statistica della procedura utilizzata: per ciascuna delle procedure inferenziali, bisogna individuare quali requisiti determinano l’ottimalità di una procedura; e poi è necessario individuare i metodi statistici che producano procedure ottimali. Si definisce statistica Tn=T(X1, X2, …, Xn) una qualunque funzione a valori reali (transfrormazione) del campione casuale X=(X1, X2, …, Xn) che non dipende da altre quantità incognite. È quindi una sintesi delle informazioni derivate dal campione casuale. Essendo la statistica una v.c., ha una distribuzione che si chiama distribuzione campionaria. Sia data una v.c.X-f(x; teta) dalla quale si estrae un c.c.s.X=(X1, X2, …, Xn). La statistica media campionaria è una variabile casuale definita come: Supporto – insieme di tutti i possibili valori della Xc. Campionamento da una popolazione Normale: (stesse regole della Gaussiana) Campionamento da una popolazione non Normale: in questo caso viene in aiuto un teorema: il teorema del Limite Centrale, che consente di fare affermazioni sulla distribuzione della media campionaria, anche quando la popolazione non ha distribuzione Gaussiana. Sia (X1, X2, …, Xn) un

(Stimare la varianza incognita di una popolazione).

Introduzione alla Statistica: Concetti Fondamentali e Applicazioni, Appunti di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Concetti Fondamentali e Applicazioni e più Appunti in PDF di Statistica solo su Docsity!

Statistica 1

P(B)=P(A)xP(A/B)+P(Ac)xP(Ac/B)