Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Ripasso Statistica preventivo a Data Analysis, Schemi e mappe concettuali di Statistica

Appunti presi durante il corso di Data Analysis del professore Della Beffa come ripasso di statistica. Molto utili per avere una base della materia e seguire le lezioni/iniziare a studiare senza avere dubbi.

Tipologia: Schemi e mappe concettuali

2020/2021

Caricato il 31/03/2022

Chivon
Chivon 🇮🇹

4.5

(40)

15 documenti

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
RIPASSO
(Sapere almeno le nozioni base di varianza e mediana)
DISTRIBUZIONI DI FREQUENZA: ESEMPIO
Nella colonna 1 abbiamo un dato (x) con un certo numero di osservazioni (in totale sono 20) di una
determinata variabile.
Fare una Distribuzione di Frequenza significa identificare tutti i valori presenti nei nostri dati e
contare quante volte si ripetono.
Nella colonna (2) gli stessi numeri della colonna 1 sono disposti in ordine.
Tutto ciò è comodo quando vogliamo fare una distribuzione di frequenza (non utile per fare la
media) perché ci permette di vedere quali sono i valori e quante volte si presentano (per esempio
18 si presenta una sola volta).
Nella colonna 3 inseriamo i dati con n che indica quante volte si ripetono.
Primo passo per la distribuzione di frequenza:
Identificare quali valori e quante volte si ripetono.
La somma Σ delle Frequenze Assolute della colonna 3 (n) è 20.
La f nella colonna 3 esprime in proporzioni la Frequenza Relativa, che si calcola facendo n/20.
La frequenza assoluta e relativa posso calcolarla anche con dati non numerici, per esempio
categorici (marca A, marca B, marca C, ecc.)
x n f
A 3 3/7
B 2 2/7
C 2 2/7
7
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Ripasso Statistica preventivo a Data Analysis e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

RIPASSO

(Sapere almeno le nozioni base di varianza e mediana) DISTRIBUZIONI DI FREQUENZA: ESEMPIO Nella colonna 1 abbiamo un dato ( x ) con un certo numero di osservazioni (in totale sono 20) di una determinata variabile. Fare una Distribuzione di Frequenza significa identificare tutti i valori presenti nei nostri dati e contare quante volte si ripetono. Nella colonna (2) gli stessi numeri della colonna 1 sono disposti in ordine. Tutto ciò è comodo quando vogliamo fare una distribuzione di frequenza (non utile per fare la media) perché ci permette di vedere quali sono i valori e quante volte si presentano (per esempio 18 si presenta una sola volta). Nella colonna 3 inseriamo i dati con n che indica quante volte si ripetono. Primo passo per la distribuzione di frequenza: Identificare quali valori e quante volte si ripetono. La somma Σ delle Frequenze Assolute della colonna 3 (n) è 20. La f nella colonna 3 esprime in proporzioni la Frequenza Relativa , che si calcola facendo n/20. La frequenza assoluta e relativa posso calcolarla anche con dati non numerici, per esempio categorici (marca A, marca B, marca C, ecc.) x n f A 3 3/ B 2 2/ C 2 2/ 7

Tornando alla prima tabella, facendo riferimento al grafico a barre, i valori sull’asse x (18, 19, 20) sono in ordine, quindi sono stati trattati come dati ordinali o categorici? Se questi valori fossero stati numeri veri, avremmo avuto a quest’ora due buchi fra 21 e 24. Quindi sono stati trattati come Dati Categorici Ordinali (ma solo all’interno del grafico); lo capiamo dal fatto che le distanze tra un valore e l’altro non sono regolari. La somma dei valori si esprime con: Σ MEDIA = Σx/ n (somma di tutti i valori diviso n)

La mediana non richiede che il dato sia numerico, basta che esso sia ordinale. La media invece è sensibile solo alla grandezza, ma non all’ordine dei dati. Esempio moda e modana All’interno del grafico c’è anche la mediana=3 (compresa tra 2 e 4, con due casi a sinistra e due a destra). Se invece fosse stato: Esercizio sulla mediana con riferimento alla scala di Likert:

Ordinali: non posso dire che la mediana è 3, posso però dire che si trova nella zona del “così così”. Non posso assegnarle un numero perché si tratta di dati ordinali. LA MODA Indica il valore più, la frequenza massima che c’è nella distribuzione. La moda si può definire anche per variabili categoriche nominali, oltre quelle ordinali e numeriche, basta che ci sia un valore che abbia la frequenza più alta. Possono esserci casi in cui la moda non c’è, o casi in cui si hanno 2 o più mode. L'immagine ci aiuta a capire la relazione tra media - mediana – moda, immaginando una contrattazione sindacale. Ogni omino ha uno stipendio preciso, quello più diffuso (che capita più spesso) è 15000 dollari, che rappresenta la moda. La media si alza di parecchio in quanto il valore più alto è 300000 dollari, quindi vale 38500 dollari. I QUARTILI Con la stessa logica della mediana, si possono definire delle misure un po' più raffinate. Il ragionamento della mediana, cioè quello che divido il grafico in due parti uguali, può essere più esteso: divido il grafico in 4 parti uguali. Se prima avevo 50% e 50% --> diventano 25%, 25%, 25%, 25% Questi si chiamano QUARTILI: 25% PRIMO QUARTILE (Q1) 25% SECONDO QUARTILE (Q2) 25% TERZO QUARTILE (Q3) 25% QUARTO QUARTILE (Q4)

Il problema della media è che sintetizza tutto troppo. Quindi nasce la necessità di una nuova misura da affiancare alla media e che non abbia questo problema di eccessiva sintesi della media: ovvero la varianza. Prima di saper calcolare la varianza, parliamo dell’esigenza di misurare la Dispersione : La nostra variabile è “hai visto la pubblicità?”. La media alta o meno alta di tale variabile mi suggerisce se le persone l’hanno vista, se la ricordano, quanto bene funziona. Se la media è alta vuol dire che tutti se la ricordano; se la media è bassa allora in tanti non se la ricordano. Dal punto di vista della dispersione : supponiamo che la media della nostra variabile “Hai visto la pubblicità?" sia 7 (su una scala da 1 a 10); se i dati sono poco dispersi, cioè concentrati tutti più o meno fra 6 e 8 vuol dire che la gente la vede più o meno tutti allo stesso modo. Media 7, con scarti piccoli intorno alla media. Se invece, sempre con la media 7 (quindi mi ricordo la pubblicità), la dispersione è molto più grande, cioè c’è qualcuno che ha risposto 9, ma c’è qualcuno che ha detto 5, 4, 3, che vuol dire? Che in generale il ricordo della pubblicità è quello lì, sempre lo stesso, però c’è anche gente che non se la ricorda per niente e gente che invece se la ricorda benissimo. Nel primo caso abbiamo scarti piccoli, il campione è omogeneo perché se la ricordano bene più o meno tutti. Nel secondo caso invece qualcuno se la ricorda benissimo e qualcuno no. Perché è interessante la media? Se la media è bassa devo preoccupami di come sto facendo la pubblicità perché non la vede nessuno. Se invece la media ha una dispersione molto grande vuol dire che qualcuno la vede tanto e qualcuno la vede poco. Mi devo interrogare per capire chi la vede tanto e chi la vede poco. Se tutto il campione compreso fra 6 e 8 con media 7 allora io sono tranquillo e soddisfatto, posso decidere di migliorare la mia pubblicità per tutti, oppure che va bene già così. Se invece scopro che la dispersione è molto grande, allora non basta un ragionamento generico “miglioro la mia pubblicità o non la miglioro”, ma devo andare a fondo al mio campione: chi mi h dato 3? Chi 9? Scoprire che ce una dispersione grande è un’indicazione che indirizza la mia indagine in un altro modo: perché un pezzo di target lo raggiungo e un altro no? COME MISURARE LA DISPERSIONE Formula non precisissima perché: Se la varianza è calcolata sulla Popolazione, allora la formula è: Varianza del campione: Data una variabile x (sono tante variabili, cioè x1, x2, ecc.) che ha media x segnato

FORMULA DELLA VARIANZA

Varianza di x è uguale a 1/n sommatoria di Xi meno la media, tutto al quadrato, la sommatoria comprende tutti i valori di Xi. Come nasce questa formula? I miei numeri sono messi a caso e la media è x segnato. L'idea che sta alla base del calcolo della varianza è che per vedere se dei punti sono molto dispersi, mi interessa sapere se questi punti sono tanto lontani quanto vicini rispetto alla media: Consideriamo le distanze di ciascun punto rispetto alla media: Le distanze di ogni punto dalla media sono rappresentate dalla formula in rosso in alto. Se i punti sono molto vicini alla media, tutte queste distanze sono piccole. Se invece i punti sono molto dispersi e quindi tutti o molti dei punti sono lontani dalla media, queste differenze allora sono per lo più grandi Poca dispersione = distanze piccole/differenze piccole/media piccola Tanta dispersione = distanze grandi/differenze grandi Questo è il punto di partenza o di arrivo della nostra formula. Il problema di tale formula è che fa sempre 0. Perché se x segnato è la media, vuol dire che, per definizione, tante distanze stano a sinistra, tante stanno a destra, se c’è una distanza grande a destra, ce ne sarà anche una a sinistra. Quindi se si fa la media così com’è viene sempre 0. Ecco la correzione che fa la statistica: Facendo il quadrato di tutte queste differenze un po' positive e un po' negative, diventano tutte positive e così non danno più 0. Quindi la varianza fondamentalmente fa la media degli scarti dalla media al quadrato. Non calcoleremo mai a mano questa formula, ma con Excel o software statistico.

È scomoda da pensare questa cosa. Altro esempio: Se la x invece di essere il numero di clienti è un prezzo, quindi euro, la media è Euro, la varianza è Euro al quadrato. Questa cosa è scomoda perché se io ho che la media è 40, e la varianza è 9, io non posso fare: perché sto sommando euro con euro al quadrato, cioè sto sommando lunghezze con aree e non si può fare! Quindi viene comodo inserire una trasformazione della varianza che si chiama DEVIAZIONE STANDARD È la radice quadrata della varianza. Quindi riprendendo l’esempio di prima abbiamo: La deviazione standard fornisce una misura di dispersione che è data nella stessa unità di misura dei dati originali e quindi della media. Per cui nell’esempio di prima X medio = 40 e varianza di x = 9, viene fuori che la deviazione standard di x è uguale a 3 (radice di 9), e quindi posso anche dire: la distanza di una deviazione standard 40 – 3 e 40 + 3 e cosi identifico un intervallo intorno alla media e avrà senso interrogarsi su quanta gente c’è in quell’intervallo, quanta non ce n’è, ecc. La deviazione standard nasce dall’esigenza di fare delle operazioni tra la media e la dispersione e per farlo si parte innanzitutto dal calcolare la varianza, dopodiché basta fare la radice della varianza: L'ultima misura di dispersione è quella dello Scarto Interquartile, che non si usa quasi mai.