Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Ripasso Statistica preventivo a Data Analysis, Schemi e mappe concettuali di Statistica

Libera università di lingue e comunicazione (IULM)Statistica

Prof. Francesco Della Beffa

Appunti presi durante il corso di Data Analysis del professore Della Beffa come ripasso di statistica. Molto utili per avere una base della materia e seguire le lezioni/iniziare a studiare senza avere dubbi.

Tipologia: Schemi e mappe concettuali

2020/2021

Caricato il 31/03/2022

Chivon 🇮🇹

4.5

(40)

15 documenti

1 / 11

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

RIPASSO

(Sapere almeno le nozioni base di varianza e mediana)

DISTRIBUZIONI DI FREQUENZA: ESEMPIO

Nella colonna 1 abbiamo un dato (x) con un certo numero di osservazioni (in totale sono 20) di una

determinata variabile.

Fare una Distribuzione di Frequenza significa identificare tutti i valori presenti nei nostri dati e

contare quante volte si ripetono.

Nella colonna (2) gli stessi numeri della colonna 1 sono disposti in ordine.

Tutto ciò è comodo quando vogliamo fare una distribuzione di frequenza (non utile per fare la

media) perché ci permette di vedere quali sono i valori e quante volte si presentano (per esempio

18 si presenta una sola volta).

Nella colonna 3 inseriamo i dati con n che indica quante volte si ripetono.

Primo passo per la distribuzione di frequenza:

Identificare quali valori e quante volte si ripetono.

La somma Σ delle Frequenze Assolute della colonna 3 (n) è 20.

La f nella colonna 3 esprime in proporzioni la Frequenza Relativa, che si calcola facendo n/20.

La frequenza assoluta e relativa posso calcolarla anche con dati non numerici, per esempio

categorici (marca A, marca B, marca C, ecc.)

x n f

A 3 3/7

B 2 2/7

C 2 2/7

7

Scopri Schemi e mappe concettuali di Statistica Libera università di lingue e comunicazione (IULM)

Documenti correlati

Esercitazione domande aperte Data Analysis

(10)

Appunti completi probabilità e statistica per il marketing

(1)

Statistica e Machine Learning 2024

analisi bivariata più domanda di inferenza statistica più vari esercizi

Probabilità e statistica per il marketing

(2)

data analysys per della beffa in iulm

data analysis corso della beffa

appunti lezione della beffa magistrale

Data Analysis Della Beffa

Analisi dei Dati per il Marketing: Metodi, Strumenti e Applicazioni - Prof. Della Beffa

Appunti Data Analysis Professor. Della Beffa

analisi bivariata voto 30

Anteprima parziale del testo

Scarica Ripasso Statistica preventivo a Data Analysis e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

RIPASSO

(Sapere almeno le nozioni base di varianza e mediana) DISTRIBUZIONI DI FREQUENZA: ESEMPIO Nella colonna 1 abbiamo un dato ( x ) con un certo numero di osservazioni (in totale sono 20) di una determinata variabile. Fare una Distribuzione di Frequenza significa identificare tutti i valori presenti nei nostri dati e contare quante volte si ripetono. Nella colonna (2) gli stessi numeri della colonna 1 sono disposti in ordine. Tutto ciò è comodo quando vogliamo fare una distribuzione di frequenza (non utile per fare la media) perché ci permette di vedere quali sono i valori e quante volte si presentano (per esempio 18 si presenta una sola volta). Nella colonna 3 inseriamo i dati con n che indica quante volte si ripetono. Primo passo per la distribuzione di frequenza: Identificare quali valori e quante volte si ripetono. La somma Σ delle Frequenze Assolute della colonna 3 (n) è 20. La f nella colonna 3 esprime in proporzioni la Frequenza Relativa , che si calcola facendo n/20. La frequenza assoluta e relativa posso calcolarla anche con dati non numerici, per esempio categorici (marca A, marca B, marca C, ecc.) x n f A 3 3/ B 2 2/ C 2 2/ 7

Tornando alla prima tabella, facendo riferimento al grafico a barre, i valori sull’asse x (18, 19, 20) sono in ordine, quindi sono stati trattati come dati ordinali o categorici? Se questi valori fossero stati numeri veri, avremmo avuto a quest’ora due buchi fra 21 e 24. Quindi sono stati trattati come Dati Categorici Ordinali (ma solo all’interno del grafico); lo capiamo dal fatto che le distanze tra un valore e l’altro non sono regolari. La somma dei valori si esprime con: Σ MEDIA = Σx/ n (somma di tutti i valori diviso n)

La mediana non richiede che il dato sia numerico, basta che esso sia ordinale. La media invece è sensibile solo alla grandezza, ma non all’ordine dei dati. Esempio moda e modana All’interno del grafico c’è anche la mediana=3 (compresa tra 2 e 4, con due casi a sinistra e due a destra). Se invece fosse stato: Esercizio sulla mediana con riferimento alla scala di Likert:

Ordinali: non posso dire che la mediana è 3, posso però dire che si trova nella zona del “così così”. Non posso assegnarle un numero perché si tratta di dati ordinali. LA MODA Indica il valore più, la frequenza massima che c’è nella distribuzione. La moda si può definire anche per variabili categoriche nominali, oltre quelle ordinali e numeriche, basta che ci sia un valore che abbia la frequenza più alta. Possono esserci casi in cui la moda non c’è, o casi in cui si hanno 2 o più mode. L'immagine ci aiuta a capire la relazione tra media - mediana – moda, immaginando una contrattazione sindacale. Ogni omino ha uno stipendio preciso, quello più diffuso (che capita più spesso) è 15000 dollari, che rappresenta la moda. La media si alza di parecchio in quanto il valore più alto è 300000 dollari, quindi vale 38500 dollari. I QUARTILI Con la stessa logica della mediana, si possono definire delle misure un po' più raffinate. Il ragionamento della mediana, cioè quello che divido il grafico in due parti uguali, può essere più esteso: divido il grafico in 4 parti uguali. Se prima avevo 50% e 50% --> diventano 25%, 25%, 25%, 25% Questi si chiamano QUARTILI: 25% PRIMO QUARTILE (Q1) 25% SECONDO QUARTILE (Q2) 25% TERZO QUARTILE (Q3) 25% QUARTO QUARTILE (Q4)

Il problema della media è che sintetizza tutto troppo. Quindi nasce la necessità di una nuova misura da affiancare alla media e che non abbia questo problema di eccessiva sintesi della media: ovvero la varianza. Prima di saper calcolare la varianza, parliamo dell’esigenza di misurare la Dispersione : La nostra variabile è “hai visto la pubblicità?”. La media alta o meno alta di tale variabile mi suggerisce se le persone l’hanno vista, se la ricordano, quanto bene funziona. Se la media è alta vuol dire che tutti se la ricordano; se la media è bassa allora in tanti non se la ricordano. Dal punto di vista della dispersione : supponiamo che la media della nostra variabile “Hai visto la pubblicità?" sia 7 (su una scala da 1 a 10); se i dati sono poco dispersi, cioè concentrati tutti più o meno fra 6 e 8 vuol dire che la gente la vede più o meno tutti allo stesso modo. Media 7, con scarti piccoli intorno alla media. Se invece, sempre con la media 7 (quindi mi ricordo la pubblicità), la dispersione è molto più grande, cioè c’è qualcuno che ha risposto 9, ma c’è qualcuno che ha detto 5, 4, 3, che vuol dire? Che in generale il ricordo della pubblicità è quello lì, sempre lo stesso, però c’è anche gente che non se la ricorda per niente e gente che invece se la ricorda benissimo. Nel primo caso abbiamo scarti piccoli, il campione è omogeneo perché se la ricordano bene più o meno tutti. Nel secondo caso invece qualcuno se la ricorda benissimo e qualcuno no. Perché è interessante la media? Se la media è bassa devo preoccupami di come sto facendo la pubblicità perché non la vede nessuno. Se invece la media ha una dispersione molto grande vuol dire che qualcuno la vede tanto e qualcuno la vede poco. Mi devo interrogare per capire chi la vede tanto e chi la vede poco. Se tutto il campione compreso fra 6 e 8 con media 7 allora io sono tranquillo e soddisfatto, posso decidere di migliorare la mia pubblicità per tutti, oppure che va bene già così. Se invece scopro che la dispersione è molto grande, allora non basta un ragionamento generico “miglioro la mia pubblicità o non la miglioro”, ma devo andare a fondo al mio campione: chi mi h dato 3? Chi 9? Scoprire che ce una dispersione grande è un’indicazione che indirizza la mia indagine in un altro modo: perché un pezzo di target lo raggiungo e un altro no? COME MISURARE LA DISPERSIONE Formula non precisissima perché: Se la varianza è calcolata sulla Popolazione, allora la formula è: Varianza del campione: Data una variabile x (sono tante variabili, cioè x1, x2, ecc.) che ha media x segnato

FORMULA DELLA VARIANZA

Varianza di x è uguale a 1/n sommatoria di Xi meno la media, tutto al quadrato, la sommatoria comprende tutti i valori di Xi. Come nasce questa formula? I miei numeri sono messi a caso e la media è x segnato. L'idea che sta alla base del calcolo della varianza è che per vedere se dei punti sono molto dispersi, mi interessa sapere se questi punti sono tanto lontani quanto vicini rispetto alla media: Consideriamo le distanze di ciascun punto rispetto alla media: Le distanze di ogni punto dalla media sono rappresentate dalla formula in rosso in alto. Se i punti sono molto vicini alla media, tutte queste distanze sono piccole. Se invece i punti sono molto dispersi e quindi tutti o molti dei punti sono lontani dalla media, queste differenze allora sono per lo più grandi Poca dispersione = distanze piccole/differenze piccole/media piccola Tanta dispersione = distanze grandi/differenze grandi Questo è il punto di partenza o di arrivo della nostra formula. Il problema di tale formula è che fa sempre 0. Perché se x segnato è la media, vuol dire che, per definizione, tante distanze stano a sinistra, tante stanno a destra, se c’è una distanza grande a destra, ce ne sarà anche una a sinistra. Quindi se si fa la media così com’è viene sempre 0. Ecco la correzione che fa la statistica: Facendo il quadrato di tutte queste differenze un po' positive e un po' negative, diventano tutte positive e così non danno più 0. Quindi la varianza fondamentalmente fa la media degli scarti dalla media al quadrato. Non calcoleremo mai a mano questa formula, ma con Excel o software statistico.

È scomoda da pensare questa cosa. Altro esempio: Se la x invece di essere il numero di clienti è un prezzo, quindi euro, la media è Euro, la varianza è Euro al quadrato. Questa cosa è scomoda perché se io ho che la media è 40, e la varianza è 9, io non posso fare: perché sto sommando euro con euro al quadrato, cioè sto sommando lunghezze con aree e non si può fare! Quindi viene comodo inserire una trasformazione della varianza che si chiama DEVIAZIONE STANDARD È la radice quadrata della varianza. Quindi riprendendo l’esempio di prima abbiamo: La deviazione standard fornisce una misura di dispersione che è data nella stessa unità di misura dei dati originali e quindi della media. Per cui nell’esempio di prima X medio = 40 e varianza di x = 9, viene fuori che la deviazione standard di x è uguale a 3 (radice di 9), e quindi posso anche dire: la distanza di una deviazione standard 40 – 3 e 40 + 3 e cosi identifico un intervallo intorno alla media e avrà senso interrogarsi su quanta gente c’è in quell’intervallo, quanta non ce n’è, ecc. La deviazione standard nasce dall’esigenza di fare delle operazioni tra la media e la dispersione e per farlo si parte innanzitutto dal calcolare la varianza, dopodiché basta fare la radice della varianza: L'ultima misura di dispersione è quella dello Scarto Interquartile, che non si usa quasi mai.