
















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Tutte le slides del corso di Data Analysis di Della Beffa della magistrale in Marketing, consumi e comunicazione
Tipologia: Sintesi del corso
1 / 56
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

















































dati - > 24 , 23 , 24 , 22 , 26 tabella di frequenza (distribuzione di frequenza) - > x n 22 1 23 1 24 2 26 1 questa tabella ci dà tutta l’informazione dei miei dati, ma non ho un’idea chiara di ciò di cui sto parlando. Essendo poco maneggevole, bisogna sintetizzare il gruppo di dati. I metodi più usati per farlo sono le MISURE DI TENDENZA CENTRALE:
lezione di ripasso Le misure di dispersione - > esprimono la variabilità dei dati, ossia la tendenza delle singole osservazioni di una distribuzione di allontanarsi dalla tendenza centrale (la media)
Per individuare gli outlier si usano strumenti grafici e statistici. Come vengono trattati? - > eliminazione: valori mancanti (se siamo sicuri che siano errori); ranking: sostituisce i dati con l’ordinamento; capping: 𝑥 > 𝑥𝑚𝑎𝑥 → 𝑥 = 𝑥𝑚𝑎𝑥 Una volta puliti, per lavorare meglio, avviene la trasformazione dei dati numerici:
b. normalizzare - > intervallo [ 0 , 1 ]
c. discretizzare - > separare in classi
p = 1 evento certo
p = 0 evento impossibile la somma delle probabilità di tutti gli eventi possibili è pari a 1 : Le distribuzioni di probabilità sono generalizzazioni delle distribuzioni di frequenza, le quali sono in genere basate su dati osservati (campionari) - > le distribuzioni di probabilità sono i corrispondenti modelli teorici di riferimento. Si distinguono
distribuzioni discrete e continue che sono sostanzialmente molto diverse, a causa di una intrinseca di erenza tra i due tipi di variabili
l
se lancio di un dato, la probabilità che mi esca un valore presente sul dato è ⅙
cosa succede se lancio due dati?
esempio: la somma dei valori del dado rosso e del dado blu
Caso reale delle distribuzioni discrete: il call center modello teorico
La distribuzione continua si presenta come una curva, e la probabilità delle variabili consiste nell’area sotto la curva
Alcuni valori convenzionali: 68 %, 95 % e 99 %
analisi univariata - > una variabile alla volta statistiche descrittive: frequenze, media, varianza… analisi bivariata - > studia la relazione tra due variabili: numerica/numerica, numerica/categorica, categorica/categorica analisi multivariata - > k variabili alla volta modelli statistici, machine learning… Per relazioni bivariate tra dati numerici, si intende l’ andamento relativo di una variabile rispetto all’altra
Il coe ciente di correlazione è una misura specifica usata nell'analisi della correlazione per quantificare la forza della relazione lineare tra due variabili, ed è un valore compreso tra - 1 e + 1
matrice di correlazione (valori tra - 1 e + 1 )
La relazione tra una variabile numerica e una variabile categorica si analizza mediante le di erenze in media. La variabile categorica identifica dei gruppi, e si confrontano in seguito le medie della variabile numerica all’interno di quei gruppi
Gli istogrammi mostrano la distribuzione di frequenza di una variabile numerica
I grafici a barre rappresentano frequenze o altri indici (es. la media) di variabili categoriche e sono tipicamente decrescenti I grafici a torta e ad anello mostrano la distribuzione di una variabile categorica ( Σ = 100 %). Il limite dei grafici a torta è che non mostrano chiaramente le relazioni tra le parti. Da evitare sono le versioni 3 D dei grafici 2 D (problemi di prospettiva)
Nei grafici a linea nell’asse verticale c’è sempre la variabile numerica, mentre nell’asse orizzontale c’è una variabile numerica o ordinale (di solito date)
I grafici a dispersione e a bolle rappresentano due variabili numeriche in un piano cartesiano, e le bolle aggiungono una terza dimensione
Terza dimensione bolle - > PIL pro capite
Best practice: KISS - keep it short and simple
La data visualization:
“Una visualizzazione di dati deve essere bella solo se la bellezza può favorire la comprensione” - Should Data Visualizations Be Beautiful?, S. Few, 2012 “ Se i numeri sono noiosi allora avete quelli sbagliati. Il presupposto etico per operare nell’information design dovrebbe essere che i nostri lettori sono svegli e interessati; possono avere da fare, essere ansiosi di passare oltre, ma non sono stupidi” - Envisioning Information, E. Tufte, 2022 La statistica inferenziale opera su campioni di una popolazione e il suo obiettivo è estendere alla popolazione i risultati ottenuti sul campione Lo scopo delle stime campionarie è calcolare un parametro della popolazione (es. media, percentuale, indici vari…), e quella che si ottiene dal campione (statistica campionaria) è una stima del parametro - > la stima varia da campione a campione, è a sua volta una variabile casuale. In tutti i casi di interesse pratico, la distribuzione teorica della statistica campionaria (distribuzione campionaria) è nota, ed è la base della statistica inferenziale La statistica ha un modo caratteristico di fornire le sue stime:
Il trade-o negli intervalli di confidenza (semi)ampiezza dell’IC della media al 95 % = 1 , 96 ∙ 𝜎√ n
ampiezza dell’intervallo ~ precisione
livello di confidenza ~ a dabilità se si alza il livello di confidenza (es. da 95 % a 99 % → maggiore a dabilità), l’ampiezza dell’intervallo aumenta (si passa da 1 , 96 a 2 , 57 → minore precisione). Per migliorare l’a dabilità senza peggiorare la precisione, e viceversa, bisogna aumentare la numerosità del campione Reverse engineering - > la formula: 𝑒𝑟𝑟𝑜𝑟𝑒 = 1 , 96 ∙ 𝜎/√ n può essere utilizzata al contrario per stimare a priori la numerosità del campione La formula rispetto a n fornisce la numerosità n necessaria in base a: - il livello di confidenza scelto (es. 95 % - > 1 , 96 ) - una stima di 𝜎 - il massimo di errore accettabile esempio calcolo della numerosità campionaria si vuole stimare la media della popolazione con: - livello di confidenza 95 % - errore massimo ± 1 - stima di 𝜎 = 8 - > occorre quindi un campione di 246 casi
Lo scopo della verifica delle ipotesi è fornire criteri razionali per decidere se accettare o respingere delle ipotesi Il paradigma della statistica classica è
formulazione dell’ipotesi l’obiettivo è trarre conclusioni su due a ermazioni contrastanti relative a un parametro della popolazione 𝑯𝟎 : ipotesi nulla - > la situazione teorica "nota" (es. 𝐻 0 : la media è uguale all'anno scorso) 𝑯𝟏 : ipotesi alternativa - > l'opposto di 𝐻 0 (es. 𝐻 1 : la media è diversa dall'anno scorso)
esperimento statistico si individua una statistica campionaria di distribuzione nota adatta a testare l'ipotesi nulla e la si calcola su un campione. Si assume che 𝐻 0 sia vera e ci si chiede: se è vera, qual è la probabilità di ottenere per caso un valore della statistica test uguale o più estremo di quello osservato nel campione? Si usa la distribuzione campionaria per calcolare questa probabilità ( p-value)
accettazione o rifiuto dell’ipotesi nulla si confronta il p-value col livello di significatività scelto (es. 0. 05 ) - > 0. 05 è il livello convenzionale più usato, ma altri livelli sono possibili
Test della indipendenza tra variabili categoriche χ² (chi-quadrato) è una misura della distanza dall’indipendenza χ² = 0 - > indipendenza χ² >> 0 - > dipendenza χ² = 71. 58 ( p-value - > l’area a destra di quel punto nella distribuzione)
Le ipotesi: l'ANOVA verifica se almeno due medie sono diverse, non dice quali medie sono diverse 𝐻 0 : 𝜇 1 = 𝜇 2 = … = 𝜇𝑘 (tutte le medie sono uguali) 𝐻 1 : almeno due medie sono diverse tra loro ipotesi probabilistiche:
numerica ci sono due fonti di variabilità:
! la varianza nella prima distribuzione è più piccola rispetto la varianza nella seconda distribuzione!
Nel primo caso sono molto sicura che le medie sono diverse, perché la varianza è così piccola che l’oscillazione che proviene dalla casualità del campione, è praticamente nulla Nel secondo caso non sono più così sicura perché la varianza, e quindi l’oscillazione data dalla casualità del campione, è maggiore
!! attenzione alla di erenza tra consumo e citazione: quelle dichiarate per intervistato sono tutte le marche consumate le citazioni sono le marche più consumate (max 6 )!!
L’analisi è una tecnica multivariata che nasce dalla grande disponibilità di dati e quindi dal conseguente bisogno di sintetizzarli
i motivi per cui si decide di ridurre la dimensionalità sono due:
Individuare strutture nelle relazioni tra le variabili
Le sette variabili in realtà si possono raggruppare in due gruppi fondamentali (evidenziati in rosa nella tabella): età e debito (abbiamo scoperta una relazione che prima era nascosta nel nostro dataset) Esistono due tecniche diverse per la riduzione della dimensionalità: