Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Slides Data Analysis, Sintesi del corso di Statistica

Slides del corso di Data Analysis con Della Beffa (magistrale in Marketing)

Tipologia: Sintesi del corso

2021/2022

Caricato il 16/01/2023

beatrice-lattanzio-3
beatrice-lattanzio-3 🇮🇹

4 documenti

1 / 20

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
DATA ANALYSIS
SONDAGGI E QUESTIONARI
SURVEY = la rilevazione di dati primari attraverso interviste strutturate a un campione di
soggetti (molto generale; potenzialmente costoso; richiede competenza e rigore nel definire gli
obiettivi)
CENSIMENTO = rilevazione su tutta la popolazione
analisi di dati secondari da fonti esterne (ISTAT, Aida)
analisi di dati secondari interni (banche, telefonia, assicurazioni…)
POPOLAZIONE = insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende),
deve essere identificata inequivocabilmente attraverso almeno una caratteristica osservabile
UNITÀ STATISTICA = ogni singolo elemento della popolazione
CAMPIONE = il sottoinsieme della popolazione sul quale si rilevano i dati. Il processo con il
quale si estrae un campione può essere:
1. non probabilistico (campione di esperti; campionamento “a valanga” o “per convenienza”
2. probabilistico
A. campionamento casuale semplice;
B. campionamento stratificato: si usano delle caratteristiche note della popolazione per
suddividerla in strati omogenei all’interno, eterogenei tra loro
C. campionamento a grappoli (cluster): quando la popolazione è naturalmente suddivisa in
gruppo (es. comuni, classi scolastiche), e sono eterogenei all’interno, omogenei tra loro
Campioni più grandi migliorano la precisione delle stime, ma: sono costosi; il guadagno in
precisione per ogni unità aggiuntiva diminuisce al crescere del campione; la dimensione del
campione non dipende da quella della popolazione (se popolazione > 10mila);
Le caratteristiche di un buon campione sono:
casualità
rappresentatività: deve rappresentare tutte le caratteristiche della popolazione in proporzione
ridotta, non deve essere distorto (validità, accuratezza)
numerosità (affidabilità, precisione)
Le fasi di un sondaggio sono:
1. definizione dell’obiettivo
-formula di ricerca
-popolazione
-campione
2. scelta del metodo di contatto
-CAPI (Computer Assisted Personal Interviewing): nessun limite di target, maggiore qualità e
accuratezza, ma tempi e costi alti
-CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): tempi brevi, qualità,
accuratezza e controllo rilevazione
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Anteprima parziale del testo

Scarica Slides Data Analysis e più Sintesi del corso in PDF di Statistica solo su Docsity!

DATA ANALYSIS

SONDAGGI E QUESTIONARI

  • SURVEY = la rilevazione di^ dati primari^ attraverso interviste strutturate a un campione di soggetti (molto generale; potenzialmente costoso; richiede competenza e rigore nel definire gli obiettivi)
  • CENSIMENTO = rilevazione su tutta la popolazione
  • analisi di dati secondari da fonti esterne (ISTAT, Aida)
  • analisi di dati secondari interni (banche, telefonia, assicurazioni…)
  • POPOLAZIONE = insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende), deve essere identificata inequivocabilmente attraverso almeno una caratteristica osservabile
  • UNITÀ STATISTICA = ogni singolo elemento della popolazione
  • CAMPIONE = il sottoinsieme della popolazione sul quale si rilevano i dati. Il processo con il quale si estrae un campione può essere: 1. non probabilistico (campione di esperti; campionamento “a valanga” o “per convenienza” 2. probabilistico A. campionamento casuale semplice ; B. campionamento stratificato : si usano delle caratteristiche note della popolazione per suddividerla in strati omogenei all’interno, eterogenei tra loro C. campionamento a grappoli (cluster): quando la popolazione è naturalmente suddivisa in gruppo (es. comuni, classi scolastiche), e sono eterogenei all’interno, omogenei tra loro Campioni più grandi migliorano la precisione delle stime, ma: sono costosi; il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione; la dimensione del campione non dipende da quella della popolazione (se popolazione > 10mila); Le caratteristiche di un buon campione sono:
  • casualità
  • rappresentatività : deve rappresentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto (validità, accuratezza)
  • numerosità (affidabilità, precisione) Le fasi di un sondaggio sono:
  1. definizione dell’obiettivo
  • (^) formula di ricerca
  • (^) popolazione
  • (^) campione
  1. scelta del metodo di contatto
  • (^) CAPI (Computer Assisted Personal Interviewing): nessun limite di target, maggiore qualità e accuratezza, ma tempi e costi alti
  • (^) CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): tempi brevi, qualità, accuratezza e controllo rilevazione
  • (^) CAWI (Computer Assisted Web Interviewing): costi contenuti e tempi brevi, ma minore accuratezza, filtro internet e autoselezione
  1. costruzione del questionario: i principi fondamentali per costruire un questionario sono chiarezza , semplicità e brevità (NON inserire domande replicate o con scala invertita)
  • (^) identificare le informazione di interesse primario e accessorie (cosa chiedere)
  • (^) stabilire la sequenza logica delle sezioni e delle domande (struttura del questionario)
  • (^) decidere la forma delle risposte e formulare le domande (come chiedere)
  1. test del questionario
  2. somministrazione del questionario al campione
  3. raccolta dati
  4. analisi
  5. reporting

DATI

Tutte le analisi si basano su matrici di dati unità per variabili

- n righe: le unità statistiche (casi, osservazioni). Ogni unità si può interpretare come un punto nello spazio a k dimensioni - k colonne: le variabili (attributi, feature). Ogni variabile si può interpretare come una dimensione I dati possono essere:

  1. numerici (quantitativi): rappresentano informazioni intrinsecamente numeriche e si può eseguire ogni tipo di calcolo (es. media)
  2. categorici (qualitativi): non si possono eseguire operazioni aritmetiche, ma si possono calcolare frequenze e percentuali
  • (^) nominali (es. marca): esistono i dati binari (dicotomici) che sono dati nominali che si possono utilizzare come dati numerici in molte analisi (un dato categorico con k categorie, si può trasformare in k dati binari)
  • (^) ordinali : categorie ordinate, ma distane non uguali (es. istruzione, classifiche e ordinamenti, scale di Likert)

variabili discrete la probabilità è concentrata nei punti (la probabilità in un singolo punto equivale a 0), per le variabili continue la probabilità è l’area sotto la curva (l’area totale sotto la curva equivale a 1). L’area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b : Prob ( a < X < b ). La distribuzione normale ( gaussiana ) è una distribuzione continua caratterizzata da due parametri: la media e la varianza. Le proprietà della distribuzione gaussiana sono:

  • è simmetrica
  • forma a campana
  • probabilità alte vicino al centro, tendenti a 0 nelle code
  • media=moda=mediana Esempi di distribuzione normale: peso alla nascita, pressione sanguigna, precipitazione annuali a Milano, tempo del percorso casa-ufficio, errori casuali, peso/dimensione di pezzi prodotti da una macchina. Esempi di distribuzione non normale: reddito, dimensione delle aziende italiane, tempi di attesa ad uno sportello, tempo tra due chiamate consecutive ad un call centre, durata di una lampadina, tempo di attesa della metro, probabilità della probabilità. La conoscenza di una distribuzione teorica permette di rispondere a domande come: qual è la probabilità di valori tra a e b? qual è la probabilità di valori maggiori/minori di a? Nei problemi applicativi si cerca di ricondurre la distribuzione campionaria ad una d’istituzione teorica nota. Se la distribuzione ha media 0 e varianza 1 allora è una normale standard. Qualunque variabile casuale normale può essere convertita in una variabile standard mediante l’operazione di standardizzazione.

ANALISI BIVARIATA

Esistono diversi livelli di analisi:

  1. analisi univariata : una variabile alla volta (statistiche descrittive: frequenze, media, varianza…)
  2. analisi bivariata : relazione tra due variabili (numerica+numerica; numerica+categorica; categorica+categorica)
  3. analisi multivariata : k variabili alla volta (modelli statistici, machine learning…)

.

Per le relazione bivariate tra dati numerici, si va a vedere l’andamento relativo di una variabile rispetto all’altra. Se c’è concordanza , a valori elevati di una variabile corrispondono perlopiù valori elevati dell’altra; se c’è discordanza , a valori elevati di una variabile corrispondono perlopiù valori bassi dell’altra. La covarianza con variabili X e Y , se è maggiore di 0 allora esiste una concordanza, se è minore di 0 esiste una discordanza. Si ha una covarianza minima quando Cov ( X;Y ) = 0 (nessuna relazione); si ha una covarianza massima Cov ( X;Y ) = devstd X devstd Y (relazione perfetta, punti allineati). La covarianza dipende dall’ordine di grandezza delle variabili: per eliminare questa dipendenza la si può normalizzare. Il coefficiente di correlazione misura la presenza di relazioni lineari. La correlazione non implica una relazione di causa-effetto: afferma che tra due variabili c’è una relazione sistematica, ma non che una determina l’altra. Interpretazione convenzionale:

  • tra 0,50 e 1: correlazione forte
  • tra 0,30 e 0,49: correlazione media
  • tra 0 e 0,29: correlazione debole (e simmetrica per valori negativi) La relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media. La variabile categorica identifica i gruppi, e si confrontano le medie della variabile numerica nei gruppi. Se le medie nei gruppi sono diverse, allora esiste una relazione; se le medie nei gruppi sono uguali allora non c’è relazione. Correlazione e differenze in media sono relazioni e concetti diversi e indipendenti. Per quanto riguarda la relazione tra due variabili categoriche, esse sono:
  • indipendenti (nessuna relazione) se la distribuzione di una non dipende dai valori dell’altra. Si analizza con el frequenze congiunte, le quali si rappresentano con tabelle a doppia entrata. Se le due variabili categoriche sono indipendenti: 1. la distribuzione è approssimativamente uguale in tutte le colonne e nella distribuzione marginale (idem per le righe) 2. le frequenze congiunte teoriche dipendono solo dalle marginali freq teorica=(tot riga) x (tot colonna)/ num totale unità 3. le frequenze osservate sono uguali a quelle teoriche
  1. Grafici a barre : rappresentano frequenze o altri indici di variabili categoriche
  2. Grafici a torta e ad anello : mostrano la distribuzione di una variabile categorica (limite: non costano chiaramente le relazioni tra le parti; evitare le versione 3D)
  3. Grafici a linee : mostra la relazione tra variabili numeriche e ordinali
  1. Grafici a dispersione e a bolle : rappresentano due variabili numeriche in un piano cartesiano; le bolle aggiungono una terza dimensione KISS: keep it short and simple
  • adattare il grafico all’audience
  • mostrare i valori, usare etichette, titoli, leggenda…
  • evitare livelli di precisione inutili
  • per confrontare grafici usare scale e basi di dati coerenti
  • evitare distorsioni e forzature dei dati Le caratteristiche della data visualization sono:
  • grafici multipli simultanei combinati in una dashboard
  • interattività: modifiche ai grafici facili, rapide, reversibili
  • grafici collegati tra loro: le operazioni fatte su uno si riflettono su tutti

STATISTICA INFERENZIALE

La statistica inferenziale opera su campioni di una popolazione, e il suo obiettivo è estendere alla popolazione i risultati ottenuti sul campione

  1. stime campionarie
  2. test delle ipotesi Lo scopo delle stime campionarie è calcolare un parametro della popolazione (es. media, percentuale, indici vari) e quella che si ottiene dal campione ( statistica campionaria ) è una stima del parametro. La stima varia da campione a campione: è a sua volte una variabile casuale. In tutti i casi di interesse pratico, la distribuzione teorica della statistica campionaria ( distribuzione campionaria ) è nota. La conoscenza delle distribuzioni campionarie è la base della statistica inferenziale. La statistica ha un modo caratteristico di fornire le stime:
  • la stima puntuale è il valore della statistica campionaria
  • la stima intervallare ( intervallo di confidenza ) è la stima puntuale ampliata con l’ errore campionario (stima intervallare = stima puntuale +- errore) Conoscere la distribuzione campionaria serve a calcolare l’errore. L’ampiezza

L’ analisi della varianza ( ANOVA ) è un test per verificare la significatività delle differenze tra due o più medie

- variabile categorica (es.marca) che identifica i gruppi (variabile indipendente, fattore, X) - variabile numerica (preferenza) di cui si confrontano le medie (variabile dipendente, risposta, Y) Ipotesi dell’ANOVA: l’analisi verifica se almeno due medie sono diverse, non dice quali sono diverse H0 = tutte le medie sono uguali H1 = almeno due medie sono diverse tra loro Per le ipotesi probabilistiche, le osservazioni devono essere indipendenti (casualità); la variabile numerica deve avere una distribuzione normale e varianza uguale in tutti i gruppi. La statistica test per l’ANOVA si chiama F e ha una distribuzione F con due parametri (gradi di libertà): F= 1 le medie sono uguali, si accetta H0 ; F> >1 le medie sono diverse, si rifiuta H Il p-value è la probabilità di ottenere valori > F : - se il p-value < 0,05 il test è significativo e ci sono differenze statisticamente significative tra le medie - se il p-value > 0,05 il test non è significativo e le differenze tra le medie si possono considerare casuali Nella variabile numerica ci sono due fonti di variabilità:

  1. tra i centri dei gruppi: devianza tra gruppi
  2. all’interno dei gruppi: devianza entro i gruppi Lo schema delle analisi bivariate
      • (^) iangolini neri^ sono^ tutti^ nella^ stessa^ posizione

α è la probabilità di rifiutare H0 quando invece è vera; β è la probabilità di accettare H0 quando in realtà è falsa.

  • α è scelta dal ricercatore
  • β dipende da α e H
  • se α diminuisce β aumenta
  • per diminuire sia α che β si aumenta la numerosità Cosa succede quando aumenta il volume dei dati?
  1. numerosità → aspetti computazionali: il tempo di elaborazione aumenta linearmente
  2. dimensionalità → complessità del problema: il tempo di elaborazione aumenta più che linearmente, gli algoritmi tradizionali possono non funzionare più, ridondanza informativa e difficoltà di interpretazione L’obiettivo è:
  • ridurre il numero delle variabili ( preprocessing dei dati per analisi successive), ossia generare delle nuove variabili da aggiungere a quelle originali nella matrice dei dati allo scopo di sostituirle nelle analisi
  • (^) individuare strutture nelle relazioni tra le variabili (sintesi di valutazioni espresse da intervistati, sintesi di dati secondari e generazione di KPI) Ci sono diverse tecniche di riduzione della dimensionalità: - (^) analisi fattoriale - (^) analisi delle componenti principali
  1. calcolo della matrice di correlazione
  2. estrazione delle componenti principali
  3. rotazione (opzionale)
  4. interpretazione (opzionale)
  5. generazione dei punteggi (opzionale) Matrice dei dati: p variabili xi e n unità; ipotizziamo di lavorare su variabili xi standardizzate ; le relazioni tra le p variabili sono riassunte dalla matrice di correlazione. Lo scopo dell’estrazione della prima componente principale è individuare k componenti yi , con k < p , costruite come somme ponderate delle variabili xi. La prima componente ha la forma: 𝑦1 = 𝑎 1 𝑥1 + 𝑎 2 𝑥2 +  + 𝑎𝑝𝑥p. I pesi ai sono calcolati in modo che la varianza di y1 sia massima. Queste condizioni si traducono in un'equazione le cui soluzioni sono gli autovalori λ della matrice di correlazione: la prima componente è identificata dall'autovalore maggiore 𝜆1, e 𝜆1 rappresenta la varianza della prima componente. Per la seconda componente principale 𝑦2 = 𝑏 1 𝑥1 + 𝑏 2 𝑥2 +  + 𝑏𝑝𝑥𝑝 si procede allo stesso modo, aggiungendo il
  • (^) non ci dovrebbero essere variabili overall
  • (^) le variabili devono presentare correlazione non nulla
  • numerosità del campione: 10 casi per ogni variabile (minimo 100)

ANALISI PREDITTIVA (MODELLI DI REGRESSIONE)

L’obiettivo dei modelli di regressione è analizzare la relazione tra una o più variabili esplicative (predittori, variabili indipendenti) e una variabile risposta (variabile dipendente). L’idea è che tramite le variabili esplicative si possa approssimare (spiegare) la variabile risposta. In sostanza si cerca una formula che leghi rispettivamente le esplicative e le risposta. Ci sono diversi modelli di regressione, che dipendono:

  • (^) dal tipo di relazione tra predittori e risposta (es. lineare, non lineare)
  • (^) dalle caratteristiche delle variabile risposta (es. numerica, binaria) Il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione che le lega è lineare (es. retta, piano). La relazione lineare che lega la risposta y e il predittore x è: y=a+bx , m a per ogni punto c’è una componente di errore e ( residuo ), quindi y=a+bx+e Il calcolo della regressione lineare semplice consiste nella stima dei parametri a e b per i quali i residui sono più piccoli possibile (metodo dei minimi quadrati ). b = coefficiente di regressione , indica di quanto aumenta la variabile risposta ( y ) per un aumento unitario del predittore a = costante Una retta di regressione ottimale rispetto al criterio dei minimi quadrati c'è sempre: per valutarne la qualità si deve misurare la bontà dell’approssimazione attraverso l’indice di determinazione R² R² è la percentuale di varianza della variabile risposta spiegata dal predittore

Nella regressione lineare semplice R² è il quadrato del coefficiente di correlazione tra le variabili. Se due variabili sono perfettamente correlate (r = ±1), i punti sono allineati e l'approssimazione è perfetta ( R² = 1), questo però non dice nulla circa l'inclinazione della retta. Mentre la correlazione misura l’esistenza di una relazione (lineare) tra variabili, la regressione fornisce anche la stima del coefficiente di regressione (b). La regressione lineare multipla è l'estensione della regressione lineare semplice con k variabili esplicative. R² nella regressione multipla misura ancora la bontà dell'approssimazione, come percentuale di varianza spiegata complessivamente dal modello. Il coefficiente di regressione bj rappresenta l'aumento di y per un aumento unitario di xj tenendo fisse le altre variabili. I coefficienti bj misurano il contributo relativo di ogni predittore solo se i predittori:

  1. hanno lo stesso ordine di grandezza : se i non hanno lo stesso ordine di grandezza si possono confrontare i coefficienti standardizzati (beta)
  2. non sono correlati tra loro Se i predittori sono correlati tra loro (cioè se c’è collinearità ) i loro contributi sono in parte sovrapposti. La presenza di predittori correlati è tollerabile entro certi limiti, oltre i quali i coefficienti di regressione diventano instabili: predittori con indici di collinearità inaccettabili (es. VIF > 5) dovrebbero essere esclusi dall’analisi. La significatività dei risultati della regressione si può calcolare quando sono verificate delle assunzioni probabilistiche :
  • le osservazioni devono essere indipendenti
  • gli errori devono avere una distribuzione normale
  • gli errori devono avere varianza costante La bontà dell'approssimazione globale si verifica testando l'ipotesi che non ci sia nessuna relazione tra la y e i predittori. Il test è una ANOVA, la statistica test è F (Prob > F ). Perché il modello sia accettabile bisogna che il p-value sia piccolo ( p-value <0,05). La significatività dei singoli coefficienti di regressione si testa confrontando il bi con zero ( 𝐻0: 𝑏𝑖 = 0) mediante la statistica t. Perché un coefficiente sia significativo bisogna che il p-value sia piccolo (es. p-value < 0,05). Riepilogo: come esaminare i risultati
  1. ANOVA
  2. coefficienti: VIF e test t , standardizzati o no?, segni e valori Con i coefficienti di regressione si può stimare il valore della y in corrispondenza di nuovi valori dei predittori, si può calcolare un intervallo di confidenza della stima (la stima è più precisa vicino ai valori medi delle 𝑥). La regressione lineare multipla:
  • tutte le variabili devono essere numeriche
  • la regressione è molto sensibile agli outlier
  • eseguirla su punteggi fattoriali attenua il problema di outlier e missing ed elimina la collinearità
  • è possibile usare variabili esplicative binarie
  • si possono analizzare anche variabili esplicative categoriche trasformandole in variabili dummy
  • numerosità del campione: da 10 a 20 volte il numero di variabili k (minimo 100)

SEGMENTAZIONE (CLUSTER ANALYSIS)

L’obiettivo della cluster analysis è classificare unità statistiche in gruppi omogenei. L’idea è di generare gruppi di unità:

  • sulla base di variabili scelte opportunamente
  • in modo che la variabilità sia minima all’interno dei gruppi e sia massima tra gruppi
  • senza indicazioni a priori sul gruppo di appartenenza delle unità Per generare gruppi omogenei di unità si utilizza il concetto di prossimità o vicinanza tra unità statistiche (non tra variabili). Occorre misurare la vicinanza tra unità e tra gruppi di unità ( prossimità = similarità ). Distanze più comuni (per variabili numeriche) Distanza tra gruppi di unità (criteri di aggregazione). Come si calcola la distanza tra gruppi di punti?
  • tra i due punti più vicini
  • tra i due punti più lontani
  • media delle distanze a coppie
  • tra i centrini
  • metodo di Ward: i gruppi più vicini sono quelli unendo i quali si ha il minimo aumento della varianza interna ai gruppi -

Indici di similarità per variabili binarie Le unità u e v sono rappresentate da 0 (= no, assenza) e 1 (= si, presenza) I valori possono essere riassunti in una tavola di frequenza Indici di similarità principali tutti i valori compresi tra zero (minima similarità) e 1 (massima similarità) Per creare i cluster esistono due tipi di metodo:

- metodo gerarchico (agglomerativo) 1. si parte dalla soluzione con n cluster di una sola unità 2. si aggregano i due cluster più vicini (al primo passo: le due unità più vicine) 3. si procede iterativamente aggregando i due cluster più vicini (ad ogni passo il numero dei cluster diminuisce di 1) 4. l’ultima soluzione è un unico cluster con tutte le unità Con meno cluster le soluzioni sono più semplici da capire e da gestire, con più cluster i raggruppamenti sono più precisi. La lunghezza dei rami rappresenta la distanza tra i due cluster uniti a ogni passo: un "salto" nella sequenza delle distanze suggerisce di scegliere la soluzione prima del salto. L’interpretazione dei cluster (profanazione) consiste nell’esame dei centri dei cluster, ossia le medie delle variabili all’interno di ogni gruppo. L’ideale è ottenere medie molto diverse su tutte le variabili. Quando le unità sono in numero ridotto e sono interpretabili individualmente, l’interpretazione dei cluster è definita anche implicitamente dalle unità che li compongono.

ridondanti, correlate, con forti differenze di scala o di varianza. La cluster non richiede ipotesi sulle variabili, né sulle relazioni tra di esse. Non c’è nessun limite di numerosità. Il preprocessing dei dati

  1. standardizzazione o normalizzazione
  2. analisi fattoriale
    • (^) pro: elimina i problemi di scala e di varianza e le correlazioni tra variabili, attenua il problema di dati mancanti e outlier
    • contro: trascurando le variabili apparentemente irrilevanti rende più difficile individuare cluster di nicchia Metodi gerarchici e k-means a confronto e consigli per l’uso

Riepilogo: come fare una cluster analysis

  1. scelta delle variabili e pre-processing (rispetto a cosa voglio generare i cluster? analisi fattoriale? standardizzazione?)
  2. scelta del metodo : gerarchico (Ward) o k-means? (quanti cluster?)
  3. controllo della numerosità dei cluster
  4. esame dei centri finali e prima interpretazione
  5. relazione con variabili esterne per arricchire l’interpretazione (ANOVA per variabili numeriche e chi-quadrato per variabili categoriche) 6. mapping : rappresentare le unità (se poche) e colorare per cluster; rappresentare i centri dei cluster (con tante unità)