Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


SINTESI DATA ANALYSIS, IULM, Sintesi del corso di Statistica

Riassunti delle dispense, delle slides e delle lezioni del prof. Della Beffa (IULM- magistrale in marketing e comunicazione).

Tipologia: Sintesi del corso

2020/2021

In vendita dal 02/02/2021

ilaria-amodeo
ilaria-amodeo 🇮🇹

4.7

(14)

20 documenti

1 / 38

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CONTESTO
La conoscenza è fonte di vantaggio competitivo per lazienda e la
soddisfazione del cliente produce redditività. Queste sono le assunzioni di
base dell’orientamento al mercato.
L'impresa deve essere aperta ovvero mantenersi aggiornata, trasparente
ovvero farsi conoscere, innovativa ovvero saper rispondere agli stimoli del
mercato.
Fondamentale in quest’ottica è il sistema informativo di marketing che
raccoglie i dati sugli aspetti di interesse e li trasforma in informazioni utili
per le decisioni aziendali.
Il sistema informativo di marketing è un insieme strutturato di persone,
modelli organizzativi, modelli di analisi, tecnologie in grado di generare un
flusso ordinato e continuo di informazioni che verranno utilizzate a
supporto delle decisioni del marketing aziendale.
Le fonti informative possono essere interne se i dati sono brutti all
azienda oppure esterne se provengono da istituti di ricerca o da fonti
istituzionali. I dati sono invece divisi in primari se rilevati per l'obiettivo
oppure in secondari se sono stati prodotti per altri scopi rispetto all'
obiettivo di marketing. I dati possono essere socio demografici, relativi
alle opinioni o allo stile di vita, comportamentali relativi ad acquisti,
frequenza, modalità di pagamento. Possono essere ottenuti mediante
analisi qualitative o quantitative oppure mediante campionamento.
Per definire il progetto di ricerca bisogna capire qual è l'obiettivo, quali
sono i dati di cui si ha bisogno e quali sono gli strumenti di analisi. È
necessario interrogarsi circa i concorrenti virgola che cosa li distingue,
quali sono i punti di forza e i punti di debolezza, analizzare il
consumatore, prevenire criticità.
I software utilizzati per data scienze sono molteplici come jmp, sas, spss,
ibm. Vengono classificati per ambito di applicazione (statistica, ML, data
mining, bid data, data visualization), per politica commerciale (licenza,
open source, freeware), tipo di utilizzo o facilità d'uso (interfacce grafiche,
controllo a comandi).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26

Anteprima parziale del testo

Scarica SINTESI DATA ANALYSIS, IULM e più Sintesi del corso in PDF di Statistica solo su Docsity!

CONTESTO

La conoscenza è fonte di vantaggio competitivo per l’azienda e la

soddisfazione del cliente produce redditività. Queste sono le assunzioni di

base dell’orientamento al mercato.

L'impresa deve essere aperta ovvero mantenersi aggiornata, trasparente

ovvero farsi conoscere, innovativa ovvero saper rispondere agli stimoli del

mercato.

Fondamentale in quest’ottica è il sistema informativo di marketing che

raccoglie i dati sugli aspetti di interesse e li trasforma in informazioni utili

per le decisioni aziendali.

Il sistema informativo di marketing è un insieme strutturato di persone,

modelli organizzativi, modelli di analisi, tecnologie in grado di generare un

flusso ordinato e continuo di informazioni che verranno utilizzate a

supporto delle decisioni del marketing aziendale.

Le fonti informative possono essere interne se i dati sono brutti all

azienda oppure esterne se provengono da istituti di ricerca o da fonti

istituzionali. I dati sono invece divisi in primari se rilevati per l'obiettivo

oppure in secondari se sono stati prodotti per altri scopi rispetto all'

obiettivo di marketing. I dati possono essere socio demografici, relativi

alle opinioni o allo stile di vita, comportamentali relativi ad acquisti,

frequenza, modalità di pagamento. Possono essere ottenuti mediante

analisi qualitative o quantitative oppure mediante campionamento.

Per definire il progetto di ricerca bisogna capire qual è l'obiettivo, quali

sono i dati di cui si ha bisogno e quali sono gli strumenti di analisi. È

necessario interrogarsi circa i concorrenti virgola che cosa li distingue,

quali sono i punti di forza e i punti di debolezza, analizzare il

consumatore, prevenire criticità.

I software utilizzati per data scienze sono molteplici come jmp, sas, spss,

ibm. Vengono classificati per ambito di applicazione (statistica, ML, data

mining, bid data, data visualization), per politica commerciale (licenza,

open source, freeware), tipo di utilizzo o facilità d'uso (interfacce grafiche,

controllo a comandi).

SONDAGGI E QUESTIONARI Il sondaggio consente di rilevare i dati primari con interviste strutturate a un campione di soggetti. È molto generale, potenzialmente costoso, richiede competenze e rigore nel definire gli obiettivi e si basa sulla statistica classica. La principale alternativa è costituita dal ricorrere a dati secondari. I dati rilevati con i questionari non sono mai perfettamente oggettivi anche se riguardano i comportamenti dell'individuo. Le fasi del sondaggio sono 9:

  1. definizione dell' obiettivo della formula di ricerca
  2. definizione della popolazione
  3. definizione del campione
  4. metodo di contatto
  5. costruzione del questionario
  6. somministrazione del questionario al campione
  7. raccolta dei dati
  8. analisi
  9. reporting Il metodo di contatto può essere:
  • CAPI: Le indagini condotte ad esempio nei centri commerciali ovvero indagini condotte con la presenza di un intervistatore. I pro sono sicuramente rappresentati dalla qualità e dall' accuratezza dei dati ottenuti e dall’assenza di limitazioni di target.
  • CATI/ CAMI: si tratta di sondaggi condotti mediante telefono è tra i pro c'è la qualità, l'accuratezza, la riduzione dei tempi, il controllo rilevazione. I costi si aggirano intorno ai 15 € per mille casi da popolazione italiana.
  • CAWI: avvengono tramite il web mediante mail, social, link per la compilazione. tra i pro ci sono i tempi EI costi ridotti, tra i contro c'è la minore accuratezza, il filtro di internet e l'autoselezione. Il questionario deve essere costruito facendo riferimento ai principi fondamentali di chiarezza, semplicità, brevità. bisogna identificare le informazioni di interesse primario e quelle accessorie , stabilire la sequenza logica dei temi (sezioni e filtri), definire la lista delle variabili (non le domande) ovvero cosa chiedere per le aree scelte, definire la sequenza delle domande, decidere la formula del risposte se aperte, chiuse e in che scala, formulare le domande ovvero come chiederle. La formulazione delle domande è la parte più delicata perché bisogna evitare domande doppie, evitare ambiguità, stare attenti alle negazioni , proporre risposte esaustive e mutuamente esclusive, non dare nulla per scontato, fare attenzione a domande sul passato e sui temi etici.

DISTRIBUZIONE NORMALE

La distribuzione normale o gaussiana è un modello di riferimento per molti fenomeni ed è alla base dell’inferenza statistica. Ha la forma di una campana, è simmetrica, è definita per ogni valore che va da meno infinito a più infinito ed è caratterizzata da due parametri che rappresentano la media e la varianza della distribuzione. Nella normale media moda e mediana coincidono e la probabilità diminuisce allontanandosi dal centro di simmetria. La distribuzione normale è la distribuzione che rappresenta al meglio molti fenomeni ed è la distribuzione più usata; viene usata per fenomeni biologici e naturali, è la distribuzione di probabilità degli errori casuali di molte statistiche campionarie. Esempi di distribuzioni normali sono il peso alla nascita, le precipitazioni annuali a Roma. Esempi di variabili non normali sono invece il reddito, il numero di accessi giornalieri a un sito web, la probabilità della probabilità come le preferenze politiche, la durata di una lampadina. Conoscere la distribuzione teorica consente di risolvere problemi applicativi, conoscere la probabilità di valori tra a e b, la probabilità di valori maggiori o minori a. Nei problemi applicativi la distribuzione osservata o campionaria viene ricondotta alla distribuzione teorica nota per essere analizzata. La distribuzione normale standardizzata ha media 0 e varianza 1. Qualunque variabile casuale normale può essere standardizzata. la variabile standardizzata si indica con Z. 𝑍 =

In una distribuzione normale il 95% dei valori è compresa approssimativamente tra più e meno 1,96 mentre il 99% è compreso tra più e meno 2,57.

LIVELLI DI ANALISI

I metodi della statistica possono essere schematizzati in tre categorie:

  1. analisi univariata: tratta una variabile alla volta EI suoi strumenti sono quelli della statistica descrittiva (distribuzioni di frequenza, indici di posizione, indici di dispersione).
  2. analisi bivariata: ha per oggetto la relazione tra due variabili ho numeri che ho categoriche ho tra una variabile numerica e una variabile categorica.
  3. analisi multivariata: studia la relazione simultanea tra più di due variabili e comprende tutti i modelli il cui scopo è riassumere, schematizzare e rappresentare fenomeni reali. esempi di analisi multivariata sono l'analisi fattoriale, i modelli di regressione, la cluster Analysis , gli strumenti di mapping, il data mining , il machine learning.

ANALISI UNIVARIATA

L’analisi univariata tratta una variabile alla volta. I suoi strumenti sono quelli della statistica descrittiva quindi distribuzioni di frequenza e indici di posizione e dispersione. La FREQUENZA è il numero di volte in cui si presenta la stessa modalità. La distribuzione delle frequenze consiste nell’associare ad ogni modalità (es. occhi verdi) il numero delle volte che si è presentata. Tale rappresentazione può essere effettuata o mediante tabella o mediante grafico.

  1. MISURE DI TENDENZA CENTRALE Le misure di posizione o di tendenza centrale sono indici che consentono di sintetizzare una distribuzione attraverso un valore rappresentativo. Le principali misure di tendenza centrale sono la media, la moda e la mediana. La media aritmetica può essere costruita solo su fenomeni di tipo quantitativo ed è data dalla somma di tutti valori, diviso il numero di osservazioni. La media aritmetica di popolazione è un parametro, la media aritmetica di un campione è una statistica. La media sintetizza il fenomeno mediante un solo valore. La media aritmetica è un indice di sintesi efficace in una distribuzione senza eccessivi scostamenti dai valori centrali perché risente dei valori “anomali” e non è una misura completa per descrivere il collettivo. In una tabella di frequenze la media aritmetica può essere calcolata considerando le frequenze assolute della tabella come un peso. Nel caso in cui la tabella sia suddivisa in classi di frequenze, è necessario calcolare il valore centrale. Le proprietà principali della media sono:
  • Principio di internalità o criterio di Cauchy: la media aritmetica è sempre compresa tra il valore minimo e il valore massimo dei dati;
  • La media è il baricentro della distribuzione: Affermare che la media è il baricentro della distribuzione equivale a dire che la somma delle differenze tra i valori e la loro media aritmetica (scarti), è pari a zero;
  • Equivarianza rispetto alle trasformazioni lineari;
  • Proprietà associativa: Se un collettivo viene suddiviso in “G” sottoinsiemi disgiunti, allora la media aritmetica generale si può ottenere come media ponderata delle medie dei sottoinsiemi con pesi uguali alle loro numerosità;
  • Minimizzazione della somma degli scarti quadrati: la somma degli scarti al quadrato dei valori x da una costante c’è minima quando c’è uguale alla media aritmetica. La mediana è un indicatore più robusto rispetto alla media aritmetica perché è meno sensibile ai valori estremi. Può essere utilizzata anche in caso di dati qualitativi, purché il carattere sia ordinabile in senso crescente o decrescente. Non può quindi essere calcolata per variabili qualitative sconnesse. La mediana di un insieme di unità ordinate è la modalità presentata dall’unità centrale, dove per unità centrale si intende quell’unità che divide il collettivo in due parti di uguale numerosità. Se n è dispari, la mediana è il valore che occupa esattamente la posizione centrale della distribuzione. Se n è pari, la mediana è la media delle osservazioni che occupano la posizione n/2 e n+1/2. Una statistica robusta è una misura di sintesi non particolarmente sensibile a valori estremi. La mediana è una statistica robusta, contrariamente alla media. Nelle distribuzioni simmetriche, il valore della media e della mediana coincidono. Nelle distribuzioni asimmetriche a destra, il valore della media è maggiore rispetto a quello della
  • • almeno l'94% dei valori sono compresi tra μ − 4σ e μ + 4σ
  • • almeno l'96% dei valori sono compresi tra μ − 5σ e μ + 5σ In una distribuzione normale o poco asimmetrica si può affermare che:
  • • il 68% degli elementi della distribuzione è osservato entro l'intervallo μ-σ, μ+σ
  • • il 95% degli elementi della distribuzione è osservabile entro l'intervallo μ-2σ, μ+2σ (doppia devianza standard)
  • • il 99% degli elementi della distribuzione è osservabile entro l'intervallo μ-3σ, μ+3σ (tripla devianza standard)
  1. MISURE DI POSIZIONE E OUTLIER Le misure di posizione sono quelle misure che indicano la posizione relativa assunta da determinati valori di una variabile nella distribuzione. Lo z-score rappresenta la distanza di ciascun valore dalla media, in unità di deviazione standard. Si ottiene sottraendo la media dal valore della variabile e dividendo questo risultato per la deviazione standard. Lo z- score non ha unità di misura ed ha media 0 e deviazione standard uguale a 1. Lo z-score sarà:
  • • Zero, se il valore osservato nei dati è uguale alla media;
  • • Positivo, se il valore osservato è maggiore della media;
  • • Negativo, se il valore è minore della media. I percentili dividono una distribuzione ordinata in senso crescente in 100 parti; in questo modo si possono definire 99 percentili. I percentili sono più usati dei quartili. I quartili dividono una distribuzione ordinata in senso crescente in 4 parti di uguale numerosità. Il primo quartile Q1 è uguale al 25%, il secondo quartile Q2 rappresenta la mediana ed è pari al 50%, il terzo quartile Q3 è uguale al 75%. Un outlier è un valore estremo, insolitamente grande o piccolo rispetto agli altri. In presenza di outliers bisogna chiedersi se tali dati provengano o meno dalla stessa distribuzione degli altri. Un outlier può essere:
  • Debole se𝑄1−3(𝑄3−𝑄1)<𝑥≤𝑄1−1.5(𝑄3−𝑄1)
  • Forte se 𝑥≤𝑄1−3(𝑄3−𝑄1)

IN CONCLUSIONE:

PER QUALUNQUE TIPO DI VARIABILE: distribuzione di frequenza e moda (per le variabili categoriche sono gli unici strumenti disponibili). VARIABILI NUMERICHE: media e varianza (es. età e reddito). VARIABILI ORDINALI: mediana (es. classi di reddito e istruzione). Per avere una buona visione di insieme si può utilizzare il BOX PLOT ovvero un grafico che riporta 5 valori: valore minimo, valore del primo quartile, mediana, valore del terzo quartile, valore massimo.

ANALISI BIVARIATA

VARIABILI NUMERICHE

Lo studio della relazione tra due variabili numeriche ha come oggetto l’andamento relativo, o associazione, di una variabile rispetto ad un’altra, cioè il fatto che al crescere di una variabile l’altra cresca o decresca oppure oscilli senza direzione precisa. Esempio è la relazione tra reddito e consumi. Lo strumento più diffuso per la misurazione della relazione tra due variabili numeriche è il coefficiente di Bravais-Pearson indicato con la lettera r. Esso è compreso tra - 1 e 1 e misura l’intensità della relazione lineare tra due variabili.

  • Se r è uguale a più o meno 1 allora le sue variabili sono perfettamente correlate;
  • Se e è uguale a 0 allora sono incorrelate
  • Se r<0 allora le variabili sono inversamente correlate
  • Se r>0 allora le variabili sono direttamente correlate. Il Coefficiente di correlazione lineare ρ di Pearson (r) fornisce una misura analitica del grado di correlazione lineare esistente tra due caratteri. Ci permette di conoscere la forza di tale legame. 𝑟 =

σA ∗ σB La covarianza (il numeratore di r) è un indice che ci permette di sapere se vi è relazione tra le due variabili. Se è uguale a 0 le variabili sono incorrelate, se è maggiore di 0 la relazione sarà di tipo crescente, se è minore di 0 la relazione sarà di tipo decrescente. Il coefficiente di correlazione campionario è un indice statistico adimensionale, pertanto è da privilegiarsi rispetto alla covarianza campionaria quando si vuole capire se esiste un legame lineare tra due serie di dati, indipendentemente dalle unità di misura scelta. Il coefficiente di Pearson misura la presenza di relazioni lineari tra le variabili ma non rileva relazioni di causalità e di rapporto causa-effetto. Può anche evidenziare relazioni spurie ovvero correlazioni elevate che si manifestano senza che ci siano relazioni logiche e spiegabili del fenomeno. Nella ricerca scientifica si confondono spesso due concetti: la correlazione e la causalità. La correlazione si riferisce ad una relazione tra due (o più) variabili che cambiano insieme. Una correlazione può essere positiva o negativa. Una correlazione positiva vuole dire che se una variabile aumenta (per es., il consumo di gelato) anche l'altra aumenta. Una correlazione negativa funziona all'opposto: se una aumenta l'altra diminuisce. La causalità si riferisce ad una relazione tra due (o più) variabili dove una variabile causa l'altra. Devono essere soddisfatti tre criteri perché si abbia causalità:

  • le variabili devono essere correlate;
  • una variabile deve precedere l'altra variabile;
  • deve essere dimostrato che una terza variabile non stia provocando alcun cambiamento nelle due variabili di interesse (assenza di correlazione spuria).

STATISTICA INFERENZIALE La statistica inferenziale è quella branca della statistica che si occupa di trarre conclusioni sull’intera popolazione analizzando i dati relativi a un campione. Comprende sia la stima dei parametri della popolazione che la verifica di ipotesi. La statistica opera tipicamente su campioni della popolazione. La popolazione è l’insieme di tutte le unità statistiche oggetto di studio e deve essere identificata in modo inequivocabile attraverso almeno una caratteristica osservabile. Il CAMPIONE è:

  • un sottoinsieme della popolazione che sta per essere studiata
  • una riproduzione in miniatura delle stesse identiche caratteristiche della popolazione
  • deve essere rappresentativo della popolazione e può esserlo solo se la scelta degli individui si basa sulla casualità piuttosto che sulla comodità. Il CAMPIONAMENTO è il processo di selezione del campione; l’utilizzo del campione permette di risparmiare tempo/costi e rende la gestione più pratica. La rappresentatività è la prima proprietà della statistica che fa riferimento al campione e afferma che un campione è ben costruito se riesce a rappresentare in piccolo tutte le caratteristiche della popolazione; ciò è possibile solo se i campioni sono selezionati in modo probabilistico. Un campione si dice RAPPRESENTATIVO quando i risultati di un’indagine sono affidabili e conseguentemente le caratteristiche individuate nel campione possono essere estese a tutta la popolazione. Il campionamento può essere:
  1. PROBABILISTICO, se gli individui sono selezionati sulla base di regole, che a loro volta su basano sulla probabilità. Il campione in questo caso è rappresentativo della popolazione. Il campionamento probabilistico può essere a sua volta:
  • Casuale semplice: Un campione di grandezza n è ottenuto attraverso campionamento casuale semplice da una popolazione di grandezza N, se tutte le unità della popolazione hanno la stessa probabilità di essere scelte. Si assegna ad ogni individuo (n) un numero e i numeri sono poi estratti da un elenco chiamato lista di campionamento o frame. Non vi è ripetizione. Il numero totale di combinazioni può essere calcolato mediante un coefficiente binomiale.
  • Stratificato: La popolazione viene suddivisa in gruppi non sovrapposti chiamati strati. Ogni strato è omogeneo per certe caratteristiche. Da ogni strato viene ottenuto un campione casuale semplice. Se da ogni strato vengono estratti lo stesso numero di individui si ha un campionamento stratificato con probabilità costanti, viceversa si ha un campionamento stratificato con probabilità variabili. Anche in questo caso è necessaria la presenza di un frame.
  • Sistematico: Un campione sistematico si ottiene selezionando ogni k-esimo individuo della popolazione. Non vi è bisogno di un frame in questo caso. K è il tasso di campionamento e si ottiene dal rapporto tra numerosità della popolazione (N) e numerosità del campione (n). Il primo individuo corrisponde a un numero casuale compreso tra 1 e k, chiamato p. Il campione sarà composto dai seguenti individui: p, p+k, p+2k, ... , p+(n-1)k.
  • A grappoli: Un campione a grappolo è ottenuto selezionando tutti gli individui di un gruppo (CLUSTER), selezionato attraverso campionamento casuale semplice. I cluster sono disomogenei e presentano le stesse identiche caratteristiche della popolazione in miniatura. Questo campionamento permette di superare le difficoltà di raggiungere unità statistiche collocate in località diverse e difficili da raggiungere.
  1. NON PROBABILISTICO, se gli individui inclusi nell’indagine sono individuati in maniera non casuale. I risultati ottenuti con tale campione non possono essere estesi a tutta la popolazione. Ciò che si ottiene è un campione di comodo, il quale non è rappresentativo della popolazione perché le persone sono scelte senza regole o logica. Un esempio sono i campioni auto-selezionati (o a risposta volontaria), il campione di comodo (più facile da raggiungere), il campione a scelta ragionata (in relazione ad alcune caratteristiche), il campione per quote (analogo a quello stratificato ma senza elemento probabilistico). Si ha campionamento senza reinserimento quando l’individuo, una volta scelto, viene tolto dalla popolazione e non può più essere riscelto. I cluster possono essere omogenei (meglio individuare un n° maggiore di cluster, perché un cluster potrebbe essere diverso da un altro) o disomogenei (sono rappresentativi della popolazione). Durante il campionamento possono essere commessi degli errori, che si dividono in errori di campionamento e in errori non legati al campionamento. Si hanno errori di campionamento se le tecniche usate per la selezione tendono a favorire una parte della popolazione. In questo caso il campione non sarà rappresentativo. Gli errori non legati al campionamento derivano invece da sottocopertura, risposte mancanti o errate e di dividono in:
  • Errore legato ai non rispondenti: quando gli individui appartenenti al campione che non hanno risposto hanno opinioni differenti rispetto a quelli appartenenti al campione che hanno risposto.
  • Errore legato ai rispondenti: se le risposte non riflettono i veri sentimenti degli intervistati.
  • Errore di copertura: alcune unità statistiche non sono comprese nel frame. Si ha in questo caso una distorsione della selezione.
  • Errore di misurazione: inesattezza delle risposte relativa a domande formulate male o all’influenza dell’intervistatore IL CAMPIONE DEVE POSSEDERE QUINDI DEI REQUISITI FONDAMENTALI: CASUALITA’ (garantita con il campionamento casuale semplice o comunque da metodi probabilistici), RAPPRESENTATIVITA’ (riprodurre tutte le medesime caratteristiche della popolazione con le stesse proporzioni) E NUMEROSITA’ (il numero di osservazioni di cui è composto). La numerosità è un concetto diverso dalla rappresentatività perché un campione può essere numeroso ma non rappresentativo perché distorto. Se il campion invece è rappresentativo, la numerosità migliora la precisione delle stime. La rappresentatività quindi è una condizione necessaria per ottenere stime non distorte, la numerosità è relativa alla precisione di tali stime ma non corregge eventuali distorsioni. Il valore rilevato sul campione è una stima del parametro della popolazione. Il problema è che tale stima cambia da campione a campione quindi dobbiamo controllare tale variabilità. Il censimento è una rilevazione individuale universale, simultanea e periodica. Viene effettuato dall’ISTAT, viene pubblicato sulla Gazzetta Ufficiale e ha rilevanza legale. Fino al 2010 era decennale ma adesso hanno cadenza annuale, biennale o triennale. Conoscere la distribuzione di probabilità di una variabile casuale permette di calcolare la probabilità associata a qualunque intervallo di valori. questa informazione è alla base della statistica inferenziale.

accettazione e zona di rifiuto in base ai valori della statistica test. Se la statistica-test è inferiore al livello di significatività alpha allora non si rifiuta Ho (accetto Ho), se la statica-test è maggiore di alpha allora rifiuto Ho. Se non rifiuto Ho, l’ipotesi è corroborata (ciò vuol dire che l’ipotesi non è stata provata ma semplicemente che ha superato il test). Nello svolgere la verifica di ipotesi si possono commettere due errori:

  • Errore di primo tipo: rifiuto Ho quando è vera, la probabilità che tale errori si verifichi è uguale ad alpha e quindi è affine al grado di confidenza. Più alpha è piccolo, minore è la possibilità di commettere tale errore;
  • Errore di secondo tipo: accetto Ho quando è falsa, la probabilità di commettere tale errore è beta. Beta dipende da alpha e dall’ipotesi alternativa. Per ridurre beta bisogna aumentare la numerosità del campione. L’ideale sarebbe avere alpha e beta entrambi il più piccoli possibili ma la loro relazione è tale che al diminuire di alpha aumenta beta. Per diminuire sia alpha che beta bisogna aumentare la numerosità del campione. Alpha viene fissata dal ricercatore, beta dipende da alpha e da H1. La gravità del commettere errori di primo o secondo tipo dipende dal settore di analisi: ad esempio in ambito medico è più grave classificare una persona malata come sana piuttosto che il contrario. Se Ho è “il soggetto è sano”, è più grave commettere un errore di secondo tipo. ANALISI DELLA VARIANZA L’analisi della varianza ANOVA ha come scopo quello di verificare ipotesi sulle differenze tra medie in due o più popolazioni (es. confrontare il reddito medio nelle diverse nazioni). La variabile numerica è a volte chiamata dipendente ed è la variabile di cui ci interessa la media. La variabile categorica chiamata fattore, identifica i gruppi da confrontare. I modelli con una variabile dipendente e un fattore sono modelli ANOVA a una via. Ci sono anche modelli con più fattori K-way ANOVA o con più variabili dipendeti MANOVA. ANOVA A UNA VIA L’analisi ANOVA ha come scopo quello di individuare se vi sono differenze significative tra le medie di due o più gruppi indipendenti. L’ipotesi nulla H0 è che tutte le medie siano uguali. L’ipotesi alternativa H1 è che anche una sola media sia diversa dalle altre. L’ANOVA è un test globale quindi ci dice se vi sono medie che differiscono ma non ci dice quali differiscono. L’ANOVA è l’estensione del test T di student a più di due gruppi. L’ANOVA considera la variabilità totale delle osservazioni e valuta quanta parte di tale variabilità è da attribuire alla differenza tra le medie dei gruppi (varianza tra i gruppi) e quanta è da attribuire alla differenza tra le medie interne ai gruppi (varianza nei gruppi). Il test statistico usato infatti è dato da: 𝐹 =

Se H0 è vera allora la statistica F segue la distribuzione di probabilità della F di Fisher, le medie sono quindi uguali e le differenze sono solo dovute al caso quindi la varianza tra gruppi e la varianza nei gruppi sono simili pertanto F sarà pari circa ad uno.

Se H0 è falsa la varianza tra i gruppi è maggiore di quella nei gruppi, quindi F sarà tanto maggiore quando maggiore è la differenza tra i gruppi. Per capire se accettare o non accettare l’ipotesi nulla bisogna individuare il p-value associato al valore di F. Il p-value misura la probabilità di ottenere un valore pari o superiore ad esso per effetto del caso quando H0 è vera. Il p-value calcolato viene infine confrontato con il livello di significatività alpha scelto e si possono avere due casi:

  • P-value>alpha = test non significativo, le medie dei gruppi non sono significativamente diverse, F è prossimo ad 1, accetto H0.
  • P-value<alpha = test significativo, le medie sono significativamente diverse, F è molto maggiore di 1, rifiuto H0. L’ANOVA è considerata robusta rispetto all’ipotesi di normalità cioè non tollera abbastanza bene modeste violazioni. L’esecuzione dell’ANOVA richiede che:
  • La variabile dipendente numerica abbia distribuzione normale in ogni gruppo;
  • La variabile dipendente abbia varianza uguale in tutti i gruppi;
  • Le osservazioni siano indipendenti. TEST CHI QUADRATO Il test chi-quadrato viene utilizzato per capire se due variabili sono indipendenti. H0: le due variabili sono indipendenti, 𝑋!=0. H1: le due variabili sono dipendenti, 𝑋!>>0. La statistica 𝑋!^ segue approssimativamente una distribuzione chi-quadrato con un numero di gradi di libertà che dipende dalla dimensione della tabella di contingenza. I gradi di libertà si calcolano come 𝐺𝐷𝐿 = (𝑝 − 1 ) ∗ (𝑘 − 1 ) 𝑑𝑜𝑣𝑒 𝑝 𝑒 𝑘 𝑠𝑜𝑛𝑜 𝑖𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑟𝑖𝑔ℎ𝑒 𝑒 𝑐𝑜𝑙𝑜𝑛𝑛𝑒 𝑑𝑒𝑙𝑙𝑎 𝑡𝑎𝑏𝑒𝑙𝑙𝑎 L’esame della distribuzione consente di calcolare il p-value cioè la probabilità di trovare valori maggiori o uguali di quello per puro effetto del caso se H0 è vera. Il p-value viene confrontato con il livello di significatività alpha scelto e:
  • P-value>alpha: test non significativo, 𝑋!non è significativamente diverso da zero quindi le variabili sono indipendenti e accetto H0;
  • P-value< alpa: test significativo, rifiuto H0. Contrariamente all’ANOVA il test chi quadrato non richiede assunzioni probabilistiche. 𝑋!^ non è un test parametrico e l’unica condizione è che il campione sia abbastanza grande e che le frequenze attese non devono mai essere minori di 1 e non devono mai essercene più del 20% minori di 5.

calcolare dalla matrice di correlazione; ad essi è associato un valore 𝜆 1 (Autovalore) che rappresenta la varianza della prima componente Vary1= 𝜆 1. La seconda componente ha la stessa forma della prima ma con pesi diversi. Si procede quindi allo stesso modo imponendo che la varianza di y 2 sia la massima possibile e aggiungendo il vincolo che la seconda componente sia ortogonale alla prima, cioè che le due componenti siano non correlate. si ottengono così i coefficienti della seconda componente, ai quali è associato il secondo autovalore 𝜆 2 , che rappresenta la varianza della seconda componente. il numero massimo di auto valori che si possono estrarre e uguale al numero di variabili p ma di solito se ne estraggono k<p. Una volta generate le componenti si pone il problema di stimarne l'importanza , cioè di calcolare quanto dell'informazione originale esse riassumono. La varianza di ogni componente principale è una misura della sua importanza assoluta. il rapporto tra la varianza totale delle K componenti estratte e la varianza totale dei dati originali ( p variabili) misura la percentuale della variabilità totale dei dati originali spiegata complessivamente dalle K componenti estratte. La percentuale di varianza spiegata costituisce un elemento importante per l'interpretazione l'utilizzo delle componenti principali e normalmente è riportato tra gli output dell'analisi. 𝑉𝑎𝑟(𝑦 1 , 𝑦 2 , … , 𝑦𝑘) 𝑉𝑎𝑟 (𝑥 1 , 𝑥 2 , … , 𝑥𝑝)

ovvero il rapporto tra la sua varianza e la varianza totale. L'estrazione delle componenti principali può essere effettuata sia attraverso la matrice di correlazione sia attraverso la matrice di covarianza. Utilizzare la matrice di correlazione vuol dire lavorare su dati originali standardizzati invece usare la matrice di covarianza vuol dire lavorare su dati centrati ma che conservano la varianza originale. La scelta produce risultati diversi. Di solito si decide di utilizzare la matrice di correlazione perché le variabili sono standardizzate e quindi sono adimensionali e confrontabili, partecipano con un peso uguale alla generazione delle componenti.

  1. INTERPRETAZIONE DELLE COMPONENTI PRINCIPALI (opzionale la ROTAZIONE DELLE COMPONENTI PRINCIPALI): Per capire il significato delle componenti e quindi interpretarle viene utilizzata la matrice di struttura o diagramma dei pesi che esprime la relazione tra componenti principali estratte e variabili originali. Gli elementi della matrice sono i coefficienti di correlazione tra variabili e componente. più alto è il coefficiente di una variabile in valore assoluto, più forte è la relazione tra variabile componente e maggiore è il contributo della variabile a quella componente. dai efficiente della matrice di struttura si può ricavare una misura che nella terminologia dell'analisi fattoriale si chiama comunalità o comunanza che indica quanta parte di ogni variabile contribuisce alle mappa componenti e viceversa quindi quanto le K componenti spieghino della variabile. L'interpretazione è tanto più facile quanto più efficienti sono vicini ad 1 valore assoluto o a 0 ciò perché in questo caso è semplice associare variabili e componenti. se sono presenti invece i valori medi l'interpretazione è più difficile. la trasformazione che può essere effettuata per renderla più facile prende il nome di rotazione. le componenti principali

costituiscono un sistema di assi ortogonali nello spazio a k dimensioni nel quale le unità sono punti. la rotazione consiste nell’operazione di ruotare il sistema degli assi tenendo fissa l'origine. la rotazione può essere fatta in diversi modi. le rotazioni ortogonali mantengono l'ortogonalità delle componenti, la posizione relativa dei punti nello spazio non cambia, la varianza totale spiegata e le comunalità rimangono uguali la varianza delle singole componenti non cambia, i coefficienti della matrice di struttura cambiano. la rotazione si ottiene con un processo iterativo e il criterio più utilizzato è il criterio Varimax. È e possibile effettuare anche rotazione oblique che non mantengono l'ortogonalità. dopo la rotazione tutti i coefficienti si sono avvicinati a zero oppure ad uno e il significato delle componenti è cambiato. la soluzione strati e quella ruotata sono matematicamente equivalenti e la scelta tra le due dipende da considerazioni interpretative perché ricordiamo che l'obiettivo è quello di ottenere una interpretazione chiara, univoca, utile per individuare strutture nelle relazioni tra le variabili.

  1. GENERAZIONE DEI PUNTEGGI (OPZIONALE): La generazione dei punteggi delle componenti realizza l'obiettivo di ridurre il numero delle variabili. In base ai coefficienti individuati si possono calcolare per ogni unità i valori di tutte le componenti che diventano così delle nuove variabili che si aggiungono a quelli originali nella matrice dei dati. I punteggi calcolati anno media zero e varianza uno ma non sono espressi nella scala delle variabili originali. Le nuove variabili assumono le informazioni delle variabili originali e possono essere usate per sostituirle. Le nuove variabili non possono essere identificate in modo preciso e la struttura che se ne origina non è determinabile in modo univoco perché c'è sempre un margine di discrezionalità posso dal soggetto che realizza l'analisi. I punteggi fattoriali:
  • Sono NON correlati tra loro in quanto sono ortogonali;
  • Hanno media 0 e varianza 1. I punteggi non sono espressi nella scala delle variabili originali. Il numero di componenti estratte deve individuare un compromesso tra descrizione del fenomeno e sintesi. Ci sono a tal proposito diversi criteri:
  • criterio dell’importanza delle componenti: si estraggono tutte le componenti corrispondenti ad auto valori maggiori di uno
  • criterio della varianza totale spiegata: si estraggono le componenti necessarie perché la varianza totale spiegata superi una soglia ritenuta accettabile
  • grafico degli autovalori: si estraggono componenti fino al.in cui il grafico diventa bruscamente meno ripido. Nessuno dei criteri da sole risolutivo e nella pratica si considerano più criteri contemporaneamente e ci si fa guidare molto spesso dall’ interpretabilità del risultato. L'esame della comunalità delle variabili può pure incidere sulla scelta del numero di componenti: se con un certo numero di componenti una variabile ha una comunalità bassa, ciò significa che quella variabile contribuisce poco alla soluzione e si può quindi aumentare il numero delle componenti per cercare di includere anche quel contenuto informativo nella soluzione. Nell’analisi delle componenti principali non ci sono variabili dipendenti e indipendenti. I dati devono soddisfare alcune condizioni tecniche:
  • le variabili dovrebbero essere numeriche
  • eventuali outlier devono essere identificati e se possibile rimossi così come i missing

REGRESSIONE

L’analisi di regressione coinvolge due o più variabili numeriche e viene impiegata per

identificare i migliori predittori di un certo fenomeno, effettuare stime e previsioni.

Molto usata per analisi delle spinte al consumo, per valutare la customer

satisfaction, per fare previsione sulle vendite, per prevenire churn.

L’analisi di regressione viene anche utilizzata per misurare i rapporti causa-effetto

tra le variabili predittori e dipendenti anche se, a livello statistico, la regressione non

implica necessariamente un rapporto causa-effetto ma semplicemente una

associazione tra variabili e il rapporto causa-effetto può essere solo ipotizzato in

ambito interpretativo.

L’obiettivo tecnico della regressione è analizzare e misurare la relazione tra una o

più variabili esplicative e una variabile risposta.

L’idea è che le variabili esplicative (indipendenti) spieghino la variabile risposta

(dipendente), ovvero che tramite le variabili esplicative si possa approssimare il

valore delle variabili risposta.

Ci sono diversi modelli di regressione che dipendono:

  • Dal tipo di relazione funzionale tra predittori e risposta (es. lineare o non

linerare)

  • Dalle caratteristiche delle variabili risposta (es. numerica, binaria, categorica,

ordinale)

Il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione

che le lega è lineare ( modello di regressione lineare semplice ).

La regressione è semplice se si fa riferimento a una sola variabile esplicativa X, è

multipla se si fa riferimento a più variabili esplicative. La relazione tra due variabili

può essere espressa mediante una funzione matematica più o meno complessa

tramite un modello di regressione.

1.1 REGRESSIONE LINEARE SEMPLICE

La regressione lineare semplice fa riferimento a una sola variabile esplicativa e si

utilizza quando si ipotizza che la relazione tra le variabili sia lineare.

Il modello di regressione lineare semplice è adatto a rappresentare le variabili X e Y

quando queste ultime si distribuiscono lungo una retta nello scatterplot.

Questa è la relazione funzionale lineare dove a è il coefficiente angolare e b è

l’intercetta. Per descrivere e analizzare i fenomeni empirici introduciamo la

relazione statistica che prevede una funzione che pone le basi sulla funzione lineare

a cui viene sommata una componente stocastica. Tale funzione è detta funzione di

regressione lineare:

a indica come varia y in corrispondenza di una variazione unitaria di X; il segno

dell’inclinazione indica se la reazione lineare è positiva o negativa. b corrisponde al

valore medio di Y quando X è uguale a 0. Ε è la componente stocastica chiamata

anche errore o disturbo.

“a” e “b” sono rispettivamente la costante e il coefficiente di regressione e vanno

stimati. L’obiettivo è quello di individuare dei coefficienti il più possibile vicini ai

valori osservati. Il metodo di stima dei minimi quadrati è volto a ricercare stime di a’

e b’ che rendono minimi gli scarti.

𝑎ʹ = 𝐶𝑂𝑉𝐴𝑅xy/VARx 𝑏ʹ = 𝑌ʹ − 𝑎ʹ𝑋ʹ

La regressione ha come obiettivo quello di individuare la retta che meglio si adatta ai

dati. Il metodo dei minimi quadrati consiste nel determinare a’ e b’ rendendo

minima la somma dei quadrati delle differenze tra i valori osservati e i valori stimati.

Il coefficiente di regressione b indica di quanto aumenta la variabile risposta per un

aumento unitario del predittore.

Dopo aver studiato i disturbi questi vengono chiamati residui. Otteniamo quindi la

funzione lineare di regressione:

Il coefficiente di determinazione 𝑅!^ è una misura utile per valutare il modello di

regressione ed è dato dal rapporto tra la somma dei quadrati della regressione la

somma totale dei quadrati.

𝑅!^ è la percentuale di varianza della variabile risposta spiegata dal predittore.

𝑅!^ misura quindi la bontà dell’approssimazione. 𝑅!^ ci indica come la retta si adagia

tra la nube dei punti. 𝑅!^ è un valore compreso tra 0 e 1. Se 𝑅!^ è molto vicino ad 1,

la retta si adagia bene e quindi l’errore è piccolo.

𝑅!^ = 1 significa che la retta approssima i punti alla perfezione e che quindi questi

ultimi sono allineati;

𝑅!^ = 0 significa che la retta non approssima affatto i punti, cioè che i punti sono

distribuiti casualmente intorno alla retta.