Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica e Machine Learning 2024, Appunti di Statistica

Statistica (prof. Della Beffa) e Machine Learning (pro. Cerri) Appunti completi presi a lezione con esercitazioni su Orange, Excel e JMP.

Tipologia: Appunti

2023/2024

In vendita dal 12/06/2024

APPUNTI_AGGIORNATI
APPUNTI_AGGIORNATI 🇮🇹

4.2

(6)

14 documenti

1 / 221

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
PROBABILITÀ E STATISTICA PER IL MARKETING
La Data analysis per il marketing è il processo di raccolta, interpretazione e utilizzo
dei dati per supportare decisioni di marketing .
- Rispondere a domande su clienti, concorrenti, prodotti, opportunità, problemi (es
perdita di quote di mercato) e approfondimenti (segmentazione, customer satisf.)
- Monitorare il mercato : continuo a calcolare gli indici per capire come stanno
andando le mie performance legate alle azioni di marketing.
CERN = abbandono , momento dove un consumatore passa da un produttore ad un altro.
Deve essere previsto attraverso l’analisi dei dati, devo calcolare algoritmi per prevedere la
probabilità di CERN di abbandono per ogni cliente
Si occupano di analisi di mercato;
- Strutture interne all’azienda : almeno una persone che si occupa di dati nel 75%
delle aziende
- Fornitori esterni : specializzati che possono essere generalisti (Ipsos, Nielsen; Doxa,
ecc per ricerche multiclient ad hoc) o specializzati per segmento, per attività o tipo di
analisi
IL PROCESSO DI ANALISI (QUANTITATIVA) DI MERCATO
La definizione del progetto di analisi non è banale né univoca.
1) Formulazione dell’obiettivo : dobbiamo dirci bene e chiaramente cosa vogliamo
ottenere dalla ricerca. Un esempio è l'analisi della concorrenza dove posso vedere
diversi fattori come chi sono i concorrenti, cosa li distingue e quali sono i miei punti di
forza e di debolezza. Analisi della concorrenza è quindi un approccio troppo
generico. Se non formulo bene l’obiettivo in corso d’opera mi perdo
2) Quale formula di ricerca
3) Quali dati
4) Raccolta dati
5) Analisi dei dati
6) Interpretazione e presentazione dei risultati
7) Follow-up e messa in produzione
Con formula di ricerca intendiamo:
- Analisi descrittiva : descrivo i dati come per esempio il mercato, i concorrenti ed i
clienti e la brand awareness. Trovo statistica descrittiva, data visualization e ML non
supervisionato.
- Analisi causale : livello di analisi successivo che si occupa delle relazioni tra le
variabili. Un esempio è il calcolo della customer satisfaction per capire quali elementi
soddisfano il cliente. Trovo statistica inferenziale e modelli di regressione, modelli
che spieghino la realtà.
- Analisi predittiva : sfrutto la conoscenza delle cause per identificare algoritmi. Per
esempio genero un algoritmo per identificare il CERN e capire con che probabilità
uno se ne va. Trovo modelli di regressione e ML supervisionato.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Statistica e Machine Learning 2024 e più Appunti in PDF di Statistica solo su Docsity!

PROBABILITÀ E STATISTICA PER IL MARKETING

La Data analysis per il marketing è il processo di raccolta, interpretazione e utilizzo dei dati per supportare decisioni di marketing.

  • Rispondere a domande su clienti, concorrenti, prodotti, opportunità, problemi (es perdita di quote di mercato) e approfondimenti (segmentazione, customer satisf.)
  • Monitorare il mercato : continuo a calcolare gli indici per capire come stanno andando le mie performance legate alle azioni di marketing. CERN = abbandono , momento dove un consumatore passa da un produttore ad un altro. Deve essere previsto attraverso l’analisi dei dati, devo calcolare algoritmi per prevedere la probabilità di CERN di abbandono per ogni cliente Si occupano di analisi di mercato;
  • Strutture interne all’azienda : almeno una persone che si occupa di dati nel 75% delle aziende
  • Fornitori esterni : specializzati che possono essere generalisti (Ipsos, Nielsen; Doxa, ecc per ricerche multiclient ad hoc) o specializzati per segmento, per attività o tipo di analisi IL PROCESSO DI ANALISI (QUANTITATIVA) DI MERCATO La definizione del progetto di analisi non è banale né univoca.
  1. Formulazione dell’obiettivo : dobbiamo dirci bene e chiaramente cosa vogliamo ottenere dalla ricerca. Un esempio è l'analisi della concorrenza dove posso vedere diversi fattori come chi sono i concorrenti, cosa li distingue e quali sono i miei punti di forza e di debolezza. Analisi della concorrenza è quindi un approccio troppo generico. Se non formulo bene l’obiettivo in corso d’opera mi perdo
  2. Quale formula di ricerca
  3. Quali dati
  4. Raccolta dati **5) Analisi dei dati
  5. Interpretazione e presentazione dei risultati**
  6. Follow-up e messa in produzione Con formula di ricerca intendiamo:
  • Analisi descrittiva : descrivo i dati come per esempio il mercato, i concorrenti ed i clienti e la brand awareness. Trovo statistica descrittiva, data visualization e ML non supervisionato.
  • Analisi causale : livello di analisi successivo che si occupa delle relazioni tra le variabili. Un esempio è il calcolo della customer satisfaction per capire quali elementi soddisfano il cliente. Trovo statistica inferenziale e modelli di regressione, modelli che spieghino la realtà.
  • Analisi predittiva : sfrutto la conoscenza delle cause per identificare algoritmi. Per esempio genero un algoritmo per identificare il CERN e capire con che probabilità uno se ne va. Trovo modelli di regressione e ML supervisionato.

Noto che è presente un modello di complessità crescente che non è sempre necessario utilizzare con modelli complicati e predittivi. ANALISI QUALITATIVA : a volte precede l’analisi quantitativa a scopo esplorativo, quando non conosciamo il problema da analizzare. Definisco quindi ipotesi di lavoro attraverso:

  • Focus Group : moderatore con un gruppo ristretto
  • Interviste in profondità : intervistatore con un consumatore o un decisore FONTI INFORMATIVE : Dati primari e Dati secondari rispetto all’obiettivo di marketing. Con primari intendo dati che vengono rilevati appositamente per l’obiettivo di marketing mentre con Secondari analizzo dati che possiedo già e decido poi di usare per fini di marketing. Fonti interne rappresentano dati prodotti dall’azienda, mentre fonti esterne sono istituti di ricerca di mercato e fondi istituzionali. I dati primari provengono normalmente da fonti esterne con indagini ad hoc o survey, fonti interne sono per esempio il Conversion Rate che viene calcolato internamente già per fini di marketing. I dati secondari possono arrivare da fonti esterne (come Istat, Banca d’Italia, ecc.. che hanno raccolto dati per altri motivi che posso utilizzare per il mio problema) I dati interni rilevati non per fini di marketing derivano dalla gestione dell’azienda come ERP o CRM e solo successivamente vengono utilizzati per fini diversi di marketing. Il pro delle survey esterne è che ottengo dati specializzati con però un tempo e costo elevato. I dati che arrivano da fonti interne hanno come lato positivo il tempo ed i costi abbattuti con dati oggettivi e di alta qualità. Come contro i dati non sono specializzati e non sempre mirano al problema che vogliamo analizzare.

CAMPIONAMENTO PROBABILISTICO :

DIMENSIONE DEL CAMPIONE : campioni più grandi migliorano la precisione delle stime, ma…

  • sono più costosi
  • il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione. Con meno interviste ho maggiore informazioni. La prima intervista mi dà infatti il 100% dell’informazione, mentre la centesima mi fornisce l’1% dell’informazione. Con grandi quantità quindi ottengo sempre meno informazioni e devo capire il livello ottimale.
  • la numerosità ottimale è quella che consente di ottenere gli obiettivi dell’indagine al minimo costo
  • la dimensione del campione non dipende da quella della popolazione e si può stimare a priori (statistica inferenziale). Il campione utilizzato per analizzare la popolazione di Brescia và bene anche per Milano. Caratteristiche di un buon campione:
  • Casualità : indipendenza delle osservazioni/interviste. Un esempio di intervista non indipendente è chiedere agli intervistati di una famiglia se conoscono altri disponibili per essere intervistati dato che tra i due gruppi possono esserci legami.
  • Rappresentatività : deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, il campione non rappresentativo viene chiamato distorto. I dati che stiamo rilevando devono misurare correttamente quello che stiamo misurando.
  • Numerosità : migliora la precisione delle stime riducendo la varianza

Il grafico in basso a destra rappresenta il campione rappresentativo, mentre in alto a destra ho un campione distorto. I grafici in basso rappresentano situazioni dove la varianza è bassa, ma la rappresentatività è diversa. La rappresentatività è una caratteristica necessaria per un campione, mentre la numerosità aggiunge precisione. La numerosità in un campione distorto è una cosa negativa e non un pregio. LA MATRICE DEI DATI : Tutte le analisi si basano su matrici di dati, unità per variabili con,

  • n righe: le unità statistiche (casi, osservazioni)
  • k colonne: le variabili (attributi, feature)
  • ogni variabile (colonna) si può interpretare come una dimensione
  • ogni unità (riga) si può interpretare come un punto nello spazio a k dimensioni Se le variabili diventano molte non è più possibile una rappresentazione geometrica tridimensionale. I dati possono essere di diverso tipo:
  • Numerici (quantitativi): rappresentano informazioni intrinsecamente numeriche si può eseguire ogni tipo di calcolo (es. media)
  • Categorici (qualitativi) non si possono eseguire operazioni aritmetiche ma si possono calcolare frequenze e percentuali. Possono essere:
  • nominali (es. marca, area)
  • ordinali : categorie ordinate, ma con distanze non uguali es. livelli di istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto) che possono avere anche “passi” pari senza quindi un valore neutro centrale. Queste scale vengono spesso utilizzate come numeriche. I dati categorici vengono spesso rappresentati con numeri (es marca 1, marca 2, ecc.) ma non hanno nulla di numerico.

RAPPRESENTAZIONE DEI DATI NUMERICI :

Nella realtà i numeri sono sempre rappresentati con un numero finito di cifre. Nella realtà i numeri reali (con infinite cifre decimali non rappresentabili con frazioni) non esistono. Lo stesso vale anche per i computer, che possono avere un altissimo numero di cifre ma non infinito. Se infatti con excel calcolo 1/n e poi il risultato lo moltiplico per n non ottengo 1 come su carta ma posso vedere i limiti dati dalla macchina che nello spazio della mantissa non ha spazio per infinite cifre ma solo un numero grande ma limitato. La rappresentazione in virgola mobile dei numeri reali è un sistema di rappresentazione dei numeri nel computer. La rappresentazione è simile a quella in notazione scientifica. Ad esempio, nella notazione scientifica il numero 2500 può essere scritto 0,25 X 104. Il numero 0,0075 può essere scritto 0,75 x 107, ecc. Seguendo la medesima logica la rappresentazione in virgola mobile di un numero reale in un computer (floating point ) si basa sulla suddivisione del numero reale nei seguenti elementi: il segno, la mantissa e l'esponente.

  • Segno. E' il segno positivo o negativo del numero reale.
  • Mantissa. La mantissa è la parte di un numero dopo la virgola.
  • Esponente. L'esponente è il numero delle volte in cui la base deve essere moltiplicata per se stessa.

LEZIONE 22/2: PROBABILITÀ

La probabilità è una misura della possibilità che un evento possa verificarsi. Quando il numero di prove tende a infinito arrivo ad una definizione frequentista ed è relativa ad eventi che possono essere ripetute in modo infinito, come il lancio della monete. Come conseguenza ottengo che la probabilità è sempre un numero compreso tra 0 ed 1. Se lancio una moneta posso ottenere testa (½) e croce (½) ed il totale deve fare 1. Distribuzioni di frequenza : associano ad ogni possibile valore la sua frequenza. Sono normalmente derivate da dati campionari osservati. Per esempio ho chiesto a tutto il mio campione che marche di un certo prodotto come lo yogurt conosce e faccio la relativa distribuzione di frequenza. Valuto quindi quanti mi hanno detto Müller, quanti Yomo, Danone ecc. Le possibilità sono per esempio Danone, Yomo, … ed il numero di casi di ognuno può essere espresso come numero assoluto o relativo in percentuale al totale. Esprimere in % le percentuali di una distribuzione di frequenza dà come risultato il 100%. Distribuzioni di probabilità: Sono il modello teorico delle distribuzioni di frequenza che già conosciamo. Ne esistono moltissime, per modellare fenomeni diversi senza usare sempre dati campionari. Generalizzano il concetto di distribuzioni di frequenza. Si distinguono distribuzioni discrete e continue

  • variabile discreta → distribuzione discreta
  • variabile continua → distribuzione continua Per distribuzioni discrete prendo come esempio il lancio di un dado dove i valori possibili sono 1,2,3,4,5,6 e a ciascuno corrisponde la probabilità di ⅙. Posso rappresentare la cosa con una tabella dove accanto ad ogni valore è presente la sua probabilità. Se lancio due dadi voglio analizzare la somma data dai due dati. in questo caso descrivere la distribuzione di probabilità significa che devo analizzare i numeri da 2 a 12 e ad ognuno devo attaccare la sua probabilità.

La probabilità in un singolo punto è zero. Quando b si avvicina tanto che coincide con l’area sottostante alla curva è infatti inesistente essendo diventato un punto. Per esempio posso dire che la probabilità che uno sia alto esattamente 170,000 è nulla. Normalmente infatti intendo la probabilità che uno sia alto per esempio tra il range 169,50 e 170,5, che non è dunque nulla. Distribuzione normale : è nota anche con il nome di gaussiana. La distribuzione normale è fatta da una famiglia di curve che tutte hanno una forma simmetrica a campana, con probabilità che si addensano intorno al centro e diminuiscono simmetricamente man mano che si allontanano dal centro. Possono variare in base a due parametri che sono la sua media e la sua varianza. La media stabilisce la posizione del centro di simmetria: questo permette di spostare verso destra o sinistra la curva. La curva viola ha una media più bassa ed infatti è più a sinistra. A parità di media una curva può avere più o meno dispersione in base alla varianza che dice se la dispersione è tanta o poca. La curva verde è più dispersa ed avrà varianza più grande , ci dice dunque quanto è a “punta”. I due parametri sono μ e σ. Alcuni esempi possono essere:

  • peso alla nascita, pressione sanguigna, ecc.
  • precipitazioni annuali a Milano
  • tempo del percorso casa-ufficio
  • peso/dimensione di pezzi prodotti da una macchina
  • errori casuali
  • è la distribuzione limite di numerose altre distribuzioni Tanti fenomeni vengono descritti non normalmente. A sinistra trovo i redditi bassi e come noto sono sempre meno i redditi alti. Nello stesso modo posso misurare la dimensione delle aziende italiane con tante piccole e poche grandi, la grandezza dei comuni italiani o i siti che hanno un certo numero di visitatori giornalieri

Il tempo di attesa della metropolitana può essere invece descritto dalla curva azzurra in questo grafico. Analizzo che è possibile trovare subito un treno piuttosto che dover aspettare l’arrivo del prossimo. La probabilità di attesa è uniforme, dato che posso capitare in qualsiasi momento di questo intervallo con la stessa probabilità ESERCIZI : A sinistra trovo incassi bassi e a destra gli incassi alti. La risposta corretta è quindi la B dato che tanti hanno incassato poco e solamente pochi hanno incassato tanto. Simile a quanto detto per il reddito. In questo caso dato che la probabilità di aspettare è media (la probabilità di aspettare poco e molto è bassa) la curva corretta è data dalla C (o B se la probabilità di aspettare poco è più alta della C). Il servizio ideale e più costoso è dato dalla curva A, con la massima probabilità di aspettare poco e minima di aspettare molto. Se uno conosce la distribuzione teorica può rispondere a domande come:

  • qual è la probabilità di valori tra a e b?
  • qual è la probabilità di valori maggiori (o minori) di a?

Faccio questo perchè così posso usare valori standard comodi. Questa per esempio è una normale standard con media 0 e varianza 1. Un fenomeno a distribuzione normale possiamo dire che per valori superiori o inferiori a 1,96 è molto poco probabile (solo 5%). In una distribuzione standard:

- il 95% dei valori è compreso tra −2 e +2 (approx )

  • il 99% è compreso tra −2.57 e +2.
  • tra −1 e +1 è compreso il 68%

LEZIONE 28/02: ANALISI BIVARIATA

Alcune domande di marketing

  • È plausibile pensare che l’investimento effettuato da un’azienda abbia una relazione con la durata dello spot predisposto per una campagna pubblicitaria?
  • In un’analisi di satisfaction quali sono gli attributi del prodotto con la valutazione più alta?
  • Su quali attributi i consumatori sono più d'accordo e su quali ci sono pareri più diversificati
  • Esiste una relazione tra gradimento e propensione all'acquisto? Se sì, quanto è forte questa relazione?
  • La propensione all'acquisto è la stessa per tutte le marche? Se no, quali marche hanno la propensione più alta?
  • La distribuzione delle marche è la stessa su tutto il territorio nazionale (nord, centro, sud)? L’analisi bivariata si basa sullo studio delle relazioni tra due variabili. Finora abbiamo visto lo studio monovariato dove si conducono statistiche su una variabile alla volta. L’analisi univariata si focalizza sullo studiare una variabile alla volta, siamo interessati a una caratteristica di un campione e facciamo delle statistiche su quella variabile. Qui lavoriamo su due variabili alla volta sulla stessa unità statistica. Mentre in quella univariata lo scopo è calcolare delle statistiche sulla singola variabile, nella statistica bivariata l'obiettivo è diverso, ovvero capire se sussiste una relazione tra due variabili. Un esempio è quello di vedere se in base al reddito se il consumo aumenta o diminuisce. Vediamo una relazione tra il reddito mensile di un rispondente e quanto questo consuma o spende nel mese. Vedere se più guadagna più c’è spesa o viceversa quindi spendo di meno man mano che guadagno. Capire se esiste una relazione. Nella statistica univariata avremmo visto il reddito medio percepito ed era la singola variabile. Cercheremo di capire la relazione che sussiste tra due variabili contemporaneamente. La statistica bivariata ci può aiutare nell’ambito del marketing per rispondere ad alcune domande come quelle sopra. Se vogliamo indagare un singolo prodotto e vogliamo capire se la propensione all’acquisto dei clienti è la stessa. **Come rispondere a questi interrogativi? Tovo diversi LIVELLI DI ANALISI
  • Statistica univariata
  • Statistica bivariata
  • Statistica multivariata** Abbiamo più livelli di analisi. Il primo è la statistica univariata. Nella statistica univariata abbiamo due macro aree di misure descrittive quindi che servono a descrivere il carattere, la variabile. Alcune si chiamano indici di posizione o centralità (moda, media e mediana) e altre di dispersione (varianza, deviazione e l’intervallo interquartile). Abbiamo bisogno di queste due aree perchè le misure di centralità, ad esempio sulla variabile reddito, mi possono dire in sintesi qual è il valore che si presenta tra i diversi rispondenti. Posso dire 3000€ che è il valore medio del reddito tra i miei rispondenti. Quindi ho una sintesi tra i rispondenti posso dire che guadagnano 3 mila € al mese.

Questo è un esempio di statistica univariata. È un dataset sulla preferenza delle mozzarelle. Abbiamo una tabella che è un modo di rappresentare la statistica descrittiva. Le statistiche descrittive sono un modo per sintetizzare le informazioni. Il grafico a destra è un barplot. In base alla natura del dato cambia la rappresentazione grafica dei dati. Se le etichette sono variabili qualitative, io non posso fare la media di queste etichette, le variabili qualitative non ci consentono alcun tipo di operazione matematica. Questa è una rappresentazione di altri attributi. Quello sopra è un boxplot e quello sotto è un istogramma che viene utilizzato per i dati quantitativi E le barre sono tutte attaccate, a differenza del barplot dove sono distanziate. Le variabili qualitative a loro volta si classificano in variabili misurabili su scala nominale o su scala ordinale. Su scala nominale sono etichette su cui non possiamo stabilire un ordine gerarchico. La variabile è l’elemento che noi stiamo studiando come l’età in alcuni casi si chiama anche carattere, sono termini intercambiabili. La modalità è il modo in cui la variabile si manifesta (22 anni, 30..). L’età è una variabile quantitativa. Quante volte una modalità si presenta è la frequenza.

Alcune di queste modalità non possono essere messe in ordine quindi se voglio indagare il genere e metto maschio, femmina o altro non posso ordinarle perché sarebbe un ordine arbitrario che darei io. Quindi sono variabili nominali. Quelle ordinali permettono di creare un ordine per le nostre modalità (istruzione). A seconda che noi abbiamo variabili qualitative ordinali o nominali possiamo applicare o meno alcune di queste metodologie. Su quelle nominali non si possono fare determinate operazioni. Il calcolo della moda si può fare sia per variabili qualitative che quantitative (anche se sono nominali). La media aritmetica viene utilizzata solo per variabili quantitative. La mediana per variabili quantitative o qualitative ma solo ordinali. I quartili sono solo per le variabili quantitative (È come se fosse il calcolo della mediana ma divide in quattro parti uguali il mio collettivo che deve essere sempre ordinato in senso crescente). Quando fate un'indagine è sempre opportuno unire un indice di posizione con uno di dispersione. Dire soltanto il valore medio senza metterci vicino la deviazione standard non è il massimo della correttezza perché è importante capire anche il livello di dispersione. La varianza è uguale al quadrato della deviazione standard. La varianza è la media aritmetica dei quadrati delle differenze tra ogni valore Xi della distribuzione e un valore medio preso come riferimento. Deviazione standard : La deviazione standard di una variabile (o scarto quadratico medio ) è un indice riassuntivo delle differenze dei valori di ogni osservazione rispetto alla media della variabile. Ogni osservazione ha infatti uno scostamento (detto anche scarto o deviazione) dalla media. Questo scostamento è pari a 0 se l’osservazione ha esattamente lo stesso valore della media. Lo scostamento sarà invece negativo se l’osservazione ha un valore più piccolo di quello della media. Al contrario, questo scostamento sarà positivo se l’osservazione ha un valore più grande di quello della media. Per capirci meglio, nella tabella qui sotto ho riportato come esempio i valori relativi alla variabile quantitativa “numero di figli” per 3 diversi campioni (A, B e C), ognuno costituito da 7 individui. Come puoi osservare dalla penultima riga della tabella, tutti e tre i campioni hanno la stessa media. Quello che varia è il valore dello scarto quadratico medio.

3. ANALISI MULTIVARIATA

Si basa su k variabili alla volta al fine di studiare le relazioni simultanee tra più di due variabili e comprende i modelli il cui obiettivo è riassumere, schematizzare e rappresentare fenomeni reali. Rappresentano applicazioni di analisi multivariata: la regressione, la cluster analysis, gli strumenti di mapping, gli strumenti sviluppati nell’ambito del data mining e del machine learning. Questa è una cluster analysis. A destra in alto un’analisi fattoriale e in basso l’analisi delle corrispondenze. STATISTICA BIVARIATA - VARIABILI QUANTITATIVE Relazioni bivariate tra dati numerici Quando si studia la tendenza di una variabile quantitativa al variare di un’altra variabile quantitativa, si analizza la loro tendenza al co-variare e quindi si effettua uno studio di correlazione. X ⟷ Y La tendenza di X e Y a co-variare non implica una relazione di causa ed effetto.

  • X e Y aumentano insieme?
  • X e Y diminuiscono insieme?
  • X aumenta e Y decresce, o viceversa? Partiamo dal primo caso. Nel dato numerico andiamo prevalentemente ad osservare il comportamento congiunto di due variabili e capire se queste variabili si comportano allo stesso modo. Prima abbiamo visto il reddito e il consumo ovvero se entrambe si comportano allo stesso modo, se entrambe tendono ad aumentare o a diminuire o se all’aumentare del reddito aumenta il consumo… andiamo a capire se due variabili contemporaneamente variano alla stesso modo. Vediamo che c’è una freccia bidirezionale. Al variare di x varia y e viceversa. Non sta esprimendo un rapporto di causa-effetto. Tutte e due hanno lo stesso comportamento ma non dice che una è la causa e l'altra è l’effetto. Contemporaneamente sale il reddito e sale il consumo ma non si può dire che è il reddito che influenza il consumo. Qui valutiamo solo se due variabili si comportano allo stesso modo mentre la regressione , che è un'altra misura, permette di stabilire se x dipende da y o viceversa quindi se indica questo rapporto di causa-effetto. Ora vediamo solo se il reddito e il consumo si comportano allo stesso modo e quindi c’è una relazione ma non è una relazione data dalla causa-effetto, non c'è una dipendenza tra queste due variabili infatti la freccia è bidirezionale (nella regressione è una freccia a una via). Si dice co-variare ma non implica una relazione di causa-effetto.

LA CORRELAZIONE LINEARE

STEP 1: Analisi visiva DIAGRAMMA A DISPERSIONE o SCATTER PLOT (piano Cartesiano) I valori di una variabile appaiono sull’asse delle ascisse (asse orizzontale) e i valori dell’altra variabile sono rappresentati sull’asse delle ordinate (asse verticale). Ogni singola unità appare come un punto del grafico determinato dai valori che ogni unità statistica assume sulle due variabili. Il modo in cui valutiamo la relazione è attraverso una metodologia detta correlazione lineare. Per l’analisi di correlazione abbiamo due step fondamentali: il primo è l’analisi visiva che è un grafico che ci permette di capire se c’è o non c’è una relazione e se la relazione è forte o debole. In statistica non possiamo basarci solo su un'interpretazione di un grafico, dobbiamo sapere esattamente quanto vale la relazione. Quindi associata all'analisi visiva abbiamo poi una misura che è un coefficiente. Lo scatterplot o diagramma di dispersione non è altro che un piano cartesiano. Ogni rispondente corrisponde a un pallino ed è la congiunzione tra il reddito mensile e il valore del consumo e abbiamo questa configurazione. Come primo step quando osserviamo quel tipo di grafico ci poniamo due domande: qual è la direzione della relazione? È positiva o negativa? E poi se la relazione è forte o debole. In casi rari la si trova perfetta, nella pratica la correlazione lineare è perfetta capita veramente di rado. Interpretare il DIAGRAMMA A DISPERSIONE o SCATTERPLOT

  • QUAL È LA DIREZIONE DELLA RELAZIONE? POSITIVA O NEGATIVA
  • QUANTO È FORTE LA RELAZIONE? PERFETTA, FORTE O DEBOLE Se i punti sono vicini come nella seconda immagine indica una relazione forte ed è positiva perchè tende verso l’altro quindi significa che sia x che y aumentano contemporaneamente. Al contrario la correlazione negativa forte l’abbiamo se una aumenta e una diminuisce e la linea tende verso il basso. Se i punti sono molto sparsi c’è una correlazione perchè comunque da l’idea di una linea ma non è compatta e più c’è distanza, più c’è dispersione e la correlazione è più debole. Se tutti i puntini sono perfettamente allineati è una correlazione perfetta e può essere positiva o negativa. Ci sono casi dove c’è una profonda dispersione quindi non abbiamo alcuna correlazione lineare. Il fatto che non sussista una correlazione lineare non significa che non ci siano altri tipi di correlazione.