Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Statistica e Machine Learning 2024, Appunti di Statistica

Libera università di lingue e comunicazione (IULM)Statistica

Prof. Francesco Della Beffa

Statistica (prof. Della Beffa) e Machine Learning (pro. Cerri) Appunti completi presi a lezione con esercitazioni su Orange, Excel e JMP.

Tipologia: Appunti

2023/2024

In vendita dal 12/06/2024

APPUNTI_AGGIORNATI 🇮🇹

4.2

(6)

14 documenti

1 / 221

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

1

PROBABILITÀ E STATISTICA PER IL MARKETING

La Data analysis per il marketing è il processo di raccolta, interpretazione e utilizzo

dei dati per supportare decisioni di marketing .

- Rispondere a domande su clienti, concorrenti, prodotti, opportunità, problemi (es

perdita di quote di mercato) e approfondimenti (segmentazione, customer satisf.)

- Monitorare il mercato : continuo a calcolare gli indici per capire come stanno

andando le mie performance legate alle azioni di marketing.

CERN = abbandono , momento dove un consumatore passa da un produttore ad un altro.

Deve essere previsto attraverso l’analisi dei dati, devo calcolare algoritmi per prevedere la

probabilità di CERN di abbandono per ogni cliente

Si occupano di analisi di mercato;

- Strutture interne all’azienda : almeno una persone che si occupa di dati nel 75%

delle aziende

- Fornitori esterni : specializzati che possono essere generalisti (Ipsos, Nielsen; Doxa,

ecc per ricerche multiclient ad hoc) o specializzati per segmento, per attività o tipo di

analisi

IL PROCESSO DI ANALISI (QUANTITATIVA) DI MERCATO

La definizione del progetto di analisi non è banale né univoca.

1) Formulazione dell’obiettivo : dobbiamo dirci bene e chiaramente cosa vogliamo

ottenere dalla ricerca. Un esempio è l'analisi della concorrenza dove posso vedere

diversi fattori come chi sono i concorrenti, cosa li distingue e quali sono i miei punti di

forza e di debolezza. Analisi della concorrenza è quindi un approccio troppo

generico. Se non formulo bene l’obiettivo in corso d’opera mi perdo

2) Quale formula di ricerca

3) Quali dati

4) Raccolta dati

5) Analisi dei dati

6) Interpretazione e presentazione dei risultati

7) Follow-up e messa in produzione

Con formula di ricerca intendiamo:

- Analisi descrittiva : descrivo i dati come per esempio il mercato, i concorrenti ed i

clienti e la brand awareness. Trovo statistica descrittiva, data visualization e ML non

supervisionato.

- Analisi causale : livello di analisi successivo che si occupa delle relazioni tra le

variabili. Un esempio è il calcolo della customer satisfaction per capire quali elementi

soddisfano il cliente. Trovo statistica inferenziale e modelli di regressione, modelli

che spieghino la realtà.

- Analisi predittiva : sfrutto la conoscenza delle cause per identificare algoritmi. Per

esempio genero un algoritmo per identificare il CERN e capire con che probabilità

uno se ne va. Trovo modelli di regressione e ML supervisionato.

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

pf32

pf33

pf34

pf35

pf36

pf37

pf38

pf39

pf3a

pf3b

pf3c

pf3d

pf3e

pf3f

pf40

pf41

pf42

pf43

pf44

pf45

pf46

pf47

pf48

pf49

pf4a

pf4b

pf4c

pf4d

pf4e

pf4f

pf50

pf51

pf52

pf53

pf54

pf55

pf56

pf57

pf58

pf59

pf5a

pf5b

pf5c

pf5d

pf5e

pf5f

pf60

pf61

pf62

pf63

pf64

Scopri Appunti di Statistica Libera università di lingue e comunicazione (IULM)

Documenti correlati

Appunti completi probabilità e statistica per il marketing

(1)

Statistica e Machine Learning per il Marketing - prof. Della Beffa e Cerri

(1)

Probabilità e statistica per il marketing

(2)

Ripasso Statistica preventivo a Data Analysis

analisi bivariata più domanda di inferenza statistica più vari esercizi

Appunti Data Analysis Professor. Della Beffa

data analysys per della beffa in iulm

data analysis corso della beffa

appunti lezione della beffa magistrale

DATA ANALYSIS - appunti lezione integrati con libro, slides, esercizi su software

(3)

Data Analysis Della Beffa

Probabilità e statistica per il marketing

Anteprima parziale del testo

Scarica Statistica e Machine Learning 2024 e più Appunti in PDF di Statistica solo su Docsity!

PROBABILITÀ E STATISTICA PER IL MARKETING

La Data analysis per il marketing è il processo di raccolta, interpretazione e utilizzo dei dati per supportare decisioni di marketing.

Rispondere a domande su clienti, concorrenti, prodotti, opportunità, problemi (es perdita di quote di mercato) e approfondimenti (segmentazione, customer satisf.)
Monitorare il mercato : continuo a calcolare gli indici per capire come stanno andando le mie performance legate alle azioni di marketing. CERN = abbandono , momento dove un consumatore passa da un produttore ad un altro. Deve essere previsto attraverso l’analisi dei dati, devo calcolare algoritmi per prevedere la probabilità di CERN di abbandono per ogni cliente Si occupano di analisi di mercato;
Strutture interne all’azienda : almeno una persone che si occupa di dati nel 75% delle aziende
Fornitori esterni : specializzati che possono essere generalisti (Ipsos, Nielsen; Doxa, ecc per ricerche multiclient ad hoc) o specializzati per segmento, per attività o tipo di analisi IL PROCESSO DI ANALISI (QUANTITATIVA) DI MERCATO La definizione del progetto di analisi non è banale né univoca.

Formulazione dell’obiettivo : dobbiamo dirci bene e chiaramente cosa vogliamo ottenere dalla ricerca. Un esempio è l'analisi della concorrenza dove posso vedere diversi fattori come chi sono i concorrenti, cosa li distingue e quali sono i miei punti di forza e di debolezza. Analisi della concorrenza è quindi un approccio troppo generico. Se non formulo bene l’obiettivo in corso d’opera mi perdo
Quale formula di ricerca
Quali dati
Raccolta dati **5) Analisi dei dati
Interpretazione e presentazione dei risultati**
Follow-up e messa in produzione Con formula di ricerca intendiamo:

Analisi descrittiva : descrivo i dati come per esempio il mercato, i concorrenti ed i clienti e la brand awareness. Trovo statistica descrittiva, data visualization e ML non supervisionato.
Analisi causale : livello di analisi successivo che si occupa delle relazioni tra le variabili. Un esempio è il calcolo della customer satisfaction per capire quali elementi soddisfano il cliente. Trovo statistica inferenziale e modelli di regressione, modelli che spieghino la realtà.
Analisi predittiva : sfrutto la conoscenza delle cause per identificare algoritmi. Per esempio genero un algoritmo per identificare il CERN e capire con che probabilità uno se ne va. Trovo modelli di regressione e ML supervisionato.

Noto che è presente un modello di complessità crescente che non è sempre necessario utilizzare con modelli complicati e predittivi. ANALISI QUALITATIVA : a volte precede l’analisi quantitativa a scopo esplorativo, quando non conosciamo il problema da analizzare. Definisco quindi ipotesi di lavoro attraverso:

Focus Group : moderatore con un gruppo ristretto
Interviste in profondità : intervistatore con un consumatore o un decisore FONTI INFORMATIVE : Dati primari e Dati secondari rispetto all’obiettivo di marketing. Con primari intendo dati che vengono rilevati appositamente per l’obiettivo di marketing mentre con Secondari analizzo dati che possiedo già e decido poi di usare per fini di marketing. Fonti interne rappresentano dati prodotti dall’azienda, mentre fonti esterne sono istituti di ricerca di mercato e fondi istituzionali. I dati primari provengono normalmente da fonti esterne con indagini ad hoc o survey, fonti interne sono per esempio il Conversion Rate che viene calcolato internamente già per fini di marketing. I dati secondari possono arrivare da fonti esterne (come Istat, Banca d’Italia, ecc.. che hanno raccolto dati per altri motivi che posso utilizzare per il mio problema) I dati interni rilevati non per fini di marketing derivano dalla gestione dell’azienda come ERP o CRM e solo successivamente vengono utilizzati per fini diversi di marketing. Il pro delle survey esterne è che ottengo dati specializzati con però un tempo e costo elevato. I dati che arrivano da fonti interne hanno come lato positivo il tempo ed i costi abbattuti con dati oggettivi e di alta qualità. Come contro i dati non sono specializzati e non sempre mirano al problema che vogliamo analizzare.

CAMPIONAMENTO PROBABILISTICO :

DIMENSIONE DEL CAMPIONE : campioni più grandi migliorano la precisione delle stime, ma…

sono più costosi
il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione. Con meno interviste ho maggiore informazioni. La prima intervista mi dà infatti il 100% dell’informazione, mentre la centesima mi fornisce l’1% dell’informazione. Con grandi quantità quindi ottengo sempre meno informazioni e devo capire il livello ottimale.
la numerosità ottimale è quella che consente di ottenere gli obiettivi dell’indagine al minimo costo
la dimensione del campione non dipende da quella della popolazione e si può stimare a priori (statistica inferenziale). Il campione utilizzato per analizzare la popolazione di Brescia và bene anche per Milano. Caratteristiche di un buon campione:
Casualità : indipendenza delle osservazioni/interviste. Un esempio di intervista non indipendente è chiedere agli intervistati di una famiglia se conoscono altri disponibili per essere intervistati dato che tra i due gruppi possono esserci legami.
Rappresentatività : deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, il campione non rappresentativo viene chiamato distorto. I dati che stiamo rilevando devono misurare correttamente quello che stiamo misurando.
Numerosità : migliora la precisione delle stime riducendo la varianza

Il grafico in basso a destra rappresenta il campione rappresentativo, mentre in alto a destra ho un campione distorto. I grafici in basso rappresentano situazioni dove la varianza è bassa, ma la rappresentatività è diversa. La rappresentatività è una caratteristica necessaria per un campione, mentre la numerosità aggiunge precisione. La numerosità in un campione distorto è una cosa negativa e non un pregio. LA MATRICE DEI DATI : Tutte le analisi si basano su matrici di dati, unità per variabili con,

n righe: le unità statistiche (casi, osservazioni)
k colonne: le variabili (attributi, feature)
ogni variabile (colonna) si può interpretare come una dimensione
ogni unità (riga) si può interpretare come un punto nello spazio a k dimensioni Se le variabili diventano molte non è più possibile una rappresentazione geometrica tridimensionale. I dati possono essere di diverso tipo:
Numerici (quantitativi): rappresentano informazioni intrinsecamente numeriche si può eseguire ogni tipo di calcolo (es. media)
Categorici (qualitativi) non si possono eseguire operazioni aritmetiche ma si possono calcolare frequenze e percentuali. Possono essere:
nominali (es. marca, area)
ordinali : categorie ordinate, ma con distanze non uguali es. livelli di istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto) che possono avere anche “passi” pari senza quindi un valore neutro centrale. Queste scale vengono spesso utilizzate come numeriche. I dati categorici vengono spesso rappresentati con numeri (es marca 1, marca 2, ecc.) ma non hanno nulla di numerico.

RAPPRESENTAZIONE DEI DATI NUMERICI :

Nella realtà i numeri sono sempre rappresentati con un numero finito di cifre. Nella realtà i numeri reali (con infinite cifre decimali non rappresentabili con frazioni) non esistono. Lo stesso vale anche per i computer, che possono avere un altissimo numero di cifre ma non infinito. Se infatti con excel calcolo 1/n e poi il risultato lo moltiplico per n non ottengo 1 come su carta ma posso vedere i limiti dati dalla macchina che nello spazio della mantissa non ha spazio per infinite cifre ma solo un numero grande ma limitato. La rappresentazione in virgola mobile dei numeri reali è un sistema di rappresentazione dei numeri nel computer. La rappresentazione è simile a quella in notazione scientifica. Ad esempio, nella notazione scientifica il numero 2500 può essere scritto 0,25 X 104. Il numero 0,0075 può essere scritto 0,75 x 107, ecc. Seguendo la medesima logica la rappresentazione in virgola mobile di un numero reale in un computer (floating point ) si basa sulla suddivisione del numero reale nei seguenti elementi: il segno, la mantissa e l'esponente.

Segno. E' il segno positivo o negativo del numero reale.
Mantissa. La mantissa è la parte di un numero dopo la virgola.
Esponente. L'esponente è il numero delle volte in cui la base deve essere moltiplicata per se stessa.

LEZIONE 22/2: PROBABILITÀ

La probabilità è una misura della possibilità che un evento possa verificarsi. Quando il numero di prove tende a infinito arrivo ad una definizione frequentista ed è relativa ad eventi che possono essere ripetute in modo infinito, come il lancio della monete. Come conseguenza ottengo che la probabilità è sempre un numero compreso tra 0 ed 1. Se lancio una moneta posso ottenere testa (½) e croce (½) ed il totale deve fare 1. Distribuzioni di frequenza : associano ad ogni possibile valore la sua frequenza. Sono normalmente derivate da dati campionari osservati. Per esempio ho chiesto a tutto il mio campione che marche di un certo prodotto come lo yogurt conosce e faccio la relativa distribuzione di frequenza. Valuto quindi quanti mi hanno detto Müller, quanti Yomo, Danone ecc. Le possibilità sono per esempio Danone, Yomo, … ed il numero di casi di ognuno può essere espresso come numero assoluto o relativo in percentuale al totale. Esprimere in % le percentuali di una distribuzione di frequenza dà come risultato il 100%. Distribuzioni di probabilità: Sono il modello teorico delle distribuzioni di frequenza che già conosciamo. Ne esistono moltissime, per modellare fenomeni diversi senza usare sempre dati campionari. Generalizzano il concetto di distribuzioni di frequenza. Si distinguono distribuzioni discrete e continue

variabile discreta → distribuzione discreta
variabile continua → distribuzione continua Per distribuzioni discrete prendo come esempio il lancio di un dado dove i valori possibili sono 1,2,3,4,5,6 e a ciascuno corrisponde la probabilità di ⅙. Posso rappresentare la cosa con una tabella dove accanto ad ogni valore è presente la sua probabilità. Se lancio due dadi voglio analizzare la somma data dai due dati. in questo caso descrivere la distribuzione di probabilità significa che devo analizzare i numeri da 2 a 12 e ad ognuno devo attaccare la sua probabilità.

La probabilità in un singolo punto è zero. Quando b si avvicina tanto che coincide con l’area sottostante alla curva è infatti inesistente essendo diventato un punto. Per esempio posso dire che la probabilità che uno sia alto esattamente 170,000 è nulla. Normalmente infatti intendo la probabilità che uno sia alto per esempio tra il range 169,50 e 170,5, che non è dunque nulla. Distribuzione normale : è nota anche con il nome di gaussiana. La distribuzione normale è fatta da una famiglia di curve che tutte hanno una forma simmetrica a campana, con probabilità che si addensano intorno al centro e diminuiscono simmetricamente man mano che si allontanano dal centro. Possono variare in base a due parametri che sono la sua media e la sua varianza. La media stabilisce la posizione del centro di simmetria: questo permette di spostare verso destra o sinistra la curva. La curva viola ha una media più bassa ed infatti è più a sinistra. A parità di media una curva può avere più o meno dispersione in base alla varianza che dice se la dispersione è tanta o poca. La curva verde è più dispersa ed avrà varianza più grande , ci dice dunque quanto è a “punta”. I due parametri sono μ e σ. Alcuni esempi possono essere:

peso alla nascita, pressione sanguigna, ecc.
precipitazioni annuali a Milano
tempo del percorso casa-ufficio
peso/dimensione di pezzi prodotti da una macchina
errori casuali
è la distribuzione limite di numerose altre distribuzioni Tanti fenomeni vengono descritti non normalmente. A sinistra trovo i redditi bassi e come noto sono sempre meno i redditi alti. Nello stesso modo posso misurare la dimensione delle aziende italiane con tante piccole e poche grandi, la grandezza dei comuni italiani o i siti che hanno un certo numero di visitatori giornalieri

Il tempo di attesa della metropolitana può essere invece descritto dalla curva azzurra in questo grafico. Analizzo che è possibile trovare subito un treno piuttosto che dover aspettare l’arrivo del prossimo. La probabilità di attesa è uniforme, dato che posso capitare in qualsiasi momento di questo intervallo con la stessa probabilità ESERCIZI : A sinistra trovo incassi bassi e a destra gli incassi alti. La risposta corretta è quindi la B dato che tanti hanno incassato poco e solamente pochi hanno incassato tanto. Simile a quanto detto per il reddito. In questo caso dato che la probabilità di aspettare è media (la probabilità di aspettare poco e molto è bassa) la curva corretta è data dalla C (o B se la probabilità di aspettare poco è più alta della C). Il servizio ideale e più costoso è dato dalla curva A, con la massima probabilità di aspettare poco e minima di aspettare molto. Se uno conosce la distribuzione teorica può rispondere a domande come:

qual è la probabilità di valori tra a e b?
qual è la probabilità di valori maggiori (o minori) di a?

Faccio questo perchè così posso usare valori standard comodi. Questa per esempio è una normale standard con media 0 e varianza 1. Un fenomeno a distribuzione normale possiamo dire che per valori superiori o inferiori a 1,96 è molto poco probabile (solo 5%). In una distribuzione standard:

- il 95% dei valori è compreso tra −2 e +2 (approx )

il 99% è compreso tra −2.57 e +2.
tra −1 e +1 è compreso il 68%

LEZIONE 28/02: ANALISI BIVARIATA

Alcune domande di marketing

È plausibile pensare che l’investimento effettuato da un’azienda abbia una relazione con la durata dello spot predisposto per una campagna pubblicitaria?
In un’analisi di satisfaction quali sono gli attributi del prodotto con la valutazione più alta?
Su quali attributi i consumatori sono più d'accordo e su quali ci sono pareri più diversificati
Esiste una relazione tra gradimento e propensione all'acquisto? Se sì, quanto è forte questa relazione?
La propensione all'acquisto è la stessa per tutte le marche? Se no, quali marche hanno la propensione più alta?
La distribuzione delle marche è la stessa su tutto il territorio nazionale (nord, centro, sud)? L’analisi bivariata si basa sullo studio delle relazioni tra due variabili. Finora abbiamo visto lo studio monovariato dove si conducono statistiche su una variabile alla volta. L’analisi univariata si focalizza sullo studiare una variabile alla volta, siamo interessati a una caratteristica di un campione e facciamo delle statistiche su quella variabile. Qui lavoriamo su due variabili alla volta sulla stessa unità statistica. Mentre in quella univariata lo scopo è calcolare delle statistiche sulla singola variabile, nella statistica bivariata l'obiettivo è diverso, ovvero capire se sussiste una relazione tra due variabili. Un esempio è quello di vedere se in base al reddito se il consumo aumenta o diminuisce. Vediamo una relazione tra il reddito mensile di un rispondente e quanto questo consuma o spende nel mese. Vedere se più guadagna più c’è spesa o viceversa quindi spendo di meno man mano che guadagno. Capire se esiste una relazione. Nella statistica univariata avremmo visto il reddito medio percepito ed era la singola variabile. Cercheremo di capire la relazione che sussiste tra due variabili contemporaneamente. La statistica bivariata ci può aiutare nell’ambito del marketing per rispondere ad alcune domande come quelle sopra. Se vogliamo indagare un singolo prodotto e vogliamo capire se la propensione all’acquisto dei clienti è la stessa. **Come rispondere a questi interrogativi? Tovo diversi LIVELLI DI ANALISI
Statistica univariata
Statistica bivariata
Statistica multivariata** Abbiamo più livelli di analisi. Il primo è la statistica univariata. Nella statistica univariata abbiamo due macro aree di misure descrittive quindi che servono a descrivere il carattere, la variabile. Alcune si chiamano indici di posizione o centralità (moda, media e mediana) e altre di dispersione (varianza, deviazione e l’intervallo interquartile). Abbiamo bisogno di queste due aree perchè le misure di centralità, ad esempio sulla variabile reddito, mi possono dire in sintesi qual è il valore che si presenta tra i diversi rispondenti. Posso dire 3000€ che è il valore medio del reddito tra i miei rispondenti. Quindi ho una sintesi tra i rispondenti posso dire che guadagnano 3 mila € al mese.

Questo è un esempio di statistica univariata. È un dataset sulla preferenza delle mozzarelle. Abbiamo una tabella che è un modo di rappresentare la statistica descrittiva. Le statistiche descrittive sono un modo per sintetizzare le informazioni. Il grafico a destra è un barplot. In base alla natura del dato cambia la rappresentazione grafica dei dati. Se le etichette sono variabili qualitative, io non posso fare la media di queste etichette, le variabili qualitative non ci consentono alcun tipo di operazione matematica. Questa è una rappresentazione di altri attributi. Quello sopra è un boxplot e quello sotto è un istogramma che viene utilizzato per i dati quantitativi E le barre sono tutte attaccate, a differenza del barplot dove sono distanziate. Le variabili qualitative a loro volta si classificano in variabili misurabili su scala nominale o su scala ordinale. Su scala nominale sono etichette su cui non possiamo stabilire un ordine gerarchico. La variabile è l’elemento che noi stiamo studiando come l’età in alcuni casi si chiama anche carattere, sono termini intercambiabili. La modalità è il modo in cui la variabile si manifesta (22 anni, 30..). L’età è una variabile quantitativa. Quante volte una modalità si presenta è la frequenza.

Alcune di queste modalità non possono essere messe in ordine quindi se voglio indagare il genere e metto maschio, femmina o altro non posso ordinarle perché sarebbe un ordine arbitrario che darei io. Quindi sono variabili nominali. Quelle ordinali permettono di creare un ordine per le nostre modalità (istruzione). A seconda che noi abbiamo variabili qualitative ordinali o nominali possiamo applicare o meno alcune di queste metodologie. Su quelle nominali non si possono fare determinate operazioni. Il calcolo della moda si può fare sia per variabili qualitative che quantitative (anche se sono nominali). La media aritmetica viene utilizzata solo per variabili quantitative. La mediana per variabili quantitative o qualitative ma solo ordinali. I quartili sono solo per le variabili quantitative (È come se fosse il calcolo della mediana ma divide in quattro parti uguali il mio collettivo che deve essere sempre ordinato in senso crescente). Quando fate un'indagine è sempre opportuno unire un indice di posizione con uno di dispersione. Dire soltanto il valore medio senza metterci vicino la deviazione standard non è il massimo della correttezza perché è importante capire anche il livello di dispersione. La varianza è uguale al quadrato della deviazione standard. La varianza è la media aritmetica dei quadrati delle differenze tra ogni valore Xi della distribuzione e un valore medio preso come riferimento. Deviazione standard : La deviazione standard di una variabile (o scarto quadratico medio ) è un indice riassuntivo delle differenze dei valori di ogni osservazione rispetto alla media della variabile. Ogni osservazione ha infatti uno scostamento (detto anche scarto o deviazione) dalla media. Questo scostamento è pari a 0 se l’osservazione ha esattamente lo stesso valore della media. Lo scostamento sarà invece negativo se l’osservazione ha un valore più piccolo di quello della media. Al contrario, questo scostamento sarà positivo se l’osservazione ha un valore più grande di quello della media. Per capirci meglio, nella tabella qui sotto ho riportato come esempio i valori relativi alla variabile quantitativa “numero di figli” per 3 diversi campioni (A, B e C), ognuno costituito da 7 individui. Come puoi osservare dalla penultima riga della tabella, tutti e tre i campioni hanno la stessa media. Quello che varia è il valore dello scarto quadratico medio.

3. ANALISI MULTIVARIATA

Si basa su k variabili alla volta al fine di studiare le relazioni simultanee tra più di due variabili e comprende i modelli il cui obiettivo è riassumere, schematizzare e rappresentare fenomeni reali. Rappresentano applicazioni di analisi multivariata: la regressione, la cluster analysis, gli strumenti di mapping, gli strumenti sviluppati nell’ambito del data mining e del machine learning. Questa è una cluster analysis. A destra in alto un’analisi fattoriale e in basso l’analisi delle corrispondenze. STATISTICA BIVARIATA - VARIABILI QUANTITATIVE Relazioni bivariate tra dati numerici Quando si studia la tendenza di una variabile quantitativa al variare di un’altra variabile quantitativa, si analizza la loro tendenza al co-variare e quindi si effettua uno studio di correlazione. X ⟷ Y La tendenza di X e Y a co-variare non implica una relazione di causa ed effetto.

X e Y aumentano insieme?
X e Y diminuiscono insieme?
X aumenta e Y decresce, o viceversa? Partiamo dal primo caso. Nel dato numerico andiamo prevalentemente ad osservare il comportamento congiunto di due variabili e capire se queste variabili si comportano allo stesso modo. Prima abbiamo visto il reddito e il consumo ovvero se entrambe si comportano allo stesso modo, se entrambe tendono ad aumentare o a diminuire o se all’aumentare del reddito aumenta il consumo… andiamo a capire se due variabili contemporaneamente variano alla stesso modo. Vediamo che c’è una freccia bidirezionale. Al variare di x varia y e viceversa. Non sta esprimendo un rapporto di causa-effetto. Tutte e due hanno lo stesso comportamento ma non dice che una è la causa e l'altra è l’effetto. Contemporaneamente sale il reddito e sale il consumo ma non si può dire che è il reddito che influenza il consumo. Qui valutiamo solo se due variabili si comportano allo stesso modo mentre la regressione , che è un'altra misura, permette di stabilire se x dipende da y o viceversa quindi se indica questo rapporto di causa-effetto. Ora vediamo solo se il reddito e il consumo si comportano allo stesso modo e quindi c’è una relazione ma non è una relazione data dalla causa-effetto, non c'è una dipendenza tra queste due variabili infatti la freccia è bidirezionale (nella regressione è una freccia a una via). Si dice co-variare ma non implica una relazione di causa-effetto.

LA CORRELAZIONE LINEARE

STEP 1: Analisi visiva DIAGRAMMA A DISPERSIONE o SCATTER PLOT (piano Cartesiano) I valori di una variabile appaiono sull’asse delle ascisse (asse orizzontale) e i valori dell’altra variabile sono rappresentati sull’asse delle ordinate (asse verticale). Ogni singola unità appare come un punto del grafico determinato dai valori che ogni unità statistica assume sulle due variabili. Il modo in cui valutiamo la relazione è attraverso una metodologia detta correlazione lineare. Per l’analisi di correlazione abbiamo due step fondamentali: il primo è l’analisi visiva che è un grafico che ci permette di capire se c’è o non c’è una relazione e se la relazione è forte o debole. In statistica non possiamo basarci solo su un'interpretazione di un grafico, dobbiamo sapere esattamente quanto vale la relazione. Quindi associata all'analisi visiva abbiamo poi una misura che è un coefficiente. Lo scatterplot o diagramma di dispersione non è altro che un piano cartesiano. Ogni rispondente corrisponde a un pallino ed è la congiunzione tra il reddito mensile e il valore del consumo e abbiamo questa configurazione. Come primo step quando osserviamo quel tipo di grafico ci poniamo due domande: qual è la direzione della relazione? È positiva o negativa? E poi se la relazione è forte o debole. In casi rari la si trova perfetta, nella pratica la correlazione lineare è perfetta capita veramente di rado. Interpretare il DIAGRAMMA A DISPERSIONE o SCATTERPLOT

QUAL È LA DIREZIONE DELLA RELAZIONE? POSITIVA O NEGATIVA
QUANTO È FORTE LA RELAZIONE? PERFETTA, FORTE O DEBOLE Se i punti sono vicini come nella seconda immagine indica una relazione forte ed è positiva perchè tende verso l’altro quindi significa che sia x che y aumentano contemporaneamente. Al contrario la correlazione negativa forte l’abbiamo se una aumenta e una diminuisce e la linea tende verso il basso. Se i punti sono molto sparsi c’è una correlazione perchè comunque da l’idea di una linea ma non è compatta e più c’è distanza, più c’è dispersione e la correlazione è più debole. Se tutti i puntini sono perfettamente allineati è una correlazione perfetta e può essere positiva o negativa. Ci sono casi dove c’è una profonda dispersione quindi non abbiamo alcuna correlazione lineare. Il fatto che non sussista una correlazione lineare non significa che non ci siano altri tipi di correlazione.