Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi dei dati e relazioni tra variabili, Appunti di Statistica

Una panoramica sulle principali nozioni relative all'analisi dei dati, con particolare focus sulle matrici di dati, le distribuzioni di frequenza e di probabilità, le relazioni tra variabili numeriche e categoriche, e le tecniche di riduzione della dimensionalità come l'analisi fattoriale e l'analisi delle componenti principali. Vengono inoltre discussi i requisiti e le assunzioni per l'applicazione di queste tecniche, come la standardizzazione delle variabili, la presenza di correlazioni non nulle tra le variabili, la numerosità del campione e il trattamento di outlier e dati mancanti. Il documento sottolinea l'importanza di interpretare con cautela i risultati di queste analisi, in quanto le variabili latenti estratte non hanno lo stesso livello di oggettività delle variabili osservate direttamente. Infine, vengono accennate alcune tecniche per arricchire l'interpretazione, come l'analisi della varianza (anova) e il test del chi-quadrato.

Tipologia: Appunti

2022/2023

Caricato il 26/04/2024

Dada4800
Dada4800 🇮🇹

6 documenti

1 / 93

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DATA ANALYSIS
Community: data2024
Esame: 10 domande chiuse e 2 aperte sui casi
Report di analisi facoltativo: max 3 punti, da consegnare almeno una settima prima dell’appello
Codice Microsoft Teams: t5tszhh 28 settembre 17.30 ripasso su Teams
INDICE:
1. contesto
2. sondaggi e questionari
3. dati
4. probabilità
5. analisi bivariata
6. statistica inferenziale
7. data visualization
8. riduzione della dimensionalità (analisi fattoriale)
9. analisi predittiva (modelli di regressione)
10. brand mapping
11. segmentazione del mercato (cluster analysis)
12. sviluppi recenti
1. CONTESTO in che logica affrontiamo data analisy?
Si parla di analisi del mercato. L’obiettivo dell’analisi di mercato, attraverso i dati, 7 quello di
rispondere a domande sul mercato in generale (sui concorrenti, clienti).
L’esigenza di rispondere a domande sul mercato sorge da motivi diversi, per esempio, per cercare
di reagire a problemi che si manifestano, approfondire aspetti che sembrano interessanti.
Si ha anche la necessità di un monitoraggio sistematico del mercato. Ad esempio Audit il
mercato che si vuole monitorare con l’auditem 7 quello pubblicitario.
Chi fa analisi dei dati?
- Strutture interne all’azienda (soprattutto
nelle grandi aziende, come Skype)
- Strutture esterne, come ad esempio:
generalisti che fanno di tutto, fanno ricerche
ad hoc ma fanno anche ricerche multiclient cio7
generaliste, per esempio una ricerca sul mondo
della finanza, della telefonia, dell’energia che
vengono vendute a chiunque
specializzati: possono essere specializzate per
segmento di mercato, per attività, per tipo di
dati.
Ad esempio, i call center fanno parte di questo
mondo ma si limitano alla rilevazione dei dati
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d

Anteprima parziale del testo

Scarica Analisi dei dati e relazioni tra variabili e più Appunti in PDF di Statistica solo su Docsity!

DATA ANALYSIS

Community: data Esame: 10 domande chiuse e 2 aperte sui casi Report di analisi facoltativo: max 3 punti, da consegnare almeno una settima prima dell’appello Codice Microsoft Teams: t5tszhh  28 settembre 17.30 ripasso su Teams

INDICE:

  1. contesto
  2. sondaggi e questionari
  3. dati
  4. probabilità
  5. analisi bivariata
  6. statistica inferenziale
  7. data visualization
  8. riduzione della dimensionalità (analisi fattoriale)
  9. analisi predittiva (modelli di regressione)
  10. brand mapping
  11. segmentazione del mercato (cluster analysis)
  12. sviluppi recenti

1. CONTESTO  in che logica affrontiamo data analisy?

Si parla di analisi del mercato. L’obiettivo dell’analisi di mercato, attraverso i dati, è quello di rispondere a domande sul mercato in generale (sui concorrenti, clienti). L’esigenza di rispondere a domande sul mercato sorge da motivi diversi, per esempio, per cercare di reagire a problemi che si manifestano, approfondire aspetti che sembrano interessanti. Si ha anche la necessità di un monitoraggio sistematico del mercato. Ad esempio Audit  il mercato che si vuole monitorare con l’auditem è quello pubblicitario.

Chi fa analisi dei dati?

  • Strutture interne all’azienda (soprattutto nelle grandi aziende, come Skype)
  • Strutture esterne, come ad esempio:

generalisti che fanno di tutto, fanno ricerche ad hoc ma fanno anche ricerche multiclient cioè generaliste, per esempio una ricerca sul mondo della finanza, della telefonia, dell’energia che vengono vendute a chiunque

specializzati: possono essere specializzate per segmento di mercato, per attività, per tipo di dati. Ad esempio, i call center fanno parte di questo mondo ma si limitano alla rilevazione dei dati

La definizione dei progetti di analisi non è banale né univoca, quale obiettivo? Quali dati? Quali strumenti? Noi ci concentreremo su ANALISI QUANTITATIVE.

Il processo di analisi ( quantitativo ) di mercato:

  1. Formulazione obiettivo
  2. Quale formula di ricerca?
  3. Quali dati?
  4. Raccolta dei dati
  5. Analisi dei dati
  6. Interpretazione e presentazione dei risultati
  7. Follow-up e messa in produzione

Per fare un’analisi fatta bene il primo passo è definire e formulare gli obiettivi. Una volta capito l’obiettivo, bisogna decidere la formula di ricerca:Esplorativa (ad esempio analisi qualitativa ): quando non ne so nulla di una cosa, devo cominciare a rendermi conto di quali sono i problemi in gioco in maniera anche molto descrittiva/esplorativa  Descrittiva: quando cominciamo a saperne qualcosa va bene l’analisi descrittiva, per esempio il livello di conoscenza oppure una segmentazione dei clienti.  Causale- predittiva: si vanno a vedere le cause, come ad esempio la customer satisfation, non mi interessa vedere chi è soddisfatto e chi no ma mi interessa vedere quali sono i driver della soddisfazione, cosa rende più soddisfatto il cliente. Deciso in che ambito siamo e che tipo di analisi vogliamo fare, a questo punto si tratta di raccogliere i dati , analizzarli e interpretarli.

comportamenti : con quale frequenza compri la mozzarella, quantità, pagamenti, che tipo di mozzarella compri etc.; i comportamenti con i dati secondari possono essere rilevati (che film ha visto, cosa ha comprato etc.)

Diversi software statistici, che si differenziano per ambito di applicazione (statistica o machine learning o data mining o big data), per politica commerciale (licenza, freeware o open source), per tipo di utilizzo e facilità d’uso (interfacce grafiche, linguaggi di programmazione).

Differenza tra freeware e shareware: Freeware è il software distribuito gratuitamente e completo di tutte le funzionalità; shareware è il software distribuito gratuitamente con limitazioni (es. temporali)

2. SONDAGGI E QUESTIONARI

Sondaggio  rilevazione di dati primari con interviste strutturate a un campione di soggetti; strumento molto generale, potenzialmente costoso che richiede particolare competenza e rigore nel definire gli obiettivi.

Pro e contro della Survey:

  • Molto generale, si può esplorare qualsiasi problema concettuale
  • Costosa, perché anche solo la redazione del questionario richiede competenze e lavoro
  • Ci vuole una particolare attenzione a quello che è l’obiettivo della raccolta dati e un rigore formale nel farla

Alternative:

  1. censimento: rilevazione su tutte le unità statistiche della popolazione, a differenza della survey che rileva dati solamente da un campione definito di soggetti. Tuttavia, il censimento è più a livello teorico, in quanto è impossibile o comunque troppo costoso raggiungere tutta la popolazione.
  2. analisi di dati secondari da fonti esterne (es. Istat, Aida)
  3. analisi di dati secondari interni (banche, telefonia, assicurazioni → segmentazione e scoring GDO → market basket analysis e-commerce, entertainment → sistemi di raccomandazione)

Dati dichiarati VS dati oggettivi I dati rilevati con le survey però purtroppo non sono mai perfettamente oggettivi, anche se riguardano comportamenti Ad es. Auditel utilizza Meter per fare un monitoraggio abbastanza preciso degli ascolti.

POPOLAZIONE E CAMPIONE:

Popolazione  l'insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende), deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile (es. "italiani" o "consumatori abituali" non basta); significa “l’universo di riferimento” Unità statistica  ogni singolo elemento della popolazione Campione  il sottoinsieme della popolazione sul quale si rilevano i dati

Campionamento : il processo col quale si estrae il campione

  • probabilistico (molto buono)
  • non probabilistico (es. campione di esperti, campionamento "a valanga", "per convenienza"). Nonostante funzioni un po’ meno esiste, perché in certe situazioni può essere utile se non l’unico modo di avere un campione. Esempi di campionamento non probabilistico sono un campione di esperti (faccio delle interviste in profondità a delle persone che sono scelte da me in quanto le ritengo esperte nell’ambito dell’oggetto di studio); campionamento “a valanga” (questionario posto ad una persona e poi chiedo a questa se conosce persone che risponderebbero al sondaggio e così via; questo metodo è l’unico utilizzabile ad es per raccogliere dati su temi delicati come alcolismo o situazioni illegali, come per gli immigrati irregolari, per i quali non c’è una lista altrimenti sarebbero già regolarizzati, ed in cui è quindi impossibile avere una lista completa del campione. Tutto parte da poche persone dalle quali poi si scatena tutto il processo di raccolta dei dati); campionamento “per convenienza”. In questi casi non c’è niente di probabilistico, perché scelgo io a chi rivolgere il sondaggio.

Campionamento probabilistico :

  • campionamento casuale semplice (es. estrazione da un'urna)
  • campionamento stratificato: si utilizzano delle caratteristiche note della popolazione per suddividerla in strati (es. età, area) → strati: omogenei all'interno, eterogenei tra loro
  • campionamento a grappoli (cluster): quando la popolazione è naturalmente divisa in gruppi (es. classi scolastiche, comuni) → cluster: eterogenei all'interno, omogenei tra loro

Dimensione del campione  campioni più grandi migliorano la precisione delle stime, ma…

  • sono più costosi
  • il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione
  • la dimensione del campione non dipende da quella della popolazione (se pop > 10 mila)  la dimensione del campione si pu ò stimare a priori

Caratteristiche di un buon campione :

  • casualità (indipendenza delle osservazioni)
  • rappresentatività, deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto → validità, accuratezza. (Un campione è distorto quando le survey sono dirette a qualcuno che non rappresenta il target di riferimento. Il campione rappresentativo è quello che centra in tutto e per tutto l’obiettivo. È una condizione necessaria, fondamentale per il campionamento)
  • numerosità → affidabilità, precisione: è un concetto che riguarda la precisione, non l’affidabilità. È una condizione “plus” del campionamento. Se il campione non è rappresentativo, una numerosità alta è più un difetto che un pregio, perché sono molto sicuro di una cosa che però è sbagliata.

COME SI FA UN SONDAGGIO FATTO BENE?

PROBLEMATICHE E POSSIBILI SOLUZIONI:

E’ molto probabile che non tutte le quote siano state riempite. Poniamo che la quota di laureati non sia stata soddisfatta: c’era bisogno di intervistarne almeno 50 ma gli intervistatori ne hanno trovati solo 40 prima di esaurire le chiamate che avevano a disposizione. Quando si calcolano i risultati del sondaggio, quindi, bisognerà pesare sul totale quei 40 laureati come fossero 50. Si possono fare, oppure non fare, numerose “ponderazioni” di questo tipo. Una delle più diffuse è la ponderazione sul voto precedente. Oltre a chiedere cosa voteranno in futuro, agli intervistati viene spesso domandato anche cosa hanno votato l’ultima volta. Visto che si sa come sono andate realmente le ultime elezioni, si guarda al rapporto tra quante persone dicono di aver votato un certo partito alle ultime elezioni e quanti lo votarono effettivamente e si prova a fare la stessa operazione per le elezioni successive e lo stesso vale per un prodotto acquistato.

Se ci accorgiamo per esempio che un partito era sottovalutato di una certa percentuale alle ultime elezioni, cioè meno persone dicono di averlo votato rispetto alla realtà, allora è possibile provare a tenere conto di questo fatto anche nello stimare quante persone voteranno in futuro per questo partito.

Se il 20 per cento afferma di voler votare per quel partito, sarà possibile deciderle di correggerlo un po’ al rialzo. Come, quanto e con che formule tenere conto di questi fattori viene di solito deciso da ogni società di sondaggi, e i metodi che vengono utilizzati possono essere anche molto differenti e portare anche ad errori clamorosi in un senso o nell’altro.

I sondaggi sono tentativi di descrivere una realtà molto complessa e come tali devono essere trattati con prudenza. Sono però l’unico strumento che abbiamo per farci un’idea di come stanno le cose prima delle elezioni e per questo non possiamo pensare di rinunciare a loro completamente. Spostamenti settimanali della forza di un partito che ammontano a qualche zero virgola sono probabilmente inutili e fuorvianti, se il margine di errore di quello stesso sondaggio è dieci o venti volte superiore. Ma le tendenze di lungo periodo vanno prese con maggiore serietà.

3. DATI

Tutte le analisi si basano su matrici di dati espresse in unità per variabili , dove ci sono n righe che rappresentano le unità statistiche (casi, osservazioni) e k colonne che rappresentano le variabili (attributi, feature). Ogni variabile si può interpretare come una dimensione, mentre ogni unità si può interpretare come un punto nello spazio con k dimensioni. Ipotizzando quindi di avere una matrice di dati con due dimensioni allora abbiamo un piano in cui ogni unità è un punto del piano; se le variabili sono 3, abbiamo uno spazio tridimensionale ecc.

Ogni variabile si può interpretare come una dimensione nello spazio -> ogni colonna si può interpretare come una dimensione nello spazio

Ogni unità si può interpretare come un punto nello spazio a k dimensioni -> ogni riga si può interpretare etc.

I dati binari (dicotomici) sono dati che possono assumere solamente 2 valori e sono un tipo speciale di variabile categorica, in particolare si tratta di una categoria di dati nominali. I dati binari sono formalmente dati categorici ma in molte analisi si possono usare lecitamente come dati numerici. Si usa codificare dati come 0-1 e si possono poi svolgere in tutto e per tutto operazioni numeriche, ad es. calcolare la media. Questo permette di fare un utilizzo del dato numerico anche per i dati categorici > es il dato categorico “marca” si pu ò trasformare sempre in variabili dicotomiche, permettendo di usare i dati “marca” in analisi che richiedono dati numerici. Importanti le azioni di Data Cleaning; il 20% del tempo va nel raccogliere i dati, mentre il 60% è impiegato per la pulizia dei dati. Solo il circa 20% rimanente è dedicato all’analisi vera e propria. Tra le operazioni di data cleaning c’ è la ponderazione Ponderare un dataset o una matrice di dati consiste nell’aggiungere una colonna di dati che ha il significato di peso che serve per alterare artificialmente l’importanza dei singoli dati. Es se campione di 100 persone sono 49 maschi e 51 femmine, con la ponderazione posso raddrizzare un campione un po’ “storto”, es. i 49 maschi avranno un peso un pochino maggiore di uno così da poter pesare come 50 e viceversa le femmine che pesano un po’ meno, così il campione è equilibrato. Scopo è lavorare su un campione che dia la massima rappresentatività.

Un aspetto a cui bisogna fare attenzione durante il processo di data clening sono i valori mancanti ( missing ) Questi sono dei veri e propri vuoti/buchi nella matrice dei dati dalla quale si è partiti. Le cause di queste mancanze sono molteplici:

  • Nei sondaggi: il rispondente non risponde (rifiuto di risposta o mancanza di un blocco per propria forma di un sondaggio – es sezione che salta)
  • In dati ufficiali: mancata pubblicazione
  • In generale: errori, problemi tecnici, ecc

L’aspetto sostanziale che riguarda i dati mancanti è chiedersi se questi sono distribuiti casualmente nel dataset o se sono distribuiti in modo sistematico (es. concentrati in uno strato). Se sono distribuiti casualmente, posso ipotizzare che i dati presenti contengano abbastanza info da compensare le mancanze, e quindi posso fare ad es la media dei dati presenti e sostituire la media al dato mancante. Se invece i dati sono mancanti in un preciso strato, allora il dato è mancante per un motivo sistematico, quindi sarebbe proprio sbagliato utilizzare info provenienti da altri strati. In questo caso non si può fare niente. Per quanto riguarda invece la numerosità, si può affermare che la gravità del missing dipende dall’ambito di applicazione, non esistono indicazioni generali. Trattamento del missing Per poter agire e fare qualcosa, bisogna prima verificare che i missing siano distribuiti casualmente. Quando ciò è verificato e mancano casi interi, si agisce con la

  • Ponderazione, per compensare buchi relativi all’intera riga Se mancano invece singoli valori (mancata risposta parziale), si possono usare diverse tecniche:
  • Eliminazione = eliminare tutte le righe in cui ho un missing
  • Imputazione, ad es sostituzione con la media, eventualmente medie diverse in strati diversi.

Un altro aspetto importante a cui prestare attenzione durante le operazioni di data cleaning sono i valori anomali ( outlier). Questi sono valori di una variabile numerica che si discostano molto dagli altri. Possono derivare da varie cause, come ad es errori (610 al posto di 61 nell’ambito delle età che è improbabile, ma anche dati di pazienti con malattie rare che si discostano moltissimo dai dati della popolazione sana) Bisogna chiedersi se gli outlier che abbiamo trovato hanno un motivo o meno; se capiamo che c’è una causa sotto, allora ci hanno mostrato l’esistenza di un fenomeno (allo stesso modo dei missing), altrimenti capiamo che è un errore. Box plot (vedi slide 18) > il puntino così lontano dagli altri, quindi il valore anomalo, va esaminato bene: perché è così lontano dagli altri?? Ci sono casi per ò in cui gli outlier si identificano per combinazione di altri dati e pi ù variabili, tutte inusuali (es. ragazzo di 12 anni con già una laurea, grafico slide 18) > in questo caso, si parla di outlier multivariato.

Individuazione dell’outlier con strumenti grafici e statistici. A seguire, Trattamento dell’outlier:

  • Eliminazione, nel caso in cui si è sicuri che si tratti di un errore; porta a valori mancanti, ma almeno non sono sbagliati.
  • Capping, che consiste nell’eliminare e non considerare i valori superiori ad un valore che decidiamo essere il valore massimo: x > x(max)  x = x(max)
  • Ranking, cioè mettere i valori in ordine crescente e poi sostituirli con il loro ordinamento.

Trasformazione di dati numerici Usare i dati così come sono non sempre va bene, ma c’ è bisogno di manipolare i dati affinché si “esprimano” al meglio. Spesso succede di dover manipolare i dati per poter lavorare adeguatamente con certe procedure statistiche. Un caso tipico è quello in cui si vuole annullare la differenza di scala e di variabilità tra le variabili numeriche ; per fare ciò , diverse tecniche:

  • Standardizzare, portando la media a 0 e la varianza ad 1
  • Normalizzare, cioè trasformare i range di riferimento in un intervallo [0,1]
  • Discretizzare, cioè separare i dati in classi. Un altro caso è quello in cui si cerca di migliorare la distribuzione dei dati , ad esempio cercando di ridurre l’asimmetria e il numero di outlier; es. al posto di lavorare sul dato così com’è , lavoro sulla sua radice quadrata o sul suo logaritmo. Infine, si possono generare nuove variabili partendo da quelle originali (feature extraction = generazione di nuove variabili) per avere informazioni aggiuntive. Si creano così variabili dummy:
  • Da popolazione e superficie  densità
  • Da altezza e peso  BMI
  • Dalla località  coordinate geografiche
  • GDO (Grande Distribuzione Organizzata): dettaglio scontrini porta ad aggregare i valori per scontrino; scontrini porta ad aggregazione per cliente (carta fedeltà); cliente porta ad aggregazione per frequenza di acquisto, spesa mensile ecc
  • le distribuzioni di frequenza sono in genere basate su dati osservati (campionari)
  • le distribuzioni di probabilità sono i corrispondenti modelli teorici di riferimento
  • ne esistono moltissime, per modellare fenomeni diversi
  • si distinguono distribuzioni discrete e continue

Parlando di variabili discrete e continue non dobbiamo pensare al valore che usiamo per rappresentarle, ma al tipo di dato che stiamo misurando e alle sue caratteristiche intrinseche. Es. numero di sigarette che ho fumato ieri sono solo numeri interi, quindi, quella è una variabile discreta perché non può assumere valori intermedi. L’altezza delle donne adulte è invece una variabile continua perché qualunque altezza è possibile. Il fatto che la variabile sia discreta o continua è intrinseco al tipo di variabile che stiamo usando

variabile discreta → distribuzione discretala probabilità è concentrata nei punti

  • lancio di un dado
  • lancio di due dadi (max)?

variabile continua → distribuzione continuala probabilità è l’area sottostante alla curva ( Sull’asse delle x ci sono tutti gli infiniti punti; la funzione di probabilità continua si descrive come una curva e descrive la probabilità che la variabile continua x sia compresa tra i punti a e b come l’area sottostante alla curva compresa tra a e b.

Due conseguenze:

  • L’area totale sotto la curva è =
  • La probabilità di un singolo punto è zero; la probabilità che la variabile assuma un singolo valore è nulla) - lancio di due dadi (somma)

Abbiamo 20 osservazioni di una determinata variabile e ci interessa descriverle  la prima cosa che si fa è una distribuzione di frequenza: indentifico tutti i valori presenti nei dati e conto quante volte si presentano. Per comodità, nella seconda colonna, i numeri della colonna 1 vengono messi in ordine crescente. Nella tabella in cui si andrà a fare la distribuzione di frequenza si inseriscono prima i numeri, poi il numero di volte in cui si presentano n ( frequenza assoluta ), e successivamente la frequenza relativa f (esprime in proporzioni la frequenza assoluta). La somma delle frequenze assolute è uguale a 20, cioè pari al numero di soggetti che avevamo inizialmente. (Se la sequenza di dati fosse una frequenza di dati non numerici, e quindi categorico (es. 3 marca a, 2 marca c, 2 marca b, etc.) il ragionamento si può fare allo stesso modo).

La distribuzione di frequenza ci dice tanto sul dato. Il problema è che non è comoda da gestire. Ecco che nasce l’esigenza di avere delle misure che ci dicano intorno a quale valore si muovono i dati  queste misure si chiamano:

- ‘ misure di tendenza centrale’ -> media, moda e mediana - ‘misure di dispersione’ -> varianza

MEDIA -> la somma dei valori diviso n tot  La media è molto sensibile a valori particolarmente alti o bassi: anche un solo dato particolarmente alto o basso, cambia molto la distribuzione di frequenza e cambia molto la media

Questa ipersensibilità della media, che sfrutta molto bene i dati, è anche un contro. In alcune situazioni può dare fastidio, e questo genera la necessit à di sviluppare un’altra misura alternativa alla media che sia un può più stabile e che si sposti un po' meno allo spostarsi dei valori in gioco  MEDIANA : il valore centrale fra tutti quelli che la variabile può assumere. Se metto in ordine i dati, la mediana è il valore centrale, quello che ne lascia tanti sopra quanti sotto. Se i numeri di valori è

pari, bisogna prendere il valore medio fra quelli in mezzo. La mediana è un indicatore di

tendenza centrale, alternativo e complementare rispetto alla media. La mediana è molto

meno sensibile alla variazione dei valori. È sensibile solo all’ordinamento ma non alla grandezza dei dati.

Un’altra misura di tendenza centrale -> MODA : il valore più alto, la frequenza più alta che c’è nella distribuzione. Si può definire anche per variabili categoriche nominali, perch é basta che ce n’è una che ha una frequenza più alta e c’è la moda. La moda potrebbe anche non esistere, oppure potrebbe esserci una bimodale (quando ci sono due massimi).

PERCENTILI E QUARTILI  La definizione della mediana è quella di una posizione tale che alla sua sx c’è il 50% dei casi e alla sua destra un altro 50%. Esattamente con la stessa logica si possono definire misure più raffinate. Si può dividere in quattro parti: 25%, 25%, 25%, 25% -> l’abbiamo diviso in Quartili.

Oppure, dividere la mia curva in pezzettini di 1% -> percentili I percentili agli estremi posso essere interessanti, ha senso nelle code delle distribuzioni.

RELAZIONI TRA VARIABILI:

LA CORRELAZIONE  tra due variabili (fenomeni) c’è correlazione: tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a co-variare

6. Relazione lineare positiva  al crescere di una (X) cresce anche l’altra (Y) (graficamente

appare come una retta crescente)

6. Relazione lineare negativa  al crescere di una (X) diminuisce l’altra (Y) (graficamente

appare come una retta decrescente)

6. Relazione non linerare  iperbola

6. Assenza di relazione  grafici con nuvole di punti

ANALISI BIVARIATA  Esaminare la relazione tra due variabili numeriche significa misurare l’andamento relativo di una variabile rispetto all’altra (al crescere di una variabile cresce anche l’altra). Ad esempio la propensione all’acquisto e il gradimento è un esempio di due variabili legate tra loro.

1. RELAZIONE TRA VARIABILI NUMERICHE:

Una misura della concordanza/discordanza di due variabili è la covarianza , ottenuta dalla media aritmetica del prodotto tra le differenze di una variabile dalla sua media e dell’altra variabile e della sua media.

La frase “differenza tra una variabile e la sua media” indica la distanza fisica di un punto del grafico rispetto alla retta che corrisponde alla sua media

Se entrambi gli scarti sono positivi o negativi, la covarianza è positiva (perché è il loro prodotto); in questo caso si ha concordanza tra le variabili. Se invece il prodotto dà una covarianza negativa, si ha discordanza tra le variabili.

La covarianza può avere come massimo il valore corrispondente al prodotto tra le deviazioni standard delle due variabili. La covarianza minima= 0 , e significa che non c’è nessuna relazione tra le variabili.