Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Analisi dei dati e relazioni tra variabili, Appunti di Statistica

Libera università di lingue e comunicazione (IULM)Statistica

Una panoramica sulle principali nozioni relative all'analisi dei dati, con particolare focus sulle matrici di dati, le distribuzioni di frequenza e di probabilità, le relazioni tra variabili numeriche e categoriche, e le tecniche di riduzione della dimensionalità come l'analisi fattoriale e l'analisi delle componenti principali. Vengono inoltre discussi i requisiti e le assunzioni per l'applicazione di queste tecniche, come la standardizzazione delle variabili, la presenza di correlazioni non nulle tra le variabili, la numerosità del campione e il trattamento di outlier e dati mancanti. Il documento sottolinea l'importanza di interpretare con cautela i risultati di queste analisi, in quanto le variabili latenti estratte non hanno lo stesso livello di oggettività delle variabili osservate direttamente. Infine, vengono accennate alcune tecniche per arricchire l'interpretazione, come l'analisi della varianza (anova) e il test del chi-quadrato.

Tipologia: Appunti

2022/2023

Caricato il 26/04/2024

Dada4800 🇮🇹

6 documenti

1 / 93

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

DATA ANALYSIS

Community: data2024

Esame: 10 domande chiuse e 2 aperte sui casi

Report di analisi facoltativo: max 3 punti, da consegnare almeno una settima prima dell’appello

Codice Microsoft Teams: t5tszhh  28 settembre 17.30 ripasso su Teams

INDICE:

1. contesto

2. sondaggi e questionari

3. dati

4. probabilità

5. analisi bivariata

6. statistica inferenziale

7. data visualization

8. riduzione della dimensionalità (analisi fattoriale)

9. analisi predittiva (modelli di regressione)

10. brand mapping

11. segmentazione del mercato (cluster analysis)

12. sviluppi recenti

1. CONTESTO  in che logica affrontiamo data analisy?

Si parla di analisi del mercato. L’obiettivo dell’analisi di mercato, attraverso i dati, 7 quello di

rispondere a domande sul mercato in generale (sui concorrenti, clienti).

L’esigenza di rispondere a domande sul mercato sorge da motivi diversi, per esempio, per cercare

di reagire a problemi che si manifestano, approfondire aspetti che sembrano interessanti.

Si ha anche la necessità di un monitoraggio sistematico del mercato. Ad esempio Audit  il

mercato che si vuole monitorare con l’auditem 7 quello pubblicitario.

Chi fa analisi dei dati?

- Strutture interne all’azienda (soprattutto

nelle grandi aziende, come Skype)

- Strutture esterne, come ad esempio:

 generalisti che fanno di tutto, fanno ricerche

ad hoc ma fanno anche ricerche multiclient cio7

generaliste, per esempio una ricerca sul mondo

della finanza, della telefonia, dell’energia che

vengono vendute a chiunque

 specializzati: possono essere specializzate per

segmento di mercato, per attività, per tipo di

dati.

Ad esempio, i call center fanno parte di questo

mondo ma si limitano alla rilevazione dei dati

Scopri Appunti di Statistica Libera università di lingue e comunicazione (IULM)

Documenti correlati

Statistica e Machine Learning per il Marketing - prof. Della Beffa e Cerri

(1)

Estrazione di Feature e Analisi Multivariata: Tecniche e Applicazioni - Prof. Della Beffa

Analisi della Varianza (ANOVA) e Analisi di Regressione: Guida Dettagliata - Prof. Della B

Interpretativismo: Analisi Quantitativa e Variabili in Ricerche Sociali

Costruzione e analisi di matrici dati in ricerche quantitative

Esplorazione dati in Intelligenza Artificiale: Lezione 10

Basi di statistica e campionamento

Interpretativismo e Ricerca Quantitativa e Qualitativa: Distinzione tra Scienze Nat. e Uma

La Ricerca Quantitativa in Scienze Sociali: Tipi di Variabili e Analisi Statistica - Prof.

(1)

Slide, appunti e esercizi di spiegazione per ogni argomento

Analisi Multivariata: Tecniche e Modelli

(1)

Analisi statistica univariata e multivariata di dati di consumo - Prof. Della Beffa

Anteprima parziale del testo

Scarica Analisi dei dati e relazioni tra variabili e più Appunti in PDF di Statistica solo su Docsity!

DATA ANALYSIS

Community: data Esame: 10 domande chiuse e 2 aperte sui casi Report di analisi facoltativo: max 3 punti, da consegnare almeno una settima prima dell’appello Codice Microsoft Teams: t5tszhh  28 settembre 17.30 ripasso su Teams

INDICE:

contesto
sondaggi e questionari
dati
probabilità
analisi bivariata
statistica inferenziale
data visualization
riduzione della dimensionalità (analisi fattoriale)
analisi predittiva (modelli di regressione)
brand mapping
segmentazione del mercato (cluster analysis)
sviluppi recenti

1. CONTESTO  in che logica affrontiamo data analisy?

Si parla di analisi del mercato. L’obiettivo dell’analisi di mercato, attraverso i dati, è quello di rispondere a domande sul mercato in generale (sui concorrenti, clienti). L’esigenza di rispondere a domande sul mercato sorge da motivi diversi, per esempio, per cercare di reagire a problemi che si manifestano, approfondire aspetti che sembrano interessanti. Si ha anche la necessità di un monitoraggio sistematico del mercato. Ad esempio Audit  il mercato che si vuole monitorare con l’auditem è quello pubblicitario.

Chi fa analisi dei dati?

Strutture interne all’azienda (soprattutto nelle grandi aziende, come Skype)
Strutture esterne, come ad esempio:

 generalisti che fanno di tutto, fanno ricerche ad hoc ma fanno anche ricerche multiclient cioè generaliste, per esempio una ricerca sul mondo della finanza, della telefonia, dell’energia che vengono vendute a chiunque

 specializzati: possono essere specializzate per segmento di mercato, per attività, per tipo di dati. Ad esempio, i call center fanno parte di questo mondo ma si limitano alla rilevazione dei dati

La definizione dei progetti di analisi non è banale né univoca, quale obiettivo? Quali dati? Quali strumenti? Noi ci concentreremo su ANALISI QUANTITATIVE.

Il processo di analisi ( quantitativo ) di mercato:

Formulazione obiettivo
Quale formula di ricerca?
Quali dati?
Raccolta dei dati
Analisi dei dati
Interpretazione e presentazione dei risultati
Follow-up e messa in produzione

Per fare un’analisi fatta bene il primo passo è definire e formulare gli obiettivi. Una volta capito l’obiettivo, bisogna decidere la formula di ricerca:  Esplorativa (ad esempio analisi qualitativa ): quando non ne so nulla di una cosa, devo cominciare a rendermi conto di quali sono i problemi in gioco in maniera anche molto descrittiva/esplorativa  Descrittiva: quando cominciamo a saperne qualcosa va bene l’analisi descrittiva, per esempio il livello di conoscenza oppure una segmentazione dei clienti.  Causale- predittiva: si vanno a vedere le cause, come ad esempio la customer satisfation, non mi interessa vedere chi è soddisfatto e chi no ma mi interessa vedere quali sono i driver della soddisfazione, cosa rende più soddisfatto il cliente. Deciso in che ambito siamo e che tipo di analisi vogliamo fare, a questo punto si tratta di raccogliere i dati , analizzarli e interpretarli.

 comportamenti : con quale frequenza compri la mozzarella, quantità, pagamenti, che tipo di mozzarella compri etc.; i comportamenti con i dati secondari possono essere rilevati (che film ha visto, cosa ha comprato etc.)

Diversi software statistici, che si differenziano per ambito di applicazione (statistica o machine learning o data mining o big data), per politica commerciale (licenza, freeware o open source), per tipo di utilizzo e facilità d’uso (interfacce grafiche, linguaggi di programmazione).

Differenza tra freeware e shareware: Freeware è il software distribuito gratuitamente e completo di tutte le funzionalità; shareware è il software distribuito gratuitamente con limitazioni (es. temporali)

2. SONDAGGI E QUESTIONARI

Sondaggio  rilevazione di dati primari con interviste strutturate a un campione di soggetti; strumento molto generale, potenzialmente costoso che richiede particolare competenza e rigore nel definire gli obiettivi.

Pro e contro della Survey:

Molto generale, si può esplorare qualsiasi problema concettuale
Costosa, perché anche solo la redazione del questionario richiede competenze e lavoro
Ci vuole una particolare attenzione a quello che è l’obiettivo della raccolta dati e un rigore formale nel farla

Alternative:

censimento: rilevazione su tutte le unità statistiche della popolazione, a differenza della survey che rileva dati solamente da un campione definito di soggetti. Tuttavia, il censimento è più a livello teorico, in quanto è impossibile o comunque troppo costoso raggiungere tutta la popolazione.
analisi di dati secondari da fonti esterne (es. Istat, Aida)
analisi di dati secondari interni (banche, telefonia, assicurazioni → segmentazione e scoring GDO → market basket analysis e-commerce, entertainment → sistemi di raccomandazione)

Dati dichiarati VS dati oggettivi I dati rilevati con le survey però purtroppo non sono mai perfettamente oggettivi, anche se riguardano comportamenti Ad es. Auditel utilizza Meter per fare un monitoraggio abbastanza preciso degli ascolti.

POPOLAZIONE E CAMPIONE:

Popolazione  l'insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende), deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile (es. "italiani" o "consumatori abituali" non basta); significa “l’universo di riferimento” Unità statistica  ogni singolo elemento della popolazione Campione  il sottoinsieme della popolazione sul quale si rilevano i dati

Campionamento : il processo col quale si estrae il campione

probabilistico (molto buono)
non probabilistico (es. campione di esperti, campionamento "a valanga", "per convenienza"). Nonostante funzioni un po’ meno esiste, perché in certe situazioni può essere utile se non l’unico modo di avere un campione. Esempi di campionamento non probabilistico sono un campione di esperti (faccio delle interviste in profondità a delle persone che sono scelte da me in quanto le ritengo esperte nell’ambito dell’oggetto di studio); campionamento “a valanga” (questionario posto ad una persona e poi chiedo a questa se conosce persone che risponderebbero al sondaggio e così via; questo metodo è l’unico utilizzabile ad es per raccogliere dati su temi delicati come alcolismo o situazioni illegali, come per gli immigrati irregolari, per i quali non c’è una lista altrimenti sarebbero già regolarizzati, ed in cui è quindi impossibile avere una lista completa del campione. Tutto parte da poche persone dalle quali poi si scatena tutto il processo di raccolta dei dati); campionamento “per convenienza”. In questi casi non c’è niente di probabilistico, perché scelgo io a chi rivolgere il sondaggio.

Campionamento probabilistico :

campionamento casuale semplice (es. estrazione da un'urna)
campionamento stratificato: si utilizzano delle caratteristiche note della popolazione per suddividerla in strati (es. età, area) → strati: omogenei all'interno, eterogenei tra loro
campionamento a grappoli (cluster): quando la popolazione è naturalmente divisa in gruppi (es. classi scolastiche, comuni) → cluster: eterogenei all'interno, omogenei tra loro

Dimensione del campione  campioni più grandi migliorano la precisione delle stime, ma…

sono più costosi
il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione
la dimensione del campione non dipende da quella della popolazione (se pop > 10 mila)  la dimensione del campione si pu ò stimare a priori

Caratteristiche di un buon campione :

casualità (indipendenza delle osservazioni)
rappresentatività, deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto → validità, accuratezza. (Un campione è distorto quando le survey sono dirette a qualcuno che non rappresenta il target di riferimento. Il campione rappresentativo è quello che centra in tutto e per tutto l’obiettivo. È una condizione necessaria, fondamentale per il campionamento)
numerosità → affidabilità, precisione: è un concetto che riguarda la precisione, non l’affidabilità. È una condizione “plus” del campionamento. Se il campione non è rappresentativo, una numerosità alta è più un difetto che un pregio, perché sono molto sicuro di una cosa che però è sbagliata.

COME SI FA UN SONDAGGIO FATTO BENE?

PROBLEMATICHE E POSSIBILI SOLUZIONI:

E’ molto probabile che non tutte le quote siano state riempite. Poniamo che la quota di laureati non sia stata soddisfatta: c’era bisogno di intervistarne almeno 50 ma gli intervistatori ne hanno trovati solo 40 prima di esaurire le chiamate che avevano a disposizione. Quando si calcolano i risultati del sondaggio, quindi, bisognerà pesare sul totale quei 40 laureati come fossero 50. Si possono fare, oppure non fare, numerose “ponderazioni” di questo tipo. Una delle più diffuse è la ponderazione sul voto precedente. Oltre a chiedere cosa voteranno in futuro, agli intervistati viene spesso domandato anche cosa hanno votato l’ultima volta. Visto che si sa come sono andate realmente le ultime elezioni, si guarda al rapporto tra quante persone dicono di aver votato un certo partito alle ultime elezioni e quanti lo votarono effettivamente e si prova a fare la stessa operazione per le elezioni successive e lo stesso vale per un prodotto acquistato.

Se ci accorgiamo per esempio che un partito era sottovalutato di una certa percentuale alle ultime elezioni, cioè meno persone dicono di averlo votato rispetto alla realtà, allora è possibile provare a tenere conto di questo fatto anche nello stimare quante persone voteranno in futuro per questo partito.

Se il 20 per cento afferma di voler votare per quel partito, sarà possibile deciderle di correggerlo un po’ al rialzo. Come, quanto e con che formule tenere conto di questi fattori viene di solito deciso da ogni società di sondaggi, e i metodi che vengono utilizzati possono essere anche molto differenti e portare anche ad errori clamorosi in un senso o nell’altro.

I sondaggi sono tentativi di descrivere una realtà molto complessa e come tali devono essere trattati con prudenza. Sono però l’unico strumento che abbiamo per farci un’idea di come stanno le cose prima delle elezioni e per questo non possiamo pensare di rinunciare a loro completamente. Spostamenti settimanali della forza di un partito che ammontano a qualche zero virgola sono probabilmente inutili e fuorvianti, se il margine di errore di quello stesso sondaggio è dieci o venti volte superiore. Ma le tendenze di lungo periodo vanno prese con maggiore serietà.

3. DATI

Tutte le analisi si basano su matrici di dati espresse in unità per variabili , dove ci sono n righe che rappresentano le unità statistiche (casi, osservazioni) e k colonne che rappresentano le variabili (attributi, feature). Ogni variabile si può interpretare come una dimensione, mentre ogni unità si può interpretare come un punto nello spazio con k dimensioni. Ipotizzando quindi di avere una matrice di dati con due dimensioni allora abbiamo un piano in cui ogni unità è un punto del piano; se le variabili sono 3, abbiamo uno spazio tridimensionale ecc.

Ogni variabile si può interpretare come una dimensione nello spazio -> ogni colonna si può interpretare come una dimensione nello spazio

Ogni unità si può interpretare come un punto nello spazio a k dimensioni -> ogni riga si può interpretare etc.

I dati binari (dicotomici) sono dati che possono assumere solamente 2 valori e sono un tipo speciale di variabile categorica, in particolare si tratta di una categoria di dati nominali. I dati binari sono formalmente dati categorici ma in molte analisi si possono usare lecitamente come dati numerici. Si usa codificare dati come 0-1 e si possono poi svolgere in tutto e per tutto operazioni numeriche, ad es. calcolare la media. Questo permette di fare un utilizzo del dato numerico anche per i dati categorici > es il dato categorico “marca” si pu ò trasformare sempre in variabili dicotomiche, permettendo di usare i dati “marca” in analisi che richiedono dati numerici. Importanti le azioni di Data Cleaning; il 20% del tempo va nel raccogliere i dati, mentre il 60% è impiegato per la pulizia dei dati. Solo il circa 20% rimanente è dedicato all’analisi vera e propria. Tra le operazioni di data cleaning c’ è la ponderazione Ponderare un dataset o una matrice di dati consiste nell’aggiungere una colonna di dati che ha il significato di peso che serve per alterare artificialmente l’importanza dei singoli dati. Es se campione di 100 persone sono 49 maschi e 51 femmine, con la ponderazione posso raddrizzare un campione un po’ “storto”, es. i 49 maschi avranno un peso un pochino maggiore di uno così da poter pesare come 50 e viceversa le femmine che pesano un po’ meno, così il campione è equilibrato. Scopo è lavorare su un campione che dia la massima rappresentatività.

Un aspetto a cui bisogna fare attenzione durante il processo di data clening sono i valori mancanti ( missing ) Questi sono dei veri e propri vuoti/buchi nella matrice dei dati dalla quale si è partiti. Le cause di queste mancanze sono molteplici:

Nei sondaggi: il rispondente non risponde (rifiuto di risposta o mancanza di un blocco per propria forma di un sondaggio – es sezione che salta)
In dati ufficiali: mancata pubblicazione
In generale: errori, problemi tecnici, ecc

L’aspetto sostanziale che riguarda i dati mancanti è chiedersi se questi sono distribuiti casualmente nel dataset o se sono distribuiti in modo sistematico (es. concentrati in uno strato). Se sono distribuiti casualmente, posso ipotizzare che i dati presenti contengano abbastanza info da compensare le mancanze, e quindi posso fare ad es la media dei dati presenti e sostituire la media al dato mancante. Se invece i dati sono mancanti in un preciso strato, allora il dato è mancante per un motivo sistematico, quindi sarebbe proprio sbagliato utilizzare info provenienti da altri strati. In questo caso non si può fare niente. Per quanto riguarda invece la numerosità, si può affermare che la gravità del missing dipende dall’ambito di applicazione, non esistono indicazioni generali. Trattamento del missing Per poter agire e fare qualcosa, bisogna prima verificare che i missing siano distribuiti casualmente. Quando ciò è verificato e mancano casi interi, si agisce con la

Ponderazione, per compensare buchi relativi all’intera riga Se mancano invece singoli valori (mancata risposta parziale), si possono usare diverse tecniche:
Eliminazione = eliminare tutte le righe in cui ho un missing
Imputazione, ad es sostituzione con la media, eventualmente medie diverse in strati diversi.

Un altro aspetto importante a cui prestare attenzione durante le operazioni di data cleaning sono i valori anomali ( outlier). Questi sono valori di una variabile numerica che si discostano molto dagli altri. Possono derivare da varie cause, come ad es errori (610 al posto di 61 nell’ambito delle età che è improbabile, ma anche dati di pazienti con malattie rare che si discostano moltissimo dai dati della popolazione sana) Bisogna chiedersi se gli outlier che abbiamo trovato hanno un motivo o meno; se capiamo che c’è una causa sotto, allora ci hanno mostrato l’esistenza di un fenomeno (allo stesso modo dei missing), altrimenti capiamo che è un errore. Box plot (vedi slide 18) > il puntino così lontano dagli altri, quindi il valore anomalo, va esaminato bene: perché è così lontano dagli altri?? Ci sono casi per ò in cui gli outlier si identificano per combinazione di altri dati e pi ù variabili, tutte inusuali (es. ragazzo di 12 anni con già una laurea, grafico slide 18) > in questo caso, si parla di outlier multivariato.

Individuazione dell’outlier con strumenti grafici e statistici. A seguire, Trattamento dell’outlier:

Eliminazione, nel caso in cui si è sicuri che si tratti di un errore; porta a valori mancanti, ma almeno non sono sbagliati.
Capping, che consiste nell’eliminare e non considerare i valori superiori ad un valore che decidiamo essere il valore massimo: x > x(max)  x = x(max)
Ranking, cioè mettere i valori in ordine crescente e poi sostituirli con il loro ordinamento.

Trasformazione di dati numerici Usare i dati così come sono non sempre va bene, ma c’ è bisogno di manipolare i dati affinché si “esprimano” al meglio. Spesso succede di dover manipolare i dati per poter lavorare adeguatamente con certe procedure statistiche. Un caso tipico è quello in cui si vuole annullare la differenza di scala e di variabilità tra le variabili numeriche ; per fare ciò , diverse tecniche:

Standardizzare, portando la media a 0 e la varianza ad 1
Normalizzare, cioè trasformare i range di riferimento in un intervallo [0,1]
Discretizzare, cioè separare i dati in classi. Un altro caso è quello in cui si cerca di migliorare la distribuzione dei dati , ad esempio cercando di ridurre l’asimmetria e il numero di outlier; es. al posto di lavorare sul dato così com’è , lavoro sulla sua radice quadrata o sul suo logaritmo. Infine, si possono generare nuove variabili partendo da quelle originali (feature extraction = generazione di nuove variabili) per avere informazioni aggiuntive. Si creano così variabili dummy:
Da popolazione e superficie  densità
Da altezza e peso  BMI
Dalla località  coordinate geografiche
GDO (Grande Distribuzione Organizzata): dettaglio scontrini porta ad aggregare i valori per scontrino; scontrini porta ad aggregazione per cliente (carta fedeltà); cliente porta ad aggregazione per frequenza di acquisto, spesa mensile ecc

le distribuzioni di frequenza sono in genere basate su dati osservati (campionari)
le distribuzioni di probabilità sono i corrispondenti modelli teorici di riferimento
ne esistono moltissime, per modellare fenomeni diversi
si distinguono distribuzioni discrete e continue

Parlando di variabili discrete e continue non dobbiamo pensare al valore che usiamo per rappresentarle, ma al tipo di dato che stiamo misurando e alle sue caratteristiche intrinseche. Es. numero di sigarette che ho fumato ieri sono solo numeri interi, quindi, quella è una variabile discreta perché non può assumere valori intermedi. L’altezza delle donne adulte è invece una variabile continua perché qualunque altezza è possibile. Il fatto che la variabile sia discreta o continua è intrinseco al tipo di variabile che stiamo usando

variabile discreta → distribuzione discreta  la probabilità è concentrata nei punti

lancio di un dado
lancio di due dadi (max)?

variabile continua → distribuzione continua  la probabilità è l’area sottostante alla curva ( Sull’asse delle x ci sono tutti gli infiniti punti; la funzione di probabilità continua si descrive come una curva e descrive la probabilità che la variabile continua x sia compresa tra i punti a e b come l’area sottostante alla curva compresa tra a e b.

Due conseguenze:

L’area totale sotto la curva è =
La probabilità di un singolo punto è zero; la probabilità che la variabile assuma un singolo valore è nulla) - lancio di due dadi (somma)

Abbiamo 20 osservazioni di una determinata variabile e ci interessa descriverle  la prima cosa che si fa è una distribuzione di frequenza: indentifico tutti i valori presenti nei dati e conto quante volte si presentano. Per comodità, nella seconda colonna, i numeri della colonna 1 vengono messi in ordine crescente. Nella tabella in cui si andrà a fare la distribuzione di frequenza si inseriscono prima i numeri, poi il numero di volte in cui si presentano n ( frequenza assoluta ), e successivamente la frequenza relativa f (esprime in proporzioni la frequenza assoluta). La somma delle frequenze assolute è uguale a 20, cioè pari al numero di soggetti che avevamo inizialmente. (Se la sequenza di dati fosse una frequenza di dati non numerici, e quindi categorico (es. 3 marca a, 2 marca c, 2 marca b, etc.) il ragionamento si può fare allo stesso modo).

La distribuzione di frequenza ci dice tanto sul dato. Il problema è che non è comoda da gestire. Ecco che nasce l’esigenza di avere delle misure che ci dicano intorno a quale valore si muovono i dati  queste misure si chiamano:

- ‘ misure di tendenza centrale’ -> media, moda e mediana - ‘misure di dispersione’ -> varianza

MEDIA -> la somma dei valori diviso n tot  La media è molto sensibile a valori particolarmente alti o bassi: anche un solo dato particolarmente alto o basso, cambia molto la distribuzione di frequenza e cambia molto la media

Questa ipersensibilità della media, che sfrutta molto bene i dati, è anche un contro. In alcune situazioni può dare fastidio, e questo genera la necessit à di sviluppare un’altra misura alternativa alla media che sia un può più stabile e che si sposti un po' meno allo spostarsi dei valori in gioco  MEDIANA : il valore centrale fra tutti quelli che la variabile può assumere. Se metto in ordine i dati, la mediana è il valore centrale, quello che ne lascia tanti sopra quanti sotto. Se i numeri di valori è

pari, bisogna prendere il valore medio fra quelli in mezzo. La mediana è un indicatore di

tendenza centrale, alternativo e complementare rispetto alla media. La mediana è molto

meno sensibile alla variazione dei valori. È sensibile solo all’ordinamento ma non alla grandezza dei dati.

Un’altra misura di tendenza centrale -> MODA : il valore più alto, la frequenza più alta che c’è nella distribuzione. Si può definire anche per variabili categoriche nominali, perch é basta che ce n’è una che ha una frequenza più alta e c’è la moda. La moda potrebbe anche non esistere, oppure potrebbe esserci una bimodale (quando ci sono due massimi).

PERCENTILI E QUARTILI  La definizione della mediana è quella di una posizione tale che alla sua sx c’è il 50% dei casi e alla sua destra un altro 50%. Esattamente con la stessa logica si possono definire misure più raffinate. Si può dividere in quattro parti: 25%, 25%, 25%, 25% -> l’abbiamo diviso in Quartili.

Oppure, dividere la mia curva in pezzettini di 1% -> percentili I percentili agli estremi posso essere interessanti, ha senso nelle code delle distribuzioni.

RELAZIONI TRA VARIABILI:

LA CORRELAZIONE  tra due variabili (fenomeni) c’è correlazione: tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a co-variare

6. Relazione lineare positiva  al crescere di una (X) cresce anche l’altra (Y) (graficamente

appare come una retta crescente)

6. Relazione lineare negativa  al crescere di una (X) diminuisce l’altra (Y) (graficamente

appare come una retta decrescente)

6. Relazione non linerare  iperbola

6. Assenza di relazione  grafici con nuvole di punti

ANALISI BIVARIATA  Esaminare la relazione tra due variabili numeriche significa misurare l’andamento relativo di una variabile rispetto all’altra (al crescere di una variabile cresce anche l’altra). Ad esempio la propensione all’acquisto e il gradimento è un esempio di due variabili legate tra loro.

1. RELAZIONE TRA VARIABILI NUMERICHE:

Una misura della concordanza/discordanza di due variabili è la covarianza , ottenuta dalla media aritmetica del prodotto tra le differenze di una variabile dalla sua media e dell’altra variabile e della sua media.

La frase “differenza tra una variabile e la sua media” indica la distanza fisica di un punto del grafico rispetto alla retta che corrisponde alla sua media

Se entrambi gli scarti sono positivi o negativi, la covarianza è positiva (perché è il loro prodotto); in questo caso si ha concordanza tra le variabili. Se invece il prodotto dà una covarianza negativa, si ha discordanza tra le variabili.

La covarianza può avere come massimo il valore corrispondente al prodotto tra le deviazioni standard delle due variabili. La covarianza minima è = 0 , e significa che non c’è nessuna relazione tra le variabili.