Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Estrazione di Feature e Analisi Multivariata: Tecniche e Applicazioni - Prof. Della Beffa, Appunti di Statistica

Le tecniche di estrazione di feature e analisi multivariata, focalizzandosi sulla generazione di nuove variabili e sulla riduzione della dimensionalità dei dati. Vengono trattati argomenti come l'analisi fattoriale, la regressione lineare semplice e la cluster analysis, con un'attenzione particolare alla scelta delle variabili e alla stabilità dei cluster. Indicazioni sulla numerosità del campione necessaria per garantire la stabilità dei risultati e sull'interpretazione dei cluster attraverso l'analisi delle medie e l'uso di test statistici come anova e chi-quadrato. Si discute anche della trasformazione di variabili categoriche in variabili dummy e dell'importanza del pre-processing dei dati per ottenere risultati significativi. L'obiettivo è fornire una guida pratica per l'applicazione di queste tecniche nell'analisi dei dati.

Tipologia: Appunti

2022/2023

In vendita dal 23/10/2025

sophie-scappini
sophie-scappini 🇮🇹

12 documenti

1 / 69

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
24/9/2024!
Data Analysis
(10 domande chiuse su tutto il programma; 2 domande aperte su un output già fatto).!
Siamo nel contesto dell’analisi di mercato. Si analizza il mercato per rispondere a delle domande
su mercato, clienti, concorrenti, opportunità (nuovi mercati o prodotti), problemi (perdita di quote
di mercato) e approfondimenti (segmentazione, customer satisfaction).!
Ci sono svariati motivi per fare un’analisi di mercato, ma in genere è per rispondere a delle
domande che riguardano il mercato.!
Un altro aspetto è la volontà di monitorare periodicamente il mercato. Vengono ripetute delle
domande per vedere gli eetti.!
Chi fa analisi di mercato?
-Strutture interne all’azienda: almeno una persona nel 75% delle aziende.!
-Fornitori esterni generalisti: es. Nielsen, Ipsos, Doxa, GFK, Toluna, SWG ricerche multiclient e
ad hoc.!
-Specializzati: per segmento, per attività, per tipo di analisi.!
Il processo dell'analisi (quantitativa) di mercato
La definizione del progetto di analisi non è banale né univoca. È frutto di un dibattito sul quale
bisogna trovare un accordo.!
quale obiettivo? quali dati? quali metodi?!
1. Formulazione dell'obiettivo Es. Analisi della concorrenza: chi sono i concorrenti? cosa li
distingue? quali sono i miei punti di forza e di debolezza? l’obiettivo va deciso bene e deve
essere condiviso. Formalizzare l’obiettivo è importante perché chiarisce cosa NON devo fare.!
2. Quale formula di ricerca? Es. descrittiva, predittiva.!
3. Quali dati?
4. Raccolta dei dati
5. Analisi dei dati
6. Interpretazione e presentazione dei risultati
7. Follow-up e messa in produzione
Analisi qualitativa
A volte precede l'analisi quantitativa a scopo esplorativo: definire i contorni del problema
sviluppare ipotesi di lavoro individuare variabili e relazioni da approfondire.!
Focus group: moderatore con un gruppo ristretto. Mantiene il focus sugli obiettivi.!
Interviste in profondità: intervistatore con un consumatore o un decisore.!
L'analisi qualitativa è circa il 20% della spesa in ricerca di mercato. !
ESOMAR Global Market Research Report 2023!
Fonti informative
I dati primari sono raccolti apposta per
rispondere ad una domanda di marketing.!
I dati secondari, invece, vengono rilevati per
altri scopi.!
Il pro dei dati primari è la loro specializzazione:
posso indagare qualunque obiettivo. Il contro è
che costano.!
Il pro dei dati secondari è che sono di alta
qualità. Il contro è che non sono specializzati,
quindi la risposta che otterrò sarà
approssimata.!
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45

Anteprima parziale del testo

Scarica Estrazione di Feature e Analisi Multivariata: Tecniche e Applicazioni - Prof. Della Beffa e più Appunti in PDF di Statistica solo su Docsity!

Data Analysis

(10 domande chiuse su tutto il programma; 2 domande aperte su un output già fatto). Siamo nel contesto dell’analisi di mercato. Si analizza il mercato per rispondere a delle domande su mercato, clienti, concorrenti, opportunità (nuovi mercati o prodotti), problemi (perdita di quote di mercato) e approfondimenti (segmentazione, customer satisfaction). Ci sono svariati motivi per fare un’analisi di mercato, ma in genere è per rispondere a delle domande che riguardano il mercato. Un altro aspetto è la volontà di monitorare periodicamente il mercato. Vengono ripetute delle domande per vedere gli effetti. Chi fa analisi di mercato?

  • Strutture interne all’azienda: almeno una persona nel 75% delle aziende.
  • Fornitori esterni generalisti: es. Nielsen, Ipsos, Doxa, GFK, Toluna, SWG ricerche multiclient e ad hoc.
  • Specializzati: per segmento, per attività, per tipo di analisi. Il processo dell'analisi (quantitativa) di mercato La definizione del progetto di analisi non è banale né univoca. È frutto di un dibattito sul quale bisogna trovare un accordo. quale obiettivo? quali dati? quali metodi?
  1. Formulazione dell'obiettivo Es. Analisi della concorrenza: chi sono i concorrenti? cosa li distingue? quali sono i miei punti di forza e di debolezza? l’obiettivo va deciso bene e deve essere condiviso. Formalizzare l’obiettivo è importante perché chiarisce cosa NON devo fare.
  2. Quale formula di ricerca? Es. descrittiva, predittiva. **3. Quali dati?
  3. Raccolta dei dati
  4. Analisi dei dati
  5. Interpretazione e presentazione dei risultati
  6. Follow-up e messa in produzione Analisi qualitativa** A volte precede l'analisi quantitativa a scopo esplorativo: definire i contorni del problema sviluppare ipotesi di lavoro individuare variabili e relazioni da approfondire.
  • Focus group : moderatore con un gruppo ristretto. Mantiene il focus sugli obiettivi.
  • Interviste in profondità: intervistatore con un consumatore o un decisore. L'analisi qualitativa è circa il 20% della spesa in ricerca di mercato. ESOMAR Global Market Research Report 2023 Fonti informative I dati primari sono raccolti apposta per rispondere ad una domanda di marketing. I dati secondari, invece, vengono rilevati per altri scopi. Il pro dei dati primari è la loro specializzazione: posso indagare qualunque obiettivo. Il contro è che costano. Il pro dei dati secondari è che sono di alta qualità. Il contro è che non sono specializzati, quindi la risposta che otterrò sarà approssimata.

Tipi di informazione Software per data science: player principali Classificazione del software per data science Si classificano secondo 3 criteri fondamentali:

- Per ambito di applicazione

  • Statistica
  • Machine learning, data mining, text analytics - Per politica commerciale (pagati/ non pagati)
  • Licenza (annuale o perpetua)
  • Freeware open source - Tipo di utilizzo / facilità d'uso
  • Interfacce grafiche (a menu o workflow)
  • Linguaggi di programmazione (sono i più difficili, richiedono competenze di programmazione) 25/9/

SONDAGGI E QUESTIONARI

Sondaggio -> Rilevazione di dati primari con interviste strutturate a un campione di soggetti. È molto generale, potenzialmente costoso e richiede competenze e rigore perchè bisogna definire bene gli obiettivi, non si può improvvisare. Alternative:

  • Censimento: rilevazione su tutta la popolazione.
  • Analisi di dati secondari da fonti esterne. (Istat, Auditel)
  • Analisi di dati secondari interni (banche, telefonia, assicurazione -> segmenti e scoring; GDO -> market basket analysis; e-commerce, enterteinment -> sistemi di raccomandazione).

Bisogna privilegiare rappresentatività o numerosità? La Rappresentatività. Poi, quando il campione è rappresentativo, più grande è, meglio è perché migliora la precisione delle stime. Ma se il campione non è rappresentativo e quindi è distorto, una numerosità molto alta è più un difetto che un pregio perché mi fa essere più sicuro di un a cosa sbagliata. La rappresentatività è condizione necessaria di un campione. Fasi di un sondaggio

  1. Definizione dell’obiettivo: formula di ricerca, popolazione, campione
  2. Scelta del metodo di contatto
  3. Costruzione del questionario
  4. Test del questionario
  5. Somministrazione del questionario al campione
  6. Raccolta dati
  7. Analisi
  8. Reporting Metodo di contatto - (^) CAPI: Computer Assisted Personal Interviewing. (es. indagini nei centri commerciali, exit-poll, Auditel). C’è di persona un intervistatore. ↑ qualità, accuratezza, nessuna limitazione di target.tempi e costi alti , bias dell’intervistatore : influenza in qualche modo l’intervistato, desiderabilità sociale: una persona tende a rispondere in modo più convenzionale. - (^) CATI/CAMI: Computer Assisted Telephone/Mobile Interviewing. Interviste telefoniche. Costi: ~20€/intervista per mille casi da popolazione italiana. Ci sono dei costi fissi che sono uguali sia se faccio 100 interviste sia se ne faccio 100000, quindi più ne faccio, più spalmo i costi. ↑ tempi brevi, qualità (buona perché c’è pur sempre un intervistatore al telefono) , accuratezza, controllo rilevazione. - (^) CAWI: Computer Assisted Web Interviewing. (invito via email/web/social, link per la compilazione) ↑ costi bassi, tempi a volte ma non sempre brevi. ↓ minore accuratezza, filtro internet, autoselezione. Costruzione del questionario Principi fondamentali: chiarezza, semplicità, brevità 1. Identificare informazioni di interesse primario e accessorieCosa chiedere 2. Stabilire la sequenza logica delle sezioni e delle domande es. opinioni, comportamenti, marche, sociodemo es. prima il gradimento globale o gli attributi del prodotto? Se metto prima gli attributi condiziono l’intervistato. Se chiedo il gradimento condizionando l’intervistato sulla base delle informazioni che voglio sapere ottengono risposta operativamente più utile. → Struttura del questionario 3. Decidere la forma delle risposte e formulare le domande es. aperte o chiuse, in che scala, "non so" → Come chiedere Formulazione delle domande: esercizio Queste domande sono sbagliate, perché?
  9. Ha mai comprato online biglietti aerei e ferroviari? -> sbagliata perché c’è la doppia scelta.
  10. Nella sua famiglia ci sono bambini? -> sbagliata perché non è determinata l’età dei bambini.
  11. L'intervento dello Stato non è stato adeguato… -> c’è la negazione.
  12. In che paese è nato: Italia | Francia | Spagna | Europa -> altri paesei europei/non europei
  13. Dove è andato in vacanza l'estate scorsa? -> da per scontato che sia andato in vacanza, ma prima bisogna capire se ci è andato o meno.
  14. In che anno ha aperto l’account? -> la memoria non è affidabile.
  15. Ha malattie croniche? -> informazioni sensibili.
  16. Lei ritiene che i clandestini… -> è tendenzioso, da un giudizio negativo.

Formulazione delle domande: raccomandazioni

  • Evitare domande doppie
  • Evitare ambiguità
  • Attenzione alle negazioni
  • Risposte esaustive e mutuamente esclusive
  • Non dare nulla per scontato
  • Attenzione alle domande sul passato e ai temi sensibili
  • Evitare formulazioni tendenziose - Inserire domande replicate o con scala invertita

SURVEY MOZZARELLA

Obiettivo principale: analisi della concorrenza

  • posizionamento dei concorrenti
  • miei punti di forza e di debolezza Obiettivo secondario: segmentazione dei prodotti Formula di ricerca: campione di consumatori survey mapping preference analysis cluster analysis

DATI

La matrice dei dati Tutte le analisi si basano su matrici di dati unità per variabili

  • n righe: le unità statistiche (casi, osservazioni)
  • k colonne: le variabili (attributi, feature) Lo spazio delle unità
  • ogni variabile si può interpretare come una dimensione.
  • ogni unità si può interpretare come un punto nello spazio a k dimensioni Le variabili definiscono dimensioni di spazi e le unità sono punti di quegli spazi. Tipi di dati - (^) Numerici (quantitativi): Rappresentano informazioni intrinsecamente numeriche. Si può eseguire ogni tipo di calcolo (es. media) - (^) Categorici (qualitativi): Non si possono eseguire operazione aritmetiche. Non sono numeri. Si possono calcolare frequenze e percentuali.
  • Nominali (es. marca, area geografica).
  • Ordinali: categorie ordinate, ma distanze non uguali (es. istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto). Dati binari (dicotomici)
  • Sono dati nominali, ma si possono usare come numerici in molte analisi. Non è una forzatura.
  • Un dato con k categorie si può trasformare in k dati binari. Variabili dummy = presenza/assenza di una certa caratteristica. Il genere è un tipo di dato binario nominale, ma può essere tradotto come una variabile binaria che indica che 1 è e femmina e 0 è maschio.

2) Valori mancanti I dati mancanti (missing) sono un problema per molte analisi. Cause:

  • In dati provenienti da sondaggi:
  • domande non applicabili
  • mancata risposta totale o parziale
  • In dati ufficiali: mancata pubblicazione.
  • In generale: errori, problemi tecnici, ecc. Caratteristiche:
  • Distribuzione
  • (^) Missing distribuiti casualmente : i dati presenti contengono abbastanza informazione per compensare la mancanza. Il problema non è grave perché i dati presenti compensano la mancanza di quelli assenti.
  • (^) Missing distribuiti in modo sistematico: il problema è grave, l'informazione mancante non si può desumere dai dati presenti. (Es. valori mancanti dipendenti dal valore della variabile: reddito (più è alto, meno viene dichiarato), istruzione (più è bassa, meno viene dichiarata), uso di sostanze, opinioni minoritarie). → Esistono test per vedere se i missing sono casuali o no. È fondamentale verificare la distribuzione.
  • Numerosità
  • La percentuale accettabile di missing dipende dal problema e dalla variabile in esame, non esistono indicazioni generali. Trattamento: Tutte le tecniche richiedono valori mancanti casuali. In caso contrario non posso farci nulla.
  • Mancanza di casi interi (survey: mancata risposta totale) → ponderazione.
  • Mancanza di singoli valori (survey e dati secondari) → diverse tecniche: eliminazione (sconsigliata); imputazione: viene sostituito il valore mancante con qualcosa calcolato sugli altri valori che ci sono (es. sostituzione con la media, eventualmente medie diverse in strati diversi). Problemi di rappresentatività I dati mancanti qui non sono distribuiti a caso e sono la soluzione del problema. 3) Outlier I valori anomali (outlier) sono valori di una variabile numerica che si discostano molto dagli altri.
  • Possono essere errori oppure dati molto interessanti. Es. casi rari, casi di successo. Il punto è: c'è una spiegazione per la presenza di un outlier? L'individuazione degli outlier può essere l'obiettivo dell’analisi. (Es. identificazioni di frodi). Individuazione e trattamento degli outlier - (^) Individuazione
  • strumenti grafici e statistici - (^) Trattamento
  • Eliminazione → valori mancanti
  • Ranking: sostituisce i dati con l'ordinamento
  • (^) Capping: 𝑥 > 𝑥𝑚𝑎𝑥 → 𝑥 = 𝑥𝑚𝑎𝑥

Esistono outlier univariati e outlier multivariati Il metodo più diffuso è il box plot. Rappresenta in modo schematico la distribuzione di un dato in numero. Vengono indicati come punti i possibili outlier. Outlier univariati: descritti dal box plot e si riferiscono ad una variabile. Outlier multivariati: combinazioni inusuali di valori di più variabili. Trasformazioni di dati numerici → Annullare le differenze di scala e di variabilità tra le variabili

  • (^) Standardizzare → media zero, varianza 1
  • (^) Normalizzare → intervallo [0, 1]
  • Discretizzare → separare in classi Questo grafico rappresenta dei punti utenti che sono caratterizzati da 2 variabili, una sull’asse X che va da 1 a 20 e l’altra su asse Y che va da 2,5 a 3,5. Voglio fare una segmentazione di utenti. Per farlo devo identificare dei gruppi di punti e per farlo devo tagliare la nuvola di punti identificando dei gruppi. Nel grafico a sx ha giocato solo la variabile orizzontale. Per evitarlo bisogna ridurre tutte le variabili alla stessa scala usando o la standardizzazione o la normalizzazione. Il grafico di dx rappresenta i punti dopo la normalizzazione nell’intervallo 0-1 con entrambe le variabili. Feature extraction → Generazione di nuove variabili da quelle originali -> nel preparare i dati si possono generare nuove variabili partendo da quelle che già ho. Queste ci dicono qualcosa in più che prima era nascosto.
  • Creazione di variabili dummy
  • (^) Popolazione & superficie → densità
  • Altezza & peso → BMI
  • Località → coordinate geografiche
  • GDO: Dettaglio scontrini → aggregazione per scontrino Scontrini → aggregazione per cliente (carta fedeltà) Cliente → frequenza di acquisto, spesa mensile, ecc. Esercizio dati Il CAP è un dato numerico -> FALSO (è un dato nominale). Il CAP è una scala ordinale Il piano è un dato ordinale -> FALSO (è un dato numerico) La scala è un dato nominale -> VERO Il numero civico è un dato ordinale -> dipende Perché un dato sia numerico bisogna che sia espresso in forma numerica, i diversi valori siano ordinati (devo poter dire che il 2 viene prima del 3), può essere sommato o sottratto, ha distanza uguale tra un valore e l’altro.

Distribuzioni continue

  • Per variabili discrete la probabilità è concentrata nei punti.
  • Per variabili continue la probabilità è descritta da una curva : la probabilità è l'area sotto la curva.
  • L'area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b: 𝑷𝒓𝒐𝒃(𝒂 ≤ 𝑿 ≤ 𝒃). La probabilità è un’area.
  • L'area totale sotto la curva è 1.
  • (^) La probabilità in un singolo punto è zero. Per una variabile continua, la probabilità che la variabile assuma uno specifico valore è 0. Questa è la differenza con le variabili discrete. Man mano che b si avvicina d a il rettangolo si restringe e se b arriva ad a non c’è più area, quindi è 0. Distribuzione normale La distribuzione normale (gaussiana) è una distribuzione continua definita per −∞ < 𝑥 < +∞ e caratterizzata da due parametri μ e σ: sono la media e la varianza della distribuzione. Curva verde, blu e rossa hanno tutte la stessa media, per questo sono allineate. La curva, viola invece ha una media diversa infatti è spostata. La curva più dispersa, ovvero quella che ha i punti più lontani dalla media, è la verde. È la più schiacciata e ha varianza più grande. Con varianza più piccola la curva è più appiattita, con varianza più grande la curva è appuntita. Proprietà della normale ed esempi
  • (^) Simmetrica, forma a campana
  • (^) Probabilità alte vicino al centro, tendenti a zero nelle code
  • (^) Media = moda = mediana Esempi
  • Peso alla nascita, pressione sanguigna, ecc.
  • Precipitazioni annuali a Milano
  • Tempo del percorso casa-ufficio
  • Peso/dimensione di pezzi prodotti da una macchina
  • Errori casuali
  • È la distribuzione limite di numerose altre distribuzioni Esempi di variabili non normali
  • (^) Reddito -> non ha una distribuzione normale (prima immagine a sx)
  • (^) Dimensione delle aziende italiane (addetti o fatturato)
  • (^) Numero (!) di follower o di accessi giornalieri a un sito web -> si parla di numeri interi, quindi dovrebbero essere variabili secrete, ma la scala è talmente grande che possono essere approssimate in modo eccellente.
  • (^) Tempo di attesa per un servizio (seconda immagine curva rossa) -> la probabilità deve andare a
  • (^) Tempo tra due chiamate consecutive a un call center
  • (^) Tempo di attesa della metropolitana -> Linea azzurra (immagine a dx) -> uniforme -> la probabilità è identica in ogni punto.

Uso delle distribuzioni di probabilità Le distribuzioni di probabilità servono a modellare dei fenomeni in modo che lo studio di quei fenomeni si possa condurre direttamente allo studio della probabilità senza ricorrere a campionare.

  • La conoscenza di una distribuzione teorica permette di rispondere a domande come:
  • Qual è la probabilità di valori tra a e b?
  • Qual è la probabilità di valori maggiori (o minori) di a? Nei problemi applicativi si cerca di ricondurre la distribuzione osservata (campionaria) a una distribuzione teorica nota. Esempio di applicazione della normale
  1. Supponiamo di sapere che il numero di clienti al giorno in un punto vendita ha una distribuzione approssimativamente normale con 𝜇 = 750 e 𝜎 = 100 𝑐𝑙𝑖𝑒𝑛𝑡𝑖/𝑔𝑖𝑜𝑟𝑛𝑜 ~ 𝑁(750; 100^2 )
  • Qual è la probabilità che in un giorno ci siano più di 700 clienti? La domanda sopra la traduciamo così: Qual è la probabilità che in una 𝑁(750; 100^2 ) sia 𝑥 > 700? -> è una domanda più tecnica a cui si può rispondere. Quindi la mia domanda è: Qual è l'area a destra di 700 in una 𝑁(750; 1002 )? L’area gialla è la risposta alla mia domanda. L’area a destra di 700 si calcola via software. (Si può usare StatDistribution) Es. Excel fornisce l'area a sinistra (!) di 700: DISTRIB.NORM.N(700;750;100;VERO) = 0, Prob 𝑥 > 700 = 1 − Prob 𝑥 < 700 = 1 − 0,3085 = 0, Distribuzione normale standard: 𝑵 ( 𝟎 ; 𝟏 ) La distribuzione normale standard ha i valori più comodi che sono media 0 e varianza 1. È la variabile di riferimento. Scelgo media 0 perché così tutti i valori sono >1 e scelgo varianza 1 perché se scegliessi 0 sarebbe un punto. Una variabile con varianza 0 non è più una variabile, ma una costante perché assume sempre quel valore lì. Non sarebbe più casuale.
  • Distribuzione normale standard: 𝜇 = 0 e 𝜎 = 1
  • Ogni variabile normale 𝑥~𝑁(𝜇; 𝜎 2 ) può essere trasformata in una variabile standardizzata 𝑧~𝑁 (0; 1) L’operazione che trasforma una variabile normale qualunque in una variabile normale standard si chiama Standardizzazione. L’operazione di condurre una variabile a media 0 e varianza 1 è sempre possibile. Al numeratore sottraiamo a tutti i valori di X la relativa media. Sottrarre la media significa spostare la curva in modo che la sua media diventi 0. Dopo l’operazione al numeratore, le due curve si spostano in modo che la loro media sia 0. Bisogna sistemare la loro dispersione affinché abbiano la forma giusta. Se la media è positiva faccio scorrere la curva verso sinistra, se invece la media è negativa, la faccio scorrere verso destra. Alcuni valori convenzionali: 95% e 99% In una distribuzione 𝑁 (0; 1):
  • (^) Tra −1 e +1 è compreso il 68% dei valori
  • (^) Il 95% è compreso tra −𝟐 e +𝟐 (approx)
  • Il 99% è compreso tra −2.57 e +2.

Se vado a dividere la covarianza per il prodotto dei due scarti ottengo il coefficiente di correlazione lineare di Pearson. -> varia tra -1 e 1. Questo è un indice relativo che esprime l’intensità del legame lineare tra 2 variabil.

  • È =1 quando la relazione è di tipo crescente e tutti i punti sono disposti su una retta. È il massimo valore che può assumere.
  • È = -1 quando c’è una relazione di tipo decrescente e tutti i punti sono disposti su una retta.
  • È = 0 quando con c’è una relazione tra le variabili -> variabili incorrelate
  • É > 0 correlazione positiva diretta
  • È > 0 correlazione negativa inversa Interpretazione convenzionale
  • (^) Tra 0,50 e 1 -> correlazione forte
  • (^) Tra 0,30 e 0,49 -> correlazione media
  • (^) Tra 0 e 0,20 -> correlazione debole (E simmetrica per valori negativi) Correlazione: punti di attenzione
  • (^) Si parla soltanto di relazione LINEARE
  • (^) La correlazioni NON implica una relazione di causa-effetto -> possiamo ipotizzare quale sia la variabile dipendente e quale quella indipendente, ma è un mero aspetto interpretativo. La correlazione non dice quale variabile dipende dall’altra.
  • (^) Correlazioni spurie -> dipendenza da una variabile comune o pura casualità. Può essere che le variabili siano correlate per puro caso, senza una relazione. Relazione tra una variabile CATEGORICA e una NUMERICA La relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media.
  • (^) La variabile categorica identifica i gruppi
  • (^) Si confrontano le medie della variabile numerica nei gruppi:
  • Se le medie dei gruppi sono diverse c’è una relazione
  • Se le medie sono uguali NON c’è relazione La relazione è tanto più forte quanto più le medie sono diverse. Il segno del coefficiente di correlazione è dato dalla varianza. Il coefficiente di correlazione lineare varia tra -1 e 1. Una covarianza negativa significa che le variabili si muovono in direzioni opposte. Quando una aumenta, l’altra tende a diminuire. Analisi univariata -> studiare la distribuzione di età in un gruppo. Analisi bivariata -> esaminare l’effetto dell’istruzione sul reddito.

Relazione tra due variabili categoriche

-> dipendenza o indipendenza tra due variabili categoriche

  • Le due variabili sono indipendenti (= nessuna relazione) se la distribuzione di una non dipende dai valori dell’altra.
  • Si analizza con le frequenze congiunte , che si rappresentano con tabelle a doppia entrata. Tabella di indipendenza Si ottiene moltiplicando per ogni cella il totale di riga per il totale di colonna e lo divido per N. Questa tabella ci dice quali sono le relazioni tra le due variabili in condizione di indipendenza. Partendo dalla tabella di indipendenza e da quella di partenza posso costruire la tabella di contingenza. Le contingenze sono le differenze tra la tabella di indipendenza e quella che ho appena costruito. I totali delle due tabelle sono sempre uguali, quindi il totale della tabella delle contingenze sarà sempre 0. Frequenze teoriche Se due variabili sono indipendenti:
  • La distribuzione è approssimativamente uguale in tutte le colonne e nella distribuzione marginale (anche per le righe).
  • Le frequenze congiunte teoriche dipendono solo dalle marginali.
  • Le frequenze osservate sono uguali a quelle teoriche. Associazione debole o forte Le contingenze non sono nulle/sono diverse da 0 -> siamo in presenza di associazione. Quanto più le tabelle sono simili, siamo in presenza di associazione debole tra le variabili. Al contrario, più i valori delle frequenze attese si discostano da quelli delle frequenze osservate, più si dice che l’associazione tra le due variabili è forte.

Statistica inferenziale

Popolazione -> tutto un aggregato complessivo. Campione -> una porzione di popolazione estratta in modo casuale. La statistica inferenziale opera su campioni di una popolazione. L’obiettivo è estendere alla popolazione i risultati ottenuti sul campione. Stime campionarie L'inferenza statistica è un procedimento deduttivo attraverso il quale è possibile, partendo da una rilevazione campionaria effettuata su di un campione probabilistico, arrivare a descrivere la caratteristica della popolazione. Vogliamo conoscere una caratteristica di una popolazione - il parametro - ma non possiamo osservarla direttamente. Si osserva un sottoinsieme della popolazione - il campione - del quale si calcola la stima, che è diversa dal parametro ma è probabile che sia più vicina a esso che lontana.

  • Lo scopo è calcolare un parametro della popolazione es. media, percentuale, indici vari
  • Quella che si ottiene dal campione (statistica campionaria) è una stima del parametro -> La stima varia da campione a campione: è a sua volta una variabile casuale
  • In tutti i casi di interesse pratico la distribuzione teorica della statistica campionaria (distribuzione campionaria) è nota
  • La conoscenza delle distribuzioni campionarie è la base della statistica inferenziale Stima puntuale e stima intervallare La statistica ha un modo caratteristico di fornire le stime:
  • La stima puntuale è il valore della statistica campionaria
  • La stima intervallare (intervallo di confidenza) è la stima puntuale ampliata con l'errore campionario stima intervallare = stima puntuale ‡ errore Esempio stima puntuale: 34 errore: 3. intervallo di confidenza: (34 - 3.5; 34 + 3.5) -> (30.5; 37.5) -> conoscere la distribuzione campionaria serve a calcolare l'errore Esempio Si immagini di conoscere l’intera popolazione degli studenti che hanno sostenuto l’esame di statistica in un appello dello scorso anno e si applichi su di essa un campionamento casuale semplice, dove i campioni di uguale dimensione hanno tutti la stessa probabilità di essere estratti in modo casuale, per calcolare il voto medio all’esame. Si estragga un campione di 2 individui (𝑛 = 2). I possibili campioni di numerosità n=2 estraibili dalla popolazione sono molti; se pensiamo a tutti quelli possibili, anche a quelli formati dallo stesso soggetto estratto 20 volte saranno . L’insieme di questi possibili campioni costituisce lo spazio campionario dell’esperimento casuale di campionamento dalla popolazione. Il campione estratto sarà uno di questi. la media della popolazione è facilmente individuabile.

𝑛

𝑖 = 1

𝑁𝑛^ = 82 = 64

Nella maggior parte dei casi naturalmente non sarà così. Supponendo di estrarre i numeri 4 e 6, il campione sarà composto da di n=2 unità con valori e. La media del campione, che si indica con sarà: Si osservi che se fossero stati estratti i numeri 1 e 5. Quindi la media del campione, che chiameremo varia in funzione del campione estratto. Dato che la popolazione è molto piccola è possibile definire tutti i possibili campioni estraibili. Dal calcolo combinatorio, i campioni di 2 unità estraibili senza ripetizione da una popolazione di 8 elementi sono in tutto 28. Si osservi che aumentando il numero di soggetti estratti facendo, ad esempio, campioni di 4 o 6 persone, si osserverebbe, intuitivamente, che la media del campione si avvicinerebbe maggiormente al valore vero della popolazione. È più probabile trovare dei valori vicini alla vera media che non lontani dalla vera media. L’insieme delle medie campionarie di ogni campione che abbiamo costruito costituisce la variabile casuale Media Campionaria cui è possibile associare la rispettiva probabilità. Nel fare un’estrazione è possibile trovare un campione raro, ma la probabilità che avvenga è molto bassa. È più facile trovare un valore vero che si avvicini alla media della popolazione. Per la legge dei grandi numeri, sotto l’ipotesi che i campioni scelti siano indipendenti e con la stessa distribuzione, la probabilità che la media campionaria coincida con quella della popolazione si avvicina sempre più a 1 all’aumentare del numero dei campioni n. Che corrisponde alla media della popolazione:

Intervallo di confidenza della media

  • popolazione con media (incognita) e varianza
  • = stima campionaria (puntuale) di
  • -> l’intervallo di confidenza d i al livello di confidenza del 95% è:
  • L'ampiezza dell'intervallo di confidenza della media dipende:
  1. dalla distribuzione campionaria:
  2. dal livello di confidenza scelto: →
  3. dalla numerosità del campione: Un sondaggio elettorale ha stimato per un campione sufficientemente grande di elettori che il 53,2% delle persone intervistate voterà per il candidato X al prossimo ballottaggio. Quale è l’errore campionario al 95% supponendo di avere intervistato prima 500, poi 1000, infine 2000 elettori? Nel primo caso il candidato potrebbe avere una percentuale di preferenze inferiore al 50%. D’altra parte, anche le forchette possono essere sbagliate. Ci sono due assunzioni fondamentali che le rendono valide.
  1. La prima è che le persone rispondano in modo sincero a chi le intervista;
  2. La seconda è che la probabilità di intervistare un favorevole o un contrario alla riforma dipenda esclusivamente da quanti sono i favorevoli e quanti i contrari fra gli aventi diritto al voto. Considerazioni sulla forchetta Purché queste considerazioni siano valide, il campione deve essere estratto in modo probabilistico. Come si fa un sondaggio fatto bene? Un sondaggio è ritenuto affidabile se ha un margine di errore del 3 per cento con un intervallo di confidenza del 95 per cento. Significa che ci devono essere il 95 per cento di possibilità che i risultati ottenuti dal sondaggio siano entro tre punti percentuali dal risultato finale del voto. Per riuscirci è necessario conoscere le opinioni di un campione - formato da almeno mille persone
  • che sia rappresentativo della popolazione che si vuole studiare. La dimensione della popolazione che vogliamo indagare è solo relativamente importante. Che siano i tre milioni di abitanti di una città, o i 40 che vivono in un'intera nazione, un campione rappresentativo di mille persone è sufficiente per avere un margine di errore del 3 per cento.

𝜇 𝜎^2

𝑁 ( 𝜇 ; 𝜎^2 / 𝑛 )

Non è sufficiente però intervistare un buon numero di persone a caso. C'è bisogno che questo campione sia "rappresentativo". Significa che se la popolazione di cui ci interessa conoscere l'opinione è fatta per metà di maschi e per metà di femmine, metà del campione dovrà essere composto da maschi. I sondaggisti, quindi, stabiliscono delle "quote" che gli intervistati dovranno riempire. Una volta che una quota è stata riempita tutti gli altri rispondenti che dovessero appartenere a quella quota vengono scartati. Le quote in genere riguardano il genere, l'area geografica di provenienza, l'età e il titolo di studio. Più quote ci sono, più il campione sarà rappresentativo e il sondaggio preciso. Ma fare un sondaggio con molte quote è anche più difficile da realizzare, perché ogni quota aggiunge nuova complessità e obbliga a fare un numero più alto di chiamate. Un buon sondaggio, ha un prezzo che varia dai 5 ai 10 mila euro e ha dalle tre alle sei quote. 15/10/ Sommario Gli intervalli di confidenza associano alla stima puntuale con una valutazione dell’errore, quindi con un’ampiezza dell’intervallo di confidenza, legata ad un certo livello di confidenza. Quindi cosa mi dice di più? Con l’intervallo di confidenza ho idea di quanto sia precisa una stima e quanto me ne posso fidare. Il livello di confidenza misura l’affidabilità e la precisione. L’ampiezza dell’intervallo di confidenza misura la precisione dell’intervallo. Relazione tra 2 variabili numeriche Il modo in cui si analizza una relazione dipende da che tipo di variabile sto guardando. Se le 2 variabili sono numeriche, sapere la relazione vuol dire vedere se all’aumentare dell’una l’altra aumenta o diminuisce. Per valutare se esiste una relazione si utilizza il coefficiente di correlazione. Relazione tra una variabile numerica e una categorica La variabile categorica individua gruppi all’interno della variabile numerica. Si fanno le medie della variabile numerica definite all’interno della variabile categorica. Se le medie sono tutte uguali vuol dire che la variabile numerica non ha alcuna relazione con la variabile categorica, cioè non cambia. Se le media sono uguali non c’è alcuna relazione. Se le medie sono diverse, allora c’è una relazione. Bisogna esaminare le medie della variabile numerica (non è possibile farlo su quella categorica) al variare della variabile categorica e poi confrontarle. Il problema è che le medie non saranno mai perfettamente uguali, quindi si misurano delle differenze. Manca però una soglia precisa per poter fare il confronto.