Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Estrazione di Feature e Analisi Multivariata: Tecniche e Applicazioni - Prof. Della Beffa, Appunti di Statistica

Libera università di lingue e comunicazione (IULM)Statistica

Prof. Francesco Della Beffa

Le tecniche di estrazione di feature e analisi multivariata, focalizzandosi sulla generazione di nuove variabili e sulla riduzione della dimensionalità dei dati. Vengono trattati argomenti come l'analisi fattoriale, la regressione lineare semplice e la cluster analysis, con un'attenzione particolare alla scelta delle variabili e alla stabilità dei cluster. Indicazioni sulla numerosità del campione necessaria per garantire la stabilità dei risultati e sull'interpretazione dei cluster attraverso l'analisi delle medie e l'uso di test statistici come anova e chi-quadrato. Si discute anche della trasformazione di variabili categoriche in variabili dummy e dell'importanza del pre-processing dei dati per ottenere risultati significativi. L'obiettivo è fornire una guida pratica per l'applicazione di queste tecniche nell'analisi dei dati.

Tipologia: Appunti

2022/2023

In vendita dal 23/10/2025

sophie-scappini 🇮🇹

12 documenti

1 / 69

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

24/9/2024!

Data Analysis

(10 domande chiuse su tutto il programma; 2 domande aperte su un output già fatto).!

Siamo nel contesto dell’analisi di mercato. Si analizza il mercato per rispondere a delle domande

su mercato, clienti, concorrenti, opportunità (nuovi mercati o prodotti), problemi (perdita di quote

di mercato) e approfondimenti (segmentazione, customer satisfaction).!

Ci sono svariati motivi per fare un’analisi di mercato, ma in genere è per rispondere a delle

domande che riguardano il mercato.!

Un altro aspetto è la volontà di monitorare periodicamente il mercato. Vengono ripetute delle

domande per vedere gli eﬀetti.!

Chi fa analisi di mercato?

-Strutture interne all’azienda: almeno una persona nel 75% delle aziende.!

-Fornitori esterni generalisti: es. Nielsen, Ipsos, Doxa, GFK, Toluna, SWG ricerche multiclient e

ad hoc.!

-Specializzati: per segmento, per attività, per tipo di analisi.!

Il processo dell'analisi (quantitativa) di mercato

La definizione del progetto di analisi non è banale né univoca. È frutto di un dibattito sul quale

bisogna trovare un accordo.!

quale obiettivo? quali dati? quali metodi?!

1. Formulazione dell'obiettivo Es. Analisi della concorrenza: chi sono i concorrenti? cosa li

distingue? quali sono i miei punti di forza e di debolezza? l’obiettivo va deciso bene e deve

essere condiviso. Formalizzare l’obiettivo è importante perché chiarisce cosa NON devo fare.!

2. Quale formula di ricerca? Es. descrittiva, predittiva.!

3. Quali dati?

4. Raccolta dei dati

5. Analisi dei dati

6. Interpretazione e presentazione dei risultati

7. Follow-up e messa in produzione

Analisi qualitativa

A volte precede l'analisi quantitativa a scopo esplorativo: definire i contorni del problema

sviluppare ipotesi di lavoro individuare variabili e relazioni da approfondire.!

•Focus group: moderatore con un gruppo ristretto. Mantiene il focus sugli obiettivi.!

•Interviste in profondità: intervistatore con un consumatore o un decisore.!

L'analisi qualitativa è circa il 20% della spesa in ricerca di mercato. !

ESOMAR Global Market Research Report 2023!

Fonti informative

I dati primari sono raccolti apposta per

rispondere ad una domanda di marketing.!

I dati secondari, invece, vengono rilevati per

altri scopi.!

Il pro dei dati primari è la loro specializzazione:

posso indagare qualunque obiettivo. Il contro è

che costano.!

Il pro dei dati secondari è che sono di alta

qualità. Il contro è che non sono specializzati,

quindi la risposta che otterrò sarà

approssimata.!

1

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

pf32

pf33

pf34

pf35

pf36

pf37

pf38

pf39

pf3a

pf3b

pf3c

pf3d

pf3e

pf3f

pf40

pf41

pf42

pf43

pf44

pf45

Scopri Appunti di Statistica Libera università di lingue e comunicazione (IULM)

Documenti correlati

Statistica e Machine Learning per il Marketing - prof. Della Beffa e Cerri

(1)

Analisi statistica univariata e multivariata di dati di consumo - Prof. Della Beffa

Analisi dei dati e relazioni tra variabili

Data Munging e Analisi delle Dati - Prof. Della Beffa

Analisi dei Cluster: Tecnica Statistica per la Creazione di Gruppi Omogenei e Distinti

Data Analysis Della Beffa

brand mapping prof della beffa

(2)

data analysis corso della beffa

appunti lezione della beffa magistrale

dispensa per professore della beffa

Interpretativismo e Ricerca Quantitativa e Qualitativa: Distinzione tra Scienze Nat. e Uma

DATA ANALYSIS - DELLA BEFFA IULM

Anteprima parziale del testo

Scarica Estrazione di Feature e Analisi Multivariata: Tecniche e Applicazioni - Prof. Della Beffa e più Appunti in PDF di Statistica solo su Docsity!

Data Analysis

(10 domande chiuse su tutto il programma; 2 domande aperte su un output già fatto). Siamo nel contesto dell’analisi di mercato. Si analizza il mercato per rispondere a delle domande su mercato, clienti, concorrenti, opportunità (nuovi mercati o prodotti), problemi (perdita di quote di mercato) e approfondimenti (segmentazione, customer satisfaction). Ci sono svariati motivi per fare un’analisi di mercato, ma in genere è per rispondere a delle domande che riguardano il mercato. Un altro aspetto è la volontà di monitorare periodicamente il mercato. Vengono ripetute delle domande per vedere gli effetti. Chi fa analisi di mercato?

Strutture interne all’azienda: almeno una persona nel 75% delle aziende.
Fornitori esterni generalisti: es. Nielsen, Ipsos, Doxa, GFK, Toluna, SWG ricerche multiclient e ad hoc.
Specializzati: per segmento, per attività, per tipo di analisi. Il processo dell'analisi (quantitativa) di mercato La definizione del progetto di analisi non è banale né univoca. È frutto di un dibattito sul quale bisogna trovare un accordo. quale obiettivo? quali dati? quali metodi?

Formulazione dell'obiettivo Es. Analisi della concorrenza: chi sono i concorrenti? cosa li distingue? quali sono i miei punti di forza e di debolezza? l’obiettivo va deciso bene e deve essere condiviso. Formalizzare l’obiettivo è importante perché chiarisce cosa NON devo fare.
Quale formula di ricerca? Es. descrittiva, predittiva. **3. Quali dati?
Raccolta dei dati
Analisi dei dati
Interpretazione e presentazione dei risultati
Follow-up e messa in produzione Analisi qualitativa** A volte precede l'analisi quantitativa a scopo esplorativo: definire i contorni del problema sviluppare ipotesi di lavoro individuare variabili e relazioni da approfondire.

Focus group : moderatore con un gruppo ristretto. Mantiene il focus sugli obiettivi.
Interviste in profondità: intervistatore con un consumatore o un decisore. L'analisi qualitativa è circa il 20% della spesa in ricerca di mercato. ESOMAR Global Market Research Report 2023 Fonti informative I dati primari sono raccolti apposta per rispondere ad una domanda di marketing. I dati secondari, invece, vengono rilevati per altri scopi. Il pro dei dati primari è la loro specializzazione: posso indagare qualunque obiettivo. Il contro è che costano. Il pro dei dati secondari è che sono di alta qualità. Il contro è che non sono specializzati, quindi la risposta che otterrò sarà approssimata.

Tipi di informazione Software per data science: player principali Classificazione del software per data science Si classificano secondo 3 criteri fondamentali:

- Per ambito di applicazione

Statistica
Machine learning, data mining, text analytics - Per politica commerciale (pagati/ non pagati)
Licenza (annuale o perpetua)
Freeware open source - Tipo di utilizzo / facilità d'uso
Interfacce grafiche (a menu o workflow)
Linguaggi di programmazione (sono i più difficili, richiedono competenze di programmazione) 25/9/

SONDAGGI E QUESTIONARI

Sondaggio -> Rilevazione di dati primari con interviste strutturate a un campione di soggetti. È molto generale, potenzialmente costoso e richiede competenze e rigore perchè bisogna definire bene gli obiettivi, non si può improvvisare. Alternative:

Censimento: rilevazione su tutta la popolazione.
Analisi di dati secondari da fonti esterne. (Istat, Auditel)
Analisi di dati secondari interni (banche, telefonia, assicurazione -> segmenti e scoring; GDO -> market basket analysis; e-commerce, enterteinment -> sistemi di raccomandazione).

Bisogna privilegiare rappresentatività o numerosità? La Rappresentatività. Poi, quando il campione è rappresentativo, più grande è, meglio è perché migliora la precisione delle stime. Ma se il campione non è rappresentativo e quindi è distorto, una numerosità molto alta è più un difetto che un pregio perché mi fa essere più sicuro di un a cosa sbagliata. La rappresentatività è condizione necessaria di un campione. Fasi di un sondaggio

Definizione dell’obiettivo: formula di ricerca, popolazione, campione
Scelta del metodo di contatto
Costruzione del questionario
Test del questionario
Somministrazione del questionario al campione
Raccolta dati
Analisi
Reporting Metodo di contatto - (^) CAPI: Computer Assisted Personal Interviewing. (es. indagini nei centri commerciali, exit-poll, Auditel). C’è di persona un intervistatore. ↑ qualità, accuratezza, nessuna limitazione di target. ↓ tempi e costi alti , bias dell’intervistatore : influenza in qualche modo l’intervistato, desiderabilità sociale: una persona tende a rispondere in modo più convenzionale. - (^) CATI/CAMI: Computer Assisted Telephone/Mobile Interviewing. Interviste telefoniche. Costi: ~20€/intervista per mille casi da popolazione italiana. Ci sono dei costi fissi che sono uguali sia se faccio 100 interviste sia se ne faccio 100000, quindi più ne faccio, più spalmo i costi. ↑ tempi brevi, qualità (buona perché c’è pur sempre un intervistatore al telefono) , accuratezza, controllo rilevazione. - (^) CAWI: Computer Assisted Web Interviewing. (invito via email/web/social, link per la compilazione) ↑ costi bassi, tempi a volte ma non sempre brevi. ↓ minore accuratezza, filtro internet, autoselezione. Costruzione del questionario Principi fondamentali: chiarezza, semplicità, brevità 1. Identificare informazioni di interesse primario e accessorie → Cosa chiedere 2. Stabilire la sequenza logica delle sezioni e delle domande es. opinioni, comportamenti, marche, sociodemo es. prima il gradimento globale o gli attributi del prodotto? Se metto prima gli attributi condiziono l’intervistato. Se chiedo il gradimento condizionando l’intervistato sulla base delle informazioni che voglio sapere ottengono risposta operativamente più utile. → Struttura del questionario 3. Decidere la forma delle risposte e formulare le domande es. aperte o chiuse, in che scala, "non so" → Come chiedere Formulazione delle domande: esercizio Queste domande sono sbagliate, perché?
Ha mai comprato online biglietti aerei e ferroviari? -> sbagliata perché c’è la doppia scelta.
Nella sua famiglia ci sono bambini? -> sbagliata perché non è determinata l’età dei bambini.
L'intervento dello Stato non è stato adeguato… -> c’è la negazione.
In che paese è nato: Italia | Francia | Spagna | Europa -> altri paesei europei/non europei
Dove è andato in vacanza l'estate scorsa? -> da per scontato che sia andato in vacanza, ma prima bisogna capire se ci è andato o meno.
In che anno ha aperto l’account? -> la memoria non è affidabile.
Ha malattie croniche? -> informazioni sensibili.
Lei ritiene che i clandestini… -> è tendenzioso, da un giudizio negativo.

Formulazione delle domande: raccomandazioni

Evitare domande doppie
Evitare ambiguità
Attenzione alle negazioni
Risposte esaustive e mutuamente esclusive
Non dare nulla per scontato
Attenzione alle domande sul passato e ai temi sensibili
Evitare formulazioni tendenziose - Inserire domande replicate o con scala invertita

SURVEY MOZZARELLA

Obiettivo principale: analisi della concorrenza

posizionamento dei concorrenti
miei punti di forza e di debolezza Obiettivo secondario: segmentazione dei prodotti Formula di ricerca: campione di consumatori survey mapping preference analysis cluster analysis

DATI

La matrice dei dati Tutte le analisi si basano su matrici di dati unità per variabili

n righe: le unità statistiche (casi, osservazioni)
k colonne: le variabili (attributi, feature) Lo spazio delle unità
ogni variabile si può interpretare come una dimensione.
ogni unità si può interpretare come un punto nello spazio a k dimensioni Le variabili definiscono dimensioni di spazi e le unità sono punti di quegli spazi. Tipi di dati - (^) Numerici (quantitativi): Rappresentano informazioni intrinsecamente numeriche. Si può eseguire ogni tipo di calcolo (es. media) - (^) Categorici (qualitativi): Non si possono eseguire operazione aritmetiche. Non sono numeri. Si possono calcolare frequenze e percentuali.
Nominali (es. marca, area geografica).
Ordinali: categorie ordinate, ma distanze non uguali (es. istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto). Dati binari (dicotomici)
Sono dati nominali, ma si possono usare come numerici in molte analisi. Non è una forzatura.
Un dato con k categorie si può trasformare in k dati binari. Variabili dummy = presenza/assenza di una certa caratteristica. Il genere è un tipo di dato binario nominale, ma può essere tradotto come una variabile binaria che indica che 1 è e femmina e 0 è maschio.

2) Valori mancanti I dati mancanti (missing) sono un problema per molte analisi. Cause:

In dati provenienti da sondaggi:
domande non applicabili
mancata risposta totale o parziale
In dati ufficiali: mancata pubblicazione.
In generale: errori, problemi tecnici, ecc. Caratteristiche:
Distribuzione
(^) Missing distribuiti casualmente : i dati presenti contengono abbastanza informazione per compensare la mancanza. Il problema non è grave perché i dati presenti compensano la mancanza di quelli assenti.
(^) Missing distribuiti in modo sistematico: il problema è grave, l'informazione mancante non si può desumere dai dati presenti. (Es. valori mancanti dipendenti dal valore della variabile: reddito (più è alto, meno viene dichiarato), istruzione (più è bassa, meno viene dichiarata), uso di sostanze, opinioni minoritarie). → Esistono test per vedere se i missing sono casuali o no. È fondamentale verificare la distribuzione.
Numerosità
La percentuale accettabile di missing dipende dal problema e dalla variabile in esame, non esistono indicazioni generali. Trattamento: Tutte le tecniche richiedono valori mancanti casuali. In caso contrario non posso farci nulla.
Mancanza di casi interi (survey: mancata risposta totale) → ponderazione.
Mancanza di singoli valori (survey e dati secondari) → diverse tecniche: eliminazione (sconsigliata); imputazione: viene sostituito il valore mancante con qualcosa calcolato sugli altri valori che ci sono (es. sostituzione con la media, eventualmente medie diverse in strati diversi). Problemi di rappresentatività I dati mancanti qui non sono distribuiti a caso e sono la soluzione del problema. 3) Outlier I valori anomali (outlier) sono valori di una variabile numerica che si discostano molto dagli altri.
Possono essere errori oppure dati molto interessanti. Es. casi rari, casi di successo. Il punto è: c'è una spiegazione per la presenza di un outlier? L'individuazione degli outlier può essere l'obiettivo dell’analisi. (Es. identificazioni di frodi). Individuazione e trattamento degli outlier - (^) Individuazione
strumenti grafici e statistici - (^) Trattamento
Eliminazione → valori mancanti
Ranking: sostituisce i dati con l'ordinamento
(^) Capping: 𝑥 > 𝑥𝑚𝑎𝑥 → 𝑥 = 𝑥𝑚𝑎𝑥

Esistono outlier univariati e outlier multivariati Il metodo più diffuso è il box plot. Rappresenta in modo schematico la distribuzione di un dato in numero. Vengono indicati come punti i possibili outlier. Outlier univariati: descritti dal box plot e si riferiscono ad una variabile. Outlier multivariati: combinazioni inusuali di valori di più variabili. Trasformazioni di dati numerici → Annullare le differenze di scala e di variabilità tra le variabili

(^) Standardizzare → media zero, varianza 1
(^) Normalizzare → intervallo [0, 1]
Discretizzare → separare in classi Questo grafico rappresenta dei punti utenti che sono caratterizzati da 2 variabili, una sull’asse X che va da 1 a 20 e l’altra su asse Y che va da 2,5 a 3,5. Voglio fare una segmentazione di utenti. Per farlo devo identificare dei gruppi di punti e per farlo devo tagliare la nuvola di punti identificando dei gruppi. Nel grafico a sx ha giocato solo la variabile orizzontale. Per evitarlo bisogna ridurre tutte le variabili alla stessa scala usando o la standardizzazione o la normalizzazione. Il grafico di dx rappresenta i punti dopo la normalizzazione nell’intervallo 0-1 con entrambe le variabili. Feature extraction → Generazione di nuove variabili da quelle originali -> nel preparare i dati si possono generare nuove variabili partendo da quelle che già ho. Queste ci dicono qualcosa in più che prima era nascosto.
Creazione di variabili dummy
(^) Popolazione & superficie → densità
Altezza & peso → BMI
Località → coordinate geografiche
GDO: Dettaglio scontrini → aggregazione per scontrino Scontrini → aggregazione per cliente (carta fedeltà) Cliente → frequenza di acquisto, spesa mensile, ecc. Esercizio dati Il CAP è un dato numerico -> FALSO (è un dato nominale). Il CAP è una scala ordinale Il piano è un dato ordinale -> FALSO (è un dato numerico) La scala è un dato nominale -> VERO Il numero civico è un dato ordinale -> dipende Perché un dato sia numerico bisogna che sia espresso in forma numerica, i diversi valori siano ordinati (devo poter dire che il 2 viene prima del 3), può essere sommato o sottratto, ha distanza uguale tra un valore e l’altro.

Distribuzioni continue

Per variabili discrete la probabilità è concentrata nei punti.
Per variabili continue la probabilità è descritta da una curva : la probabilità è l'area sotto la curva.
L'area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b: 𝑷𝒓𝒐𝒃(𝒂 ≤ 𝑿 ≤ 𝒃). La probabilità è un’area.
L'area totale sotto la curva è 1.
(^) La probabilità in un singolo punto è zero. Per una variabile continua, la probabilità che la variabile assuma uno specifico valore è 0. Questa è la differenza con le variabili discrete. Man mano che b si avvicina d a il rettangolo si restringe e se b arriva ad a non c’è più area, quindi è 0. Distribuzione normale La distribuzione normale (gaussiana) è una distribuzione continua definita per −∞ < 𝑥 < +∞ e caratterizzata da due parametri μ e σ: sono la media e la varianza della distribuzione. Curva verde, blu e rossa hanno tutte la stessa media, per questo sono allineate. La curva, viola invece ha una media diversa infatti è spostata. La curva più dispersa, ovvero quella che ha i punti più lontani dalla media, è la verde. È la più schiacciata e ha varianza più grande. Con varianza più piccola la curva è più appiattita, con varianza più grande la curva è appuntita. Proprietà della normale ed esempi
(^) Simmetrica, forma a campana
(^) Probabilità alte vicino al centro, tendenti a zero nelle code
(^) Media = moda = mediana Esempi
Peso alla nascita, pressione sanguigna, ecc.
Precipitazioni annuali a Milano
Tempo del percorso casa-ufficio
Peso/dimensione di pezzi prodotti da una macchina
Errori casuali
È la distribuzione limite di numerose altre distribuzioni Esempi di variabili non normali
(^) Reddito -> non ha una distribuzione normale (prima immagine a sx)
(^) Dimensione delle aziende italiane (addetti o fatturato)
(^) Numero (!) di follower o di accessi giornalieri a un sito web -> si parla di numeri interi, quindi dovrebbero essere variabili secrete, ma la scala è talmente grande che possono essere approssimate in modo eccellente.
(^) Tempo di attesa per un servizio (seconda immagine curva rossa) -> la probabilità deve andare a
(^) Tempo tra due chiamate consecutive a un call center
(^) Tempo di attesa della metropolitana -> Linea azzurra (immagine a dx) -> uniforme -> la probabilità è identica in ogni punto.

Uso delle distribuzioni di probabilità Le distribuzioni di probabilità servono a modellare dei fenomeni in modo che lo studio di quei fenomeni si possa condurre direttamente allo studio della probabilità senza ricorrere a campionare.

La conoscenza di una distribuzione teorica permette di rispondere a domande come:
Qual è la probabilità di valori tra a e b?
Qual è la probabilità di valori maggiori (o minori) di a? Nei problemi applicativi si cerca di ricondurre la distribuzione osservata (campionaria) a una distribuzione teorica nota. Esempio di applicazione della normale

Supponiamo di sapere che il numero di clienti al giorno in un punto vendita ha una distribuzione approssimativamente normale con 𝜇 = 750 e 𝜎 = 100 𝑐𝑙𝑖𝑒𝑛𝑡𝑖/𝑔𝑖𝑜𝑟𝑛𝑜 ~ 𝑁(750; 100^2 )

Qual è la probabilità che in un giorno ci siano più di 700 clienti? La domanda sopra la traduciamo così: Qual è la probabilità che in una 𝑁(750; 100^2 ) sia 𝑥 > 700? -> è una domanda più tecnica a cui si può rispondere. Quindi la mia domanda è: Qual è l'area a destra di 700 in una 𝑁(750; 1002 )? L’area gialla è la risposta alla mia domanda. L’area a destra di 700 si calcola via software. (Si può usare StatDistribution) Es. Excel fornisce l'area a sinistra (!) di 700: DISTRIB.NORM.N(700;750;100;VERO) = 0, Prob 𝑥 > 700 = 1 − Prob 𝑥 < 700 = 1 − 0,3085 = 0, Distribuzione normale standard: 𝑵 ( 𝟎 ; 𝟏 ) La distribuzione normale standard ha i valori più comodi che sono media 0 e varianza 1. È la variabile di riferimento. Scelgo media 0 perché così tutti i valori sono >1 e scelgo varianza 1 perché se scegliessi 0 sarebbe un punto. Una variabile con varianza 0 non è più una variabile, ma una costante perché assume sempre quel valore lì. Non sarebbe più casuale.
Distribuzione normale standard: 𝜇 = 0 e 𝜎 = 1
Ogni variabile normale 𝑥~𝑁(𝜇; 𝜎 2 ) può essere trasformata in una variabile standardizzata 𝑧~𝑁 (0; 1) L’operazione che trasforma una variabile normale qualunque in una variabile normale standard si chiama Standardizzazione. L’operazione di condurre una variabile a media 0 e varianza 1 è sempre possibile. Al numeratore sottraiamo a tutti i valori di X la relativa media. Sottrarre la media significa spostare la curva in modo che la sua media diventi 0. Dopo l’operazione al numeratore, le due curve si spostano in modo che la loro media sia 0. Bisogna sistemare la loro dispersione affinché abbiano la forma giusta. Se la media è positiva faccio scorrere la curva verso sinistra, se invece la media è negativa, la faccio scorrere verso destra. Alcuni valori convenzionali: 95% e 99% In una distribuzione 𝑁 (0; 1):
(^) Tra −1 e +1 è compreso il 68% dei valori
(^) Il 95% è compreso tra −𝟐 e +𝟐 (approx)
Il 99% è compreso tra −2.57 e +2.

Se vado a dividere la covarianza per il prodotto dei due scarti ottengo il coefficiente di correlazione lineare di Pearson. -> varia tra -1 e 1. Questo è un indice relativo che esprime l’intensità del legame lineare tra 2 variabil.

È =1 quando la relazione è di tipo crescente e tutti i punti sono disposti su una retta. È il massimo valore che può assumere.
È = -1 quando c’è una relazione di tipo decrescente e tutti i punti sono disposti su una retta.
È = 0 quando con c’è una relazione tra le variabili -> variabili incorrelate
É > 0 correlazione positiva diretta
È > 0 correlazione negativa inversa Interpretazione convenzionale
(^) Tra 0,50 e 1 -> correlazione forte
(^) Tra 0,30 e 0,49 -> correlazione media
(^) Tra 0 e 0,20 -> correlazione debole (E simmetrica per valori negativi) Correlazione: punti di attenzione
(^) Si parla soltanto di relazione LINEARE
(^) La correlazioni NON implica una relazione di causa-effetto -> possiamo ipotizzare quale sia la variabile dipendente e quale quella indipendente, ma è un mero aspetto interpretativo. La correlazione non dice quale variabile dipende dall’altra.
(^) Correlazioni spurie -> dipendenza da una variabile comune o pura casualità. Può essere che le variabili siano correlate per puro caso, senza una relazione. Relazione tra una variabile CATEGORICA e una NUMERICA La relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media.
(^) La variabile categorica identifica i gruppi
(^) Si confrontano le medie della variabile numerica nei gruppi:
Se le medie dei gruppi sono diverse c’è una relazione
Se le medie sono uguali NON c’è relazione La relazione è tanto più forte quanto più le medie sono diverse. Il segno del coefficiente di correlazione è dato dalla varianza. Il coefficiente di correlazione lineare varia tra -1 e 1. Una covarianza negativa significa che le variabili si muovono in direzioni opposte. Quando una aumenta, l’altra tende a diminuire. Analisi univariata -> studiare la distribuzione di età in un gruppo. Analisi bivariata -> esaminare l’effetto dell’istruzione sul reddito.

Relazione tra due variabili categoriche

-> dipendenza o indipendenza tra due variabili categoriche

Le due variabili sono indipendenti (= nessuna relazione) se la distribuzione di una non dipende dai valori dell’altra.
Si analizza con le frequenze congiunte , che si rappresentano con tabelle a doppia entrata. Tabella di indipendenza Si ottiene moltiplicando per ogni cella il totale di riga per il totale di colonna e lo divido per N. Questa tabella ci dice quali sono le relazioni tra le due variabili in condizione di indipendenza. Partendo dalla tabella di indipendenza e da quella di partenza posso costruire la tabella di contingenza. Le contingenze sono le differenze tra la tabella di indipendenza e quella che ho appena costruito. I totali delle due tabelle sono sempre uguali, quindi il totale della tabella delle contingenze sarà sempre 0. Frequenze teoriche Se due variabili sono indipendenti:
La distribuzione è approssimativamente uguale in tutte le colonne e nella distribuzione marginale (anche per le righe).
Le frequenze congiunte teoriche dipendono solo dalle marginali.
Le frequenze osservate sono uguali a quelle teoriche. Associazione debole o forte Le contingenze non sono nulle/sono diverse da 0 -> siamo in presenza di associazione. Quanto più le tabelle sono simili, siamo in presenza di associazione debole tra le variabili. Al contrario, più i valori delle frequenze attese si discostano da quelli delle frequenze osservate, più si dice che l’associazione tra le due variabili è forte.

Statistica inferenziale

Popolazione -> tutto un aggregato complessivo. Campione -> una porzione di popolazione estratta in modo casuale. La statistica inferenziale opera su campioni di una popolazione. L’obiettivo è estendere alla popolazione i risultati ottenuti sul campione. Stime campionarie L'inferenza statistica è un procedimento deduttivo attraverso il quale è possibile, partendo da una rilevazione campionaria effettuata su di un campione probabilistico, arrivare a descrivere la caratteristica della popolazione. Vogliamo conoscere una caratteristica di una popolazione - il parametro - ma non possiamo osservarla direttamente. Si osserva un sottoinsieme della popolazione - il campione - del quale si calcola la stima, che è diversa dal parametro ma è probabile che sia più vicina a esso che lontana.

Lo scopo è calcolare un parametro della popolazione es. media, percentuale, indici vari
Quella che si ottiene dal campione (statistica campionaria) è una stima del parametro -> La stima varia da campione a campione: è a sua volta una variabile casuale
In tutti i casi di interesse pratico la distribuzione teorica della statistica campionaria (distribuzione campionaria) è nota
La conoscenza delle distribuzioni campionarie è la base della statistica inferenziale Stima puntuale e stima intervallare La statistica ha un modo caratteristico di fornire le stime:
La stima puntuale è il valore della statistica campionaria
La stima intervallare (intervallo di confidenza) è la stima puntuale ampliata con l'errore campionario stima intervallare = stima puntuale ‡ errore Esempio stima puntuale: 34 errore: 3. intervallo di confidenza: (34 - 3.5; 34 + 3.5) -> (30.5; 37.5) -> conoscere la distribuzione campionaria serve a calcolare l'errore Esempio Si immagini di conoscere l’intera popolazione degli studenti che hanno sostenuto l’esame di statistica in un appello dello scorso anno e si applichi su di essa un campionamento casuale semplice, dove i campioni di uguale dimensione hanno tutti la stessa probabilità di essere estratti in modo casuale, per calcolare il voto medio all’esame. Si estragga un campione di 2 individui (𝑛 = 2). I possibili campioni di numerosità n=2 estraibili dalla popolazione sono molti; se pensiamo a tutti quelli possibili, anche a quelli formati dallo stesso soggetto estratto 20 volte saranno . L’insieme di questi possibili campioni costituisce lo spazio campionario dell’esperimento casuale di campionamento dalla popolazione. Il campione estratto sarà uno di questi. la media della popolazione è facilmente individuabile.

𝑛

𝑖 = 1

𝑁𝑛^ = 82 = 64

Nella maggior parte dei casi naturalmente non sarà così. Supponendo di estrarre i numeri 4 e 6, il campione sarà composto da di n=2 unità con valori e. La media del campione, che si indica con sarà: Si osservi che se fossero stati estratti i numeri 1 e 5. Quindi la media del campione, che chiameremo varia in funzione del campione estratto. Dato che la popolazione è molto piccola è possibile definire tutti i possibili campioni estraibili. Dal calcolo combinatorio, i campioni di 2 unità estraibili senza ripetizione da una popolazione di 8 elementi sono in tutto 28. Si osservi che aumentando il numero di soggetti estratti facendo, ad esempio, campioni di 4 o 6 persone, si osserverebbe, intuitivamente, che la media del campione si avvicinerebbe maggiormente al valore vero della popolazione. È più probabile trovare dei valori vicini alla vera media che non lontani dalla vera media. L’insieme delle medie campionarie di ogni campione che abbiamo costruito costituisce la variabile casuale Media Campionaria cui è possibile associare la rispettiva probabilità. Nel fare un’estrazione è possibile trovare un campione raro, ma la probabilità che avvenga è molto bassa. È più facile trovare un valore vero che si avvicini alla media della popolazione. Per la legge dei grandi numeri, sotto l’ipotesi che i campioni scelti siano indipendenti e con la stessa distribuzione, la probabilità che la media campionaria coincida con quella della popolazione si avvicina sempre più a 1 all’aumentare del numero dei campioni n. Che corrisponde alla media della popolazione:

Intervallo di confidenza della media

popolazione con media (incognita) e varianza
= stima campionaria (puntuale) di
-> l’intervallo di confidenza d i al livello di confidenza del 95% è:
L'ampiezza dell'intervallo di confidenza della media dipende:

dalla distribuzione campionaria:
dal livello di confidenza scelto: →
dalla numerosità del campione: Un sondaggio elettorale ha stimato per un campione sufficientemente grande di elettori che il 53,2% delle persone intervistate voterà per il candidato X al prossimo ballottaggio. Quale è l’errore campionario al 95% supponendo di avere intervistato prima 500, poi 1000, infine 2000 elettori? Nel primo caso il candidato potrebbe avere una percentuale di preferenze inferiore al 50%. D’altra parte, anche le forchette possono essere sbagliate. Ci sono due assunzioni fondamentali che le rendono valide.

La prima è che le persone rispondano in modo sincero a chi le intervista;
La seconda è che la probabilità di intervistare un favorevole o un contrario alla riforma dipenda esclusivamente da quanti sono i favorevoli e quanti i contrari fra gli aventi diritto al voto. Considerazioni sulla forchetta Purché queste considerazioni siano valide, il campione deve essere estratto in modo probabilistico. Come si fa un sondaggio fatto bene? Un sondaggio è ritenuto affidabile se ha un margine di errore del 3 per cento con un intervallo di confidenza del 95 per cento. Significa che ci devono essere il 95 per cento di possibilità che i risultati ottenuti dal sondaggio siano entro tre punti percentuali dal risultato finale del voto. Per riuscirci è necessario conoscere le opinioni di un campione - formato da almeno mille persone

che sia rappresentativo della popolazione che si vuole studiare. La dimensione della popolazione che vogliamo indagare è solo relativamente importante. Che siano i tre milioni di abitanti di una città, o i 40 che vivono in un'intera nazione, un campione rappresentativo di mille persone è sufficiente per avere un margine di errore del 3 per cento.

𝜇 𝜎^2

𝑁 ( 𝜇 ; 𝜎^2 / 𝑛 )

Non è sufficiente però intervistare un buon numero di persone a caso. C'è bisogno che questo campione sia "rappresentativo". Significa che se la popolazione di cui ci interessa conoscere l'opinione è fatta per metà di maschi e per metà di femmine, metà del campione dovrà essere composto da maschi. I sondaggisti, quindi, stabiliscono delle "quote" che gli intervistati dovranno riempire. Una volta che una quota è stata riempita tutti gli altri rispondenti che dovessero appartenere a quella quota vengono scartati. Le quote in genere riguardano il genere, l'area geografica di provenienza, l'età e il titolo di studio. Più quote ci sono, più il campione sarà rappresentativo e il sondaggio preciso. Ma fare un sondaggio con molte quote è anche più difficile da realizzare, perché ogni quota aggiunge nuova complessità e obbliga a fare un numero più alto di chiamate. Un buon sondaggio, ha un prezzo che varia dai 5 ai 10 mila euro e ha dalle tre alle sei quote. 15/10/ Sommario Gli intervalli di confidenza associano alla stima puntuale con una valutazione dell’errore, quindi con un’ampiezza dell’intervallo di confidenza, legata ad un certo livello di confidenza. Quindi cosa mi dice di più? Con l’intervallo di confidenza ho idea di quanto sia precisa una stima e quanto me ne posso fidare. Il livello di confidenza misura l’affidabilità e la precisione. L’ampiezza dell’intervallo di confidenza misura la precisione dell’intervallo. Relazione tra 2 variabili numeriche Il modo in cui si analizza una relazione dipende da che tipo di variabile sto guardando. Se le 2 variabili sono numeriche, sapere la relazione vuol dire vedere se all’aumentare dell’una l’altra aumenta o diminuisce. Per valutare se esiste una relazione si utilizza il coefficiente di correlazione. Relazione tra una variabile numerica e una categorica La variabile categorica individua gruppi all’interno della variabile numerica. Si fanno le medie della variabile numerica definite all’interno della variabile categorica. Se le medie sono tutte uguali vuol dire che la variabile numerica non ha alcuna relazione con la variabile categorica, cioè non cambia. Se le media sono uguali non c’è alcuna relazione. Se le medie sono diverse, allora c’è una relazione. Bisogna esaminare le medie della variabile numerica (non è possibile farlo su quella categorica) al variare della variabile categorica e poi confrontarle. Il problema è che le medie non saranno mai perfettamente uguali, quindi si misurano delle differenze. Manca però una soglia precisa per poter fare il confronto.