Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Analisi dei Dati per il Marketing: Metodi, Strumenti e Applicazioni - Prof. Della Beffa, Appunti di Statistica

Libera università di lingue e comunicazione (IULM)Statistica

Prof. Francesco Della Beffa

Appunti completi presi durante le lezioni del corso di Data Analysis con il Prof. Della Beffa

Tipologia: Appunti

2019/2020

In vendita dal 29/09/2021

elisabetta_biason 🇮🇹

4.6

(7)

13 documenti

1 / 71

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

DATA ANALYSIS

21-09

obiettivi:

imparare gli strumenti principali dell’analisi dei dati finalizzati al mercato

formulare problemi di marketing in modo adatto all’analisi

riconoscere il ruolo dei dati per prendere decisioni

imparare a usare Excel, JMP

metodi:

- lezioni

- esercitazioni con Excel

- esercitazioni con software statistico

- analisi di un caso reale applicando le tecniche apprese e generando un report di analisi strutturato e

completo → opzionale ma valido per l’esame

libri

- materiale sulla community: Data analysis 2020-2021 password: data2021

- documentazione online

- Molteni, Troilo, Ricerche di marketing, Egea, Milano, 2012

pallini → leggere, studiare in generale

!! → studia bene tutto

esame:

- prova scritta con domande aperte (interpretazione di output e domande teoriche)

- orale a richiesta

- report di analisi (max 2 punti) → gruppi max 3, consegna almeno una settimana prima dell’appello scelto, i

punti valgono fino a settembre 2021

ricevimento: giovedì mattina

CONTESTO

cap.1, 2, 11

2 ipotesi che giustificano l’investimento sulla conoscenza:

1. la conoscenza è fonte di vantaggio competitivo

2. la soddisfazione dei clienti produce redditività

→ orientamento al mercato

- esigenze e diritti dei clienti

- arena competitiva (concorrenti, prodotti, ...)

requisiti dell’impresa:

-apertura : ottenere e mantenere aggiornata la conoscenza

-trasparenza : fare circolare la conoscenza al proprio interno

-innovazione : saper rispondere agli stimoli del mercato

→ dal punto di vista culturale

Scopri Appunti di Statistica Libera università di lingue e comunicazione (IULM)

Documenti correlati

domanda di esame prof della beffa

(3)

Report mozzarelle DATA ANALYSIS Della Beffa

Analisi dei Dati per il Marketing: Obiettivi, Metodi e Strumenti - Prof. Della Beffa

Data Analysis Della Beffa

data analysis corso della beffa

Appunti Data Analysis Professor. Della Beffa

appunti lezione della beffa magistrale

data analysys per della beffa in iulm

Data Munging e Analisi delle Dati - Prof. Della Beffa

dispensa per professore della beffa

Estrazione di Feature e Analisi Multivariata: Tecniche e Applicazioni - Prof. Della Beffa

Dispensa Data Analysis Della Beffa - IULM

Anteprima parziale del testo

Scarica Analisi dei Dati per il Marketing: Metodi, Strumenti e Applicazioni - Prof. Della Beffa e più Appunti in PDF di Statistica solo su Docsity!

DATA ANALYSIS

 obiettivi:

imparare gli strumenti principali dell’analisi dei dati finalizzati al mercato formulare problemi di marketing in modo adatto all’analisi riconoscere il ruolo dei dati per prendere decisioni imparare a usare Excel, JMP

 metodi:

lezioni
esercitazioni con Excel
esercitazioni con software statistico
analisi di un caso reale applicando le tecniche apprese e generando un report di analisi strutturato e completo → opzionale ma valido per l’esame

 libri

materiale sulla community: Data analysis 2020-2021 password: data
documentazione online
Molteni, Troilo, Ricerche di marketing , Egea, Milano, 2012 pallini → leggere, studiare in generale !! → studia bene tutto

 esame:

prova scritta con domande aperte (interpretazione di output e domande teoriche)
orale a richiesta
report di analisi (max 2 punti) → gruppi max 3, consegna almeno una settimana prima dell’appello scelto, i punti valgono fino a settembre 2021

 ricevimento: giovedì mattina

CONTESTO

 cap.1, 2, 11

 2 ipotesi che giustificano l’investimento sulla conoscenza:

la conoscenza è fonte di vantaggio competitivo
la soddisfazione dei clienti produce redditività

 → orientamento al mercato

esigenze e diritti dei clienti
arena competitiva (concorrenti, prodotti, ...)

 requisiti dell’impresa:

apertura : ottenere e mantenere aggiornata la conoscenza
trasparenza : fare circolare la conoscenza al proprio interno
innovazione : saper rispondere agli stimoli del mercato → dal punto di vista culturale

sistema informativo di marketing : raccogliere dati sugli aspetti di interesse e trasformarli in informazioni utili per le decisioni

 → sistema informativo di marketing = insieme strutturato di persone, modelli organizzativi, modelli di

analisi, tecnologie disegnato per generare un flusso ordinato e continuativo di informazioni destinate a essere utilizzate come supporto alle decisioni di marketing aziendale

 evoluzione del metodo in funzione degli obiettivi

livello gestionale → data quality
descriptive, business intelligence → sono pure descrizioni dei dati, non c’è interpretazione
livello diagnostico e predittivo → cerco di capire perché sono così i dati
livello prescrittivo → se riesco a capire posso prevedere
livello semantico

 ci sono diversi modi per classificare i dati → 2 di questi sono:

dati primari → raccolti da istituti di analisi dei mercati
dati secondari → servono per altro, ma li utilizzo anche per il marketing → rispetto all’obiettivo di marketing Le fonti informative si distinguono in:
interne
esterne

 altra classificazione dei dati → rispetto alla loro semantica:

GDO: market basket analysis = scoprire se e quali prodotti vengono comprati in associazione con altri
e-commerce, entertainment: sistemi di raccomandazione (es. Amazon, Netflix) → soprattutto machine learning e data mining DATI DICHIARATI E DATI OGGETTIVI

 i dati oggettivi rilevati invece che dichiarati hanno un peso e affidabilità diversa: non sono mai

perfettamente oggettivi , anche se riguardano comportamenti

 es. di dati rilevati in modo oggettivo e non su dichiarazione: Auditel (= rilevazione che certifica gli ascolti

televisivi) → la rilevazione di questi ascolti avviene tramite un panel (= campione continuativo) di famiglie (16 mila) che vengono rilevate in modo sistematico tutti i giorni → presso queste famiglie sono installati meter (apparecchi) che registrano ogni minuto ciò che viene visto nella tv → questo regola il mercato pubblicitario

 articolo → When should we ask, when should we measure?

 inventore dei questionari: Gallup, 1935

primi sondaggi di opinion italiani: 1946 dalla Doxa
indagine sugli orientamenti di voto: monarchia o repubblica? indagine sulla distribuzione del reddito nazionale

 dal 1994 i sondaggi sono diventati strumenti per la definizione di strategie elettorali e orientamento nelle

scelte politiche → non più solo “cerchiamo di capire come voteranno” ma più “capiamo come pensano per aggiustare e nostre strategie” FASI DI UN SONDAGGIO

 fasi:

definizione dell' obiettivo e della formula di ricerca
definizione della popolazione
definizione del campione
metodo di contatto
costruzione del questionario
1. somministrazione del questionario al campione
2. raccolta dati
3. analisi
4. **reporting
METODO DI CONTATTO**

 p.136-

 possibile domanda di esame

 CAPI (Computer Assisted Personal Interviewing): interviste personali assistite

es. indagini nei centri commerciali, exit-poll → ma non ci sono solo interviste nei centri commerciali, ma anche interviste più impegnative come queste: es. per le 16 mila famiglie ci sono intervistatori che vanno da loro e controllano le strumentazioni tecnologiche in quella casa e fanno domande
pro: qualità, accuratezza, nessuna limitazione di target

 CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): interviste telefoniche

dal punto di vista operativo per le ricerche di mercato è il più usato
pro: qualità, accuratezza, riduzione tempi, controllo rilevazione (= mentre faccio le interviste, se ho deciso di intervistare 100 donne e 100 uomini e se ho già trovato 100 donne ma mancano gli uomini, allora se la prossima chiamata è una donna non la uso più per il campione)
costo: 15€/intervista per mille casi da popolazione italiana → se i casi sono numerosi e se la selezione del campione è tutta la popolazione italiana

 CAWI (Computer Assisted Web Interviewing) = interviste via web

genero il questionario sul web e lo distribuisco via web
invito via mail/web/social, link per la compilazione -pro: tempi e costi ridotti -contro: minore accuratezza, filtro internet, autoselezione (cioè limitazione di target, perché chi risponde sono quelle persone che hanno un motivo per farlo) 4. COSTRUZIONE DEL QUESTIONARIO (CAWI)

 p.

 principi fondamentali: chiarezza, semplicità, brevità

 passaggi:

identificare informazioni di interesse primario e accessorie → quali aree : opinioni, comportamenti, sociodemo
stabilire la sequenza logica dei temi ( sezioni e filtri ) es. campione, dal generale al particolare, sociodemo alla fine
definire la lista delle variabili (non le domande) → cosa chiedere per le aree scelte
definire la sequenza delle domande es. prima la soddisfazione globale o gli attributi del prodotto? → meglio prima la soddisfazione e poi aggiungere gli attributi; se faccio il contrario lo porto a considerare gli attributi che ho messo prima e quindi mi direbbe quanto è soddisfatto rispetto a quegli attributi
decidere la forma delle risposte (aperte o chiuse, in che scala → adesso si può fare domande aperte, prima era impensabile)
formulare le domande → come chiedere FORMULAZIONE DELLE DOMANDE

 p.142-

 la formulazione delle domande è fondamentale:

 evitare domande doppie → perché se ci sono due alternative non si sa a quale delle due risponde, è meglio

dividere le domande es: ha mai comprato online biglietti aerei o ferroviari?

 evitare ambiguità

es: nella sua famiglia ci sono bambini?

 attenzione alle negazioni → perché non bisogna influenzare, poi perché se devo dire se sono d’accordo o

no e nella frase c’è una negazione è difficile capire se bisogna mettere si o no es: l'intervento della Regione Lombardia non è stato adeguato…

 risposte esaustive e mutuamente esclusive

es: in che paese è nato: Italia | Francia | Spagna | Europa → perché ci sono altri stati o continenti, poi perché Italia, Francia e Spagna si trovano anche in Europa, quindi non sono esclusive

 non dare nulla per scontato

es: dove è andato in vacanza l'estate scorsa? → magari non è andato in vacanza

 attenzione alle domande sul passato e ai temi etici

 → limitarsi alle domande necessarie

QUESTIONARIO: MOZZARELLA

 Obiettivo principale: analisi della concorrenza

posizionamento dei concorrenti
miei punti di forza e di debolezza

 Obiettivo secondario: segmentazione dei prodotti

 Formula di ricerca:

campione di consumatori
survey: cosa chiedere? come?

LA MATRICE DEI DATI

 tutte le analisi si basano su matrici di dati unità per variabili

n righe: le unità statistiche (detti anche casi, osservazioni, example)
k colonne: le variabili (attributi, feature) LO SPAZIO DELLE UNITA’

 ogni variabile si può interpretare come una dimensione

 ogni unità si può interpretare come un punto nello spazio a k dimensioni

TIPI DI SCALA

 p.148-

 DATI CATEGORICI (QUALITATIVI) = i valori si esprimono in categorie o modalità

ogni unità deve appartenere a una e una sola categoria
non si possono eseguire operazione aritmetiche
si possono calcolare frequenze e percentuali
si distinguono in:  nominali (es. marca)  ordinali : le categorie sono ordinate, ma le distanze tra di esse non sono uguali es. istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto)

 DATI NUMERICI (QUANTITATIVI)

rappresentano informazioni intrinsecamente numeriche
si può eseguire ogni tipo di calcolo (es. media)
le scale numeriche sono distinte in:  a intervalli (es. temperatura, date)  a rapporti (es. conteggi, età, reddito: c'è uno zero vero che significa assenza di quantità)  discreti (conteggio)  continui (misura)

 DATI BINARI (DICOTOMICI) = sono dati nominali , ma si possono utilizzare come numerici in molte analisi

ammettono solo due valori (si/no)
un dato categorico con k categorie si può trasformare in k dati binari → se si trasforma il dato in numerico si può selezionare più di una risposta (invece che inserire nella casella un numero) LIVELLI DI ANALISI

 + dispensa PDF

 3 livelli di analisi:

Analisi univariata : una variabile alla volta statistiche descrittive: frequenze, media, varianza, ecc.
Analisi bivariata : relazioni tra due variabili (PDF)
Analisi multivariata : k variabili alla volta 1. ANALISI UNIVARIATA DISTRIBUZIONI DI FREQUENZA

 p.

 associa ad ogni possibile valore di una variabile la frequenza (relativa o assoluta) con la quale si presenta

 le frequenze assolute sono precise nell’ambito di un singolo campione → invece la frequenza relativa serve

a confrontare

 si può applicare a qualunque tipo di dato:

per variabili discrete fornisce tutta l'informazione disponibile
per variabili continue si raggruppano i valori in classi

 es. (guardare grafici p. 11 slide 3)

INDICI

 media

 mediana = valore che lascia metà dei valori a sx e metà a dx

 moda =

 percentili, quartili = valore come la mediana ma è ad esempio un quarto dei valori a sx e il resto a dx

 varianza

 deviazione standard = radice quadrata della varianza

 scarto interquantile

PROBABILITA’

 è una misura della possibilità che un evento possa verificarsi

 definizione frequentista: p = numero di casi favorevoli / numero di prove

𝑝 = 1 → evento certo 𝑝 = 0 → evento impossibile la somma delle probabilità di tutti gli eventi possibili è 1 Ʃ𝑝 = 1 DISTRIBUZIONI DI PROBABILITA’

 sono la generalità delle distribuzioni di frequenza

 = modelli teorici che descrivono fenomeni probabilistici

(invece le distribuzioni di frequenza sono in genere basate su dati osservati (campionari))

 si distinguono distribuzioni:

- discrete es. p 16 slide 3 → lancio di un dado es. p17: call center

continue
- per variabili discrete la probabilità è concentrata nei punti → invece per variabili continue la probabilità è l' area sotto la curva
- l'area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b: 𝑷𝒓𝒐𝒃(𝒂 ≤ 𝑿 ≤ 𝒃)
- l'area totale sotto la curva è 1
- la probabilità in un singolo punto è zero (!) → perché si considerano sempre gli intervalli e se ad es dico p(h. 170) io sto approssimando, non è un numero preciso quindi la p di un numero preciso è 0

 p.

 in una distribuzione 𝑁 0;1 il 95% dei valori è compreso (approssimativamente) tra −2 e +

 il 99% dei valori è compreso tra −2.57 e +2.

excel UE

 densità della popolazione: pop/sup → si moltiplica per 1000: abitanti per km

 % popolazione: pop paese/pop tot

4. DATA VISUALIZATION

https://support.microsoft.com/it-it/office/importare-e-analizzarei-dati-ccd3c4a6-272f-4c97-afbb- d3f27407fcde?ui=it-IT&rs=itIT&ad=IT#id0eaabaaa=charts https://developers.google.com/chart

 le origini: William Playfair → immagine PDF p.4 →primo diagramma a barre e a torto noto

 obiettivi delle rappresentazioni grafiche → servono a presentare risultati, ma anche descrivere i dati ed

esplorarli es. (grafici p.5): mostrare somiglianza tra unità, identificare relazioni e valutare l'effetto di fattori

TIPI DI GRAFICI

 p.153-

 box plot → Schematizza la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier)

p.172-173 libro
valori inferiori: in basso; valori superiori: in alto
Q3-Q1 = distanza interquartile (= in mezzo c’è la mediana)
vediamo che la distribuzione è leggermente asimmetrica : il baffo sotto è più corto del baffo sopra, poi la mediana (che divide il box) è più vicina al primo quartile che al secondo

 istogramma → mostra la distribuzione di una variabile numerica

differenza con i diagrammi a barre: = rappresentazione grafica delle distribuzioni di frequenza
suddiviso in classi → lo standard è fare classi di ampiezza uguale
sull’asse orizzontale: variabile numerica
sull’asse verticale: frequenze relative o assolute
intervalli uguali
grafici della stessa variabile in cui l’utente definisce l’ampiezza dei singoli intervalli

 grafici a barre → riassumono categorie valori di variabili categoriche

orientamento verticale o orizzontale è ininfluente, è solo da un punto di vista estetico
asse orizzontale (o verticale): variabile categorica
- su excell chiamate a barre o a colonne

 diagramma di Pareto = grafico a barre ordinato per frequenze decrescenti (p.10 slide)

 grafico a torta → Mostra la distribuzione di una variabile qualitativa ( = 100%)

limite: Non mostra chiaramente le relazioni tra le parti (p.12 slide)
usarli con grande parsimonia → prima funzionavano perché c’erano valori tra loro molto diversi
evitare versioni 3D di grafici 2D → perché è un grafico concettualmente bidimensionale

 grafico a linea

entrambi gli assi sono numerici
asse y: frequenze, prezzi, indici
asse x: variabile numerica, di solito il tempo

 best practice:

- adattare il grafico all'audience: meglio grafici semplici

evitare distorsioni (no grafici 3D) e forzature dei dati
mostrare i valori , usare etichette , titoli, legenda
evitare livelli di precisione inutili : € 4.341.765,34 → € 4,3M
per confrontare grafici usare scale e basi di dati coerenti → le differenze sembrano grandissime, ma se lo volessi confrontare con altri dati (es. l’anno scorso, o con un’altra città) devo usare la stessa scala se no visivamente non vedo nulla DATA VISALIZATION

 es. (p.23 slide) → mette insieme più informazioni integrando info diverse

rappresenta l’andamento del tempo in due anni (i mesi sono gli spicchi) → all’interno dei mesi inserisce la distribuzione delle cause di morte negli ospedali

 data visualization (interattiva) = mettere sullo schermo grafici diversi ma che raccontano lo stesso

fenomeno in modo da vederlo sotto prospettive diverse

interattività → se clicco su marzo tutti i grafici cambieranno per far vedere i dati di marzo

 criteri fondamentali della data visualization interattiva:

grafici multipli simultanei combinati in una visualizzazione
modifiche ai grafici facili, rapide, reversibili
visualizzazioni collegate tra loro in modo che le operazioni fatte su una si riflettano su tutte

 ci vogliono dei software apposta (Tableau, Qlik Sense)

5. ANALISI BIVARIATA

 p. 173-186 + dispensa PDF

LIVELLI DI ANALISI

 3 tipi di analisi:

analisi univariata : studia una variabile alla volta
analisi bivariata : studia la relazione tra due variabili  numerica + numerica  numerica + categorica  categorica + categorica
analisi multivariata : k variabili alla volta modelli statistici, machine learning, ecc.

1. RELAZIONI BIVARIATE TRA DATI NUMERICI

 p.179-

 = andamento relativo di una variabile rispetto all’altra

 concordanza : a valori elevati di una variabile corrispondono perlopiù valori elevati dell’altra

se una variabile vale di più della sua media, allora anche l’altra variabile varia perlopiù della sua media
se una variabile sale, allora anche l’altra perlopiù sale discordanza : a valori elevati di una variabile corrispondono perlopiù valori bassi dell’altra

COVARIANZA

 covarianza = l’indicatore per dire se due variabili numeriche sono in concordanza o discordanza:

variabili X e Y con media μX e μY e dev. std. σX e σY

 Cov(X,Y) > 0 → concordanza = covarianza positiva

Cov(X,Y) < 0 → discordanza = covarianza negativa se una delle variabili è costante : Cov = 0

 il valore minimo della covarianza è 0:

covarianza minima: |Cov(X,Y)| = 0 → nessuna relazione

 il valore massimo della covarianza è il prodotto delle deviazioni standard:

covarianza massima: |Cov(X,Y)| = σX σY → relazione perfetta , punti allineati

MATRICE DI COVARIANZA

 es di covarianza:

le covarianze positive significa che tra istruzione-sanità, istruzione-pensione e istruzione- pil procapite c’è una relazione di concordanza: significa ad es che all’aumentare del livello di istruzione vi è un aumento della sanità
dove la covarianza è negativa, c’è una relazione di discordanza: al crescere della popolazione il livello di istruzione diminuisce

 es: differenza della preferenza per marca

le medie sono un po’ diverse: è solo un caso o sono già abbastanza grandi le differenze da poter dire che sotto c’è un fenomeno? → 2° test Anova p. CORRELAZIONE E DIFFERENZA IN MEDIA

 confrontiamo i due concetti visti prima → sono relazioni e concetti diversi e indipendenti

grafico 1: medie uguali , correlazione -1 ( opposta )
grafico 2: medie diverse , correlazione 1 (andamento identico )
grafico 3: correlazione 1, media diverse

 la correlazione tra ad es. la valutazione delle pulizie e la preferenza, dice se questi due dati sono legati o no

→ se è molto legato significa che questa valutazione è importate RELAZIONE TRA DUE VARIABILI CATEGORICHE

 p. 173-

 dipendenza o indipendenza tra due variabili categoriche

 si analizza con le frequenze congiunte , che si rappresentano con tabelle a doppia entrata = tavola delle

frequenze congiunte

se la distribuzione nelle aree nella riga del no o si rimane uguale significa che non influisce sull’essere consumatori o no

 → due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell'altra

se le distribuzioni relative sono più o meno le stesse per ogni riga vuol dire che se passo da una riga o l’altra non cambia nulla
-> saranno uguali anche alla distribuzione marginale

 se sono variabili indipendenti, i loro valori dipendono solo alle distribuzioni marginali

FREQUENZE TEORICHE

 dalle distribuzioni marginali posso vedere quali sono le frequenze teoriche che dovrei avere in ogni cella se

le variabili fossero indipendenti

 indipendenza tra due variabili categoriche significa che:

le percentuali di riga sono approssimativamente uguali in tutte le righe (e lo stesso per le colonne)
le frequenze congiunte dipendono solo dalle frequenze marginali
frequenze osservate sono uguali a quelle teoriche
se le distribuzioni teoriche sono vicino a quelle osservate significa che sono vicino a una situazione di indipendenza

INDICE Χ

(CHI-QUADRATO)

 p.

 detto anche indice di connessione

 χ^2 è una misura sintetica della distanza dall'indipendenza

 in caso di perfetta indipendenza → χ^2 = 0

se c’è dipendenza → χ^2 ≫ 0 →𝜒^2 = 71,58: è grande o piccolo? → 1° test Chi-Quadrato p.

 valore che può assumere: qualunque valore uguale o maggiore di 0

6. STATISTICA INFERENZIALE

 cap.5 da p.197, + dispensa PDF

 fare inferenza = estendere alla popolazione dei risultati ottenuti su un campione

POPOLAZIONE

 la statistica opera tipicamente su campioni di una popolazione

 popolazione = l'insieme di tutte le unità oggetto di studio

es. persone, prodotti, aziende

 deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile

→ la distribuzione è tanto più concentrata intorno alla media quanto più grande è 𝑛 (𝜎^2 /𝑛 è la varianza cioè dice quanto la curva rossa è a punta) - -> più grande è 𝑛 (numerosità campione) più la curva è a punta

questo è vero (cioè che la distribuzione campionaria è normale con varianza più piccola di quella prima) anche se la popolazione (blu) non è normale (per n abbastanza grande)

 - -> quando calcolo un parametro con un campione da una popolazione, quello stesso parametro

campionario è a sua volta una variabile aleatoria → nel caso della media quella variabile è distribuita come una variabile normale con una varianza tanto più piccola quanto grande il campione

STIMA PUNTUALE E STIMA INTERVALLARE

 la statistica ha un modo caratteristico di fornire le stime:

la stima puntuale è il valore della statistica campionaria (visto prima)
l' intervallo di confidenza è la stima puntuale ampliata con l'errore campionario stima – errore < valore "vero" < stima + errore

 es. stima puntuale ottenuta estraendo un campione: 31

errore: 3. intervallo di confidenza: (31 – 3.5; 31 + 3.5) → intervallo di confidenza = (stima puntale – errore ; stima puntuale + errore)

 - -> parto dalla conoscenza puntuale e riesco a stimare l’errore: a questo punto posso dare la stima non più

come valore puntuale ma come intervallo

INTERVALLO DI CONFIDENZA DELLA MEDIA

 es: popolazione con media 𝜇 (l’incognita) e varianza 𝜎^2 (di cui abbiamo una stima)

𝑥= stima puntuale di 𝜇 → l'intervallo di confidenza al livello di confidenza del 95% della media è (cioè il valore vero è compreso tra): → abbiamo stimato così l’entità dell’errore

 𝜎 /radice n è la deviazione standard della curva rossa di prima (cioè della distribuzione campionaria) - ->

l’errore al 95% è stimato con 1,96 che dipende dal 95% e 𝜎 /radice n che dipende dalla deviazione standard della distribuzione campionaria

 → questa stima dell’errore (- errore; + errore) è figlia della conoscenza della distribuzione campionaria della

media: visto che so che la distr. campionaria della media è una normale (con deviazione standard 𝜎 /radice n ) posso dire che il 95% di quella distribuzione è compresa tra -1,96 ∙ 𝜎 /radice n e +1,96 ∙ 𝜎 /radice n

 l'ampiezza dell'intervallo di confidenza dipende della dimensione dell’errore, che dipende:

dalla distribuzione campionaria (della media): 𝑁(𝜇; 𝜎^2 / 𝑛) → è una normale, ha varianza 𝜎^2 / 𝑛 e quindi deviazione standard la radice di 𝜎^2 / 𝑛
dal livello di confidenza scelto: 95% → 1,
dalla numerosità del campione: n

 generalizziamo: (p.217) se invece che l’intervallo di confidenza della media, ma ad es. di una proporzione

rimane vero che l’ampiezza dell’intervallo di confidenza dipende dal livello di confidenza e dalla numerosità del campione → ma la distribuzione campionaria sarà un’altra

SIGNIFICATO DEL LIVELLO DI CONFIDENZA

 (p.201) livello di confidenza = rappresenta la percentuale di intervalli (al variare dei campioni) che

contengono il valore “vero”

 ogni segmento verticale rappresenta la stima puntuale di un campione

diverso (rappresentati da segmenti orizzontali → o è l’intervallo di confidenza?) → attorno a quel campione si può disegnare un intervallo di confidenza

gli intervalli di confidenza, come ampiezza, sono tutti identici : se uso la stessa numerosità del campione ( n ), ho il livello di confidenza 95% sempre uguale, e la popolazione è sempre la stessa (𝜎^2 ) allora la distribuzione campionaria è sempre la stessa, quindi l’ampiezza dell’intervallo di confidenza è lo stesso

 → in molti casi, l’intervallo di confidenza conterrà la media vera , tranne

qualche caso in cui non lo contiene (es. riga rossa)

 - se capita quello azzurro → la stima puntale +/– errore contiene la stima

vera

se capita quello rosso → quando do l’intervallo di confidenza dico una cosa falsa → il livello di confidenza (95%) rappresenta la percentuale di intervalli che contengono il valore vero - ->se estraggo 100 campioni diversi, per 95 casi l’intervallo di confidenza che disegno conterrà la media vera, gli altri 5 non la conterranno

TRADE-OFF NEGLI INTERVALLI DI CONFIDENZA

 (semi)ampiezza dell'IC della media al 95% = 1,96 ∙ 𝜎^2 /radice n

 - ampiezza dell'intervallo → indica la precisione

- livello di confidenza → indica l’affidabilità → ecco perché le stime intervallari danno info in più rispetto a quelle puntuali: dà un’informazione sulla precisione delle mie stime

 se si alza il livello di confidenza (es. da 95% a 99% → maggiore affidabilità ) l'ampiezza dell'intervallo

aumenta (si passa da 1,96 a 2,57 → minore precisione )

 → come restringere l’ampiezza dell’intervallo di confidenza e aumentare la precisione, senza perdere

affidabilità o viceversa? per aumentare il livello di confidenza e nello stesso tempo diminuire l'ampiezza dell'intervallo di confidenza bisogna aumentare la numerosità del campione INTERVALLI DI CONFIDENZA, ESEMPIO