Scarica Analisi dei Dati per il Marketing: Metodi, Strumenti e Applicazioni - Prof. Della Beffa e più Appunti in PDF di Statistica solo su Docsity!
DATA ANALYSIS
obiettivi:
imparare gli strumenti principali dell’analisi dei dati finalizzati al mercato formulare problemi di marketing in modo adatto all’analisi riconoscere il ruolo dei dati per prendere decisioni imparare a usare Excel, JMP
metodi:
- lezioni
- esercitazioni con Excel
- esercitazioni con software statistico
- analisi di un caso reale applicando le tecniche apprese e generando un report di analisi strutturato e completo → opzionale ma valido per l’esame
libri
- materiale sulla community: Data analysis 2020-2021 password: data
- documentazione online
- Molteni, Troilo, Ricerche di marketing , Egea, Milano, 2012 pallini → leggere, studiare in generale !! → studia bene tutto
esame:
- prova scritta con domande aperte (interpretazione di output e domande teoriche)
- orale a richiesta
- report di analisi (max 2 punti) → gruppi max 3, consegna almeno una settimana prima dell’appello scelto, i punti valgono fino a settembre 2021
ricevimento: giovedì mattina
CONTESTO
cap.1, 2, 11
2 ipotesi che giustificano l’investimento sulla conoscenza:
- la conoscenza è fonte di vantaggio competitivo
- la soddisfazione dei clienti produce redditività
→ orientamento al mercato
- esigenze e diritti dei clienti
- arena competitiva (concorrenti, prodotti, ...)
requisiti dell’impresa:
- apertura : ottenere e mantenere aggiornata la conoscenza
- trasparenza : fare circolare la conoscenza al proprio interno
- innovazione : saper rispondere agli stimoli del mercato → dal punto di vista culturale
- sistema informativo di marketing : raccogliere dati sugli aspetti di interesse e trasformarli in informazioni utili per le decisioni
→ sistema informativo di marketing = insieme strutturato di persone, modelli organizzativi, modelli di
analisi, tecnologie disegnato per generare un flusso ordinato e continuativo di informazioni destinate a essere utilizzate come supporto alle decisioni di marketing aziendale
evoluzione del metodo in funzione degli obiettivi
- livello gestionale → data quality
- descriptive, business intelligence → sono pure descrizioni dei dati, non c’è interpretazione
- livello diagnostico e predittivo → cerco di capire perché sono così i dati
- livello prescrittivo → se riesco a capire posso prevedere
- livello semantico
ci sono diversi modi per classificare i dati → 2 di questi sono:
- dati primari → raccolti da istituti di analisi dei mercati
- dati secondari → servono per altro, ma li utilizzo anche per il marketing → rispetto all’obiettivo di marketing Le fonti informative si distinguono in:
- interne
- esterne
altra classificazione dei dati → rispetto alla loro semantica:
- GDO: market basket analysis = scoprire se e quali prodotti vengono comprati in associazione con altri
- e-commerce, entertainment: sistemi di raccomandazione (es. Amazon, Netflix) → soprattutto machine learning e data mining DATI DICHIARATI E DATI OGGETTIVI
i dati oggettivi rilevati invece che dichiarati hanno un peso e affidabilità diversa: non sono mai
perfettamente oggettivi , anche se riguardano comportamenti
es. di dati rilevati in modo oggettivo e non su dichiarazione: Auditel (= rilevazione che certifica gli ascolti
televisivi) → la rilevazione di questi ascolti avviene tramite un panel (= campione continuativo) di famiglie (16 mila) che vengono rilevate in modo sistematico tutti i giorni → presso queste famiglie sono installati meter (apparecchi) che registrano ogni minuto ciò che viene visto nella tv → questo regola il mercato pubblicitario
articolo → When should we ask, when should we measure?
Assirm Forum 2018, ESOMAR © 2015 blog.wakoopa.com/the-times-they-are-a-changin-for-thequestionnaire/ SONDAGGI: NOTA STORICA
inventore dei questionari: Gallup, 1935
- primi sondaggi di opinion italiani: 1946 dalla Doxa
- indagine sugli orientamenti di voto: monarchia o repubblica? indagine sulla distribuzione del reddito nazionale
dal 1994 i sondaggi sono diventati strumenti per la definizione di strategie elettorali e orientamento nelle
scelte politiche → non più solo “cerchiamo di capire come voteranno” ma più “capiamo come pensano per aggiustare e nostre strategie” FASI DI UN SONDAGGIO
fasi:
- definizione dell' obiettivo e della formula di ricerca
- definizione della popolazione
- definizione del campione
- metodo di contatto
- costruzione del questionario
- somministrazione del questionario al campione
- raccolta dati
- analisi
- **reporting
- METODO DI CONTATTO**
p.136-
possibile domanda di esame
CAPI (Computer Assisted Personal Interviewing): interviste personali assistite
- es. indagini nei centri commerciali, exit-poll → ma non ci sono solo interviste nei centri commerciali, ma anche interviste più impegnative come queste: es. per le 16 mila famiglie ci sono intervistatori che vanno da loro e controllano le strumentazioni tecnologiche in quella casa e fanno domande
- pro: qualità, accuratezza, nessuna limitazione di target
CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): interviste telefoniche
- dal punto di vista operativo per le ricerche di mercato è il più usato
- pro: qualità, accuratezza, riduzione tempi, controllo rilevazione (= mentre faccio le interviste, se ho deciso di intervistare 100 donne e 100 uomini e se ho già trovato 100 donne ma mancano gli uomini, allora se la prossima chiamata è una donna non la uso più per il campione)
- costo: 15€/intervista per mille casi da popolazione italiana → se i casi sono numerosi e se la selezione del campione è tutta la popolazione italiana
CAWI (Computer Assisted Web Interviewing) = interviste via web
- genero il questionario sul web e lo distribuisco via web
- invito via mail/web/social, link per la compilazione -pro: tempi e costi ridotti -contro: minore accuratezza, filtro internet, autoselezione (cioè limitazione di target, perché chi risponde sono quelle persone che hanno un motivo per farlo) 4. COSTRUZIONE DEL QUESTIONARIO (CAWI)
p.
principi fondamentali: chiarezza, semplicità, brevità
passaggi:
- identificare informazioni di interesse primario e accessorie → quali aree : opinioni, comportamenti, sociodemo
- stabilire la sequenza logica dei temi ( sezioni e filtri ) es. campione, dal generale al particolare, sociodemo alla fine
- definire la lista delle variabili (non le domande) → cosa chiedere per le aree scelte
- definire la sequenza delle domande es. prima la soddisfazione globale o gli attributi del prodotto? → meglio prima la soddisfazione e poi aggiungere gli attributi; se faccio il contrario lo porto a considerare gli attributi che ho messo prima e quindi mi direbbe quanto è soddisfatto rispetto a quegli attributi
- decidere la forma delle risposte (aperte o chiuse, in che scala → adesso si può fare domande aperte, prima era impensabile)
- formulare le domande → come chiedere FORMULAZIONE DELLE DOMANDE
p.142-
la formulazione delle domande è fondamentale:
evitare domande doppie → perché se ci sono due alternative non si sa a quale delle due risponde, è meglio
dividere le domande es: ha mai comprato online biglietti aerei o ferroviari?
evitare ambiguità
es: nella sua famiglia ci sono bambini?
attenzione alle negazioni → perché non bisogna influenzare, poi perché se devo dire se sono d’accordo o
no e nella frase c’è una negazione è difficile capire se bisogna mettere si o no es: l'intervento della Regione Lombardia non è stato adeguato…
risposte esaustive e mutuamente esclusive
es: in che paese è nato: Italia | Francia | Spagna | Europa → perché ci sono altri stati o continenti, poi perché Italia, Francia e Spagna si trovano anche in Europa, quindi non sono esclusive
non dare nulla per scontato
es: dove è andato in vacanza l'estate scorsa? → magari non è andato in vacanza
attenzione alle domande sul passato e ai temi etici
→ limitarsi alle domande necessarie
QUESTIONARIO: MOZZARELLA
Obiettivo principale: analisi della concorrenza
- posizionamento dei concorrenti
- miei punti di forza e di debolezza
Obiettivo secondario: segmentazione dei prodotti
Formula di ricerca:
- campione di consumatori
- survey: cosa chiedere? come?
LA MATRICE DEI DATI
tutte le analisi si basano su matrici di dati unità per variabili
- n righe: le unità statistiche (detti anche casi, osservazioni, example)
- k colonne: le variabili (attributi, feature) LO SPAZIO DELLE UNITA’
ogni variabile si può interpretare come una dimensione
ogni unità si può interpretare come un punto nello spazio a k dimensioni
TIPI DI SCALA
p.148-
DATI CATEGORICI (QUALITATIVI) = i valori si esprimono in categorie o modalità
- ogni unità deve appartenere a una e una sola categoria
- non si possono eseguire operazione aritmetiche
- si possono calcolare frequenze e percentuali
- si distinguono in: nominali (es. marca) ordinali : le categorie sono ordinate, ma le distanze tra di esse non sono uguali es. istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto)
DATI NUMERICI (QUANTITATIVI)
- rappresentano informazioni intrinsecamente numeriche
- si può eseguire ogni tipo di calcolo (es. media)
- le scale numeriche sono distinte in: a intervalli (es. temperatura, date) a rapporti (es. conteggi, età, reddito: c'è uno zero vero che significa assenza di quantità) discreti (conteggio) continui (misura)
DATI BINARI (DICOTOMICI) = sono dati nominali , ma si possono utilizzare come numerici in molte analisi
- ammettono solo due valori (si/no)
- un dato categorico con k categorie si può trasformare in k dati binari → se si trasforma il dato in numerico si può selezionare più di una risposta (invece che inserire nella casella un numero) LIVELLI DI ANALISI
+ dispensa PDF
3 livelli di analisi:
- Analisi univariata : una variabile alla volta statistiche descrittive: frequenze, media, varianza, ecc.
- Analisi bivariata : relazioni tra due variabili (PDF)
- Analisi multivariata : k variabili alla volta 1. ANALISI UNIVARIATA DISTRIBUZIONI DI FREQUENZA
p.
associa ad ogni possibile valore di una variabile la frequenza (relativa o assoluta) con la quale si presenta
le frequenze assolute sono precise nell’ambito di un singolo campione → invece la frequenza relativa serve
a confrontare
si può applicare a qualunque tipo di dato:
- per variabili discrete fornisce tutta l'informazione disponibile
- per variabili continue si raggruppano i valori in classi
es. (guardare grafici p. 11 slide 3)
INDICI
media
mediana = valore che lascia metà dei valori a sx e metà a dx
moda =
percentili, quartili = valore come la mediana ma è ad esempio un quarto dei valori a sx e il resto a dx
varianza
deviazione standard = radice quadrata della varianza
scarto interquantile
PROBABILITA’
è una misura della possibilità che un evento possa verificarsi
definizione frequentista: p = numero di casi favorevoli / numero di prove
𝑝 = 1 → evento certo 𝑝 = 0 → evento impossibile la somma delle probabilità di tutti gli eventi possibili è 1 Ʃ𝑝 = 1 DISTRIBUZIONI DI PROBABILITA’
sono la generalità delle distribuzioni di frequenza
= modelli teorici che descrivono fenomeni probabilistici
(invece le distribuzioni di frequenza sono in genere basate su dati osservati (campionari))
si distinguono distribuzioni:
- discrete es. p 16 slide 3 → lancio di un dado es. p17: call center
- continue
- per variabili discrete la probabilità è concentrata nei punti → invece per variabili continue la probabilità è l' area sotto la curva
- l'area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b: 𝑷𝒓𝒐𝒃(𝒂 ≤ 𝑿 ≤ 𝒃)
- l'area totale sotto la curva è 1
- la probabilità in un singolo punto è zero (!) → perché si considerano sempre gli intervalli e se ad es dico p(h. 170) io sto approssimando, non è un numero preciso quindi la p di un numero preciso è 0
p.
in una distribuzione 𝑁 0;1 il 95% dei valori è compreso (approssimativamente) tra −2 e +
il 99% dei valori è compreso tra −2.57 e +2.
excel UE
densità della popolazione: pop/sup → si moltiplica per 1000: abitanti per km
% popolazione: pop paese/pop tot
4. DATA VISUALIZATION
https://support.microsoft.com/it-it/office/importare-e-analizzarei-dati-ccd3c4a6-272f-4c97-afbb- d3f27407fcde?ui=it-IT&rs=itIT&ad=IT#id0eaabaaa=charts https://developers.google.com/chart
le origini: William Playfair → immagine PDF p.4 →primo diagramma a barre e a torto noto
obiettivi delle rappresentazioni grafiche → servono a presentare risultati, ma anche descrivere i dati ed
esplorarli es. (grafici p.5): mostrare somiglianza tra unità, identificare relazioni e valutare l'effetto di fattori
TIPI DI GRAFICI
p.153-
box plot → Schematizza la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier)
- p.172-173 libro
- valori inferiori: in basso; valori superiori: in alto
- Q3-Q1 = distanza interquartile (= in mezzo c’è la mediana)
- vediamo che la distribuzione è leggermente asimmetrica : il baffo sotto è più corto del baffo sopra, poi la mediana (che divide il box) è più vicina al primo quartile che al secondo
istogramma → mostra la distribuzione di una variabile numerica
- differenza con i diagrammi a barre: = rappresentazione grafica delle distribuzioni di frequenza
- suddiviso in classi → lo standard è fare classi di ampiezza uguale
- sull’asse orizzontale: variabile numerica
- sull’asse verticale: frequenze relative o assolute
- intervalli uguali
- grafici della stessa variabile in cui l’utente definisce l’ampiezza dei singoli intervalli
grafici a barre → riassumono categorie valori di variabili categoriche
- orientamento verticale o orizzontale è ininfluente, è solo da un punto di vista estetico
- asse orizzontale (o verticale): variabile categorica
- su excell chiamate a barre o a colonne
diagramma di Pareto = grafico a barre ordinato per frequenze decrescenti (p.10 slide)
grafico a torta → Mostra la distribuzione di una variabile qualitativa ( = 100%)
- limite: Non mostra chiaramente le relazioni tra le parti (p.12 slide)
- usarli con grande parsimonia → prima funzionavano perché c’erano valori tra loro molto diversi
- evitare versioni 3D di grafici 2D → perché è un grafico concettualmente bidimensionale
grafico a linea
- entrambi gli assi sono numerici
- asse y: frequenze, prezzi, indici
- asse x: variabile numerica, di solito il tempo
best practice:
- adattare il grafico all'audience: meglio grafici semplici
- evitare distorsioni (no grafici 3D) e forzature dei dati
- mostrare i valori , usare etichette , titoli, legenda
- evitare livelli di precisione inutili : € 4.341.765,34 → € 4,3M
- per confrontare grafici usare scale e basi di dati coerenti → le differenze sembrano grandissime, ma se lo volessi confrontare con altri dati (es. l’anno scorso, o con un’altra città) devo usare la stessa scala se no visivamente non vedo nulla DATA VISALIZATION
es. (p.23 slide) → mette insieme più informazioni integrando info diverse
- rappresenta l’andamento del tempo in due anni (i mesi sono gli spicchi) → all’interno dei mesi inserisce la distribuzione delle cause di morte negli ospedali
data visualization (interattiva) = mettere sullo schermo grafici diversi ma che raccontano lo stesso
fenomeno in modo da vederlo sotto prospettive diverse
- interattività → se clicco su marzo tutti i grafici cambieranno per far vedere i dati di marzo
criteri fondamentali della data visualization interattiva:
- grafici multipli simultanei combinati in una visualizzazione
- modifiche ai grafici facili, rapide, reversibili
- visualizzazioni collegate tra loro in modo che le operazioni fatte su una si riflettano su tutte
ci vogliono dei software apposta (Tableau, Qlik Sense)
5. ANALISI BIVARIATA
p. 173-186 + dispensa PDF
LIVELLI DI ANALISI
3 tipi di analisi:
- analisi univariata : studia una variabile alla volta
- analisi bivariata : studia la relazione tra due variabili numerica + numerica numerica + categorica categorica + categorica
- analisi multivariata : k variabili alla volta modelli statistici, machine learning, ecc.
1. RELAZIONI BIVARIATE TRA DATI NUMERICI
p.179-
= andamento relativo di una variabile rispetto all’altra
concordanza : a valori elevati di una variabile corrispondono perlopiù valori elevati dell’altra
- se una variabile vale di più della sua media, allora anche l’altra variabile varia perlopiù della sua media
- se una variabile sale, allora anche l’altra perlopiù sale discordanza : a valori elevati di una variabile corrispondono perlopiù valori bassi dell’altra
COVARIANZA
covarianza = l’indicatore per dire se due variabili numeriche sono in concordanza o discordanza:
variabili X e Y con media μX e μY e dev. std. σX e σY
Cov(X,Y) > 0 → concordanza = covarianza positiva
Cov(X,Y) < 0 → discordanza = covarianza negativa se una delle variabili è costante : Cov = 0
il valore minimo della covarianza è 0:
covarianza minima: |Cov(X,Y)| = 0 → nessuna relazione
il valore massimo della covarianza è il prodotto delle deviazioni standard:
covarianza massima: |Cov(X,Y)| = σX σY → relazione perfetta , punti allineati
MATRICE DI COVARIANZA
es di covarianza:
- le covarianze positive significa che tra istruzione-sanità, istruzione-pensione e istruzione- pil procapite c’è una relazione di concordanza: significa ad es che all’aumentare del livello di istruzione vi è un aumento della sanità
- dove la covarianza è negativa, c’è una relazione di discordanza: al crescere della popolazione il livello di istruzione diminuisce
es: differenza della preferenza per marca
le medie sono un po’ diverse: è solo un caso o sono già abbastanza grandi le differenze da poter dire che sotto c’è un fenomeno? → 2° test Anova p. CORRELAZIONE E DIFFERENZA IN MEDIA
confrontiamo i due concetti visti prima → sono relazioni e concetti diversi e indipendenti
- grafico 1: medie uguali , correlazione -1 ( opposta )
- grafico 2: medie diverse , correlazione 1 (andamento identico )
- grafico 3: correlazione 1, media diverse
la correlazione tra ad es. la valutazione delle pulizie e la preferenza, dice se questi due dati sono legati o no
→ se è molto legato significa che questa valutazione è importate RELAZIONE TRA DUE VARIABILI CATEGORICHE
p. 173-
dipendenza o indipendenza tra due variabili categoriche
si analizza con le frequenze congiunte , che si rappresentano con tabelle a doppia entrata = tavola delle
frequenze congiunte
- se la distribuzione nelle aree nella riga del no o si rimane uguale significa che non influisce sull’essere consumatori o no
→ due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell'altra
- se le distribuzioni relative sono più o meno le stesse per ogni riga vuol dire che se passo da una riga o l’altra non cambia nulla
- -> saranno uguali anche alla distribuzione marginale
se sono variabili indipendenti, i loro valori dipendono solo alle distribuzioni marginali
FREQUENZE TEORICHE
dalle distribuzioni marginali posso vedere quali sono le frequenze teoriche che dovrei avere in ogni cella se
le variabili fossero indipendenti
indipendenza tra due variabili categoriche significa che:
- le percentuali di riga sono approssimativamente uguali in tutte le righe (e lo stesso per le colonne)
- le frequenze congiunte dipendono solo dalle frequenze marginali
- frequenze osservate sono uguali a quelle teoriche
- se le distribuzioni teoriche sono vicino a quelle osservate significa che sono vicino a una situazione di indipendenza
INDICE Χ
2
(CHI-QUADRATO)
p.
detto anche indice di connessione
χ^2 è una misura sintetica della distanza dall'indipendenza
in caso di perfetta indipendenza → χ^2 = 0
se c’è dipendenza → χ^2 ≫ 0 →𝜒^2 = 71,58: è grande o piccolo? → 1° test Chi-Quadrato p.
valore che può assumere: qualunque valore uguale o maggiore di 0
6. STATISTICA INFERENZIALE
cap.5 da p.197, + dispensa PDF
fare inferenza = estendere alla popolazione dei risultati ottenuti su un campione
POPOLAZIONE
la statistica opera tipicamente su campioni di una popolazione
popolazione = l'insieme di tutte le unità oggetto di studio
es. persone, prodotti, aziende
deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile
→ la distribuzione è tanto più concentrata intorno alla media quanto più grande è 𝑛 (𝜎^2 /𝑛 è la varianza cioè dice quanto la curva rossa è a punta) - -> più grande è 𝑛 (numerosità campione) più la curva è a punta
- questo è vero (cioè che la distribuzione campionaria è normale con varianza più piccola di quella prima) anche se la popolazione (blu) non è normale (per n abbastanza grande)
- -> quando calcolo un parametro con un campione da una popolazione, quello stesso parametro
campionario è a sua volta una variabile aleatoria → nel caso della media quella variabile è distribuita come una variabile normale con una varianza tanto più piccola quanto grande il campione
STIMA PUNTUALE E STIMA INTERVALLARE
la statistica ha un modo caratteristico di fornire le stime:
- la stima puntuale è il valore della statistica campionaria (visto prima)
- l' intervallo di confidenza è la stima puntuale ampliata con l'errore campionario stima – errore < valore "vero" < stima + errore
es. stima puntuale ottenuta estraendo un campione: 31
errore: 3. intervallo di confidenza: (31 – 3.5; 31 + 3.5) → intervallo di confidenza = (stima puntale – errore ; stima puntuale + errore)
- -> parto dalla conoscenza puntuale e riesco a stimare l’errore: a questo punto posso dare la stima non più
come valore puntuale ma come intervallo
INTERVALLO DI CONFIDENZA DELLA MEDIA
es: popolazione con media 𝜇 (l’incognita) e varianza 𝜎^2 (di cui abbiamo una stima)
𝑥= stima puntuale di 𝜇 → l'intervallo di confidenza al livello di confidenza del 95% della media è (cioè il valore vero è compreso tra): → abbiamo stimato così l’entità dell’errore
𝜎 /radice n è la deviazione standard della curva rossa di prima (cioè della distribuzione campionaria) - ->
l’errore al 95% è stimato con 1,96 che dipende dal 95% e 𝜎 /radice n che dipende dalla deviazione standard della distribuzione campionaria
→ questa stima dell’errore (- errore; + errore) è figlia della conoscenza della distribuzione campionaria della
media: visto che so che la distr. campionaria della media è una normale (con deviazione standard 𝜎 /radice n ) posso dire che il 95% di quella distribuzione è compresa tra -1,96 ∙ 𝜎 /radice n e +1,96 ∙ 𝜎 /radice n
l'ampiezza dell'intervallo di confidenza dipende della dimensione dell’errore, che dipende:
- dalla distribuzione campionaria (della media): 𝑁(𝜇; 𝜎^2 / 𝑛) → è una normale, ha varianza 𝜎^2 / 𝑛 e quindi deviazione standard la radice di 𝜎^2 / 𝑛
- dal livello di confidenza scelto: 95% → 1,
- dalla numerosità del campione: n
generalizziamo: (p.217) se invece che l’intervallo di confidenza della media, ma ad es. di una proporzione
rimane vero che l’ampiezza dell’intervallo di confidenza dipende dal livello di confidenza e dalla numerosità del campione → ma la distribuzione campionaria sarà un’altra
SIGNIFICATO DEL LIVELLO DI CONFIDENZA
(p.201) livello di confidenza = rappresenta la percentuale di intervalli (al variare dei campioni) che
contengono il valore “vero”
ogni segmento verticale rappresenta la stima puntuale di un campione
diverso (rappresentati da segmenti orizzontali → o è l’intervallo di confidenza?) → attorno a quel campione si può disegnare un intervallo di confidenza
- gli intervalli di confidenza, come ampiezza, sono tutti identici : se uso la stessa numerosità del campione ( n ), ho il livello di confidenza 95% sempre uguale, e la popolazione è sempre la stessa (𝜎^2 ) allora la distribuzione campionaria è sempre la stessa, quindi l’ampiezza dell’intervallo di confidenza è lo stesso
→ in molti casi, l’intervallo di confidenza conterrà la media vera , tranne
qualche caso in cui non lo contiene (es. riga rossa)
- se capita quello azzurro → la stima puntale +/– errore contiene la stima
vera
- se capita quello rosso → quando do l’intervallo di confidenza dico una cosa falsa → il livello di confidenza (95%) rappresenta la percentuale di intervalli che contengono il valore vero - ->se estraggo 100 campioni diversi, per 95 casi l’intervallo di confidenza che disegno conterrà la media vera, gli altri 5 non la conterranno
TRADE-OFF NEGLI INTERVALLI DI CONFIDENZA
(semi)ampiezza dell'IC della media al 95% = 1,96 ∙ 𝜎^2 /radice n
- ampiezza dell'intervallo → indica la precisione
- livello di confidenza → indica l’affidabilità → ecco perché le stime intervallari danno info in più rispetto a quelle puntuali: dà un’informazione sulla precisione delle mie stime
se si alza il livello di confidenza (es. da 95% a 99% → maggiore affidabilità ) l'ampiezza dell'intervallo
aumenta (si passa da 1,96 a 2,57 → minore precisione )
→ come restringere l’ampiezza dell’intervallo di confidenza e aumentare la precisione, senza perdere
affidabilità o viceversa? per aumentare il livello di confidenza e nello stesso tempo diminuire l'ampiezza dell'intervallo di confidenza bisogna aumentare la numerosità del campione INTERVALLI DI CONFIDENZA, ESEMPIO