Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi dei Dati per il Marketing: Metodi, Strumenti e Applicazioni - Prof. Della Beffa, Appunti di Statistica

Appunti completi presi durante le lezioni del corso di Data Analysis con il Prof. Della Beffa

Tipologia: Appunti

2019/2020

In vendita dal 29/09/2021

elisabetta_biason
elisabetta_biason 🇮🇹

4.6

(7)

13 documenti

1 / 71

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DATA ANALYSIS
21-09
obiettivi:
imparare gli strumenti principali dell’analisi dei dati finalizzati al mercato
formulare problemi di marketing in modo adatto all’analisi
riconoscere il ruolo dei dati per prendere decisioni
imparare a usare Excel, JMP
metodi:
- lezioni
- esercitazioni con Excel
- esercitazioni con software statistico
- analisi di un caso reale applicando le tecniche apprese e generando un report di analisi strutturato e
completo → opzionale ma valido per l’esame
libri
- materiale sulla community: Data analysis 2020-2021 password: data2021
- documentazione online
- Molteni, Troilo, Ricerche di marketing, Egea, Milano, 2012
pallini → leggere, studiare in generale
!! → studia bene tutto
esame:
- prova scritta con domande aperte (interpretazione di output e domande teoriche)
- orale a richiesta
- report di analisi (max 2 punti) → gruppi max 3, consegna almeno una settimana prima dell’appello scelto, i
punti valgono fino a settembre 2021
ricevimento: giovedì mattina
CONTESTO
cap.1, 2, 11
2 ipotesi che giustificano l’investimento sulla conoscenza:
1. la conoscenza è fonte di vantaggio competitivo
2. la soddisfazione dei clienti produce redditività
→ orientamento al mercato
- esigenze e diritti dei clienti
- arena competitiva (concorrenti, prodotti, ...)
requisiti dell’impresa:
-apertura : ottenere e mantenere aggiornata la conoscenza
-trasparenza : fare circolare la conoscenza al proprio interno
-innovazione : saper rispondere agli stimoli del mercato
→ dal punto di vista culturale
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47

Anteprima parziale del testo

Scarica Analisi dei Dati per il Marketing: Metodi, Strumenti e Applicazioni - Prof. Della Beffa e più Appunti in PDF di Statistica solo su Docsity!

DATA ANALYSIS

 obiettivi:

imparare gli strumenti principali dell’analisi dei dati finalizzati al mercato formulare problemi di marketing in modo adatto all’analisi riconoscere il ruolo dei dati per prendere decisioni imparare a usare Excel, JMP

 metodi:

  • lezioni
  • esercitazioni con Excel
  • esercitazioni con software statistico
  • analisi di un caso reale applicando le tecniche apprese e generando un report di analisi strutturato e completo → opzionale ma valido per l’esame

 libri

  • materiale sulla community: Data analysis 2020-2021 password: data
  • documentazione online
  • Molteni, Troilo, Ricerche di marketing , Egea, Milano, 2012 pallini → leggere, studiare in generale !! → studia bene tutto

 esame:

  • prova scritta con domande aperte (interpretazione di output e domande teoriche)
  • orale a richiesta
  • report di analisi (max 2 punti) → gruppi max 3, consegna almeno una settimana prima dell’appello scelto, i punti valgono fino a settembre 2021

 ricevimento: giovedì mattina

CONTESTO

 cap.1, 2, 11

 2 ipotesi che giustificano l’investimento sulla conoscenza:

  1. la conoscenza è fonte di vantaggio competitivo
  2. la soddisfazione dei clienti produce redditività

 → orientamento al mercato

  • esigenze e diritti dei clienti
  • arena competitiva (concorrenti, prodotti, ...)

 requisiti dell’impresa:

  • apertura : ottenere e mantenere aggiornata la conoscenza
  • trasparenza : fare circolare la conoscenza al proprio interno
  • innovazione : saper rispondere agli stimoli del mercato → dal punto di vista culturale
  • sistema informativo di marketing : raccogliere dati sugli aspetti di interesse e trasformarli in informazioni utili per le decisioni

 → sistema informativo di marketing = insieme strutturato di persone, modelli organizzativi, modelli di

analisi, tecnologie disegnato per generare un flusso ordinato e continuativo di informazioni destinate a essere utilizzate come supporto alle decisioni di marketing aziendale

 evoluzione del metodo in funzione degli obiettivi

  • livello gestionale → data quality
  • descriptive, business intelligence → sono pure descrizioni dei dati, non c’è interpretazione
  • livello diagnostico e predittivo → cerco di capire perché sono così i dati
  • livello prescrittivo → se riesco a capire posso prevedere
  • livello semantico

 ci sono diversi modi per classificare i dati → 2 di questi sono:

  1. dati primari → raccolti da istituti di analisi dei mercati
  2. dati secondari → servono per altro, ma li utilizzo anche per il marketing → rispetto all’obiettivo di marketing Le fonti informative si distinguono in:
  3. interne
  4. esterne

 altra classificazione dei dati → rispetto alla loro semantica:

  • GDO: market basket analysis = scoprire se e quali prodotti vengono comprati in associazione con altri
  • e-commerce, entertainment: sistemi di raccomandazione (es. Amazon, Netflix) → soprattutto machine learning e data mining DATI DICHIARATI E DATI OGGETTIVI

 i dati oggettivi rilevati invece che dichiarati hanno un peso e affidabilità diversa: non sono mai

perfettamente oggettivi , anche se riguardano comportamenti

 es. di dati rilevati in modo oggettivo e non su dichiarazione: Auditel (= rilevazione che certifica gli ascolti

televisivi) → la rilevazione di questi ascolti avviene tramite un panel (= campione continuativo) di famiglie (16 mila) che vengono rilevate in modo sistematico tutti i giorni → presso queste famiglie sono installati meter (apparecchi) che registrano ogni minuto ciò che viene visto nella tv → questo regola il mercato pubblicitario

 articolo → When should we ask, when should we measure?

Assirm Forum 2018, ESOMAR © 2015 blog.wakoopa.com/the-times-they-are-a-changin-for-thequestionnaire/ SONDAGGI: NOTA STORICA

 inventore dei questionari: Gallup, 1935

  • primi sondaggi di opinion italiani: 1946 dalla Doxa
  • indagine sugli orientamenti di voto: monarchia o repubblica? indagine sulla distribuzione del reddito nazionale

 dal 1994 i sondaggi sono diventati strumenti per la definizione di strategie elettorali e orientamento nelle

scelte politiche → non più solo “cerchiamo di capire come voteranno” ma più “capiamo come pensano per aggiustare e nostre strategie” FASI DI UN SONDAGGIO

 fasi:

  1. definizione dell' obiettivo e della formula di ricerca
  2. definizione della popolazione
  3. definizione del campione
  4. metodo di contatto
  5. costruzione del questionario
    1. somministrazione del questionario al campione
    2. raccolta dati
    3. analisi
    4. **reporting
  6. METODO DI CONTATTO**

 p.136-

 possibile domanda di esame

 CAPI (Computer Assisted Personal Interviewing): interviste personali assistite

  • es. indagini nei centri commerciali, exit-poll → ma non ci sono solo interviste nei centri commerciali, ma anche interviste più impegnative come queste: es. per le 16 mila famiglie ci sono intervistatori che vanno da loro e controllano le strumentazioni tecnologiche in quella casa e fanno domande
  • pro: qualità, accuratezza, nessuna limitazione di target

 CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): interviste telefoniche

  • dal punto di vista operativo per le ricerche di mercato è il più usato
  • pro: qualità, accuratezza, riduzione tempi, controllo rilevazione (= mentre faccio le interviste, se ho deciso di intervistare 100 donne e 100 uomini e se ho già trovato 100 donne ma mancano gli uomini, allora se la prossima chiamata è una donna non la uso più per il campione)
  • costo: 15€/intervista per mille casi da popolazione italiana → se i casi sono numerosi e se la selezione del campione è tutta la popolazione italiana

 CAWI (Computer Assisted Web Interviewing) = interviste via web

  • genero il questionario sul web e lo distribuisco via web
  • invito via mail/web/social, link per la compilazione -pro: tempi e costi ridotti -contro: minore accuratezza, filtro internet, autoselezione (cioè limitazione di target, perché chi risponde sono quelle persone che hanno un motivo per farlo) 4. COSTRUZIONE DEL QUESTIONARIO (CAWI)

 p.

 principi fondamentali: chiarezza, semplicità, brevità

 passaggi:

  1. identificare informazioni di interesse primario e accessorie → quali aree : opinioni, comportamenti, sociodemo
  2. stabilire la sequenza logica dei temi ( sezioni e filtri ) es. campione, dal generale al particolare, sociodemo alla fine
  3. definire la lista delle variabili (non le domande) → cosa chiedere per le aree scelte
  4. definire la sequenza delle domande es. prima la soddisfazione globale o gli attributi del prodotto? → meglio prima la soddisfazione e poi aggiungere gli attributi; se faccio il contrario lo porto a considerare gli attributi che ho messo prima e quindi mi direbbe quanto è soddisfatto rispetto a quegli attributi
  5. decidere la forma delle risposte (aperte o chiuse, in che scala → adesso si può fare domande aperte, prima era impensabile)
  6. formulare le domandecome chiedere FORMULAZIONE DELLE DOMANDE

 p.142-

 la formulazione delle domande è fondamentale:

 evitare domande doppie → perché se ci sono due alternative non si sa a quale delle due risponde, è meglio

dividere le domande es: ha mai comprato online biglietti aerei o ferroviari?

 evitare ambiguità

es: nella sua famiglia ci sono bambini?

 attenzione alle negazioni → perché non bisogna influenzare, poi perché se devo dire se sono d’accordo o

no e nella frase c’è una negazione è difficile capire se bisogna mettere si o no es: l'intervento della Regione Lombardia non è stato adeguato…

 risposte esaustive e mutuamente esclusive

es: in che paese è nato: Italia | Francia | Spagna | Europa → perché ci sono altri stati o continenti, poi perché Italia, Francia e Spagna si trovano anche in Europa, quindi non sono esclusive

 non dare nulla per scontato

es: dove è andato in vacanza l'estate scorsa? → magari non è andato in vacanza

 attenzione alle domande sul passato e ai temi etici

 → limitarsi alle domande necessarie

QUESTIONARIO: MOZZARELLA

 Obiettivo principale: analisi della concorrenza

  • posizionamento dei concorrenti
  • miei punti di forza e di debolezza

 Obiettivo secondario: segmentazione dei prodotti

 Formula di ricerca:

  • campione di consumatori
  • survey: cosa chiedere? come?

LA MATRICE DEI DATI

 tutte le analisi si basano su matrici di dati unità per variabili

  • n righe: le unità statistiche (detti anche casi, osservazioni, example)
  • k colonne: le variabili (attributi, feature) LO SPAZIO DELLE UNITA’

 ogni variabile si può interpretare come una dimensione

 ogni unità si può interpretare come un punto nello spazio a k dimensioni

TIPI DI SCALA

 p.148-

 DATI CATEGORICI (QUALITATIVI) = i valori si esprimono in categorie o modalità

  • ogni unità deve appartenere a una e una sola categoria
  • non si possono eseguire operazione aritmetiche
  • si possono calcolare frequenze e percentuali
  • si distinguono in:  nominali (es. marca)  ordinali : le categorie sono ordinate, ma le distanze tra di esse non sono uguali es. istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto)

 DATI NUMERICI (QUANTITATIVI)

  • rappresentano informazioni intrinsecamente numeriche
  • si può eseguire ogni tipo di calcolo (es. media)
  • le scale numeriche sono distinte in:  a intervalli (es. temperatura, date)  a rapporti (es. conteggi, età, reddito: c'è uno zero vero che significa assenza di quantità)  discreti (conteggio)  continui (misura)

 DATI BINARI (DICOTOMICI) = sono dati nominali , ma si possono utilizzare come numerici in molte analisi

  • ammettono solo due valori (si/no)
  • un dato categorico con k categorie si può trasformare in k dati binari → se si trasforma il dato in numerico si può selezionare più di una risposta (invece che inserire nella casella un numero) LIVELLI DI ANALISI

 + dispensa PDF

 3 livelli di analisi:

  1. Analisi univariata : una variabile alla volta statistiche descrittive: frequenze, media, varianza, ecc.
  2. Analisi bivariata : relazioni tra due variabili (PDF)
  3. Analisi multivariata : k variabili alla volta 1. ANALISI UNIVARIATA DISTRIBUZIONI DI FREQUENZA

 p.

 associa ad ogni possibile valore di una variabile la frequenza (relativa o assoluta) con la quale si presenta

 le frequenze assolute sono precise nell’ambito di un singolo campione → invece la frequenza relativa serve

a confrontare

 si può applicare a qualunque tipo di dato:

  • per variabili discrete fornisce tutta l'informazione disponibile
  • per variabili continue si raggruppano i valori in classi

 es. (guardare grafici p. 11 slide 3)

INDICI

 media

 mediana = valore che lascia metà dei valori a sx e metà a dx

 moda =

 percentili, quartili = valore come la mediana ma è ad esempio un quarto dei valori a sx e il resto a dx

 varianza

 deviazione standard = radice quadrata della varianza

 scarto interquantile

PROBABILITA’

 è una misura della possibilità che un evento possa verificarsi

 definizione frequentista: p = numero di casi favorevoli / numero di prove

𝑝 = 1 → evento certo 𝑝 = 0 → evento impossibile la somma delle probabilità di tutti gli eventi possibili è 1 Ʃ𝑝 = 1 DISTRIBUZIONI DI PROBABILITA’

 sono la generalità delle distribuzioni di frequenza

 = modelli teorici che descrivono fenomeni probabilistici

(invece le distribuzioni di frequenza sono in genere basate su dati osservati (campionari))

 si distinguono distribuzioni:

- discrete es. p 16 slide 3 → lancio di un dado es. p17: call center

  • continue
    • per variabili discrete la probabilità è concentrata nei punti → invece per variabili continue la probabilità è l' area sotto la curva
    • l'area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b: 𝑷𝒓𝒐𝒃(𝒂 ≤ 𝑿 ≤ 𝒃)
    • l'area totale sotto la curva è 1
    • la probabilità in un singolo punto è zero (!) → perché si considerano sempre gli intervalli e se ad es dico p(h. 170) io sto approssimando, non è un numero preciso quindi la p di un numero preciso è 0

 p.

 in una distribuzione 𝑁 0;1 il 95% dei valori è compreso (approssimativamente) tra −2 e +

 il 99% dei valori è compreso tra −2.57 e +2.

excel UE

 densità della popolazione: pop/sup → si moltiplica per 1000: abitanti per km

 % popolazione: pop paese/pop tot

4. DATA VISUALIZATION

https://support.microsoft.com/it-it/office/importare-e-analizzarei-dati-ccd3c4a6-272f-4c97-afbb- d3f27407fcde?ui=it-IT&rs=itIT&ad=IT#id0eaabaaa=charts https://developers.google.com/chart

 le origini: William Playfair → immagine PDF p.4 →primo diagramma a barre e a torto noto

 obiettivi delle rappresentazioni grafiche → servono a presentare risultati, ma anche descrivere i dati ed

esplorarli es. (grafici p.5): mostrare somiglianza tra unità, identificare relazioni e valutare l'effetto di fattori

TIPI DI GRAFICI

 p.153-

 box plot → Schematizza la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier)

  • p.172-173 libro
  • valori inferiori: in basso; valori superiori: in alto
  • Q3-Q1 = distanza interquartile (= in mezzo c’è la mediana)
  • vediamo che la distribuzione è leggermente asimmetrica : il baffo sotto è più corto del baffo sopra, poi la mediana (che divide il box) è più vicina al primo quartile che al secondo

 istogramma → mostra la distribuzione di una variabile numerica

  • differenza con i diagrammi a barre: = rappresentazione grafica delle distribuzioni di frequenza
  • suddiviso in classi → lo standard è fare classi di ampiezza uguale
  • sull’asse orizzontale: variabile numerica
  • sull’asse verticale: frequenze relative o assolute
  • intervalli uguali
  • grafici della stessa variabile in cui l’utente definisce l’ampiezza dei singoli intervalli

 grafici a barre → riassumono categorie valori di variabili categoriche

  • orientamento verticale o orizzontale è ininfluente, è solo da un punto di vista estetico
  • asse orizzontale (o verticale): variabile categorica
    • su excell chiamate a barre o a colonne

 diagramma di Pareto = grafico a barre ordinato per frequenze decrescenti (p.10 slide)

 grafico a torta → Mostra la distribuzione di una variabile qualitativa ( = 100%)

  • limite: Non mostra chiaramente le relazioni tra le parti (p.12 slide)
  • usarli con grande parsimonia → prima funzionavano perché c’erano valori tra loro molto diversi
  • evitare versioni 3D di grafici 2D → perché è un grafico concettualmente bidimensionale

 grafico a linea

  • entrambi gli assi sono numerici
  • asse y: frequenze, prezzi, indici
  • asse x: variabile numerica, di solito il tempo

 best practice:

- adattare il grafico all'audience: meglio grafici semplici

  • evitare distorsioni (no grafici 3D) e forzature dei dati
  • mostrare i valori , usare etichette , titoli, legenda
  • evitare livelli di precisione inutili : € 4.341.765,34 → € 4,3M
  • per confrontare grafici usare scale e basi di dati coerenti → le differenze sembrano grandissime, ma se lo volessi confrontare con altri dati (es. l’anno scorso, o con un’altra città) devo usare la stessa scala se no visivamente non vedo nulla DATA VISALIZATION

 es. (p.23 slide) → mette insieme più informazioni integrando info diverse

  • rappresenta l’andamento del tempo in due anni (i mesi sono gli spicchi) → all’interno dei mesi inserisce la distribuzione delle cause di morte negli ospedali

 data visualization (interattiva) = mettere sullo schermo grafici diversi ma che raccontano lo stesso

fenomeno in modo da vederlo sotto prospettive diverse

  • interattività → se clicco su marzo tutti i grafici cambieranno per far vedere i dati di marzo

 criteri fondamentali della data visualization interattiva:

  1. grafici multipli simultanei combinati in una visualizzazione
  2. modifiche ai grafici facili, rapide, reversibili
  3. visualizzazioni collegate tra loro in modo che le operazioni fatte su una si riflettano su tutte

 ci vogliono dei software apposta (Tableau, Qlik Sense)

5. ANALISI BIVARIATA

 p. 173-186 + dispensa PDF

LIVELLI DI ANALISI

 3 tipi di analisi:

  1. analisi univariata : studia una variabile alla volta
  2. analisi bivariata : studia la relazione tra due variabili  numerica + numerica  numerica + categorica  categorica + categorica
  3. analisi multivariata : k variabili alla volta modelli statistici, machine learning, ecc.

1. RELAZIONI BIVARIATE TRA DATI NUMERICI

 p.179-

 = andamento relativo di una variabile rispetto all’altra

 concordanza : a valori elevati di una variabile corrispondono perlopiù valori elevati dell’altra

  • se una variabile vale di più della sua media, allora anche l’altra variabile varia perlopiù della sua media
  • se una variabile sale, allora anche l’altra perlopiù sale discordanza : a valori elevati di una variabile corrispondono perlopiù valori bassi dell’altra

COVARIANZA

 covarianza = l’indicatore per dire se due variabili numeriche sono in concordanza o discordanza:

variabili X e Y con media μX e μY e dev. std. σX e σY

 Cov(X,Y) > 0 → concordanza = covarianza positiva

Cov(X,Y) < 0discordanza = covarianza negativa se una delle variabili è costante : Cov = 0

 il valore minimo della covarianza è 0:

covarianza minima: |Cov(X,Y)| = 0 → nessuna relazione

 il valore massimo della covarianza è il prodotto delle deviazioni standard:

covarianza massima: |Cov(X,Y)| = σX σY → relazione perfetta , punti allineati

MATRICE DI COVARIANZA

 es di covarianza:

  • le covarianze positive significa che tra istruzione-sanità, istruzione-pensione e istruzione- pil procapite c’è una relazione di concordanza: significa ad es che all’aumentare del livello di istruzione vi è un aumento della sanità
  • dove la covarianza è negativa, c’è una relazione di discordanza: al crescere della popolazione il livello di istruzione diminuisce

 es: differenza della preferenza per marca

le medie sono un po’ diverse: è solo un caso o sono già abbastanza grandi le differenze da poter dire che sotto c’è un fenomeno? → 2° test Anova p. CORRELAZIONE E DIFFERENZA IN MEDIA

 confrontiamo i due concetti visti prima → sono relazioni e concetti diversi e indipendenti

  • grafico 1: medie uguali , correlazione -1 ( opposta )
  • grafico 2: medie diverse , correlazione 1 (andamento identico )
  • grafico 3: correlazione 1, media diverse

 la correlazione tra ad es. la valutazione delle pulizie e la preferenza, dice se questi due dati sono legati o no

→ se è molto legato significa che questa valutazione è importate RELAZIONE TRA DUE VARIABILI CATEGORICHE

 p. 173-

 dipendenza o indipendenza tra due variabili categoriche

 si analizza con le frequenze congiunte , che si rappresentano con tabelle a doppia entrata = tavola delle

frequenze congiunte

  • se la distribuzione nelle aree nella riga del no o si rimane uguale significa che non influisce sull’essere consumatori o no

 → due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell'altra

  • se le distribuzioni relative sono più o meno le stesse per ogni riga vuol dire che se passo da una riga o l’altra non cambia nulla
  • -> saranno uguali anche alla distribuzione marginale

 se sono variabili indipendenti, i loro valori dipendono solo alle distribuzioni marginali

FREQUENZE TEORICHE

 dalle distribuzioni marginali posso vedere quali sono le frequenze teoriche che dovrei avere in ogni cella se

le variabili fossero indipendenti

 indipendenza tra due variabili categoriche significa che:

  • le percentuali di riga sono approssimativamente uguali in tutte le righe (e lo stesso per le colonne)
  • le frequenze congiunte dipendono solo dalle frequenze marginali
  • frequenze osservate sono uguali a quelle teoriche
  • se le distribuzioni teoriche sono vicino a quelle osservate significa che sono vicino a una situazione di indipendenza

INDICE Χ

2

(CHI-QUADRATO)

 p.

 detto anche indice di connessione

 χ^2 è una misura sintetica della distanza dall'indipendenza

 in caso di perfetta indipendenza → χ^2 = 0

se c’è dipendenza → χ^2 ≫ 0 →𝜒^2 = 71,58: è grande o piccolo? → 1° test Chi-Quadrato p.

 valore che può assumere: qualunque valore uguale o maggiore di 0

6. STATISTICA INFERENZIALE

 cap.5 da p.197, + dispensa PDF

 fare inferenza = estendere alla popolazione dei risultati ottenuti su un campione

POPOLAZIONE

 la statistica opera tipicamente su campioni di una popolazione

 popolazione = l'insieme di tutte le unità oggetto di studio

es. persone, prodotti, aziende

 deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile

→ la distribuzione è tanto più concentrata intorno alla media quanto più grande è 𝑛 (𝜎^2 /𝑛 è la varianza cioè dice quanto la curva rossa è a punta) - -> più grande è 𝑛 (numerosità campione) più la curva è a punta

  1. questo è vero (cioè che la distribuzione campionaria è normale con varianza più piccola di quella prima) anche se la popolazione (blu) non è normale (per n abbastanza grande)

 - -> quando calcolo un parametro con un campione da una popolazione, quello stesso parametro

campionario è a sua volta una variabile aleatoria → nel caso della media quella variabile è distribuita come una variabile normale con una varianza tanto più piccola quanto grande il campione

STIMA PUNTUALE E STIMA INTERVALLARE

 la statistica ha un modo caratteristico di fornire le stime:

  • la stima puntuale è il valore della statistica campionaria (visto prima)
  • l' intervallo di confidenza è la stima puntuale ampliata con l'errore campionario stima – errore < valore "vero" < stima + errore

 es. stima puntuale ottenuta estraendo un campione: 31

errore: 3. intervallo di confidenza: (31 – 3.5; 31 + 3.5) → intervallo di confidenza = (stima puntale – errore ; stima puntuale + errore)

 - -> parto dalla conoscenza puntuale e riesco a stimare l’errore: a questo punto posso dare la stima non più

come valore puntuale ma come intervallo

INTERVALLO DI CONFIDENZA DELLA MEDIA

 es: popolazione con media 𝜇 (l’incognita) e varianza 𝜎^2 (di cui abbiamo una stima)

𝑥= stima puntuale di 𝜇 → l'intervallo di confidenza al livello di confidenza del 95% della media è (cioè il valore vero è compreso tra): → abbiamo stimato così l’entità dell’errore

 𝜎 /radice n è la deviazione standard della curva rossa di prima (cioè della distribuzione campionaria) - ->

l’errore al 95% è stimato con 1,96 che dipende dal 95% e 𝜎 /radice n che dipende dalla deviazione standard della distribuzione campionaria

 → questa stima dell’errore (- errore; + errore) è figlia della conoscenza della distribuzione campionaria della

media: visto che so che la distr. campionaria della media è una normale (con deviazione standard 𝜎 /radice n ) posso dire che il 95% di quella distribuzione è compresa tra -1,96 ∙ 𝜎 /radice n e +1,96 ∙ 𝜎 /radice n

 l'ampiezza dell'intervallo di confidenza dipende della dimensione dell’errore, che dipende:

  1. dalla distribuzione campionaria (della media): 𝑁(𝜇; 𝜎^2 / 𝑛) → è una normale, ha varianza 𝜎^2 / 𝑛 e quindi deviazione standard la radice di 𝜎^2 / 𝑛
  2. dal livello di confidenza scelto: 95% → 1,
  3. dalla numerosità del campione: n

 generalizziamo: (p.217) se invece che l’intervallo di confidenza della media, ma ad es. di una proporzione

rimane vero che l’ampiezza dell’intervallo di confidenza dipende dal livello di confidenza e dalla numerosità del campione → ma la distribuzione campionaria sarà un’altra

SIGNIFICATO DEL LIVELLO DI CONFIDENZA

 (p.201) livello di confidenza = rappresenta la percentuale di intervalli (al variare dei campioni) che

contengono il valore “vero”

 ogni segmento verticale rappresenta la stima puntuale di un campione

diverso (rappresentati da segmenti orizzontali → o è l’intervallo di confidenza?) → attorno a quel campione si può disegnare un intervallo di confidenza

  • gli intervalli di confidenza, come ampiezza, sono tutti identici : se uso la stessa numerosità del campione ( n ), ho il livello di confidenza 95% sempre uguale, e la popolazione è sempre la stessa (𝜎^2 ) allora la distribuzione campionaria è sempre la stessa, quindi l’ampiezza dell’intervallo di confidenza è lo stesso

 → in molti casi, l’intervallo di confidenza conterrà la media vera , tranne

qualche caso in cui non lo contiene (es. riga rossa)

 - se capita quello azzurro → la stima puntale +/– errore contiene la stima

vera

  • se capita quello rosso → quando do l’intervallo di confidenza dico una cosa falsa → il livello di confidenza (95%) rappresenta la percentuale di intervalli che contengono il valore vero - ->se estraggo 100 campioni diversi, per 95 casi l’intervallo di confidenza che disegno conterrà la media vera, gli altri 5 non la conterranno

TRADE-OFF NEGLI INTERVALLI DI CONFIDENZA

 (semi)ampiezza dell'IC della media al 95% = 1,96 ∙ 𝜎^2 /radice n

 - ampiezza dell'intervallo → indica la precisione

- livello di confidenza → indica l’affidabilità → ecco perché le stime intervallari danno info in più rispetto a quelle puntuali: dà un’informazione sulla precisione delle mie stime

 se si alza il livello di confidenza (es. da 95% a 99% → maggiore affidabilità ) l'ampiezza dell'intervallo

aumenta (si passa da 1,96 a 2,57 → minore precisione )

 → come restringere l’ampiezza dell’intervallo di confidenza e aumentare la precisione, senza perdere

affidabilità o viceversa? per aumentare il livello di confidenza e nello stesso tempo diminuire l'ampiezza dell'intervallo di confidenza bisogna aumentare la numerosità del campione INTERVALLI DI CONFIDENZA, ESEMPIO