Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Dispensa Data Analysis Della Beffa - IULM, Dispense di Analisi Statistica

Appunti slide e lezione integrati, con aggiunta anche di output di esercizi su JMP e interpretazione.

Tipologia: Dispense

2025/2026

In vendita dal 22/05/2026

Martina.gobbi
Martina.gobbi 🇮🇹

8 documenti

1 / 81

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DATA ANALYSIS
Analisi di mercato
Non è la mera ricerca di mercato ma qualcosa di più vasto. !
Si cerca di rispondere a domande sul mercato in senso lato : clienti, nuovi mercati, nuovi prodotti,
quindi la ricerca di opportunità nuove e quindi indagini con obbiettivo espansivo, oppure se ci
occupiamo di problemi ci chiediamo il perchè perdiamo quote di mercato, tutto ciò che a che fare
con la gestione di un nuovo business.!
Chi fa analisi di mercato ?
Strutture interne all’azienda e la rilevazione + recente dice che nel 75% delle aziende c’è una
persona che si occupa di analisi di mercato. Sono persone che si interfacciano con dei fornitori
esterni che aiutano l’azienda a fare l’analisi. Tra gli esperti del dominio (quelli che sanno tutto
dell’azienda) e gli esperti delle ricerche di mercato ci sono coloro che sanno tradurre i problemi in
modo da mettere in contatto le cose —> trade union tra questi mondi, quindi dobbiamo saperne
abbastanza dell’azienda.!
Il processo dell’analisi (quantitativa) di mercato
La definizione del progetto di analisi non è banale né univoca, si discute, si ha un dibattito perchè
nessuno sa formalizzare i passi giusti. !
1. Formulazione dell’obbiettivo = che cosa voglio sapere deve essere definito in modo chiaro,
formalizzato e inequivocabile. È importante formalizzare il problema per evitare che la raccolta
dati e l’analisi si disperda e si confonda a inseguire obbiettivi secondari che all’inizio non
avevamo definito. Es: analisi della concorrenza: chi sono i concorrenti? Cosa li distingue?
Quali sono i miei punti di forza e di debolezza? !
2. Quale formula di ricerca? !
3. Quali dati? !
4. Raccolta dei dati !
5. Analisi dei dati !
6. Interpretazione e presentazione dei risultati !
7. Follow-up e messa in produzione !
L’analisi qualitativa (non ci sarà questo tipo di analisi)!
Secondo l’ultimo report dell’ESOMAR, il 20% della spesa delle ricerche di mercato va sull’analisi
qualitativa. A volte precede l’indagine quantitativa a scopo esplorativo. Ma quando è necessario
questo? Quando voglio esplorare un problema, quando ho da approfondire e rispondere a una
domanda rispetto ai quali non so nulla, quindi per orientarmi rispetto all’analisi faccio un analisi
qualitativa. I risultati dell’eventuale analisi qualitativa sono quelli che poi servono per definire i
passi dell’analisi quantitativa. !
focus group = moderatore con un gruppo ristretto;!
Interviste in profondità = intervistatore con un consumatore o un decisore.!
Fonti informative !
La prima distinzione che ci interessa rispetto alle analisi informative, è quella tra dati primari e
secondari rispetto all’obiettivo di marketing.!
Primari = sono quelli rilevati apposta per l’obbiettivo, non li avevo e li ho rilevati quindi si usano
spesso le Survey.!
Vantaggio = sono
specializzatissimi perchè
posso esplorare qualunque
cosa, posso scegliere il
campione opportuno,
estremamente specifico sul
problema che ho in mente.!
Svantaggi = tempi e costi
importanti. !
Dati secondari = li avevo già a
disposizione perchè li avevo
raccolti per altri scopi (es: istat
ha obbiettivi istituzionali e costituzionali).!
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51

Anteprima parziale del testo

Scarica Dispensa Data Analysis Della Beffa - IULM e più Dispense in PDF di Analisi Statistica solo su Docsity!

DATA ANALYSIS

Analisi di mercato

Non è la mera ricerca di mercato ma qualcosa di più vasto. Si cerca di rispondere a domande sul mercato in senso lato : clienti, nuovi mercati, nuovi prodotti, quindi la ricerca di opportunità nuove e quindi indagini con obbiettivo espansivo, oppure se ci occupiamo di problemi ci chiediamo il perchè perdiamo quote di mercato, tutto ciò che a che fare con la gestione di un nuovo business.

Chi fa analisi di mercato?

Strutture interne all’azienda e la rilevazione + recente dice che nel 75% delle aziende c’è una persona che si occupa di analisi di mercato. Sono persone che si interfacciano con dei fornitori esterni che aiutano l’azienda a fare l’analisi. Tra gli esperti del dominio (quelli che sanno tutto dell’azienda) e gli esperti delle ricerche di mercato ci sono coloro che sanno tradurre i problemi in modo da mettere in contatto le cose —> trade union tra questi mondi, quindi dobbiamo saperne abbastanza dell’azienda.

Il processo dell’analisi (quantitativa) di mercato

La definizione del progetto di analisi non è banale né univoca, si discute, si ha un dibattito perchè nessuno sa formalizzare i passi giusti.

  1. Formulazione dell’obbiettivo = che cosa voglio sapere deve essere definito in modo chiaro, formalizzato e inequivocabile. È importante formalizzare il problema per evitare che la raccolta dati e l’analisi si disperda e si confonda a inseguire obbiettivi secondari che all’inizio non avevamo definito. Es: analisi della concorrenza: chi sono i concorrenti? Cosa li distingue? Quali sono i miei punti di forza e di debolezza?
  2. Quale formula di ricerca?
  3. Quali dati?
  4. Raccolta dei dati
  5. Analisi dei dati
  6. Interpretazione e presentazione dei risultati
  7. Follow-up e messa in produzione

L’analisi qualitativa (non ci sarà questo tipo di analisi)

Secondo l’ultimo report dell’ESOMAR, il 20% della spesa delle ricerche di mercato va sull’analisi qualitativa. A volte precede l’indagine quantitativa a scopo esplorativo. Ma quando è necessario questo? Quando voglio esplorare un problema, quando ho da approfondire e rispondere a una domanda rispetto ai quali non so nulla, quindi per orientarmi rispetto all’analisi faccio un analisi qualitativa. I risultati dell’eventuale analisi qualitativa sono quelli che poi servono per definire i passi dell’analisi quantitativa.

  • focus group = moderatore con un gruppo ristretto;
  • Interviste in profondità = intervistatore con un consumatore o un decisore.

Fonti informative

La prima distinzione che ci interessa rispetto alle analisi informative, è quella tra dati primari e secondari rispetto all’obiettivo di marketing. Primari = sono quelli rilevati apposta per l’obbiettivo, non li avevo e li ho rilevati quindi si usano spesso le Survey. Vantaggio = sono specializzatissimi perchè posso esplorare qualunque cosa, posso scegliere il campione opportuno, estremamente specifico sul problema che ho in mente. Svantaggi = tempi e costi importanti. Dati secondari = li avevo già a disposizione perchè li avevo raccolti per altri scopi (es: istat ha obbiettivi istituzionali e costituzionali).

Vantaggi = tempi e costi, perchè li ho già a disposizione quindi al massimo dovrò fare una estrazione di dati e passarli all’ufficio marketing che dovrà applicarli. In più sono dati di alta qualità, senza errori perchè ogni possibile errore viene controllato alla fonte. Sono potenzialmente tantissimi a differenza dei primari. Svantaggi = sono dati non specializzati. Se abbiamo un problema molto particolare posso cercare dati che si avvicinano al meglio al nostro problema, ma non è detto che possiamo centrare. I dati poi possono provenire da fonti interne o esterne all’azienda. Le fonti esterne sono qualunque fornitore di dati esterno all’azienda (outlook, google,..) di cui alcuni gratuiti e alcuni a pagamento. Ci sono poi dati raccolti prima interni all’azienda che sono per esempio gli scontrini del supermercato (es: Esselunga registra le cose perchè poi devo pagare e con questi dati può farci delle indagini sopra. Cosa viene comprato insieme o in alcune stagioni o nel fine settimana..). I dati primari non hanno distinzione tra fonti interne ed esterne, quindi di fatto sono dati che si raccolgono con Survey e quindi ci si rivolge a fonti esterne.

Tipo di informazione

Pensiamo a dati soprattutto provenienti da Survey, ma non solo quelli. Quali aree informative coprono i dati?

  • Dati^ di^ classificazione^ = età, istruzione, nazionalità, .. se parlo di aziende —> settore, dimensione, fatturato.
  • Dati^ psicografici^ = soddisfazione, valori, opinioni e sono necessariamente primari, non li trovo nei dati che ho già. Sono un pò nascoste, ma le opinioni si possono anche desumere da alcuni dati secondari (conversazioni sui social, registrazioni di chiamate con assistenza,..) —> sentiment analysis e scoprire cosa pensa la gente.
  • Comportamenti^ = acquisti (frequenza, quantità), pagamenti, web, social, e li troviamo sia nei dati raccolti con interviste che in dati secondari. I dati primari sono dichiarati quindi ci possono essere distorsioni del ricordo.
  • Dati^ di^ contesto^ = sono dati che non descrivono esattamente la persona che stiamo rilevando, ma il contesto all’interno del quale la rilevazione sta avvenendo, quindi indicatori di mercato, finanziari, territoriali, ambientali. Sono dati che non possiamo chiedere, ma posso ottenerli come dati secondari.

Sondaggio (survey)

Rilevazione di dati primari con interviste strutturate (=un questionario, blocchi di domande in un certo ordine, ragionate) a un campione (devo scegliere un gruppo di soggetti).

  • molto generale —> posso esplorare qualunque cosa
  • Potenzialmente costoso
  • Richiede competenze a rigore, difficile improvvisarlo
    • competenze su cosa devo chiedere
    • E anche su come chiederle Alternative:
  • (^) censimento : rilevazione su tutta la popolazione, qualcosa di onerosissimo e li faceva l’stat sull’intera popolazione con cadenza decennale, ma ora non li fa più, adesso sono campioni annuali e si guadagna enormemente in aggiornamento.
  • (^) Analisi di dati secondari da fonti esterne (es: Istat,Auditel)
  • (^) Analisi di dati secondari interni : ogni azienda ha i suoi dati diversi e sono i dati che le interessano

Popolazione e campione

Popolazione = termine tecnico, insieme di tutte le unità che sono oggetto di studio (es: persone —> popolazione, ma anche sottoinsiemi specifici della popolazione se mi limito ad esempio alle donne tra 20-30 anni). Deve essere identificata in modo inequivocabile attraverso una o + caratteristiche osservabili, che devono essere rispettate per entrare nella popolazione (es: dire donne tra i 20-30 anni va benino, ma potrei dire anche da dove vengono per essere più preciso).

Dimensione del campione o numerosità

Campioni più grandi migliorano la precisione delle stime, ma…

  • sono più costosi;
  • Il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione. Il costo rimane costate, ma il beneficio decresce strutturalmente;
  • La dimensione del campione non dipende da quella della popolazione e si può stimare a priori (statistica inferenziale). Dipende dal livello di precisione che io voglio ottenere da quella indagine. La decisione è: che livello di precisione voglio ottenere. —> la numerosità ottimale è quella che consente di ottenere gli obbiettivi dell’indagine al minimo costo.

Caratteristiche di un buon campione

  • casualità = indipendenza delle osservazioni ed è garantita dal metodo probabilistico semplice, dentro agli strati c’è una selezione casuale.
  • Rappresentatività = deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto (= tipico del campione non probabilistico). - —> serve a garantire la^ validità^ e quindi a fornire stime valide, ovvero che quello che stimo con il campione è proprio quello che vorrei misurare.
  • Numerosità —> garantisce affidabilità e precisione. Più alta è la numerosità del campione, più precisa è la stima, molto concentrata. Se la numerosità è bassa, l’oscillazione intorno ai valori è più alta e troveremo punti più dispersi. L’ideale è avere la massima validità e la massima precisione. La più importante è la rappresentatività perchè se non lo fosse, una numerosità alta è peggio perchè sono più sicuro di una cosa sbagliata.

Fasi di un sondaggio

  1. Definizione dell’obbiettivo
  2. Scelta del metodo di contatto per chiarire certi punti di vista e vantaggi e svantaggi
  3. Costruzione del questionario
  4. Test del questionario
  5. Somministrazione del questionario al campione
  6. Raccolta dati
  7. Analisi
  8. reporting

Raccolta dati: metodo di contatto

Ci sono 3 approcci:

  • CAPI (computer assisted personal interviewing) = interviste personali, c’è qualcuno con un computer davanti che mi fa le interviste. - Garantisce la massima^ qualità e accuratezza^ perchè essendoci due persone, una di fronte all’altra, che si parlano non ci possono essere errori quindi di solito le risposte sono di alta qualità. In questo caso non ho limitazione di target. - Questa costa tantissimo e necessita di tempi lunghi. - L’intervistatore condiziona l’intervistato —> bis dell’intervistato - Desiderabilità sociale: per cui l’intervistato esita a dare risposte che magari lui considera preferibili, ma teme siano meno accette (vero per opinioni minoritarie)
  • CATI/CAMI (computer assisted telephone/mobile interviewing)
    • Garantiscono i tempi minori e la migliore qualità, accuratezza e controllo di rilevazione che viene fatta direttamente dal programma.
  • CAWI ( computer assisted web interviewing) = viene fatta online attraverso invito email/web/ social con un link per la compilazione. - Costi bassi, praticamente gratuito. Tempi a volte brevi, ma non sempre. - Minore accuratezza,^ filtro internet (la popolazione è molto selezionata), autoselezione

Costruzione del questionario

Principi fondamentali: chiarezza, semplicità e brevità.

  1. Identificare informazioni di interesse primario e accessorie —> cosa chiedere;
  2. Stabilire la sequenza logica delle sezioni e delle domande —> struttura del questionario;
  3. Decidere la forma delle risposte e formulare le domande —> come chiedere. Raccomandazioni:
  • evitare domande doppie
  • Evitare ambiguità
  • Attenzione alle negazioni
  • Risposte esaustive e mutuamente esclusive
  • Non dare nulla per scontato
  • Attenzione alle domande sul passato e ai temi sensibili
  • Evitare formulazioni tendenziose —> inserire domande replicate o con scala invertita.

La matrice dei dati

Tutte le analisi si fanno a partire da matrici (=dataset) di dati unità per variabili. Ogni riga è una unità e ogni colonna è una variabile.

  • n righe: le unità statistiche (casi, osservazioni)
  • K colonne: le variabili (attributi, feature)
  • ogni variabile si può interpretare come una dimensione;
  • Ogni unità si può interpretare come un punto nello spazio a k dimensioni. Le dimensioni del dataset, cioè le colonne (variabili), si possono interpretare come dimensioni dello spazio nel quale le unità sono punti. Le righe diventano punti dello spazio e se le variabili sono 3 anziché due —> le unità sono punti nello spazio tridimensionale. Se le dimensioni sono più di tre, l’intuizione geometrica non ci aiuta, ma il concetto rimane.

Tipi di dati

Il tipo di dato determina le analisi che si possono effettuare su quel dato:

  • Numerici^ (quantitativi) : sono numeri veri e su questi si può fare qualunque operazione e quindi auspichiamo di averli sempre. Rappresentano informazioni intrinsecamente numeriche e con tali si può eseguire ogni tipo di calcolo (es: media). Per decidere se un dato è un numero non dobbiamo fermarci a come è rappresentato, ma dobbiamo chiederci che senso ha quel dato (es: invece che dire nord, centro, sud, posso codificarle con 1,2,3, ma questo non vuol dire che sia un numero quindi non posso fare osservazioni). Non confondere la rappresentazione del dato con il suo significato. - Discreto^ = valori che vengono fuori da conteggi (5 o 6, non 5,5) - Continuo^ = di solito sono misurazioni
  • Categorici (qualitativi) : si possono calcolare solo frequenze e percentuali.
    • Nominali^ = marca, area geografica.. sono solo etichette;
    • Ordinali^ = categorie ordinate, ma distanze tra un valore e un altro non uguali: istruzione, classi di età, Scale di likert (=pertinente, poco, così così, abbastanza, molto). Le ultime vengono usate come scale numeriche, così da farci valutazioni, ma è una forzatura.
  • Dati binari = ammettono solo due valori. Sono nominali (sicuramente dati categorici), ma si possono usare come numerici in molte analisi. Li si può interpretare come possedere o no una certa caratteristiche attraverso 1 e 0. Se i dati sono secondari sono bellissimi, se arrivano da una Survey possono avere problemi che vanno corretti ed è un lavoro noiosissimo, ma che occupa il maggiore tempo di un data analist.

Data cleaning: ponderazione

  • corregge distorsioni in dati provenienti da campioni;
  • consiste nell'associare a ogni unità un peso in modo che le unità non abbiano tutte la stessa “importanza”;
  • La numerosità totale del campione non deve cambiare —> media dei pesi = 1. È possibile ponderare i dati = aggiungere una colonna con un risultato il cui ruolo è di far si che una certa riga pesi di più o di meno di quello che varrebbe senza il peso per una certa analisi.

Trasformazioni di dati numerici

  • annullare le differenze di scala e di varianza tra le variabili:
    • standardizzate —> media zero, varianza 1
    • Normalizzare —> intervallo [0;1]
  • trasformare in variabili categoriche (ordinali):
    • Discretizzare, separare in classi. Probabilità È una misura della possibilità che un qualche evento si verifichi. Definizione frequentista (= perchè fa riferimento alla frequenza): p= numero di casi favorevoli / numero di prove. Se lancio una moneta due volte può venire testa e croce o due volte testa o due volte croce, ma più lanci faccio più la probabilità di ottenere per metà croce e per metà testa è valida —> quando ho un evento (lancio moneta) sul quale voglio stimare una probabilità, se posso ripetere l’evento tantissime volte, il rapporto tra il numero di casi favorevoli e il numero di prove si avvicina alla probabilità vera. Richiede che si possano fare infinte prove, ma non sempre posso farlo. Al crescere di numero di casi, la stima della probabilità è migliore. **Quando il numero di prove tende a infinito —> 0 (figura a lato). Associa a tutti i valori la frequenza con cui si sono presentati.
  • Distribuzioni di probabilità = Sono il modello teorico corrispondente, in termini generali, alle distribuzioni di frequenza che vengono fuori su un campione, mentre quelle di probabilità sono dei modelli di come si distribuisce la probabilità. Ne esistono tante perchè servono a modellare fenomeni diversi. Servono per modellare i fenomeni reali, affinché io abbia prototipi che vanno bene per i fenomeni. - Variabile discreta —> distribuzioni discrete ; - Variabile continua —> distribuzione continua. Sono l’unico punto vero in cui serve distinguere variabili discrete (di solito numeri interi) e continue (variabili continue come reddito, altezza…).

Distribuzioni di probabilità discrete

La distribuzione di una probabilità consiste in associare a tutti i possibili valori della variabile la relativa probabilità. Tutti i valori possibili del lancio di un dado sono quelli che vanno da 1 a 6 e poi associo a ognuno la sua probabilità. Lancio due dadi, quali sono le somme di tutti i possibili valori che vengono fuori?

  • Minima: 2;
  • Massima: 12. Mi interessano allora i valori che vanno da 2 a 12. Per calcolare tutti i possibili risultati posso disporre in una tabella tutti i risultati organizzandola:
  • Sulle righe i valori usciti per il dado blu;
  • Sulle colonne tutti i valori che può assumere il dado rosso La probabilità di ogni riga e colonna è 1/6. Qual è la probabilità di 2? Si contano quanti 2 ci sono dentro al quadrato (1 solo su 36), ed è la stessa probabilità per 12. La probabilità di avere 3 è 2/36.

Distribuzioni continue

Si differenziano rispetto alle discrete per il modo in cui rappresentano la probabilità. Per le discrete, la probabilità è concentrata nei punti che rappresentano i possibili valori che la distribuzione può assumere. Qui abbiamo curve continue e il modo caratteristico in cui si esprime la probabilità è: la probabilità che X assuma valori compresi tra a e b è l’area sotto la curva compresa tra a e b (area azzurra). La curva non rappresenta la probabilità, ma la densità di probabilità, poiché la probabilità è l’area sotto la curva. Due conseguenze:

  1. L’area totale sotto la curva è 1. La probabilità di avere valori compresi tra il minimo e il massimo è 1. Se ammetto che qualunque valore tra il min e max vada bene allora avrò un evento certo.
  2. La probabilità di un singolo punto è zero. Questa affermazione è ovvia se ci facciamo guidare dalla interpretazione geometrica. L’area tra a e b è la probabilità di avere valori compresi tra a e b, allora la probabilità di avere esattamente a la ottengo facendo scorrere b fino a che a non coincida con b —> l’area si è ridotta a un segmento e quindi l’area è nulla. Nella realtà però dico: nessuno ha 23 anni perchè 23 è un punto e la probabilità è 0. Ma ragioniamo: quando dico che sono alto 1,68 sto arrotondando all’intero più vicino. Non puoi essere alto 1,68 seguito da infiniti zeri, sto arrotondando quindi ho un’area tra questi centimetri di scarto.

Distribuzione normale (GAUSSIANA)

La normale è una distribuzione continua che può assumere valori da -infinito a +infinito ed è caratterizzata da due valori, media e varianza della distribuzione Le distribuzioni normali sono tutte:

- simmetriche con le probabilità concentrate intorno al

centro e una coda a destra e una a sinistra con probabilità decrescenti mano a mano che mi allontano dal centro. Forma a campana;

- Media = moda = mediana;

- Probabilità alte vicino al centro, tendenti a zero nelle code.

Ruolo della media : indica qual è la posizione del centro di simmetria a parità di varianza, quindi in queste tre curve rossa, blu e verde, la media è 0; invece nella curva viola la media è -2 —> la media ha la funzione di spostare la Normale rigidamente, senza farla cambiare forma, verso destra o sinistra. Quando la media aumenta, la curva normale scorre verso destra, se scorre verso sinistra la media sta diminuendo. Ruolo della varianza : indica la dispersione. Considero la curva rossa, blu, verde che hanno tutte la stessa media: le distingue la varianza (sigma). La blu ha varianza 1 e ha una certa dispersione, ma confrontiamola per capire con la curva verde che ha dispersione maggiore (sigma è 2) perchè le code sono più lunghe —> varianza maggiore. La curva rossa invece è meno dispersa, i valori sono abbastanza vicini alla media.

Variabili non normali :

  • La distruzione è fortemente asimmetrica poiché ha una coda sola da una parte (figura 1);

Se se avessi chiesto quanti valori sopra a 750 sarebbe stata la metà perchè 750 è la media = mediana. Proviamo a ragionare a priori: Media 750, voglio l’area a destra di 700, però la deviazione standard è 80 (+ piccola di prima), la probabilità sarà più grande o più piccola? Se io diminuisco la varianza i valori si concentrano dentro vicino alla media e quindi la curva si rimpicciolisce per la sua estensione laterale.

Distribuzione Normale standard

  • Media = 0 —> valori positivi sono sopra la media e valori negativi sotto;
  • Varianza = 1. Se la varianza fosse = 0 —> gli scostamenti dalla media sono nulli, starei parlando di una costante e non di distruzione di probabilità. La variabile distribuita con una distribuzione normale si chiama Z e si chiamano valori standardizzati.
  • Qualunque variabile X distribuita normalmente, può essere convertita in una Normale (0;1) standard. L’operazione da fare per trasformare una normale qualunque in una normale standard è: Z = x-u/ sigma. Numeratore è X-1 —> prendo tutti i valori della distribuzione e sottraggo la media. Se tolgo a tutti i valori la media significa che sto facendo scorrere la mia curva fino a collocarla sopra a media = 0, quindi a meta tra gli assi. La funzione del numeratore è fare diventare 0 la media. Ora però le due curve si sono sovrapposte e sono diverse perchè hanno varianza diversa. Al denominatore ora divido per la varianza (deviazione standard). Così facendo la curva si restringe. La sua funzione è quella di stringere le curve troppo disperse o di allargare quelle troppo concentrare affinché tutto venga portato alla curva standard.

Alcuni valori convenzionali

In una distribuzione N(0,1) Il 95% è il valore più standard e viene preso come soglia rispetto alla quale possiamo pensare che si possano individuare il punto più basso e quello più alto che isolano il 95% dei casi e usare queste soglie per identificare i casi critici. Se voglio usare il 95% come soglia mi chiedo: “dentro a una N standard qual è l’intervallo simmetrico tale che l’area sotto è compresa nel 95% dei casi? Se i valori sono fuori dall’area —> posso dire che sono outlier. Andiamo su JMP Dataset UE2010 dove ho una matrice unità x variabili. Interscambio dati tra JMP a Excel selezionando i dati e copiandoli su Excel. Su JMP oltre alla tabella dei dati con i dati, c’è una parte della finestra a sinistra che riassume certe caratteristiche delle colonne. Questo elenco mi dice esattamente la stessa cosa che vedo nella matrice. Ci interessa la piccola icona di fianco al nome delle variabili rappresentata come un triangolo blu, diagramma rosso e diagramma verde. Se clicco sull’icona per esempio blu vedo che dice : continua, nominale e ordinale. Questa icona ci dice che tipo di variabile è e distingue 3 tipi di variabili che ci interessano:

  • numerico = triangolo blu;
  • Nominale = barrette rosse;
  • Ordinale = barre verdi.

Il tipo di variabile determina il tipo di operazioni che posso fare e JMP fa operazioni diversi a seconda della tipologia di variabile. Sono tutti correnti i tipi di variabile scritti di fianco al nome della variabile? Il paese è un dato nominale Istruzione, sanità, pensioni, popolazione, PIL procapite e superficie è un dato numerico UE è un dato nominale o numerico a seconda di come voglio usarlo Però il dato UE potrebbe nascondere qualcosa di interessante : doppio click. Osserviamo che la variabile che contiene 0-1 —> tolgo la dicitura “usa etichette di valore” e vedrò che la variabile avrà valori numerici. Proviamo a fare trattare il Paese come variabile numerica, ma non allo fa, da errore. ID = sempre nominali perché sono etichette anche se compaiono come numeri. Manipolazioni di dati Possiamo creare densità o PIL totale per paese. Densità o calcolo di una nuova variabile Doppio click su una colonna nuova e si crea una colonna nuova. Al posto di “colonna 10” scrivo “densità” e ci collego una formula —> tasto destro sopra a densità e clicco formula. Devo scrivere, cliccandoci sopra, popolazione / superficie. Non è del tutto corretta perchè la popolazione è espressa in milioni e la superficie in migliaia —> devo moltiplicare per mille nella formula di prima e cliccando ok ottengo la densità giusta. Paese con densità maggiore e minore? Tasto destro su densità, “ordina” e “decrescente”. Creiamo un output Prendiamo due variabili (per es: UE e il Pro capite) con caratteristiche diverse e osserviamo le distribuzioni di frequenze. Una volta selezionate le due colonne (con Command) clicca nel menù Mac “analizza” e poi “distribuzioni”. JMP mostra una finestra nella quale chiede dettagli e io devo dirgli quali variabili voglio che analizzi —> Ue e Pil procapite quindi trascino le due variabili su “colonne Y” affinché mi dia la distribuzione. !!!!! UE deve essere nominale e l’altra numerica Ottengo così le statistiche univariate di UE e Pdl procapite. Le statiche univariate delle due variabili sono diverse, le tabelle sottostanti sono diverse. La tabella sotto UE dice che è una variabile a due livelle con un si e un no. Iil si c’è 8 e il no 1 volta sola. Non mi fa vedere niente altro perchè per come ho messo io UE è nominale e per questo non si può fare niente altro che la distribuzione di frequenza. Per le variabili numeriche ho i quantili dove vedo il range, mediana, I e III quartile… Sotto ho media, dev standard .. Osservo come posso manipolare questi output. Il triangolo grigio di fianco a quantili ci clicco sopra e posso chiudere o aprire la finestra. Triangolini rossi = aggiungono possibilità di analisi al pezzo di output che c’è sotto. Possiamo personalizzare le statistiche di riepilogo e mantengo solo quelle che conosco e che mi interessano: minimo, massimo, mediana…

Ora vediamo che quando mando nel mio dataset ho una nuova colonna chiamata area 3 Dalla distribuzione delle marche vedo che alcune sono molto ben rappresentate, altre meno bene ma apprezzabili e invece alcune sono rappresentate da un numero di casi molto basso. Finché considero tutte le marche va bene, se però voglio spingere la mia analisi a livello di marca ho bisogno che tali marche abbiamo un numero di osservazioni sufficiente —> rappresentatività minima decorosa. Scelgo come soglia 100. Le marche che hanno almeno 100 casi sono rappresentate, le altre no. Ci sono due modi :

  1. Faccio diventare mancanti tutti quelli che non rientrano nella mia condizione
  2. Fare una nuova categoria Non c’è una scelta giusta. Ora facciamole diventare tutte Missing. Vado su marca, ricodifica e do il nome “100+”. Nella colonna conteggio io vedo quanti casi ho. Come dico missing? Seleziono le righe che hanno meno di 100 nel conteggio e gli attribuisco come valore pretendete un punto (=.). Tolgo anche la dicitura Abit Quando lavoro su marca non manca niente, invece in 100+ le marche piccole sono scomparse e ci sono segnalati 157 valori mancanti guardando le statiche descrittive di marca e di 100+ Nella riga 32 e in corrispondenza della colonna “con prodotti a denominazione …” troviamo un valore 6,1089, ma le scale di Likert sono da 1 a 9. Era un valore mancante che è stato sostituito con una media. Infatti se faccio l’analisi descrittiva con prodotti a denominazione vedo nella tabella descrittiva in basso che di valori mancanti me ne segnala 0. !!! Dentro ai valori numerici mancanti troverò sempre un punto.

Stima intervallare = aggiunge alla stima puntuale una stima dell’errore, per cui la stima intervallare diventa non più un punto, ma un intervallo associato a un certo livello di confidenza. Intervallo di confidenza = es se è al 95%, se la stima puntuale è 35 —> 35+- errore. Perchè ci si inventa un intervallo di confidenza quando la stima puntuale è così precisa? Cosa ci da di + la confidenza rispetto alla stima puntuale? Aggiunge due cose:

  1. La precisione : l’ampiezza dell’intervallo di confidenza mi dice quanto precisa è quella stima;
  2. Affidabilità : al 95% significa che se faccio 100 campioni, 95 mi danno questo risultato e gli altri 5 non riportano la stessa media. Tra affidabilità e precisione c’è un conflitto di interessi. Se voglio migliorarne una, per es: l’affidabilità, la precisione peggiora e viceversa. Se voglio migliorarne una senza peggiorare l’altra DEVO aumentare n -> prendere un campione più grande (n è al denominatore). La dimensione del campione, cioè n, è la quantità di informazione che io ho. Se l’informazione è quella, io ho quella, e posso giocarmela sul versante affidabilità o precisione, ma la coperta è quella, se tiro da un parte scopro l’altra. Se aumento n ne so molto di più e posso giocarlo quel di più sia in termini di affidabilità che di precisione. La statistica si occupa di due ambiti: stime campionarie e test delle ipotesi. Risponde a quelle domande che quando abbiamo parlato di analisi bivariata sono rimaste in sospeso:
  • (^) tra una variabile numerica e una categorica: si confrontano le medie, ma le medie identiche non lo sono mai perché se così fosse non avrei relazione —> al variare del gruppo le medie non cambiano. Se invece le medie sono diverse posso dire che la marca influenza la media perchè ci sono delle differenze. Il punto è: quanto deve essere + bassa o + alta per dire di aver scoperto un fenomeno?
  • (^) Analisi tra due variabili categoriche: ho un indicatore chi-quadrato. Ma il valore che trovo è piccolo o grande? Verifica delle ipotesi
  • (^) Lo scopo è fornire criteri razionali per decidere se accettare o respingere delle ipotesi;
  • Il paradigma della statistica classica è:
  1. Formulazione delle ipotesi = dire cosa voglio testare. L'obiettivo è trarre conclusioni su due affermazioni contrastanti relative a un parametro della popolazione:
  • (^) ipotesi nulla (H0) = ipotesi teorica nota, di solito quella dove non c’è nessun fenomeno (es: le medie sono tutte uguali, cioè le differenze sono tutte imputate al caso), (es: la media è uguale a quella dell’anno scorso)
  • (^) Ipotesi alternativa (H1) = è l’opposto (es: ci sono due medie diverse)

Test chi-quadrato assunzioni

  • il test non fa nessuna ipotesi sulla distribuzione delle variabili (è un test non parametrico );
  • Si può fare in ogni caso, ma deve avere un numero sufficiente di casi, quindi nella tabella a doppia entrata ci devono essere tante righe e tante colonne. Il campione deve essere abbastanza grande —> nessuna frequenza teorica minore di uno e meno del 20% minori di 5. Analisi della varianza L'analisi della varianza (ANOVA) è un test per verificare la significatività delle differenze tra due o più medie. Il test per risolvere il problema della differenza in media (per dire se davvero sono diversi o no).
  • variabile categorica che identifica i gruppi —> variabile indipendente, fattore X;
  • Variabile numerica di cui si confrontano le medie —> variabile dipendente, risposta Y. Ipotesi nulla = medie sono tutte uguali; Ipotesi alternativa = ci sono almeno due medie diverse tra di loro, almeno una diversa tra le altre. Non importa che lo siano tutte. !! Anova non dice quali sono diverse, ci dice solo se ci sono o no le differenze. Ipotesi probabilistiche più emergenti:
  • (^) le osservazioni devono essere indipendenti (casualità);
  • (^) La variabile numerica deve avere una distribuzione normale e varianza uguale in tutti i gruppi. Statistica F Per la differenza in media siamo molto più lontani dal risultato (prima era chi-quadrato < >0). La statistica test per la ANOVA equivalente al chi-quadro di prima è F e ha una distribuzione F con due parametri (gradi di libertà). Si interpreta in maniera simile:
  • F vicino a 1 —> medie uguali (accettare H0);
  • F >> 1 —> medie diverse (rifiutare H0). Distribuzione di F e p-value Il p-value è la probabilità di ottenere valori >= F:
  • P-value “piccolo” —> test significativo: ci sono differenze statisticamente significative tra le medie (rifiuto H0);
  • P-value “grande” —> test non signfiicativo: le differenze tra le medie si possono considerare casuali. Analisi bivariata su JMP Correlazione è una relazione simmetrica e le due variabili selezionate sono tutte e due numeriche —> cosa metto sotto e cosa metto sopra è uguale.

Due variabili numeriche

Sapendo che sono entrambe numeriche, JMP sa già di dover fare una analisi bivariata. La correlazione tra queste due vale 0,78 —> molto alta e significa che la freschezza è un attributo della qualità, si muovono assieme. Grafico : è illeggibile e inutile perchè ciascun punto rappresenta molte righe della nostra tabella (es: punti con prodotti freschi = 5 e prodotti di qualità = 6—> ce ne sono tanti e sono sovrapposti). C’è un punto che è fuori dai vertici dei quadretti rispetto agli altri —> quei punti li (non so se è uno o tanti) vengono dai dati mancanti e sono stati sostituiti prima di cominciare con la media. Osservazione: il grafico ci dice poco perchè non ci dice quanti punti corrispondo a ogni punto, ma una informazione sul fatto

che i punti sono orientati lungo una linea crescente per cui un’idea ce la facciamo del fatto che al crescere del “fresco” cresce anche la “qualità”. Informazione vaga che è sufficiente per vedere che il punto in basso a destra è disgraziato. I punti che sono li vogliono dire che lì le mozzarelle non le sanno fare perchè è freschissima, ma la qualità è molto bassa —> la freschezza è attributo della qualità, ma non basta. Come si può fare un grafico da cui si vede a ciascun punto quanti punti corrispondo? Menu—> grafico —> costruttore di grafici. Sull’asse x i prodotti freschi e sull’asse Y la qualità. Qua possiamo togliere la linea cliccando la seconda icona in alto. Il grafico è esattamente quello di prima. Devo attivare l’opzione Jitter (=agitazione) a lato sinistro mettendo “casuale uniforme”. Invece che metterli esattamente tutti sul loro valore, crea un disturbo per cui invece che 6 ci sarà 6 +- qualcosa e così per tutti quanti. Quel qualcosa è qualcosa di casuale. Dal punto di vista formale è meno preciso del grafico di prima, ma da un punto di vista informativo è meglio perchè mi fa vedere quanti punti ci sono. —> correlazione positiva. Partiamo ora dal problema per analizzare la correlazione. Fare tante offerte promozionali è una maniera per compensare una cattiva qualità? Devo vedere la relazione tra la qualità e le promozioni = due variabili numeriche —> lo strumento tecnico che risponde alla mia domanda è la correlazione. Che risposta mi aspetto? Se la mia ipotesi: le promozioni sono usate per compensare una cattiva qualità, che correlazione mi aspetto? Se la mia ipotesi è vera mi aspetto una correlazione negativa (quindi correlazione vicino a -1). Correlazione bassa, ma positiva—> la mia ipotesi è falsa. Non è vero che le promozioni servono per compensare una cattiva qualità. Anche le promozioni sono debolmente legate alla qualità —> chi fa qualità fa un pochino le promozioni, ma molto poco. Se la qualità sale, allora ci sono poche aziende che fanno promozioni. Il modo di proporsi al mercato attivamente è duplice: promozioni e pubblicità. —> fare pubblicità e fare promozione sono due approcci al mercato (per quello che posso vedere dal dataset) alternativo o complementare? Alternativo = chi fa pubblicità non fa promozione e viceversa. Complementare = se un’azienda fa pubblicità, fa anche promozione. Lo strumento tecnico è la correlazione. Che risposta ci aspettiamo nei due casi?

  • se pubblicità e promozioni sono alternative mi aspetto un coefficiente negativo;
  • Se sono complementari mi aspetto un coefficiente positivo. Correlazione positiva bassa. Promozione e pubblicità non sono due approcci alternativi, ma

Leggendo le medie vedo che i prodotti locali hanno media superiore a 8 e tutti gli altri sono tra 6 e 7 in quel range. Ma non sarà che la differenza in preferenza tra queste medie è tutta dovuta ai prodotti locali e che quindi fanno emergere la significatività della ANOVA? Quelle piccole differenze tra le medie degli altri prodotti sono ancora significative? Clicco sulla freccia rossa vicino al grafico e digito “filtro sui dati locali”. Posso rifare l’analisi su sottoinsiemi che mi interessano: voglio togliere i prodotti locali. A lato mi compaiono tutte le variabili e faccio doppio click su “marca 100+”. I “???” Sono i dati mancanti. Seleziono solo da Granarolo a Francia. Rispetto a prima è scomparso il valore dei prodotti locali. Le medie di quelli rimasti sono le stesse di prima. Le medie sono ancora significativamente diverse perchè il p- value è ancora piccolo —> la differenza tra medie non era dovuta solo alla presenza dei prodotti locali, ma anche tra queste residue c’è qualche differenza. Se selezioni solo Granarolo e pettinicchio non sono diverse perchè il p-value > 0,05 —> il test non è statisticamente significativo. Le medie sono uguali e le due preferenze non sono significativamente diverse. Test sulle marche che serve per risolvere a una questione lasciata in sospeso quando abbiamo fatto la ricodifica delle marche. Ci sono due strade:

  1. Posso fare diventare mancanti i valori mancanti delle marche che non voglio ed è la strada che abbiamo seguito noi;
  2. Farsi un nuovo contenitore “altre marche” dove ci mettevo le altre marche. Ora vado a usare tutte le marche perchè voglio vedere la situazione delle marche escluse (prima con marca 100+ avevo escluso le missing). Rifaccio la ANOVA Voglio tenere dentro solo le marche escluse. Filtro su dati locali come prima, seleziono marca 100 e guardo come si comportano quelle sotto i ???. Confronta le preferenze delle marche escluse e questo test è significativo (guardo il p-value). Il p-value è significativo —> la preferenza per queste marche non è la stessa. C’è Abit che ha una media di preferenza nettamente superiore alle altre.

Le marche escluse non sono tutte uguali —> non posso metterle dentro a un’altro contenitore. Abit è buona e quasi migliore di tutte le altre di prima. La categoria altre marche sarebbe stata eterogenea e non avrebbe avuto senso. Analisi tra due variabili categoriche Qui se le scambio di posizione il test viene identico, avrà effetto solo sul grafico. Che cosa voglio scoprire qui: le marche sono distribuite nelle aree tutte allo stesso modo? Cioè marca e area sono indipendenti oppure c’è una relazione di dipendenza e quindi al variare dell’area le distribuzioni delle marche cambiano? Comincio a guardare la tabella di contingenza. Nella prima cella che corrisponde a Granarolo nel nord hanno il significato che il 79 sono i casi che ci sono, il 5,16 è la % sul totale. Voglio togliere i dati che non ci servono —> freccia rossa e tolgo “% sul totale”. La % per righe che è la terza che troviamo è quella che somma 100 sulle righe e quella per colonne è la % che somma 100 sulle colonne. La somma per righe ha 3 numeri, quella per colonne ne ha 7 —> per comodità faccio scomparire la % di colonna. Granarolo ora come si distribuisce? È molto presente soprattutto al nord. Pettinicchio e vallelata sono distribuite uniformemente su tutto il territorio. Prodotti locali al sud. Nuova scoperta: si vedeva benissimo anche dal grafico. Qui le differenze sono talmente clamorose che dal grafico potevo vederle. Granarolo quasi tutto rosso, prodotti locali quasi tutti blu.