









































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti slide e lezione integrati, con aggiunta anche di output di esercizi su JMP e interpretazione.
Tipologia: Dispense
1 / 81
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










































































Non è la mera ricerca di mercato ma qualcosa di più vasto. Si cerca di rispondere a domande sul mercato in senso lato : clienti, nuovi mercati, nuovi prodotti, quindi la ricerca di opportunità nuove e quindi indagini con obbiettivo espansivo, oppure se ci occupiamo di problemi ci chiediamo il perchè perdiamo quote di mercato, tutto ciò che a che fare con la gestione di un nuovo business.
Strutture interne all’azienda e la rilevazione + recente dice che nel 75% delle aziende c’è una persona che si occupa di analisi di mercato. Sono persone che si interfacciano con dei fornitori esterni che aiutano l’azienda a fare l’analisi. Tra gli esperti del dominio (quelli che sanno tutto dell’azienda) e gli esperti delle ricerche di mercato ci sono coloro che sanno tradurre i problemi in modo da mettere in contatto le cose —> trade union tra questi mondi, quindi dobbiamo saperne abbastanza dell’azienda.
La definizione del progetto di analisi non è banale né univoca, si discute, si ha un dibattito perchè nessuno sa formalizzare i passi giusti.
Secondo l’ultimo report dell’ESOMAR, il 20% della spesa delle ricerche di mercato va sull’analisi qualitativa. A volte precede l’indagine quantitativa a scopo esplorativo. Ma quando è necessario questo? Quando voglio esplorare un problema, quando ho da approfondire e rispondere a una domanda rispetto ai quali non so nulla, quindi per orientarmi rispetto all’analisi faccio un analisi qualitativa. I risultati dell’eventuale analisi qualitativa sono quelli che poi servono per definire i passi dell’analisi quantitativa.
La prima distinzione che ci interessa rispetto alle analisi informative, è quella tra dati primari e secondari rispetto all’obiettivo di marketing. Primari = sono quelli rilevati apposta per l’obbiettivo, non li avevo e li ho rilevati quindi si usano spesso le Survey. Vantaggio = sono specializzatissimi perchè posso esplorare qualunque cosa, posso scegliere il campione opportuno, estremamente specifico sul problema che ho in mente. Svantaggi = tempi e costi importanti. Dati secondari = li avevo già a disposizione perchè li avevo raccolti per altri scopi (es: istat ha obbiettivi istituzionali e costituzionali).
Vantaggi = tempi e costi, perchè li ho già a disposizione quindi al massimo dovrò fare una estrazione di dati e passarli all’ufficio marketing che dovrà applicarli. In più sono dati di alta qualità, senza errori perchè ogni possibile errore viene controllato alla fonte. Sono potenzialmente tantissimi a differenza dei primari. Svantaggi = sono dati non specializzati. Se abbiamo un problema molto particolare posso cercare dati che si avvicinano al meglio al nostro problema, ma non è detto che possiamo centrare. I dati poi possono provenire da fonti interne o esterne all’azienda. Le fonti esterne sono qualunque fornitore di dati esterno all’azienda (outlook, google,..) di cui alcuni gratuiti e alcuni a pagamento. Ci sono poi dati raccolti prima interni all’azienda che sono per esempio gli scontrini del supermercato (es: Esselunga registra le cose perchè poi devo pagare e con questi dati può farci delle indagini sopra. Cosa viene comprato insieme o in alcune stagioni o nel fine settimana..). I dati primari non hanno distinzione tra fonti interne ed esterne, quindi di fatto sono dati che si raccolgono con Survey e quindi ci si rivolge a fonti esterne.
Pensiamo a dati soprattutto provenienti da Survey, ma non solo quelli. Quali aree informative coprono i dati?
Rilevazione di dati primari con interviste strutturate (=un questionario, blocchi di domande in un certo ordine, ragionate) a un campione (devo scegliere un gruppo di soggetti).
Popolazione = termine tecnico, insieme di tutte le unità che sono oggetto di studio (es: persone —> popolazione, ma anche sottoinsiemi specifici della popolazione se mi limito ad esempio alle donne tra 20-30 anni). Deve essere identificata in modo inequivocabile attraverso una o + caratteristiche osservabili, che devono essere rispettate per entrare nella popolazione (es: dire donne tra i 20-30 anni va benino, ma potrei dire anche da dove vengono per essere più preciso).
Campioni più grandi migliorano la precisione delle stime, ma…
Ci sono 3 approcci:
Principi fondamentali: chiarezza, semplicità e brevità.
Tutte le analisi si fanno a partire da matrici (=dataset) di dati unità per variabili. Ogni riga è una unità e ogni colonna è una variabile.
Il tipo di dato determina le analisi che si possono effettuare su quel dato:
La distribuzione di una probabilità consiste in associare a tutti i possibili valori della variabile la relativa probabilità. Tutti i valori possibili del lancio di un dado sono quelli che vanno da 1 a 6 e poi associo a ognuno la sua probabilità. Lancio due dadi, quali sono le somme di tutti i possibili valori che vengono fuori?
Si differenziano rispetto alle discrete per il modo in cui rappresentano la probabilità. Per le discrete, la probabilità è concentrata nei punti che rappresentano i possibili valori che la distribuzione può assumere. Qui abbiamo curve continue e il modo caratteristico in cui si esprime la probabilità è: la probabilità che X assuma valori compresi tra a e b è l’area sotto la curva compresa tra a e b (area azzurra). La curva non rappresenta la probabilità, ma la densità di probabilità, poiché la probabilità è l’area sotto la curva. Due conseguenze:
La normale è una distribuzione continua che può assumere valori da -infinito a +infinito ed è caratterizzata da due valori, media e varianza della distribuzione Le distribuzioni normali sono tutte:
centro e una coda a destra e una a sinistra con probabilità decrescenti mano a mano che mi allontano dal centro. Forma a campana;
Ruolo della media : indica qual è la posizione del centro di simmetria a parità di varianza, quindi in queste tre curve rossa, blu e verde, la media è 0; invece nella curva viola la media è -2 —> la media ha la funzione di spostare la Normale rigidamente, senza farla cambiare forma, verso destra o sinistra. Quando la media aumenta, la curva normale scorre verso destra, se scorre verso sinistra la media sta diminuendo. Ruolo della varianza : indica la dispersione. Considero la curva rossa, blu, verde che hanno tutte la stessa media: le distingue la varianza (sigma). La blu ha varianza 1 e ha una certa dispersione, ma confrontiamola per capire con la curva verde che ha dispersione maggiore (sigma è 2) perchè le code sono più lunghe —> varianza maggiore. La curva rossa invece è meno dispersa, i valori sono abbastanza vicini alla media.
Se se avessi chiesto quanti valori sopra a 750 sarebbe stata la metà perchè 750 è la media = mediana. Proviamo a ragionare a priori: Media 750, voglio l’area a destra di 700, però la deviazione standard è 80 (+ piccola di prima), la probabilità sarà più grande o più piccola? Se io diminuisco la varianza i valori si concentrano dentro vicino alla media e quindi la curva si rimpicciolisce per la sua estensione laterale.
In una distribuzione N(0,1) Il 95% è il valore più standard e viene preso come soglia rispetto alla quale possiamo pensare che si possano individuare il punto più basso e quello più alto che isolano il 95% dei casi e usare queste soglie per identificare i casi critici. Se voglio usare il 95% come soglia mi chiedo: “dentro a una N standard qual è l’intervallo simmetrico tale che l’area sotto è compresa nel 95% dei casi? Se i valori sono fuori dall’area —> posso dire che sono outlier. Andiamo su JMP Dataset UE2010 dove ho una matrice unità x variabili. Interscambio dati tra JMP a Excel selezionando i dati e copiandoli su Excel. Su JMP oltre alla tabella dei dati con i dati, c’è una parte della finestra a sinistra che riassume certe caratteristiche delle colonne. Questo elenco mi dice esattamente la stessa cosa che vedo nella matrice. Ci interessa la piccola icona di fianco al nome delle variabili rappresentata come un triangolo blu, diagramma rosso e diagramma verde. Se clicco sull’icona per esempio blu vedo che dice : continua, nominale e ordinale. Questa icona ci dice che tipo di variabile è e distingue 3 tipi di variabili che ci interessano:
Il tipo di variabile determina il tipo di operazioni che posso fare e JMP fa operazioni diversi a seconda della tipologia di variabile. Sono tutti correnti i tipi di variabile scritti di fianco al nome della variabile? Il paese è un dato nominale Istruzione, sanità, pensioni, popolazione, PIL procapite e superficie è un dato numerico UE è un dato nominale o numerico a seconda di come voglio usarlo Però il dato UE potrebbe nascondere qualcosa di interessante : doppio click. Osserviamo che la variabile che contiene 0-1 —> tolgo la dicitura “usa etichette di valore” e vedrò che la variabile avrà valori numerici. Proviamo a fare trattare il Paese come variabile numerica, ma non allo fa, da errore. ID = sempre nominali perché sono etichette anche se compaiono come numeri. Manipolazioni di dati Possiamo creare densità o PIL totale per paese. Densità o calcolo di una nuova variabile Doppio click su una colonna nuova e si crea una colonna nuova. Al posto di “colonna 10” scrivo “densità” e ci collego una formula —> tasto destro sopra a densità e clicco formula. Devo scrivere, cliccandoci sopra, popolazione / superficie. Non è del tutto corretta perchè la popolazione è espressa in milioni e la superficie in migliaia —> devo moltiplicare per mille nella formula di prima e cliccando ok ottengo la densità giusta. Paese con densità maggiore e minore? Tasto destro su densità, “ordina” e “decrescente”. Creiamo un output Prendiamo due variabili (per es: UE e il Pro capite) con caratteristiche diverse e osserviamo le distribuzioni di frequenze. Una volta selezionate le due colonne (con Command) clicca nel menù Mac “analizza” e poi “distribuzioni”. JMP mostra una finestra nella quale chiede dettagli e io devo dirgli quali variabili voglio che analizzi —> Ue e Pil procapite quindi trascino le due variabili su “colonne Y” affinché mi dia la distribuzione. !!!!! UE deve essere nominale e l’altra numerica Ottengo così le statistiche univariate di UE e Pdl procapite. Le statiche univariate delle due variabili sono diverse, le tabelle sottostanti sono diverse. La tabella sotto UE dice che è una variabile a due livelle con un si e un no. Iil si c’è 8 e il no 1 volta sola. Non mi fa vedere niente altro perchè per come ho messo io UE è nominale e per questo non si può fare niente altro che la distribuzione di frequenza. Per le variabili numeriche ho i quantili dove vedo il range, mediana, I e III quartile… Sotto ho media, dev standard .. Osservo come posso manipolare questi output. Il triangolo grigio di fianco a quantili ci clicco sopra e posso chiudere o aprire la finestra. Triangolini rossi = aggiungono possibilità di analisi al pezzo di output che c’è sotto. Possiamo personalizzare le statistiche di riepilogo e mantengo solo quelle che conosco e che mi interessano: minimo, massimo, mediana…
Ora vediamo che quando mando nel mio dataset ho una nuova colonna chiamata area 3 Dalla distribuzione delle marche vedo che alcune sono molto ben rappresentate, altre meno bene ma apprezzabili e invece alcune sono rappresentate da un numero di casi molto basso. Finché considero tutte le marche va bene, se però voglio spingere la mia analisi a livello di marca ho bisogno che tali marche abbiamo un numero di osservazioni sufficiente —> rappresentatività minima decorosa. Scelgo come soglia 100. Le marche che hanno almeno 100 casi sono rappresentate, le altre no. Ci sono due modi :
Stima intervallare = aggiunge alla stima puntuale una stima dell’errore, per cui la stima intervallare diventa non più un punto, ma un intervallo associato a un certo livello di confidenza. Intervallo di confidenza = es se è al 95%, se la stima puntuale è 35 —> 35+- errore. Perchè ci si inventa un intervallo di confidenza quando la stima puntuale è così precisa? Cosa ci da di + la confidenza rispetto alla stima puntuale? Aggiunge due cose:
Test chi-quadrato assunzioni
Sapendo che sono entrambe numeriche, JMP sa già di dover fare una analisi bivariata. La correlazione tra queste due vale 0,78 —> molto alta e significa che la freschezza è un attributo della qualità, si muovono assieme. Grafico : è illeggibile e inutile perchè ciascun punto rappresenta molte righe della nostra tabella (es: punti con prodotti freschi = 5 e prodotti di qualità = 6—> ce ne sono tanti e sono sovrapposti). C’è un punto che è fuori dai vertici dei quadretti rispetto agli altri —> quei punti li (non so se è uno o tanti) vengono dai dati mancanti e sono stati sostituiti prima di cominciare con la media. Osservazione: il grafico ci dice poco perchè non ci dice quanti punti corrispondo a ogni punto, ma una informazione sul fatto
che i punti sono orientati lungo una linea crescente per cui un’idea ce la facciamo del fatto che al crescere del “fresco” cresce anche la “qualità”. Informazione vaga che è sufficiente per vedere che il punto in basso a destra è disgraziato. I punti che sono li vogliono dire che lì le mozzarelle non le sanno fare perchè è freschissima, ma la qualità è molto bassa —> la freschezza è attributo della qualità, ma non basta. Come si può fare un grafico da cui si vede a ciascun punto quanti punti corrispondo? Menu—> grafico —> costruttore di grafici. Sull’asse x i prodotti freschi e sull’asse Y la qualità. Qua possiamo togliere la linea cliccando la seconda icona in alto. Il grafico è esattamente quello di prima. Devo attivare l’opzione Jitter (=agitazione) a lato sinistro mettendo “casuale uniforme”. Invece che metterli esattamente tutti sul loro valore, crea un disturbo per cui invece che 6 ci sarà 6 +- qualcosa e così per tutti quanti. Quel qualcosa è qualcosa di casuale. Dal punto di vista formale è meno preciso del grafico di prima, ma da un punto di vista informativo è meglio perchè mi fa vedere quanti punti ci sono. —> correlazione positiva. Partiamo ora dal problema per analizzare la correlazione. Fare tante offerte promozionali è una maniera per compensare una cattiva qualità? Devo vedere la relazione tra la qualità e le promozioni = due variabili numeriche —> lo strumento tecnico che risponde alla mia domanda è la correlazione. Che risposta mi aspetto? Se la mia ipotesi: le promozioni sono usate per compensare una cattiva qualità, che correlazione mi aspetto? Se la mia ipotesi è vera mi aspetto una correlazione negativa (quindi correlazione vicino a -1). Correlazione bassa, ma positiva—> la mia ipotesi è falsa. Non è vero che le promozioni servono per compensare una cattiva qualità. Anche le promozioni sono debolmente legate alla qualità —> chi fa qualità fa un pochino le promozioni, ma molto poco. Se la qualità sale, allora ci sono poche aziende che fanno promozioni. Il modo di proporsi al mercato attivamente è duplice: promozioni e pubblicità. —> fare pubblicità e fare promozione sono due approcci al mercato (per quello che posso vedere dal dataset) alternativo o complementare? Alternativo = chi fa pubblicità non fa promozione e viceversa. Complementare = se un’azienda fa pubblicità, fa anche promozione. Lo strumento tecnico è la correlazione. Che risposta ci aspettiamo nei due casi?
Leggendo le medie vedo che i prodotti locali hanno media superiore a 8 e tutti gli altri sono tra 6 e 7 in quel range. Ma non sarà che la differenza in preferenza tra queste medie è tutta dovuta ai prodotti locali e che quindi fanno emergere la significatività della ANOVA? Quelle piccole differenze tra le medie degli altri prodotti sono ancora significative? Clicco sulla freccia rossa vicino al grafico e digito “filtro sui dati locali”. Posso rifare l’analisi su sottoinsiemi che mi interessano: voglio togliere i prodotti locali. A lato mi compaiono tutte le variabili e faccio doppio click su “marca 100+”. I “???” Sono i dati mancanti. Seleziono solo da Granarolo a Francia. Rispetto a prima è scomparso il valore dei prodotti locali. Le medie di quelli rimasti sono le stesse di prima. Le medie sono ancora significativamente diverse perchè il p- value è ancora piccolo —> la differenza tra medie non era dovuta solo alla presenza dei prodotti locali, ma anche tra queste residue c’è qualche differenza. Se selezioni solo Granarolo e pettinicchio non sono diverse perchè il p-value > 0,05 —> il test non è statisticamente significativo. Le medie sono uguali e le due preferenze non sono significativamente diverse. Test sulle marche che serve per risolvere a una questione lasciata in sospeso quando abbiamo fatto la ricodifica delle marche. Ci sono due strade:
Le marche escluse non sono tutte uguali —> non posso metterle dentro a un’altro contenitore. Abit è buona e quasi migliore di tutte le altre di prima. La categoria altre marche sarebbe stata eterogenea e non avrebbe avuto senso. Analisi tra due variabili categoriche Qui se le scambio di posizione il test viene identico, avrà effetto solo sul grafico. Che cosa voglio scoprire qui: le marche sono distribuite nelle aree tutte allo stesso modo? Cioè marca e area sono indipendenti oppure c’è una relazione di dipendenza e quindi al variare dell’area le distribuzioni delle marche cambiano? Comincio a guardare la tabella di contingenza. Nella prima cella che corrisponde a Granarolo nel nord hanno il significato che il 79 sono i casi che ci sono, il 5,16 è la % sul totale. Voglio togliere i dati che non ci servono —> freccia rossa e tolgo “% sul totale”. La % per righe che è la terza che troviamo è quella che somma 100 sulle righe e quella per colonne è la % che somma 100 sulle colonne. La somma per righe ha 3 numeri, quella per colonne ne ha 7 —> per comodità faccio scomparire la % di colonna. Granarolo ora come si distribuisce? È molto presente soprattutto al nord. Pettinicchio e vallelata sono distribuite uniformemente su tutto il territorio. Prodotti locali al sud. Nuova scoperta: si vedeva benissimo anche dal grafico. Qui le differenze sono talmente clamorose che dal grafico potevo vederle. Granarolo quasi tutto rosso, prodotti locali quasi tutti blu.