




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Statistica (prof. Della Beffa) e Machine Learning (pro. Cerri) Appunti completi presi a lezione con esercitazioni su Orange, Excel e JMP.
Tipologia: Appunti
1 / 221
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































La Data analysis per il marketing è il processo di raccolta, interpretazione e utilizzo dei dati per supportare decisioni di marketing.
Noto che è presente un modello di complessità crescente che non è sempre necessario utilizzare con modelli complicati e predittivi. ANALISI QUALITATIVA : a volte precede l’analisi quantitativa a scopo esplorativo, quando non conosciamo il problema da analizzare. Definisco quindi ipotesi di lavoro attraverso:
DIMENSIONE DEL CAMPIONE : campioni più grandi migliorano la precisione delle stime, ma…
Il grafico in basso a destra rappresenta il campione rappresentativo, mentre in alto a destra ho un campione distorto. I grafici in basso rappresentano situazioni dove la varianza è bassa, ma la rappresentatività è diversa. La rappresentatività è una caratteristica necessaria per un campione, mentre la numerosità aggiunge precisione. La numerosità in un campione distorto è una cosa negativa e non un pregio. LA MATRICE DEI DATI : Tutte le analisi si basano su matrici di dati, unità per variabili con,
Nella realtà i numeri sono sempre rappresentati con un numero finito di cifre. Nella realtà i numeri reali (con infinite cifre decimali non rappresentabili con frazioni) non esistono. Lo stesso vale anche per i computer, che possono avere un altissimo numero di cifre ma non infinito. Se infatti con excel calcolo 1/n e poi il risultato lo moltiplico per n non ottengo 1 come su carta ma posso vedere i limiti dati dalla macchina che nello spazio della mantissa non ha spazio per infinite cifre ma solo un numero grande ma limitato. La rappresentazione in virgola mobile dei numeri reali è un sistema di rappresentazione dei numeri nel computer. La rappresentazione è simile a quella in notazione scientifica. Ad esempio, nella notazione scientifica il numero 2500 può essere scritto 0,25 X 104. Il numero 0,0075 può essere scritto 0,75 x 107, ecc. Seguendo la medesima logica la rappresentazione in virgola mobile di un numero reale in un computer (floating point ) si basa sulla suddivisione del numero reale nei seguenti elementi: il segno, la mantissa e l'esponente.
La probabilità è una misura della possibilità che un evento possa verificarsi. Quando il numero di prove tende a infinito arrivo ad una definizione frequentista ed è relativa ad eventi che possono essere ripetute in modo infinito, come il lancio della monete. Come conseguenza ottengo che la probabilità è sempre un numero compreso tra 0 ed 1. Se lancio una moneta posso ottenere testa (½) e croce (½) ed il totale deve fare 1. Distribuzioni di frequenza : associano ad ogni possibile valore la sua frequenza. Sono normalmente derivate da dati campionari osservati. Per esempio ho chiesto a tutto il mio campione che marche di un certo prodotto come lo yogurt conosce e faccio la relativa distribuzione di frequenza. Valuto quindi quanti mi hanno detto Müller, quanti Yomo, Danone ecc. Le possibilità sono per esempio Danone, Yomo, … ed il numero di casi di ognuno può essere espresso come numero assoluto o relativo in percentuale al totale. Esprimere in % le percentuali di una distribuzione di frequenza dà come risultato il 100%. Distribuzioni di probabilità: Sono il modello teorico delle distribuzioni di frequenza che già conosciamo. Ne esistono moltissime, per modellare fenomeni diversi senza usare sempre dati campionari. Generalizzano il concetto di distribuzioni di frequenza. Si distinguono distribuzioni discrete e continue
La probabilità in un singolo punto è zero. Quando b si avvicina tanto che coincide con l’area sottostante alla curva è infatti inesistente essendo diventato un punto. Per esempio posso dire che la probabilità che uno sia alto esattamente 170,000 è nulla. Normalmente infatti intendo la probabilità che uno sia alto per esempio tra il range 169,50 e 170,5, che non è dunque nulla. Distribuzione normale : è nota anche con il nome di gaussiana. La distribuzione normale è fatta da una famiglia di curve che tutte hanno una forma simmetrica a campana, con probabilità che si addensano intorno al centro e diminuiscono simmetricamente man mano che si allontanano dal centro. Possono variare in base a due parametri che sono la sua media e la sua varianza. La media stabilisce la posizione del centro di simmetria: questo permette di spostare verso destra o sinistra la curva. La curva viola ha una media più bassa ed infatti è più a sinistra. A parità di media una curva può avere più o meno dispersione in base alla varianza che dice se la dispersione è tanta o poca. La curva verde è più dispersa ed avrà varianza più grande , ci dice dunque quanto è a “punta”. I due parametri sono μ e σ. Alcuni esempi possono essere:
Il tempo di attesa della metropolitana può essere invece descritto dalla curva azzurra in questo grafico. Analizzo che è possibile trovare subito un treno piuttosto che dover aspettare l’arrivo del prossimo. La probabilità di attesa è uniforme, dato che posso capitare in qualsiasi momento di questo intervallo con la stessa probabilità ESERCIZI : A sinistra trovo incassi bassi e a destra gli incassi alti. La risposta corretta è quindi la B dato che tanti hanno incassato poco e solamente pochi hanno incassato tanto. Simile a quanto detto per il reddito. In questo caso dato che la probabilità di aspettare è media (la probabilità di aspettare poco e molto è bassa) la curva corretta è data dalla C (o B se la probabilità di aspettare poco è più alta della C). Il servizio ideale e più costoso è dato dalla curva A, con la massima probabilità di aspettare poco e minima di aspettare molto. Se uno conosce la distribuzione teorica può rispondere a domande come:
Faccio questo perchè così posso usare valori standard comodi. Questa per esempio è una normale standard con media 0 e varianza 1. Un fenomeno a distribuzione normale possiamo dire che per valori superiori o inferiori a 1,96 è molto poco probabile (solo 5%). In una distribuzione standard:
- il 95% dei valori è compreso tra −2 e +2 (approx )
Alcune domande di marketing
Questo è un esempio di statistica univariata. È un dataset sulla preferenza delle mozzarelle. Abbiamo una tabella che è un modo di rappresentare la statistica descrittiva. Le statistiche descrittive sono un modo per sintetizzare le informazioni. Il grafico a destra è un barplot. In base alla natura del dato cambia la rappresentazione grafica dei dati. Se le etichette sono variabili qualitative, io non posso fare la media di queste etichette, le variabili qualitative non ci consentono alcun tipo di operazione matematica. Questa è una rappresentazione di altri attributi. Quello sopra è un boxplot e quello sotto è un istogramma che viene utilizzato per i dati quantitativi E le barre sono tutte attaccate, a differenza del barplot dove sono distanziate. Le variabili qualitative a loro volta si classificano in variabili misurabili su scala nominale o su scala ordinale. Su scala nominale sono etichette su cui non possiamo stabilire un ordine gerarchico. La variabile è l’elemento che noi stiamo studiando come l’età in alcuni casi si chiama anche carattere, sono termini intercambiabili. La modalità è il modo in cui la variabile si manifesta (22 anni, 30..). L’età è una variabile quantitativa. Quante volte una modalità si presenta è la frequenza.
Alcune di queste modalità non possono essere messe in ordine quindi se voglio indagare il genere e metto maschio, femmina o altro non posso ordinarle perché sarebbe un ordine arbitrario che darei io. Quindi sono variabili nominali. Quelle ordinali permettono di creare un ordine per le nostre modalità (istruzione). A seconda che noi abbiamo variabili qualitative ordinali o nominali possiamo applicare o meno alcune di queste metodologie. Su quelle nominali non si possono fare determinate operazioni. Il calcolo della moda si può fare sia per variabili qualitative che quantitative (anche se sono nominali). La media aritmetica viene utilizzata solo per variabili quantitative. La mediana per variabili quantitative o qualitative ma solo ordinali. I quartili sono solo per le variabili quantitative (È come se fosse il calcolo della mediana ma divide in quattro parti uguali il mio collettivo che deve essere sempre ordinato in senso crescente). Quando fate un'indagine è sempre opportuno unire un indice di posizione con uno di dispersione. Dire soltanto il valore medio senza metterci vicino la deviazione standard non è il massimo della correttezza perché è importante capire anche il livello di dispersione. La varianza è uguale al quadrato della deviazione standard. La varianza è la media aritmetica dei quadrati delle differenze tra ogni valore Xi della distribuzione e un valore medio preso come riferimento. Deviazione standard : La deviazione standard di una variabile (o scarto quadratico medio ) è un indice riassuntivo delle differenze dei valori di ogni osservazione rispetto alla media della variabile. Ogni osservazione ha infatti uno scostamento (detto anche scarto o deviazione) dalla media. Questo scostamento è pari a 0 se l’osservazione ha esattamente lo stesso valore della media. Lo scostamento sarà invece negativo se l’osservazione ha un valore più piccolo di quello della media. Al contrario, questo scostamento sarà positivo se l’osservazione ha un valore più grande di quello della media. Per capirci meglio, nella tabella qui sotto ho riportato come esempio i valori relativi alla variabile quantitativa “numero di figli” per 3 diversi campioni (A, B e C), ognuno costituito da 7 individui. Come puoi osservare dalla penultima riga della tabella, tutti e tre i campioni hanno la stessa media. Quello che varia è il valore dello scarto quadratico medio.
Si basa su k variabili alla volta al fine di studiare le relazioni simultanee tra più di due variabili e comprende i modelli il cui obiettivo è riassumere, schematizzare e rappresentare fenomeni reali. Rappresentano applicazioni di analisi multivariata: la regressione, la cluster analysis, gli strumenti di mapping, gli strumenti sviluppati nell’ambito del data mining e del machine learning. Questa è una cluster analysis. A destra in alto un’analisi fattoriale e in basso l’analisi delle corrispondenze. STATISTICA BIVARIATA - VARIABILI QUANTITATIVE Relazioni bivariate tra dati numerici Quando si studia la tendenza di una variabile quantitativa al variare di un’altra variabile quantitativa, si analizza la loro tendenza al co-variare e quindi si effettua uno studio di correlazione. X ⟷ Y La tendenza di X e Y a co-variare non implica una relazione di causa ed effetto.
STEP 1: Analisi visiva DIAGRAMMA A DISPERSIONE o SCATTER PLOT (piano Cartesiano) I valori di una variabile appaiono sull’asse delle ascisse (asse orizzontale) e i valori dell’altra variabile sono rappresentati sull’asse delle ordinate (asse verticale). Ogni singola unità appare come un punto del grafico determinato dai valori che ogni unità statistica assume sulle due variabili. Il modo in cui valutiamo la relazione è attraverso una metodologia detta correlazione lineare. Per l’analisi di correlazione abbiamo due step fondamentali: il primo è l’analisi visiva che è un grafico che ci permette di capire se c’è o non c’è una relazione e se la relazione è forte o debole. In statistica non possiamo basarci solo su un'interpretazione di un grafico, dobbiamo sapere esattamente quanto vale la relazione. Quindi associata all'analisi visiva abbiamo poi una misura che è un coefficiente. Lo scatterplot o diagramma di dispersione non è altro che un piano cartesiano. Ogni rispondente corrisponde a un pallino ed è la congiunzione tra il reddito mensile e il valore del consumo e abbiamo questa configurazione. Come primo step quando osserviamo quel tipo di grafico ci poniamo due domande: qual è la direzione della relazione? È positiva o negativa? E poi se la relazione è forte o debole. In casi rari la si trova perfetta, nella pratica la correlazione lineare è perfetta capita veramente di rado. Interpretare il DIAGRAMMA A DISPERSIONE o SCATTERPLOT