





























































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Le tecniche di estrazione di feature e analisi multivariata, focalizzandosi sulla generazione di nuove variabili e sulla riduzione della dimensionalità dei dati. Vengono trattati argomenti come l'analisi fattoriale, la regressione lineare semplice e la cluster analysis, con un'attenzione particolare alla scelta delle variabili e alla stabilità dei cluster. Indicazioni sulla numerosità del campione necessaria per garantire la stabilità dei risultati e sull'interpretazione dei cluster attraverso l'analisi delle medie e l'uso di test statistici come anova e chi-quadrato. Si discute anche della trasformazione di variabili categoriche in variabili dummy e dell'importanza del pre-processing dei dati per ottenere risultati significativi. L'obiettivo è fornire una guida pratica per l'applicazione di queste tecniche nell'analisi dei dati.
Tipologia: Appunti
1 / 69
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






























































(10 domande chiuse su tutto il programma; 2 domande aperte su un output già fatto). Siamo nel contesto dell’analisi di mercato. Si analizza il mercato per rispondere a delle domande su mercato, clienti, concorrenti, opportunità (nuovi mercati o prodotti), problemi (perdita di quote di mercato) e approfondimenti (segmentazione, customer satisfaction). Ci sono svariati motivi per fare un’analisi di mercato, ma in genere è per rispondere a delle domande che riguardano il mercato. Un altro aspetto è la volontà di monitorare periodicamente il mercato. Vengono ripetute delle domande per vedere gli effetti. Chi fa analisi di mercato?
Tipi di informazione Software per data science: player principali Classificazione del software per data science Si classificano secondo 3 criteri fondamentali:
- Per ambito di applicazione
Sondaggio -> Rilevazione di dati primari con interviste strutturate a un campione di soggetti. È molto generale, potenzialmente costoso e richiede competenze e rigore perchè bisogna definire bene gli obiettivi, non si può improvvisare. Alternative:
Bisogna privilegiare rappresentatività o numerosità? La Rappresentatività. Poi, quando il campione è rappresentativo, più grande è, meglio è perché migliora la precisione delle stime. Ma se il campione non è rappresentativo e quindi è distorto, una numerosità molto alta è più un difetto che un pregio perché mi fa essere più sicuro di un a cosa sbagliata. La rappresentatività è condizione necessaria di un campione. Fasi di un sondaggio
Formulazione delle domande: raccomandazioni
Obiettivo principale: analisi della concorrenza
La matrice dei dati Tutte le analisi si basano su matrici di dati unità per variabili
2) Valori mancanti I dati mancanti (missing) sono un problema per molte analisi. Cause:
Esistono outlier univariati e outlier multivariati Il metodo più diffuso è il box plot. Rappresenta in modo schematico la distribuzione di un dato in numero. Vengono indicati come punti i possibili outlier. Outlier univariati: descritti dal box plot e si riferiscono ad una variabile. Outlier multivariati: combinazioni inusuali di valori di più variabili. Trasformazioni di dati numerici → Annullare le differenze di scala e di variabilità tra le variabili
Distribuzioni continue
Uso delle distribuzioni di probabilità Le distribuzioni di probabilità servono a modellare dei fenomeni in modo che lo studio di quei fenomeni si possa condurre direttamente allo studio della probabilità senza ricorrere a campionare.
Se vado a dividere la covarianza per il prodotto dei due scarti ottengo il coefficiente di correlazione lineare di Pearson. -> varia tra -1 e 1. Questo è un indice relativo che esprime l’intensità del legame lineare tra 2 variabil.
-> dipendenza o indipendenza tra due variabili categoriche
Popolazione -> tutto un aggregato complessivo. Campione -> una porzione di popolazione estratta in modo casuale. La statistica inferenziale opera su campioni di una popolazione. L’obiettivo è estendere alla popolazione i risultati ottenuti sul campione. Stime campionarie L'inferenza statistica è un procedimento deduttivo attraverso il quale è possibile, partendo da una rilevazione campionaria effettuata su di un campione probabilistico, arrivare a descrivere la caratteristica della popolazione. Vogliamo conoscere una caratteristica di una popolazione - il parametro - ma non possiamo osservarla direttamente. Si osserva un sottoinsieme della popolazione - il campione - del quale si calcola la stima, che è diversa dal parametro ma è probabile che sia più vicina a esso che lontana.
𝑛
𝑖 = 1
Nella maggior parte dei casi naturalmente non sarà così. Supponendo di estrarre i numeri 4 e 6, il campione sarà composto da di n=2 unità con valori e. La media del campione, che si indica con sarà: Si osservi che se fossero stati estratti i numeri 1 e 5. Quindi la media del campione, che chiameremo varia in funzione del campione estratto. Dato che la popolazione è molto piccola è possibile definire tutti i possibili campioni estraibili. Dal calcolo combinatorio, i campioni di 2 unità estraibili senza ripetizione da una popolazione di 8 elementi sono in tutto 28. Si osservi che aumentando il numero di soggetti estratti facendo, ad esempio, campioni di 4 o 6 persone, si osserverebbe, intuitivamente, che la media del campione si avvicinerebbe maggiormente al valore vero della popolazione. È più probabile trovare dei valori vicini alla vera media che non lontani dalla vera media. L’insieme delle medie campionarie di ogni campione che abbiamo costruito costituisce la variabile casuale Media Campionaria cui è possibile associare la rispettiva probabilità. Nel fare un’estrazione è possibile trovare un campione raro, ma la probabilità che avvenga è molto bassa. È più facile trovare un valore vero che si avvicini alla media della popolazione. Per la legge dei grandi numeri, sotto l’ipotesi che i campioni scelti siano indipendenti e con la stessa distribuzione, la probabilità che la media campionaria coincida con quella della popolazione si avvicina sempre più a 1 all’aumentare del numero dei campioni n. Che corrisponde alla media della popolazione:
Intervallo di confidenza della media
Non è sufficiente però intervistare un buon numero di persone a caso. C'è bisogno che questo campione sia "rappresentativo". Significa che se la popolazione di cui ci interessa conoscere l'opinione è fatta per metà di maschi e per metà di femmine, metà del campione dovrà essere composto da maschi. I sondaggisti, quindi, stabiliscono delle "quote" che gli intervistati dovranno riempire. Una volta che una quota è stata riempita tutti gli altri rispondenti che dovessero appartenere a quella quota vengono scartati. Le quote in genere riguardano il genere, l'area geografica di provenienza, l'età e il titolo di studio. Più quote ci sono, più il campione sarà rappresentativo e il sondaggio preciso. Ma fare un sondaggio con molte quote è anche più difficile da realizzare, perché ogni quota aggiunge nuova complessità e obbliga a fare un numero più alto di chiamate. Un buon sondaggio, ha un prezzo che varia dai 5 ai 10 mila euro e ha dalle tre alle sei quote. 15/10/ Sommario Gli intervalli di confidenza associano alla stima puntuale con una valutazione dell’errore, quindi con un’ampiezza dell’intervallo di confidenza, legata ad un certo livello di confidenza. Quindi cosa mi dice di più? Con l’intervallo di confidenza ho idea di quanto sia precisa una stima e quanto me ne posso fidare. Il livello di confidenza misura l’affidabilità e la precisione. L’ampiezza dell’intervallo di confidenza misura la precisione dell’intervallo. Relazione tra 2 variabili numeriche Il modo in cui si analizza una relazione dipende da che tipo di variabile sto guardando. Se le 2 variabili sono numeriche, sapere la relazione vuol dire vedere se all’aumentare dell’una l’altra aumenta o diminuisce. Per valutare se esiste una relazione si utilizza il coefficiente di correlazione. Relazione tra una variabile numerica e una categorica La variabile categorica individua gruppi all’interno della variabile numerica. Si fanno le medie della variabile numerica definite all’interno della variabile categorica. Se le medie sono tutte uguali vuol dire che la variabile numerica non ha alcuna relazione con la variabile categorica, cioè non cambia. Se le media sono uguali non c’è alcuna relazione. Se le medie sono diverse, allora c’è una relazione. Bisogna esaminare le medie della variabile numerica (non è possibile farlo su quella categorica) al variare della variabile categorica e poi confrontarle. Il problema è che le medie non saranno mai perfettamente uguali, quindi si misurano delle differenze. Manca però una soglia precisa per poter fare il confronto.