
































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
riassunto contenuti richiesti per esame
Tipologia: Appunti
1 / 40
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

































Tecniche di ordinamento L’ordinamento è un’operazione fondamentale nell’analisi dei dati e consiste nel disporre un insieme di elementi secondo un criterio prestabilito (ad esempio ordine crescente o decrescente). È usato nell’analisi preliminare dei dati, nell’individuazione dei valori estremi e come supporto ad altri algoritmi, come la ricerca. Esistono diversi algoritmi di ordinamento e la loro scelta dipende principalmente dall’efficienza, cioè dal tempo di esecuzione in funzione della dimensione dell’input. Il Selection Sort è un algoritmo semplice che, a ogni iterazione, seleziona l’elemento massimo (o minimo) dall’insieme non ordinato, lo inserisce nell’insieme ordinato e lo rimuove dall’insieme di partenza.La sua complessità temporale è O(n²), poiché per ogni elemento è necessario scorrere l’intero insieme dei dati. Questo lo rende inefficiente per grandi volumi di dati.Un approccio più efficiente è il divide et impera, utilizzato dal Merge Sort. Questo algoritmo divide l’insieme di dati in due sottoinsiemi, li ordina ricorsivamente e infine li combina nella fase di merge.Poiché a ogni livello vengono effettuati al massimo n confronti e i livelli sono log₂n, la complessità del Merge Sort è O(n log n). In conclusione, mentre algoritmi semplici come il Selection Sort sono adatti solo a piccoli insiemi di dati, nelle applicazioni di data analytics, che coinvolgono grandi quantità di dati, è preferibile utilizzare algoritmi più efficienti come il Merge Sort. Descrivi misure del centro Le misure del centro sono valori che descrivono la tendenza centrale di un insieme di dati, cioè permettono di rappresentare un insieme di osservazioni tramite un singolo valore compreso tra gli estremi. Sono fondamentali nella statistica descrittiva perché consentono una sintesi efficace dei dati. Le principali misure del centro sono moda, mediana e media, e la loro applicabilità dipende dal livello dei dati (nominale, ordinale, intervalli, rapporti). La moda è il valore che compare con maggiore frequenza all’interno di un insieme di dati. È l’unica misura del centro applicabile ai dati nominali, dove non sono definite operazioni aritmetiche. Può essere utilizzata anche per dati ordinali e quantitativi, ma non sempre è unica o significativa. La mediana è il valore che divide l’insieme di dati ordinati in due parti di uguale numerosità. È applicabile ai dati ordinali e quantitativi ed è particolarmente utile perché è poco sensibile ai valori anomali (outliers). In presenza di distribuzioni asimmetriche, la mediana rappresenta meglio il centro rispetto alla media. La media aritmetica si ottiene sommando tutti i valori e dividendo per il numero di osservazioni. È applicabile ai dati di livello degli intervalli e dei rapporti e rappresenta il baricentro dei dati, poiché la somma degli scarti rispetto alla media è nulla. Tuttavia, la media è sensibile agli outliers, che possono modificarne significativamente il valore. Oltre alla media aritmetica, in casi specifici si possono usare:
Approccio del machine learning Il Machine Learning è un approccio dell’analisi dei dati che permette ai sistemi di apprendere automaticamente dai dati senza essere esplicitamente programmati per ogni singolo compito. L’obiettivo è costruire modelli in grado di individuare schemi, relazioni e regolarità nei dati, per poi utilizzarli per previsioni, classificazioni o supporto alle decisioni. Nel contesto della data analytics, il machine learning rappresenta un’evoluzione rispetto agli approcci puramente descrittivi, poiché consente di passare dall’analisi del passato alla predizione di eventi futuri. L’approccio del machine learning si basa su tre elementi fondamentali:
Data Analytics: Fondamenti e Applicazioni → Nel mondo moderno, l'analisi dei dati ha assunto un ruolo cruciale in svariati settori, rivoluzionando la nostra comprensione e le nostre capacità decisionali. Questo processo coinvolge due aspetti fondamentali: la progettazione di algoritmi e l'analisi dei dati. 1. Progettazione di Algoritmi → Gli algoritmi rappresentano il cuore pulsante della risoluzione di problemi attraverso un insieme finito di istruzioni. La loro efficacia si fonda su due pilastri: correttezza ed efficienza. La progettazione degli algoritmi trova applicazioni in diversi ambiti, dalle complesse operazioni di ordinamento dei dati al calcolo delle distanze, fino alla determinazione dei pagerank. Questi algoritmi sono fondamentali nell'analisi dei dati, poiché guidano il processo di estrazione e comprensione delle informazioni contenute nei vasti insiemi di dati. 2. Analisi dei Dati e Data Science → La data science , disciplina chiave nell'analisi dei dati, è emersa come risposta alla crescente mole di dati generati nell'era digitale. Nel corso degli ultimi decenni, la produzione di dati è esplosa, passando da 1800 miliardi di gigabyte nel 2011 a oltre 40 mila miliardi di gigabyte attuali, inaugurando così l'epoca dei big data. Questi dati sono prodotti dagli utenti durante le loro attività online, creando un vasto serbatoio di informazioni che richiedono analisi e interpretazione. Le tecniche di analisi e gli algoritmi sono strumenti fondamentali per estrarre significato e conoscenza da questo mare di dati. L' obiettivo principale dell' analisi dei dati è triplice : predire eventi futuri, fornire raccomandazioni personalizzate agli utenti e supportare processi decisionali fondati su evidenze. Tipologie di Dati e Big Data → I dati, la materia prima dell'analisi, possono essere organizzati o non organizzati. Questi ultimi costituiscono il nucleo dei big data , caratterizzati dalle tre " V ": volume , velocità e varietà. La gestione di questo enorme flusso di informazioni richiede non solo potenza di calcolo , ma anche sofisticate tecniche di analisi e comprensione dei dati. Python e l'Analisi dei Dati →Python si è affermato come uno dei linguaggi di programmazione più utilizzati nell'analisi dei dati. La sua versatilità e la vasta gamma di librerie specializzate lo rendono uno strumento indispensabile per i data scientist. Con Python, è possibile manipolare e analizzare dati in vari modi, sia attraverso codice sorgente che in modalità interattiva , offrendo così una flessibilità senza pari nell'esplorazione e nell'interpretazione dei dati. 3 ANALISI DI ALGORITMI → Gli algoritmi strumenti fondamentali x risolvere vasta gamma di problemi , fornendo procedure automatiche x elaborare dati e trovare soluzioni. Problemi categorizzati in diverse tipologie:
4 – LA STATISTICA E L'ANALISI DEI DATI→ Le discipline interconnesse all'analisi dei dati sono la statistica e il calcolo delle probabilità. La statistica è un campo applicativo che esamina ciò che è stato osservato , mentre la probabilità è utilizzata per fare previsioni future ed è quindi una disciplina teorica. 4. 1 La Statistica Descrittiva→ La statistica descrittiva comprende l'analisi dei fenomeni e dei dati raccolti. Si fa riferimento alla "popolazione" per indicare l'insieme di soggetti studiati ( unità statistiche ) e al " carattere " quando si parla della grandezza di un soggetto statistico. Inoltre, si definisce la " variabile statistica ", che è l'associazione tra un'unità statistica e il dato ( valore di un carattere ). 4. 2 Caratteristiche dei Dati→ I dati possono essere: ● Strutturati : hanno una struttura interna che semplifica l'analisi e sono organizzati in tabelle. Di solito, l'elaborazione e l'analisi di questi dati sono più semplici, e sono meno diffusi. ● Non strutturati : privi di struttura e organizzazione interna. L'elaborazione è più complessa e richiede tecniche di pre-elaborazione, ma sono più diffusi. La fase di pre - elaborazione presenta un input , in cui ci sono i dati non strutturati, e un output che riorganizza i dati. La definizione di una struttura si basa sulla definizione delle caratteristiche dei dati, come le parole in un testo o la presenza di caratteri speciali. I dati possono essere anche qualitativi o quantitativi : ● Quantitativi: esprimibili in forma numerica (fatturato negozio, acquisti giornalieri, visite di una pagina web). ● Dati Qualitativi : non esprimibili numericamente e quindi non applicabili a operazioni matematiche (CAP o testo di una pagina web). In questo caso, si possono usare categorie. Le operazioni applicabili sui dati quantitativi sono le operazioni aritmetiche ( somma o media ) o l'analisi dell'andamento nel tempo , mentre sui dati qualitativi si applicano operazioni come la ricerca di valori univoci o la frequenza dei valori. 4. 3 I Livelli dei Dati→ I dati possono avere diversi livelli , ognuno dei quali consente di descrivere le caratteristiche , le operazioni applicabili e le misure per descrivere i dati. Per ogni livello esistono misure del centro e della variabilità. Misurazione del Centro: Il centro è il valore che esprime la tendenza dei dati, facendo una sintesi con un solo valore compreso tra gli estremi di min e max. A seconda del livello, ci sono diverse misure del centro, come la moda, la media e la mediana. ● Primo livello - Livello Nominale: livello qualitativo e sono dati in cui abbiamo testo o categorie e sui quali non possiamo applicare nessuna operazione aritmetica, ma possiamo confrontarli. Non possono esserci misure del centro, ma possiamo utilizzare la moda , l’elemento + frequente all’interno della collezione dati ● Secondo - Livello Ordinale: Dati sui quali è possibile definire un ordine ed è un livello semi quantitativo. Le operazioni effettuabili in questo livello sono quelle del livello nominale, il confronto (operazioni basate sull’ordine) e l’ordinamento complessivo basato su un criterio di ordinamento. Nel livello ordinale il centro può essere stabilito con la moda , la mediana (valore intermedio tra gli estremi), mentre la media non è applicabile. Per il calcolo della mediana devo ordinare i dati e cerco l’elemento che li divide in due parti circa uguali. Se ho un numero dispari di numeri la mediana è il valore al centro. Se non ho dei numeri (ad esempio titoli di studio) posso prendere uno dei due valori al centro e suddivido ● Livello degli Intervalli: I dati sono espressi in modo quantificabile. Un insieme di dati appartiene a questo livello se è possibile fare addizioni e sottrazioni. Le misure del centro che possono esser utilizzate sono: moda , mediana , media ponderata e aritmetica ● Livello dei Rapporti: Dati espressi quantitativamente con presenza di zero assoluto. È possibile effettuare anche moltiplicazioni e divisioni e in genere i valori sono non negativi. Un altro modo per calcolare il centro è quello della **media geometrica.
La disuguaglianza di Tchebychev fornisce una stima conservativa della distribuzione dei dati e ci aiuta a comprendere la variabilità dei dati rispetto alla media. Le distribuzioni normali , o gaussiane , sono un caso particolare di distribuzione che segue la disuguaglianza di Tchebychev in modo particolarmente preciso. 5. 5 La correlazione La covarianza e la correlazione sono misure quantitative che ci permettono di valutare il grado di associazione tra due variabili. Questo è fondamentale per estrarre conoscenza dai dati. 5. 5. 1 La covarianza La covarianza misura quanto variano due variabili rispetto ai loro valori medi. Se il valore della covarianza è positivo , le due variabili tendono a variare nella stessa direzione; se è negativo , variano in direzioni opposte; se è vicino a zero , non c'è una relazione lineare tra di loro. 5. 5. 2 Correlazione tra dati La correlazione ci indica se due variabili hanno un legame tra loro. Questo può essere positivo (andamento simile), negativo (andamento opposto) o nullo (nessuna associazione). Il coefficiente di correlazione di Pearson , che varia tra - 1 e 1 , misura la forza e la direzione di questa relazione. Tuttavia, non implica causalità. Correlazione di Spearman → Il coefficiente di correlazione di Spearman è una misura non parametrica della correlazione che si basa sul rango delle osservazioni anziché sui valori stessi. Questo coefficiente valuta la monotonia della relazione tra le variabili piuttosto che la loro linearità. Il coefficiente di Spearman conta il numero di coppie che rispettano l'ordine, senza assumere una relazione lineare. Anche in questo caso, non implica causalità. Valuta quindi se c'è una tendenza generale di aumento o diminuzione tra le variabili, anche se questa relazione non è necessariamente lineare. Come il coefficiente di correlazione di Pearson, il coefficiente di Spearman varia tra - 1 e 1 , dove - 1 indica una correlazione inversa perfetta, 1 indica una correlazione positiva perfetta e 0 indica l'assenza di correlazione. Aggiungere la correlazione di Spearman fornisce una prospettiva più completa sulle relazioni tra le variabili, specialmente quando non si possono assumere relazioni lineari. La causalità La causalità implica una relazione di causa-effetto. Sebbene la correlazione possa indicare l'esistenza di un legame tra due variabili, non ci dice nulla sulla direzione di questo legame o se esiste un effetto causale. Il paradosso di Simpson Questo paradosso evidenzia come l'analisi dei dati possa portare a conclusioni contraddittorie a causa di variabili di confusione non considerate. Il riconoscimento e il controllo di queste variabili sono cruciali per trarre conclusioni valide dalle analisi dei dati.
6. Il Calcolo delle Probabilità → 6. 1. Procedura ed Evento Quando osserviamo un'azione che può avere uno o più esiti, parliamo di un esperimento. Quest'ultimo può essere deterministico o casuale. Un esperimento è deterministico quando già conosciamo l'esito, come nel caso di un problema di geometria con una soluzione ben definita. Al contrario, in un esperimento casuale non conosciamo l'esito in anticipo, come nel lancio di un dado. ● Evento Elementare: Si riferisce a un singolo esito di un esperimento, come il lancio di un dado con risultati da 1 a 6 o il lancio di una moneta con testa o croce. ● Evento Generale : Può essere più complesso , coinvolgendo più eventi elementari, come ottenere un numero pari nel lancio di un dado. Gli eventi possono essere: ● Certi : Include tutti gli esiti possibili. ● Impossibili : L'evento fa parte di un insieme vuoto, come ottenere 7 nel lancio di un dado. Lo spazio campione rappresenta l'insieme di tutti i possibili eventi Nel definire la probabilità, consideriamo tre proprietà : ● Non Negatività: La probabilità di un evento è sempre maggiore o uguale a zero. ● Additività: Se due eventi sono disgiunti (non hanno niente in comune), la probabilità della loro unione è la somma delle loro probabilità. ● Norma : L'evento certo ha probabilità 1. Deve includere tutti gli esiti possibili, quindi la somma delle probabilità di tutti gli eventi possibili è 1. Intersezione di eventi → Si verifica quando entrambi gli eventi si verificano contemporaneamente. Unione di Eventi → Si verifica quando almeno uno dei due eventi si verifica. Probabilità di un Evento (A), indicata come \P(A), è data da: Eventi Composti → Dati due eventi (A) e (B), possiamo calcolare:
7. Comunicare i Dati → è fondamentale per trasmettere informazioni significative e comprensibili ai decisori e agli interessati. Esistono due approcci principali per comunicare i dati: verbale e visuale , tramite l'uso di grafici e visualizzazioni. La visualizzazione dei dati è cruciale per diverse ragioni: aiuta a esplorare i dati, individuare tendenze e identificare eventuali errori o anomalie nei dati; inoltre è efficace nel comunicare tendenze, andamenti e relazioni nei dati in modo chiaro e intuitivo. Nonostante le misure di sintesi indichino dati simili, la visualizzazione può rivelare differenze significative. 7. 1 Tipologie di Grafico ● Grafici a Torta : utilizzati per rappresentare la distribuzione della frequenza per caratteri qualitativi. ● Diagrammi a Barre : adatti per rappresentare variabili categoriche e confrontare la frequenza assoluta o relativa tra due insiemi di dati o gruppi di variabili. ● Istogrammi :simili ai diagrammi a barre ma sono utilizzati per variabili quantitative, con i dati suddivisi in classi e la frequenza relativa rappresentata in ogni classe. ● Grafici a Dispersione :utilizzati per rappresentare la relazione tra due variabili e identificare una possibile correlazione tra di esse. ● Grafici a Linee : I grafici a linee connettono i valori di una variabile nel tempo e sono utilizzati principalmente per variabili quantitative. ● Grafici Box - Plot : forniscono una rappresentazione sintetica della distribuzione dei dati, mostrando la mediana, il primo e il terzo quartile e individuando eventuali valori anomali. ● Mappe di Dati : possono essere utilizzate per rappresentare dati spaziali, come la distribuzione geografica di determinati fenomeni. Ogni tipo di grafico ha le proprie applicazioni e vantaggi, e la scelta dipende dalla natura dei dati e dagli obiettivi dell'analisi. Utilizzando una combinazione di grafici, è possibile comunicare in modo efficace le informazioni contenute nei dati, consentendo una comprensione più approfondita dei fenomeni studiati. 7. 2 Principi di Visualizzazione Nel processo di costruzione di un grafico, è importante prendere decisioni che massimizzino l'efficacia della comunicazione dei dati. Ecco alcuni principi fondamentali da considerare: ● Massimizzare il Rapporto Dati/Inchiostro: Il primo aspetto da considerare è massimizzare il rapporto dati/inchiostro. Questo significa che la maggior parte dell'inchiostro dovrebbe essere utilizzata per comunicare effettivamente i dati, piuttosto che per elementi decorativi. Un grafico chiaro ed efficace comunica i dati in modo conciso, senza sovraccaricare l'occhio con dettagli superflui. ● Minimizzare le Falsificazioni: È importante minimizzare le falsificazioni nei grafici. Alcune pratiche comuni che possono portare a una falsificazione includono la presentazione di medie senza indicare la varianza, l'uso di linee senza punti di dati associati, la distorsione della scala degli assi e l'assenza di etichette sugli assi. Eliminare queste pratiche aiuta a garantire che i dati siano rappresentati in modo accurato e onesto. ● Minimizzare gli Effetti Non Utili: Gli effetti non utili possono distogliere l'attenzione dal messaggio principale dei dati. Limitare l'uso di griglie di sfondo e colori troppo accesi può contribuire a mantenere il focus sui dati stessi. Inoltre, evitare l'uso eccessivo di inchiostro per segnalare valori non essenziali aiuta a mantenere il grafico pulito e leggibile. ● Uso Appropriato di Scale ed Etichettatura: Utilizzare scale e etichettatura appropriate è essenziale per garantire la comprensione dei dati. Limitare la scala degli assi solo se necessario, ma assicurarsi di non eliminare valori importanti. Le etichette sugli assi dovrebbero essere chiare e informative, consentendo ai lettori di comprendere facilmente i dati rappresentati. In sintesi, seguendo questi principi di visualizzazione, è possibile creare grafici chiari, accurati ed efficaci che comunicano in modo efficiente le informazioni contenute nei dati. 8. Machine Learning → Il machine learning rappresenta un approccio all'apprendimento automatico che si discosta dal metodo combinatorio. Mentre entrambi mirano a risolvere problemi, il processo attraverso il quale giungono alla soluzione è differente. Il concetto di intelligenza artificiale , e di conseguenza di machine learning, ha radici profonde nella storia dell'informatica. Alan Turing , con il suo celebre test dell'imitazione, si pose il quesito se una macchina fosse in grado di comportarsi in modo indistinguibile da un essere umano. Questo concetto è alla base del machine learning: la costruzione di sistemi in grado di apprendere e migliorare le loro prestazioni attraverso l'esperienza.
Le applicazioni del machine learning sono ampie e variegate. Esse includono: ● Previsioni: analisi dei dati per descriverli attraverso modelli e trovare regole implicite. ● Classificazioni : determinazione della categoria o dell'etichetta appropriata per un dato. ● Superamento del Rumore nei Dati : identificazione di relazioni complesse e pattern non immediatamente evidenti nei dati. Esistono diversi approcci al machine learning, ciascuno con le proprie caratteristiche: ● Con Supervisione: implica una fase di apprendimento basata su dati etichettati, seguita da una fase di applicazione. ● Senza Supervisione: non richiede dati etichettati per l'apprendimento iniziale. ● A Rafforzamento : ispirato al metodo educativo, in cui il sistema apprende attraverso prove ed errori. Quando si valutano i metodi di machine learning, è importante considerare diverse caratteristiche : ● Potere di Espressione: la capacità del modello di rappresentare relazioni complesse nei dati. ● Interpretabilità : la facilità con cui è possibile comprendere il funzionamento e le decisioni del modello. ● Velocità di Apprendimento e Predizione Il machine learning offre un approccio flessibile e potente per l'analisi e la comprensione dei dati, con applicazioni che spaziano da previsioni e classificazioni a problemi di riconoscimento e interpretazione. La sua capacità di apprendere e adattarsi alle informazioni lo rende uno strumento indispensabile in molti campi, dall'informatica alla ricerca scientifica e oltre. 8. 1 I Modelli Matematici → Costruire un modello matematico è un processo fondamentale per comprendere e predire fenomeni complessi. L'obiettivo è tradurre le caratteristiche di un fenomeno in formule matematiche che possano essere analizzate e interpretate. Questi modelli sono essenziali per ottenere una migliore comprensione dei dati e per fare previsioni affidabili. Un aspetto cruciale nella costruzione di modelli matematici è la complessità. La strategia del rasoio di Occam suggerisce che la spiegazione più semplice è preferibile. Questo perché, sebbene la complessità possa migliorare l'accuratezza dei modelli, può anche renderli più difficili da interpretare e adattare. Trovare il giusto equilibrio tra semplicità ed efficacia è essenziale nella progettazione di modelli matematici. Durante la modellazione, è importante essere consapevoli degli errori che possono verificarsi: ● Bias: assumere erroneamente delle condizioni che influenzano il modello. ● Underfitting : quando il modello non riesce a catturare le caratteristiche importanti dei dati di addestramento. ● Overfitting : quando il modello si adatta troppo fedelmente ai dati di addestramento, includendo il rumore e riducendo la sua capacità di generalizzazione. 8. 2 Approccio con Supervisione → L'approccio con supervisione mira a stabilire associazioni tra le caratteristiche dei dati e una variabile obiettivo. Questo tipo di apprendimento è utilizzato per comprendere le relazioni tra variabili note e variabili target, consentendo previsioni basate su dati etichettati. I dati vengono suddivisi in tre parti: dati di addestramento, dati di test e dati di valutazione. Le applicazioni includono previsioni di mercato, diagnostiche mediche e previsioni meteorologiche. La regressione è un approccio per identificare la relazione tra le variabili di input e la variabile target. Esistono due tipi principali di regressione: lineare e logistica. La regressione lineare assume una relazione lineare tra le variabili, mentre la regressione logistica è utilizzata per modellare relazioni non lineari. La classificazione bayesiana utilizza il teorema di Bayes per stimare la probabilità che un dato appartenga a una determinata categoria. È utilizzato per problemi di classificazione in cui l'obiettivo è assegnare una categoria o un'etichetta a un dato. 8. 3 Approccio Senza Supervisione→ L'approccio senza supervisione è utilizzato per l'analisi dei dati e il riconoscimento di strutture interne senza l'ausilio di dati etichettati. Le tecniche principali includono la riduzione dimensionale e il clustering , che è il processo di partizione dei dati in gruppi omogenei. 8. 4 Alberi Decisionali→ sono modelli che consentono di prendere decisioni basate su una serie di regole gerarchiche. Sono ampiamente utilizzati per problemi di classificazione e previsione. La costruzione di un albero decisionale avviene top-down , suddividendo iterativamente i dati in base alle condizioni più significative. La modellazione matematica e l'apprendimento automatico sono quindi potenti strumenti per l'analisi e la comprensione dei dati. Sia l'approccio con supervisione che quello senza supervisione offrono metodi efficaci per affrontare una vasta gamma di problemi, dalle previsioni alle decisioni basate sui dati. La scelta del modello e dell'approccio dipende dalla natura del problema e dalla disponibilità dei dati.