Appunti di Data Analytics | Appunti di Analisi Dei Dati

Data analytics

1. Progettazione di algoritmi

L’algoritmo è un procedimento per la soluzione di un problema utilizzando un numero finito di istruzioni. Gli

aspetti fondamentali di un algoritmo sono la correttezza e l’efficienza

La progettazione di algoritmi viene utilizzata in diversi campi, come i pagerank, il calcolo di distanze ,

l’ordinamento di dati ecc..

2. ANALISI DI DATI

La disciplina che studia l’analisi dei dati è la data science. È diventata così importante perchè la produzione di dati

negli ultimi 20 anni è cresciuta ed è diventato sempre più importante utilizzare i dati per scopi commerciali. Si

stima che nel 2011 venivano prodotti circa 1800 mlrd di GB, mentre ora sono diventati 40 mila mlrd, entrando

nella così detta era dei dati

I dati vengono prodotti dagli utenti che navigano in rete, in quanto le nostre azioni vengono tracciate

I dati che riguardano gli esseri umani crescono in maniera più importante rispetto a quelli del commercio

Quando parliamo di analisi dei dati dobbiamo tenere conto che esistono dei fattori che ne hanno portato la

crescita, come le tecnologie di raccolta dati, la crescita delle capacità di computazione e applicazioni efficaci

nell’analisi

Molte di queste tecniche sono di apprendimento, se io ho a disposizione pochi dati apprendo poche informazioni.

Le applicazioni di algoritmi e le tecniche di analisi vengono utilizzati per estrarre informazione e creare

conoscenza, infatti gli obiettivi principali dell’analisi dei dati sono: fare previsioni analizzando e stimando ciò che

avverrà nel futuro, il secondo obiettivo è creare suggerimenti per gli utenti e infine abbiamo il supporto alle

decisioni

- Il dato è ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione e costituito da

simboli che debbono essere elaborati

- L’informazione è un dato che viene interpretato e che consente di avere conoscenza di fatti e situazioni

Possiamo avere due tipologie di dati

- Dati organizzati: sono dotati di una struttura, in genere una tabella. Generalmente nelle righe vengono

rappresentati i vari elementi, mentre nelle colonne abbiamo le caratteristiche degli elementi

- Dati non organizzati: privi di struttura organizzativa

Big data: rappresentano un volume considerevole di dati difficile da mantenere in memoria centrale

Sono state definite le tre V dei big data per definirli:

- Volume: grande quantità di dati

- Velocità: flusso ad alta velocità

- Varietà: varietà di formato, ovvero dati strutturati e non

Altri aspetti sono la variabilità e la complessità. La generazione dei dati segue dei flussi non costanti, in particolare

ci sono dei picchi di attività oppure momenti di quiete. Possono esserci anche errori nei dati o l’assenza di dati

Effettuare l’analisi per estrarre un’informazione significa trovare le proprietà di un dataset, capire quale

informazione possiamo trovare e se si ha un interesse reale

L’obiettivo finale è costruire un modello dei dati, ovvero analizzare i dati estraendo informazioni cercando relazioni

tra diverse entità. Ad esempio, possiamo prevedere il numero di auto vendute conoscendo il prezzo di un

modello?

Possiamo trovare insiemi di dati ad esempio su:

- Baseball Enciclopedia, dove possiamo trovare caratteristiche dei giocatori, andamento della carriera e dei salari ,

l’attesa di vita di mancini e destrimani , oppure la crescita altezza e peso della popolazione

-The internet Movie database: attori apparsi in più film e aspettativa di vita

-Allmusic: produzione di musica e aspettativa di vita dei musicisti

-Google Ngrams: cambiamento nella frequenza delle parole, forme scorrette e cambiamento di significato

Appunti di Data Analytics, Appunti di Analisi Dei Dati

Documenti correlati

Anteprima parziale del testo

Scarica Appunti di Data Analytics e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

Data analytics

1. Progettazione di algoritmi

3 – ANALISI DI ALGORITMI

insiemi.

3.4 Il calcolo delle distanze

punto all’altro. Ovviamente il cammino più breve è quello con i valori

3 .5 Algoritmi e motori di ricerca

3.6 Sistemi di raccomandazione

4 - la statistica e l’analisi dei dati

4.1 La statistica

La statistica descrittiva

4.2 caratteristiche dei dati

4.3 i livelli dei dati

4 .4 proprietà della media e della mediana

5 - I PASSI DELLA SCIENZA DEI DATI

5.1 Raccolta dei dati

5.2 Esplorare i dati

5.3 Tecniche di analisi

5.3.1 Dati e descrizione

5.3.3 Disuguaglianza di Tchebychev

5.5 La correlazione

5.5.1 La covarianza

5.5.2 Correlazione tra dati

1 Questo indice assume che la relazione tra X e Y sia lineare. Ci può essere relazione anche se le due

2 La correlazione non implica casualità → questo è un limite generale

Correlazione di Spearman