Big Data e Machine Learning: Elaborazione, Scalabilità e Sistemi Distribuiti | Appunti di Analisi Dei Dati

BIG DATA E MACHINE LEARNING

1. A COSA SERVONO I SISTEMI DI ELABORAZIONE BIG DATA

Big Data = Dati eterogenei, di diversa natura e origine. Quando si parla di big data non ci si

riferisce ad uno strumento specifico, ma ad un set di più strumenti. Il lavoro di un data scientist è

capire quale sia lo strumento più adatto, a volte anche costruirseli.

2. CHI È IL DATA SCIENTIST

Figura professionale molto recente ed ibrida. Trova soluzioni a problemi nuovi, deve inventarsi dei

nuovi tools per risolverli. Questo perché deve avere diverse competenze, non è specifica di un

determinato settore. Si muove principalmente in 3 ambiti:

1. Programmazione. Deve conoscere diversi linguaggi di programmazione, perché ognuno ha

i suoi punti di forza ed è utile per diverse attività.

2. Approccio ai sistemi operativi. Importante perché spesso si trova a gestire server, flusso di

dati, etc.

3. Matematica e statistica.

Machine Learning: processo di apprendimento automatico da parte di macchine il cui

comportamento è appreso da una rete di calcolo connessa casualmente o progettata per imparare

solo alcune attività. Il mio algoritmo non è bloccato o programmato per eseguire un determinato

compito specifico, ma viene domandato al programma stesso di capire quali sono le interazioni

necessarie e agire di conseguenza. Si usano reti neurali, un sistema che prevede di non dare

informazioni specifiche. Per esempio, i sistemi di recommendation di amazon (esempio di sistema

neurale).

Spark (libreria), poggiato su sistema programmazione “Scala”, ma ad esempio può essere

utilizzato anche su Python o Java.

4. SCALABILITÀ E SISTEMI DISTRIBUITI

“Scalare”: avere maggiore scalabilità, ossia il sistema necessita un server più grande a causa

dell’aumento delle richieste da processare. Come risolvere questo problema di scalabilità?

Due soluzioni:

1. Scalabilità verticale: implica l’aggiunta di risorse con l’obiettivo di aumentarne la capacità,

come espandere la memoria o la RAM oppure aggiungere più CPU al server. Facendo così

aumentano i costi, molto spesso esponenzialmente, perché ho bisogno di tecnologie molto

sofisticate rispetto alla media.

2. Scalabilità orizzontale: prevede l’aggiunta di più unità, messe insieme tra loro affinché

funzionino come una sola e unica unità. È il modello più utilizzato nei sistemi di big data.

Non creo il “super calcolatore” che mi risolve il problema da solo, ma cerco di mettere

assieme più server e riuscire a farli “dialogare” tra loro. La più utilizzata.

Sistema di big data: non è un solo pc o un solo server, ma un sistema distribuito: metto in gioco

diversi attori e diversi server, non avrò soltanto un database che tiene in memoria tutti i miei dati

ma ne ho diversi. Però devo vederli come se fossero uno solo.

I sistemi distribuiti fanno risparmiare dal punto economico, ma richiedono una maggiore

complessità computazionale.

Bisogna trovare un trade-off (compromesso) per risolvere il problema davanti al quale ci si trova,

scegliendo tra scalabilità verticale ed orizzontale in base alle capacità e alla disponibilità

economica.

Comunicazione e sincronizzazione sono problemi che possono emergere utilizzando la scalabilità

orizzontale, ed è proprio il compito del data scientist quello di riuscire a sincronizzare i dati tra i

diversi server.

In base alla tipologia di dati con cui ci troviamo a lavorare decidiamo quale tipologia di scalabilità

adottare.

5. TEOREMA CAP NEI SISTEMI DISTRIBUITI

Anteprima parziale del testo

Scarica Big Data e Machine Learning: Elaborazione, Scalabilità e Sistemi Distribuiti e più Appunti in PDF di Analisi Dei Dati solo su Docsity!