




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
DATA MANAGEMENT/ DATA MINING (BIG DATA, CLUSTER, CLASSIFICAZIONE, TEXT MINING, ECC...)
Tipologia: Schemi e mappe concettuali
1 / 100
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Data Mining (o Knowledge Mining, knowledge mining from database, knowledge extraction (estrazione della conoscenza), data/pattern analysis, data archeology, knowledge discovery in database “KDD” ( anche se quest’ultimo è una fase del processo di data mining) : estrazione di informazione interessante dai dati contenuti in una (potenzialmente ampia) base di dati (database), quindi l’obiettivo è individuare le informazioni nei database Informazione : insieme di regolarità ( pattern ) presenti implicitamente nei dati (tali informazioni sono implicite e dobbiamo renderle esplicite) Tali Dati sono in forma elettronica ( la ricerca è automatica o semi automatica) Informazione Interessante : Nuova : non è qualcosa di nuovo o di conoscenza comune Attesa : se si tratta di convalidare una ipotesi fatta a priori (es. “i supermercati di Milano vendono di più perché c’è più gente” il data mining può verificarlo) Implicita : presente nei dati, ma non immediatamente accessibile Potenzialmente utile : può essere utilizzata per prendere delle decisioni Comprensibile agli uomini : la forma in cui la conoscenza è estratta deve essere interpretabile facilmente dagli esseri umani La ricerca della regolarità è sempre stata di interesse per l’uomo (dalla regolarità delle migrazioni animali ai comportamenti per ottenere voti) e con il data mining è stato possibile trovare le regolarità con i mezzi automatici, opportunità che aumentano con il crescere dei dati. Esso potrebbe essere usato per: Concessione di Prestiti : tramite le caratteristiche dei soggetti è possibile stabilire se concedere o no il prestito Marketing : Tramite la Market basket Analysis (tecniche di associazione per trovare gruppi di prodotti che vengono acquistati assieme) è possibile attuare politiche di marketing, oltre che acquisire informazioni importanti del cliente (es. fedeltà) Prevenire o scoprire Frodi : es. tramite Outliers delle transazione di carte di credito Diagnosi : Automatizzare la diagnosi di guasti Importante è l’abilità del Data Analist, ossia degli essere umani che guidano il processo di data Mining (quindi serve una conoscenza dei metodi di data Mining, Algoritmi utilizzati e dei risultati che è possiile ottenere) Il data Mining si può applicare a qualsiasi ambito
viaggia dati acceleratore, volante e altri sensori) e devono essere combinati per poter prendere una decisione)
Descrittivi : si ottiene una caratterizzazione delle proprietà dei dati selezionati per l’analisi (caratteristiche) es. profili utente (fedeltà o meno) Predittivi : si ottiene un sistema che è in grado, sulla base dei dati attuali, di fare previsioni sui dati futuri (es. Analisi di Mercato: dati Borsa di Milano Previsione aumento) Essi possono essere degli oggetti più o meno comprensibili. Le reti Neurali possono effettuare previsioni ma il loro funzionamento è oscuro (si sa il loro risultato, ma non le cause che lo hanno permesso: scatola con contenuto inaccessibile. XGY), mentre le regole associative hanno un significato chiarissimo (es Analisi Carrello della Spesa, quale prodotto verrà acquistato insieme ad un altro?). I Pattern più facilmente comprensibili sono detti Pattern Strutturali. Pattern Interessanti : vi sono parametri oggetti per individuare un pattern come interessante (es. supporto e confidenza), ma i solito è puramente soggettivo e dipendono dal Data Analist
Caratterizzazione di Concetti : si riassumono le caratteristiche di un insieme di dati (es. clienti che hanno speso più di 1000€ nell’ultimo anno presso una azienda o profili con determinate caratteristiche) Confronto di concetti : fornisce una descrizione che confronta due o più insieme di dati (es. clienti che comprano regolarmente in una azienda)
Consiste nella scoperta di Regole associative (es. oggetti comprati assieme (computer e software)), dove: Supporto : percentuale di Computer e Scontrino (computer contenuti in uno scontrino) Confidenza : Percentuale transazioni di Software rispetto a quelle che hanno un Computer
Processo che consiste nel trovare un modello che descrive una classe di dati (per classificare bisogna avere i dati organizzati in classi) allo scopo di predire il valore della classe su dati sconosciuti (es. classificare clienti che hanno probabilità maggiore di acquistare un oggetto). Vi sono 2 fasi:
data mining sono di interesse soltanto gli algoritmi di data mining scalabili (deve produrre risultati in tempo utile all’aumentare dei dati) Visualizzazione : per rendere i risultati comprensibili all’uomo Scienze dell’Informazione : Informatica: per scrivere algoritmi e rappresentare le informazioni Altre Discipline
Vi possono essere problemi con l’etica: Discriminazione : si potrebbe utilizzare il Data Mining per discriminare, utilizzando alcune caratteristiche (es. non concedere prestito ad Afroamericani, oppure tempo fa ci fu una polemica poiché un ricercatore aveva elaborato una rete neurale per ricostruire i colori dei capelli degli imperatori romani, tuttavia si era basato su articoli ariani, che e risultò che tutti gli imperatori romani fossero biondi, tolto quell’articolo, la rete neurale ha generato nuovi colori di capelli). Problemi dell’accesso ai dati : tutte le analisi dovrebbero avvenire con il consenso esplicito delle parti coinvolte
A cosa serve il Data Mining? Ampliare le conoscenza su cui basare le proprie decisioni. Esempio: impatto sulle campagne di marketing
Problema dell’esplosione dei dati: I meccanismi di collezione automatica dei dati insieme alla maturità della tecnologia database e ad internet, portano alla memorizzazione di una grossa quantità di dati. Data warehousing e data mining: On-line analytical processing e Estrazione di conoscenza interessante da grandi collezioni di dati. [Nel 2002 è stato generato il doppio dei dati del 1999 (tasso di crescita 30%)]
CRM (Customer Relationship management), investimenti, manufacturing, sports/intrattenimento, telecomunicazioni, e-Commerce, marketing mirato, tutela della salute), Web (search engines, bots), Governo (Applicazione della legge, profilazione di evasori, antiterrorismo), Marketing (Predizione della perdita del cliente (attrition), Marketing mirato: Vendite incrociate (cross-sell), acquisizione dei clienti, Rischio di credito, Rilevazione delle frodi) [Industrie interessate: Banche, telecomunicazione, grande distribuzione]
il Knowledge Discovery è un processo La selezione e il processamento dei dati Per L’identificazione di pattern nuovi, accurati e utili e La modellazione di fenomeni reali. Il Data mining è una componente significativa del processo di KDD: la scoperta automatica di patterns è lo sviluppo di modelli predittivi e descrittivi.
1. Pulizia dei Dati e Consolidamento dei dati È importante la qualità dei dati, infatti La qualità dei risultati è correlata alla qualità dei dati (Il 50%-70% dello sforzo riguarda il consolidamento e la preparazione) [Garbage in Garbage out (se entra spazzatura esce spazzatura)] Consolidamento : Da sorgenti eterogenee a una repository consolidata si deve: Determinare una lista preliminare di attributi, Consolidare I dati in una tabella, Eliminare o stimare I valori mancanti, Rimozione di Outliers 2. Selezione e Preprocessing Generazione di un campione : Scelta del metodo di campionamento, Analisi della complessità del campione, Trattamento dell’influenza del campionamento Riduzione della dimensionalità degli attributi : Rimozione di attributi ridondanti e/o correlati, Combinazione di attributi Riduzione dei range : Raggruppamento di valori discreti o Discretizzazione di valori numerici Trasformazione dei dati: de-correlare e normalizzare i valori 3. Data Mining : estrazione della conoscenza dai dati, vi sono vari metodi: es. Predizione (o Classificazione): regressione, reti neurali, algoritmi genetici, alberi di decisione; Descrizione: decision trees, regole associative, clustering analysis 4. Interpretazione e Valutazione : Possiamo avere: Misure di interesse : Comprensibilità, Validità su dati nuovi (in accordo ad un certo grado di certezza), Utilità, Novità, validazione di ipotesi Misure oggettive/soggettive : Oggettive : basate sulla statistica e sulla struttura dei patterns Soggettive : basate sulla conoscenza dei dati: nuove, inaspettate, … Differenze con altre Materie Statistica : Basata sulla teoria e Focalizzata al test di ipotesi Machine learning/apprendimento automatico : Euristico, Mirato al miglioramento delle performance di apprendimento, Spazia anche nella robotica e non rilevante per il data mining Data Mining e scoperta di conoscenza : Integra teoria ed euristiche, Si concentra sull’intero processo: pulizia, apprendimento, integrazione e visualizzazione dei risultati [Le distinzioni non sono nette]
Non hanno associata una distanza: Operazioni algebriche non hanno senso Misure su Scale Numeriche (Variabile Numerica) : Esprimono misure quantitative Misurazioni Basate su intervalli (o di Intervallo) : I valori provengono da un range continuo (E.g.: Temperatura) e Non c’è (apparente) correlazione tra i valori Misurazioni Ratio-Scaled (o Di Rapporto) : Le misure esprimono proprietà (es. La quantità di denaro in una macchina per il caffè è un multiplo dell’unità minima che si può inserire; Una misurazione fisica che dipende
Variabili Binarie : Possono assumere 2 soli valori Simmetriche ( Dicotomiche ): es. Sesso: Maschio/Femmina Asimmetriche : es. Responso: SI/NO, Vero/Falso, 1/ Variabili Discrete (simboliche) : assume un numero finito o un insieme infinito numerabile di valori normalmente rappresentati mediante interi o etichette Solo test di uguaglianza Nominali Categoriche Ordinali Binarie Variabili Continue : assume valori reali Interval-Based o di Intervallo (valori interi: numeri senza virgola e con segno) Ratio-Scaled o di Rapporto (valori reali: sono tutti e i soli numeri razionali (espressi sotto forma di frazione) e i numeri irrazionali (che non sono espressi tramite frazione es. possono essere espressi sotto radice quadrata oppure π o e)) [Gli attributi nominali e ordinali sono tipicamente discreti o binari, mentre quelli di intervallo e di rapporto sono continui] Attributi asimmetrici : hanno rilevanza solo le istanze che assumono valori diversi da zero: Esempio: I record relativi agli studenti Quindi: La conoscenza delle Variabili è importante nel Data Mining per poter effettuare i confronti appropriati, e apprendere i concetti significativi (es. Outlook > “sunny” non ha senso, mentre Temperature > “cool” oppure Humidity > 70 ha senso) quindi È necessario conoscere le proprietà degli attributi per ottenere risultati rilevanti dall’utilizzo dei dati (Un impiegato è descritto da un ID e dall’età, ma non ha senso calcolare l’ID medio degli impiegati) Il tipo dell’attributo ci dice quali proprietà dell’attributo sono riflesse nel valore che usiamo come misura Un modo semplice per caratterizzare i vari tipi di attributi si basa sul tipo di operatore che ha senso applicare ai valori che esso assume:
[Si determinano così 4 tipi di dati: nominali, ordinali, di intervallo, e di rapporto] Situazioni delle Variabili : Sparsità : Mancanza di valore associato ad una variabile Un attributo è sparso se contiene molti valori nulli Monotonicità : Crescita continua dei valori di una variabile l’Intervallo è [-∞, ∞] (o simili)Non ha senso considerare l’intero intervallo Outliers : Valori singoli o con frequenza estremamente bassa Possono distorcere le informazioni sui dati Dimensionalità : Il numero di valori che una variabile può assumere può essere estremamente alto (Tipicamente riguarda valori categorici) Anacronismo : Una variabile può essere contingente: abbiamo i valori in una sola porzione dei dati
Un fattore esterno significativo e rilevante nei dati che Comporta problemi (espliciti o impliciti) nei dati (es. Il valore della variabile Velocità in una tabella Infrazioni è alto) Il problema è sistematico: Appare con una certa persistenza (es. Il misuratore della velocità è tarato male) Il problema può essere trattato: Il valore è suscettibile di una distorsione, che deve essere Considerata quindi si Considera solo i valori che vanno oltre una certa tolleranza
Regola empirica : 5,000 o più , Se sono di meno, i risultati sono meno affidabili Numero di attributi: Regola pratica: per ogni campo: 10 (o più) istanze e Se ci sono più campi, si deve utilizzare riduzione e selezione di dimensionalità Numero di esempi (nella classificazione): Regola pratica: >100 per ogni concetto , Se i dati sono sbilanciati, si può (deve) utilizzare il campionamento stratificato
Testo Grafi: la configurazione formata da un insieme di punti (vertici o nodi) e un insieme di linee (archi) che uniscono coppie di nodi; formalmente è un insieme in cui è definita una relazione di qualunque tipo e, pertanto, la teoria dei g. trova largo impiego nelle scienze. Grafo dei links HTML Dati spazio-temporali In genere, molti di questi possono essere riportati nel formato descritto in precedenza [anche se in realtà non è vero (o conveniente) in generale]
I documenti possono essere oggetti dell’analisi e rappresentati mediante un vettore di termini: Ogni termine è un attributo del documento Il valore degli attributi indica il numero di volte in cui il corrispondente termine compare nel documento.
Un tipo speciale di record in cui ogni record comprende diversi oggetti Bot: Agenti Software che vanno su internet e ricercano pagine e le organizzano per parole chiave Es. Google: Internet è un insieme di pagine dove, tramite bot, vengono etichettate e Google prenderà le pagine dove è presente la parola digitata e farà comparire quelle pagine le parole digitate saranno gli attributi, e il documento diventa oggetto Google Pre-Processa i documenti, condividendoli nel presente formato (utile per il suo algoritmo)
dei valori dati si trovano al di sotto del 90° percentile, laddove il 10% dei valori dati si trova al di sotto del 10° percentile) [I percenti esprimono la variabilità individuale rispetto la popolazione generale] [Es. Statura: analizziamo 100 individui: se la statura di un individuo si trova al 10 percentile significa che il 10% di quella popolazione (100 individui) è più basso, mentre il 90% è più alto. Immaginiamo di voler eseguire un’analisi di benchmark della durata della batteria di un modello di smartphone in determinate condizioni rispetto a quella di altri modelli dello stesso tipo. Si decide di associare il percentile 0 al peggior smartphone ed il percentile 100 al miglior smartphone. Dai dati risulta che il nostro smartphone si posiziona al 60simo percentile. Ciò significa che il nostro smartphone ha una batteria con una durata maggiore del 60% degli smartphone analizzati] Quartili : si tagli in 4 la distribuzione Percentile: si suddividono i valori in 100 unità I percentili sono spesso rappresentati graficamente mediante box plot
L’analisi preliminare dei dati è volta a identificare le caratteristiche principali (es. dati categorici, Documenti) e aiuta a scegliere lo strumento migliore per la preelaborazione e l'analisi (es. la parola “Bilancio” può essere più importante di un articolo deve essere l’uomo a configurare la macchina e impostare la priorità (la macchina da sola non lo fa)), inoltre, consente di utilizzare le abilità umane per individuare i modelli Un esperto di dominio può individuare rapidamente modelli non identificabili dagli strumenti di analisi L’esplorazione dei dati si effettua mediante: Visualizzazione Diagrammi a barre Diagramma di Pareto : Diagrammi a barre distanziate Un assortimento di eventi presenta pochi picchi e molti elementi comuni Ortogrammi : Ogni colonna indica la distribuzione interna per un dato valore e la frequenza Aerogrammi : Rappresentazioni a torta e frequenza della distribuzione Diagrammi Polari : Rappresentano fenomeni ciclici (E.g., concentrazione delle vendite nell’arco settimanale)
Web : Visualizzano correlazioni tra valori simbolici Rappresentazione Stem and Leaf : Simile a istogrammi, usati per evitare perdita di Informazione ed è utile per pochi dati Dot Diagrams (Scatter Plot) : Il grafico di dispersione, detto anche grafico a dispersione, grafico a nuvola di punti, Scatter Plot o Scatter Graph è un tipo di grafico in cui due variabili di un set di dati sono riportate su uno spazio cartesiano. Visualizza la Dispersione Esso seve a vedere se: o Esiste una correlazione tra X e Y? o Esiste una correlazione lineare/non lineare o Come varia la densità in funzione di X o Ci sono Outliers Matrix Plots : Per visualizzare la matrice utile quando è possibile definire un ordinamento nei dati. Essa è: Molto utile per visualizzare relazioni tra dati (Matrici di similarità) Essa necessita normalizzazione Box Plots : Rappresentano distribuzioni di dati e Possono essere utilizzati per riassumere la distribuzione dei Dati e comparare più distribuzioni (e attributi) quando queste hanno grandezze omogenee (Servono per rappresentare i Percentili) [Sono stati Inventati da J. Tukey] Essi Rappresentano: o il grado di dispersione variabilità dei dati (w.r.t. mediana e/o media) o la simmetria
Poligoni Diagrammi cartesiani Diagrammi quantili Indici statistici OLAP e Data Warehousing (Tabella di cubi a 3 dimensioni (s. 2D: dipendente delle vendite; 3D: Dipendente da vendite in determinato periodo, determinato store, ecc…) [I Dati Quantitativi sono rappresentati da Istogrammi, Poligoni, Diagrammi cartesiani, Diagrammi quantili]
La qualità dei dati utilizzati incide profondamente sulle possibilità di trovare pattern significativi. I problemi più frequenti che deteriorano la qualità dei dati sono: Errori, dati corrotti : Indica il rilevamento di valori diversi da quelli originali. Alcuni tipi: Errori insiti nello strumento di misura Errori dovuti a fenomeni casuali e non controllabili Outliers : sono oggetti che presentano delle proprietà che si discostano molto da tutti gli altri oggetti nell’ insieme dei dati che complicano la determinazione delle loro caratteristiche (si comportano in modo anomalo) Essi Sono normalmente rari Potrebbero essere Importanti (ma a volte potrebbero complicare l’analisi dei dati, perché possono influenzare negativamente gli alti dati) es. ci potrebbero indicare una truffa Valori mancanti Motivazioni per la mancata registrazione L’informazione non è stata raccolta L’attributo non è applicabile a tutti gli oggetti (es. Questionario dato ad un disoccupato, non risponderà a domande sul lavoro) Come gestire i dati mancanti? Eliminare gli oggetti che li contengono Ignorare i valori mancanti durante l’analisi Compilare manualmente i valori mancanti (In generale è noioso e lungo, e potrebbe essere non fattibile, ma soprattutto introdurre nuovi errori) Compilare automaticamente i valori mancanti: tramite algoritmi che calcolano la media delle risposte (se il database è grande è preferibile rimuoverle, mentre se il dataset è piccolo è preferibile riempirlo (cercando di rimanere fedeli il più possibile) Stimare i valori mancanti Usare la media dell'attributo al posto dei valori mancanti Predire il valore dell'attributo mancante sulla base degli altri attributi noti. Usare un valore costante come “Unknown” oppure 0 (a seconda del tipo di dati) [N.A.N. (Not a Number)]. Valori duplicati : il data set potrebbe includere oggetti duplicati Si può ricorrere al data cleaning al fine di individuare ed eliminare le ridondanze Attenzione: Questa operazione non deve toccare il Dataset, ma solo i Dai prelevati (poiché il Dataset potrebbe servirci in futuro) Quindi possiamo avere problemi d: Troppi dati dati sbagliati, rumorosi dati non rilevanti dimensione intrattabile mix di dati numerici/simbolici Pochi dati attributi mancanti valori mancanti dimensione insufficiente
Raramente il dataset presenta le caratteristiche ottima per essere elaborato dagli algoritmi di data mining. È quindi necessario mettere in atto una serie di azioni volte a consentire il funzionamento degli algoritmi di interesse (molti attributi influiscono negativamente durante il Processo)
Combina due o più attributi (oggetti) in un solo attributo (oggetto) al fine di: Ridurre la cardinalità del data set Effettuare un cambiamento di scala Stabilizzare i dati I dati aggregati hanno spesso una minore variabilità
la tecnica principale utilizzata per selezionare i datiIl campionamento è impiegato nel data mining perché processare l’intero dataset è spesso troppo costoso dal punto di vista computazionale (l’algoritmo impiega più tempo superando il tempo utile) [Tramite Principal Component Analysis: si estrae un sottoinsieme di attributi rappresentativi] Tipi: Campionamento casuale semplice C’è la stessa probabilità di selezionare ogni elemento (ogni campione ha la stessa probabilità di essere selezionato) Campionamento senza re-immissione: estratto un elemento, non può più essere rimesso nel Dataset Campionamento con re-immissione: l’elemento estratto può essere rimesso nel database (si può riutilizzare) Campionamento stratificato : Si suddividono i dati in più partizioni; quindi, si usa un campionamento casuale semplice su ogni partizione. Utile nel caso in cui la popolazione sia costituita da tipi diversi di oggetti con cardinalità differenti. Dimensione del Campione : La corretta scelta della dimensione del campione è fondamentale al fine di limitare la perdita di informazione (più puntipiù probabilità di accuratezza) La probabilità di avere rappresentanti di tutta la popolazione aumenta in modo pseudo-esponenziale rispetto alla dimensione del campione [ Esponenziale : cresce all’Infinito; Pseudo-esponenziale : Arrivato ad un certo valore la curva si satura]
Approcci di filtro : La fase di selezione avviene prima del mining e con criteri indipendenti dall’algoritmo usato Approcci euristici : Approssimano l’approccio esaustivo utilizzando tecniche di ricerca euristiche. Euristica: Approccio scientifico che si affida all’intuito al fine di generare nuova conoscenza funzione che si applica quando non è possibile trovare una soluzione ottima (es. tecnica “dividi et impera”: Problema complesso si divide in sotto-problemi, se non si riesce a risolvere, si divide ulteriormente, fino a risolvere, quando si trova la soluzione si trova indietro a ritroso)
Può essere utile creare nuovi attributi che meglio catturino le informazioni rilevanti in modo più efficace rispetto agli attributi originali: [Accorpamento di Attributi o dalla Media] Estrazione di caratteristiche: Utilizzano normalmente tecniche diverse da dominio a dominio Mapping dei dati su nuovi spazi: Trasformata di Fourier (si cambia Dominio e. da Frequenza a Tempo), PCA Combinazione di attributi Regole Associative (es. Tessere fedeltà supermercati: da transazione cliente si scopre la possibilità di comprare insieme 2 oggetti)
Discretizzazione: si creano classi da Attributi Continui si passa a Discreti ed in tal modo si possono ridurre le classi. Quindi è la Trasformazione di attributi a valori continui in attributi a valori discreti Può essere utilizzata anche per ridurre il numero di classi di un attributo discreto La discretizzazione richiede di: Individuare il numero più idoneo di intervalli Definire come scegliere gli split point Es. Peso: vi sono tani valori e l’attributo cade ad intervalli (es. Basso, Medio, Alto) Intervallo= Classi Split Point: limite da classe all’altra Tecniche di discretizzazione: agli algoritmi si devono dare gli attributi (di classe) o no (l’elemento di classe è importante o no) es. nella Non Supervisionata si dividono in numeri senza guardare se un elemento è più importante del singolo elemento, mentre nella Supervisionata si deve guardare l’importanza del singolo elemento. Le tecniche di discretizzazione si raggruppano in: Non supervisionate Equi-larghezza : il range è suddiviso in intervalli di uguale lunghezza Equi-frequenza : il range è suddiviso in intervalli contenenti un numero simile di elementi K-mediani : sono individuati k raggruppamenti in modo da minimizzare la distanza tra i punti appartenenti allo stesso raggruppamento Supervisionate
Gli intervalli di discretizzazione sono posizionati in modo da massimizzare la “purezza” degli intervalli. Si ricade in un problema di classificazione in cui a partire da classi (intervalli) composte da (contenenti) un solo elemento si fondono ricorsivamente classi attigue. Una misura statistica della purezza è l’entropia degli intervalli Ogni valore v di un attributo A è una possibile frontiera per la divisione negli intervalli A ≤ v e A > v. Scelgo il valore che fornisce il maggiore guadagno di informazione , ossia la maggior riduzione di entropia: Il processo si applica ricorsivamente ai sotto-intervalli così ottenuti, fino a che non si raggiunge una condizione di arresto (ad esempio, fino a che il guadagno di informazione che si ottiene diventa inferiore a una certa soglia d). Entropia degli Intervalli : o Se l’entropia è maggiore si scarta quel valore o Se l’entropia è minore si sceglie quel valore Binarizzazione : La rappresentazione di un attributo discreto mediante un insieme di attributi binari è invece detta binarizzazione
2 ) serve perché è il linguaggio del computer; infatti, la CPU lavora con i bit (dalla posizione dei bit si vede la lontananza dei voti) Questa soluzione utilizza attributi asimmetrici binari:
Una funzione che mappa l’intero insieme di valori di un attributo in un nuovo insieme in modo tale che a ogni valore nel dominio di partenza corrisponda un unico valore in quello di arrivo Es. si rappresentano gusti in base ai colori o da caratteri numerici Funzioni semplici (Es. logaritmo) o utilità: es. trasmissione di bit su internet: i bit sono miliardi e tramite la trasformazione logaritmica si possono ridurre o 1/x: Divisione: Diminuisce>1; Aumenta<1 Attenzione: potrebbe invertire l’ordinamento di una serie di eventi sono utilizzate per: Enfatizzare alcune proprietà dei dati: Particolari distribuzioni dei dati Ridurre range di variabilità troppo elevate Attenzione alle proprietà della trasformazione: 1/X riduce i valori maggiori di 1 ma incrementa quelli minori di 1 quindi inverte l’ordinamento di un insieme di eventi
Similarità : Una misura numerica che esprime il grado di somiglianza tra due oggetti È tanto maggiore quanto più gli oggetti si assomigliano
Si distribuisce il lavoro (Dividi et Impera) per poi unirlo Esistono molte infrastrutture software distribuite per l’analisi dei Big Data
Hadoop è un framework software opensource ideato per sviluppare applicazioni software idonee all’elaborazione dei Big Data dalla Apache Foundation Esso permette la gestione di grandi set di dati, strutturati e non, e la loro elaborazione distribuita su cluster di computer usando modelli di programmazione molto semplici. Progettato per scalare da un singolo server fino a migliaia, ciascuno composto delle componenti di elaborazione e storage. Hadoop include i seguenti moduli: Hadoop Common: Le utility di base che supportano altri moduli Hadoop Hadoop Distributed File System: Fornisce accesso ad alta velocità ai dati, strutturati e non. Permette di “montare” qualsiasi fonte dati raggiungibile con un url. HadoopYARN: Un framework per la schedulazione dei job e la gestione delle risorse del cluster HadoopMapReduce: Un Sistema basato suYARN per l’elaborazione in parallelo di grandi data set [Hadoop: per PC]
Apache Spark è un framework open source per le elaborazioni in cluster che serve come motore per la gestione di Big Data nel contesto di Hadoop. Spark è diventato uno dei principali framework di questo tipo e può essere utilizzato in molti modi diversi. Spark è lo standard aperto per l’elaborazione flessibile dei dati in-memory che consente analisi batch avanzate e in tempo reale sulla piattaforma Spark include i seguenti moduli: Spark Core: contiene le funzionalità di base quali i componenti la gestione della memoria, il fault recovery, l’interazione con i sistemi di storage; Resilient Distributed Dataset (RDD) che sono la principale astrazione della programmazione di Spark. Spark SQL: componente di Spark che permette di lavorare con dati strutturati. Spark Streaming consente di elaborare stream di dati, e presenta un elevato grado di foul- tollerance, throughput e scalabilità GraphX: è una libreria per la gestione dei grafi (ad esempio grafici di amicizie in un social network) Cluster Manager: Consente di eseguire Spark in maniera efficace da uno fino a migliaia di nodi di computazione. Compatibile con molti cluster managers quali HadoopYARN, Apache Mesos. [Apache Spark: per i Cluster: operatori particolari per grandi prestazioni] Legge di Moore : al passare del tempo cresce l’euforia perché vi sono tecnologie veloci
I database SQL tradizionali sono progettati per transazioni affidabili e per rispondere a query ad-hoc su dati ben strutturati. Questa rigidità rappresenta però un ostacolo per alcuni tipi di applicazioni. I database NoSQL superano questi ostacoli, memorizzando e gestendo i dati con modalità che permettono una grande flessibilità e velocità operativa. Diversamente dai database relazionali tradizionali, molti dei database NoSQL possono scalare in orizzontale su centinaia o migliaia di server
I dati si riadattano
Avere tanto carburante (I dati) e un’auto molto potente (la tecnologia) non sono sufficienti a vincere la gara: Il talento del pilota, il suo modo di guidare rimangono un ingrediente indispensabile L’avvento dei Big Data è stato accompagnato dalla necessità di definire nuove tecniche e metodologie analitiche, per sfruttare al meglio i nuovi strumenti e gestire questa nuova tipologia di dati caratterizzati da un livello così più alto di Volume, Velocità, Varietà, Veridicità e Valore (5V). Customer analytics : Le aziende possono analizzare il comportamento dei consumatori in ottica di marketing multicanale per migliorare l’esperienza del cliente, aumentare i tassi di conversione, le vendite collaterali, offrire servizi e aumentare la fidelizzazione. Analytics operazionale : Migliorare le prestazioni operative e fare un uso migliore degli asset aziendali sono l’obiettivo di molte organizzazioni. I Big Data possono aiutare le imprese a trovare nuovi modi per operare in modo più efficiente. Prevenzione delle frodi e dei crimini : Aziende e governi possono individuare attività sospette attraverso il riconoscimento di pattern che possano indicare un comportamento fraudolento, prevenendone il manifestarsi o individuando il colpevole. Ottimizzazione dei prezzi : Le aziende possono usare i dati per ottimizzare i prezzi applicati a prodotti e servizi, espandendo il proprio mercato o aumentando i ricavi.
I big data hanno apportato un profondo impatto sia nei settori lavorativi che sul resto della nostra vita. Ad esempio, non ci sono settori industriali rimasti estrani al cambiamento né discipline scientifiche umanistiche che non conoscono applicazioni dall’utilizzo intensivo dei Big Data. L’uso dei Big Data a permesso a Netflix piccola start-up che mediante l’uso appropriato dei Big Data è riuscita a sopraffare un colosso quale Blockbuster. Il successo di Netflix è scaturito dall’analisi intensiva delle preferenze cinematografiche degli utenti, consentendogli di proporre agli utenti offerte di sottoscrizione che risultavano irrinunciabili. Netflix ogni giorno sa cosa stanno guardando i suoi clienti, riuscendo a predire cosa vorranno guardare domani (La serie House of Cards è stata raccomandata dai Big Data).
Le banche usano i Big Data per valutare il rischio di concedere un credito a un individuo o azienda. Attraverso lo studio delle transazioni passate, dei debiti, e anche dall’analisi dei social media, gli algoritmi forniscono una raccomandazione se e quanto prestare. In campo medico, l’uso dei Big Data a permesso ai ricercatori di Google di sviluppare una macchina chiamata LYNA (LYmph Node Assistant), in grado di analizza foto di tessuti, individuare e segnalare all’equipe medica la presenza di metastasi anche molto piccole. L’assistenza fornita da LYNA ha