DATA MANAGEMENT/ DATA MINING | Schemi e mappe concettuali di Fondamenti di informatica

Introduzione Data Mining

Data Mining (o Knowledge Mining, knowledge mining from database, knowledge extraction (estrazione

della conoscenza), data/pattern analysis, data archeology, knowledge discovery in database “KDD” ( anche

se quest’ultimo è una fase del processo di data mining) : estrazione di informazione interessante dai dati

contenuti in una (potenzialmente ampia) base di dati (database), quindi l’obiettivo è individuare le

informazioni nei database Informazione: insieme di regolarità (pattern) presenti implicitamente nei dati

(tali informazioni sono implicite e dobbiamo renderle esplicite) Tali Dati sono in forma elettronica ( la

ricerca è automatica o semi automatica)

Informazione Interessante:

Nuova: non è qualcosa di nuovo o di conoscenza comune

Attesa: se si tratta di convalidare una ipotesi fatta a priori (es. “i supermercati di Milano vendono di

più perché c’è più gente” il data mining può verificarlo)

Implicita: presente nei dati, ma non immediatamente accessibile

Potenzialmente utile: può essere utilizzata per prendere delle decisioni

Comprensibile agli uomini: la forma in cui la conoscenza è estratta deve essere interpretabile

facilmente dagli esseri umani

La ricerca della regolarità è sempre stata di interesse per l’uomo (dalla regolarità delle migrazioni animali ai

comportamenti per ottenere voti) e con il data mining è stato possibile trovare le regolarità con i mezzi

automatici, opportunità che aumentano con il crescere dei dati.

Esso potrebbe essere usato per:

Concessione di Prestiti: tramite le caratteristiche dei soggetti è possibile stabilire se concedere o no il

prestito

Marketing: Tramite la Market basket Analysis (tecniche di associazione per trovare gruppi di prodotti

che vengono acquistati assieme) è possibile attuare politiche di marketing, oltre che acquisire

informazioni importanti del cliente (es. fedeltà)

Prevenire o scoprire Frodi: es. tramite Outliers delle transazione di carte di credito

Diagnosi: Automatizzare la diagnosi di guasti

Importante è l’abilità del Data Analist, ossia degli essere umani che guidano il processo di data Mining

(quindi serve una conoscenza dei metodi di data Mining, Algoritmi utilizzati e dei risultati che è possiile

ottenere)

Il data Mining si può applicare a qualsiasi ambito

Processo Knowledge Discovery in Database KDD

1. Acquisire informazioni sul dominio applicativo

2. Data Cleaning: Pulire i dati a disposizione, infatti questi devono essere puliti o in forma idonea,

altrimenti ne risentiranno i risultati (può anche rivelarsi l'operazione più faticosa)

3. Data Integration: Integrare i dati provenienti da sorgenti diverse (es. guida autonoma: deve

integrare i dati di tutti i sensori (se non ci sono altre macchine, se si fa la curva, velocità a cui si

N.B.: ogni passo non è a

senso unico, ma si può

tornare indietro (es.

migliorare pulizia o integrare

più dati, oppure, se

l’accuratezza è bassa, si

cercano altri parametri o

attributi ripetendo il

processo.

DATA MANAGEMENT/ DATA MINING, Schemi e mappe concettuali di Fondamenti di informatica

Documenti correlati

Anteprima parziale del testo

Scarica DATA MANAGEMENT/ DATA MINING e più Schemi e mappe concettuali in PDF di Fondamenti di informatica solo su Docsity!

Introduzione Data Mining

Processo Knowledge Discovery in Database KDD

Pattern :

Concetti :

Analisi delle Associazioni

Classificazione

Etica

Introduzione Data Mining

Motivazioni

Aree applicative : Scienza (astronomia, bioinformatica, medicina), Commercio (Campagne pubblicitarie,

Il Processo di Knowledge Discovery

dal tempo t (in secondi): eδt )

Influenza (BIAS)

Numero di istanze

Altri Dati :

Documenti

Transazioni

Esplorazione dei dati

Qualità dei dati

Preprocessing del Data Set

1. Aggregazione

2. Campionamento

5. Creazione degli attributi

6. Discretizzazione e Binarizzazione

Le relazioni (es. Discreto e Binario = ¿ x ( 1 )

7. Trasformazione degli attributi

Similarità e Dissimilarità

Calcolo Distribuito

Hadoop

Apache Spark

Database NOSQL

RDD

Metodi

Utilizzo e Problematiche dei Big data nelle Aziende

Impatto dei Big data

Utilizzo dei Big Data