Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Algoritmo CART, Prove d'esame di Elementi di Informatica

1. Algoritmo del programma CART, basato sugli alberi di classificazione per l’estrazione dei dati da un sistema informatico.

Tipologia: Prove d'esame

2015/2016

Caricato il 27/04/2016

ale.schipani
ale.schipani 🇮🇹

4.3

(10)

9 documenti

1 / 5

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1. Algoritmo del programma CART, basato sugli alberi di
classificazione per l’estrazione dei dati da un sistema informatico
2.1 Introduzione
I processi aziendali sono caratterizzati dalla scoperta di nuove relazioni e tendenze
usando:
Tecniche di riconoscimento delle relazioni
Tecniche statistiche e matematiche
Per ovviare a questo problema sono stati sviluppati molti programmi basati su particolari
algoritmi di classicazione dei dati, come il programma Cart.
Questo programma utilizza nuovi strumenti come Datawarehouse, Data mining
e gli alberi di decisione, strumenti in grado di selezionare i dati e collegarli fra
loro, rendendo il lavoro degli impiegati molto più semplice e intuitivo.
Prima di vedere nello specico il funzionamento dell'algoritmo del programma
CART si devono analizzare i vari strumenti sfruttati dal programma.
2.2 Il Datawarehouse
Il DW, detto anche “Sistema Informativo Aziendale” raccoglie, organizza,
elabora, gestisce ed utilizza tutta l’informazione necessaria per la conduzione
dell’azienda.
Le componenti di un DW possono essere divise in due categorie a seconda
della loro nalità:
Componenti per il supporto dell’attività operativa: si occupa di archiviare
ed elaborare tutta l’informazione per lo svolgimento dell’attività
quotidiana
Componenti per il supporto decisionale: Analisi delle informazioni per
supportare i dirigenti nelle scelte strategiche
Il “Sistema Informativo Aziendale” è l’insieme degli strumenti Hardware e
Software che permettono di gestire in maniera automatizzata l’informazione
aziendale. Possono essere divisi in due categorie: applicazioni transazionali
(sistemi e procedure informatiche di supporto all’attività operazionale
quotidiana) e Sistemi di supporto alle decisioni (procedure informatiche di
supporto alle scelte strategiche).
La denizione più rappresentativa di DW è stata data da W.H. Inmon
denendola realizzabile tramite una base di dati di supporto al processo
decisionale che sia:
1. Orientata a soggetti: A dierenza dei tradizionali database un data
warehouse è orientato ai soggetti che determinano le scelte dei
manager e permettono di raggruppare e confrontare i soggetti tra
loro.
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Algoritmo CART e più Prove d'esame in PDF di Elementi di Informatica solo su Docsity!

1. Algoritmo del programma CART, basato sugli alberi di

classificazione per l’estrazione dei dati da un sistema informatico

2.1 Introduzione

I processi aziendali sono caratterizzati dalla scoperta di nuove relazioni e tendenze usando:

  • Tecniche di riconoscimento delle relazioni
  • Tecniche statistiche e matematiche

Per ovviare a questo problema sono stati sviluppati molti programmi basati su particolari algoritmi di classificazione dei dati, come il programma Cart.

Questo programma utilizza nuovi strumenti come Datawarehouse, Data mining e gli alberi di decisione, strumenti in grado di selezionare i dati e collegarli fra loro, rendendo il lavoro degli impiegati molto più semplice e intuitivo.

Prima di vedere nello specifico il funzionamento dell'algoritmo del programma CART si devono analizzare i vari strumenti sfruttati dal programma.

2.2 Il Datawarehouse

Il DW, detto anche “Sistema Informativo Aziendale” raccoglie, organizza, elabora, gestisce ed utilizza tutta l’informazione necessaria per la conduzione dell’azienda.

Le componenti di un DW possono essere divise in due categorie a seconda della loro finalità:

  • Componenti per il supporto dell’attività operativa: si occupa di archiviare ed elaborare tutta l’informazione per lo svolgimento dell’attività quotidiana
  • Componenti per il supporto decisionale: Analisi delle informazioni per supportare i dirigenti nelle scelte strategiche

Il “Sistema Informativo Aziendale” è l’insieme degli strumenti Hardware e Software che permettono di gestire in maniera automatizzata l’informazione aziendale. Possono essere divisi in due categorie: applicazioni transazionali (sistemi e procedure informatiche di supporto all’attività operazionale quotidiana) e Sistemi di supporto alle decisioni (procedure informatiche di supporto alle scelte strategiche).

La definizione più rappresentativa di DW è stata data da W.H. Inmon definendola realizzabile tramite una base di dati di supporto al processo decisionale che sia:

  1. Orientata a soggetti: A differenza dei tradizionali database un data warehouse è orientato ai soggetti che determinano le scelte dei manager e permettono di raggruppare e confrontare i soggetti tra loro.
  1. Integrata e Consistente: Nel datawarehouse confluiscono dati provenienti da più sistemi transazionali e da fonti esterne. L'obiettivo dell'integrazione può essere raggiunto percorrendo differenti strade: mediante l'utilizzo di metodi di codifica uniformi, mediante il perseguimento di una omogeneità semantica di tutte le variabili, mediante l'utilizzo delle stesse unità di misura.
  2. Rappresentativa dell’evoluzione temporale: In una data warehouse l’intervallo di tempo si allarga fino ad arrivare a coprire un arco di 5- anni. I dati tengono conto anche della storia dei soggetti e deve sempre contenere qualche elemento di tempo.
  3. Non volatile: I dati contenuti nel datawarehouse non devono essere modificati dall’utente poiché esso viene usato per fare indagini e non per inserire o modificare operazioni.

2.3 Il Datamining

Il datamining è un processo atto a scoprire correlazioni relazioni e nuove tendenze, setacciando grandi quantità di dati immagazzinati in archivi, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche.

Il Data mining non è altro che l'unione di precedenti tecnologie e tecniche unite insieme grazie allo sviluppo di tecniche avanzate di analisi come:

-Miglior accesso ai dati -Grande incremento delle capacità di elaborazione, in particolare dei desktop -Miglior educazione statistica -Grandi cambiamenti nei software, più facili ed intuitivi da utilizzare

Il Data mining non prende decisioni, ma trova relazioni nei dati e quindi fornisce ai decisori le informazioni utili per operare scelte consapevoli.

Gli strumenti del data mining si dividono in due gruppi: indagine e verifica.

Per quanto riguarda gli strumenti di indagine ne esistono molteplici:

  • L'indagine esplorativa visuale, che sfrutta le doti di percezione dell'individuo come metodo di analisi.
  • Alberi decisionali, permettono di identificare velocemente ed efficacemente segmenti e gruppi significativi
  • Reti neurali, che simulano il processo di funzionamento del cervello umano.
  • L'analisi cluster, raggruppa casi o variabili in base a misure di similarità.
  • L'analisi fattoriale, ricava fattori riassuntivi detti “variabili latenti” che concentrano le informazioni contenute originariamente in un numero elevato di variabili.
  • Modelli di associazione, esaminano le interdipendenze tra le variabili.
  • L'induzione di regole, tecnica molto potente per scoprire le relazioni presenti nei dati.

Anche per gli strumenti di verifica si può parlare di:

  1. Selezione di una regola di splitting per ogni nodo; ciò significa determinare le variabili, insieme al rispettivo valore soglia, che saranno usate per partizionare il data set ad ogni nodo.
  2. Determinare quali nodi sono da intendersi terminali; quindi per ogni nodo bisogna decidere quando continuare con gli splits, quando fermarsi e considerare il nodo come terminale e di conseguenza assegnargli un’etichetta. Infatti senza un’adeguata regola, si corre il rischio di costruire alberi troppo grandi con una piccola capacità di generalizzazione, oppure alberi troppo piccoli che invece approssimano male i dati.
  3. Assegnare le etichette ad ogni nodo terminale, ad esempio minimizzando il valore atteso di errata classificazione.

A partire da un qualunque tipo di problema è quasi sempre possibile costruire l’albero di decisione corrispondente. Ad esempio con il seguente albero si può rappresentare il processo decisionale in base al quale decidere se entrare in un qualunque ristorante.

2.5 L’algoritmo CART

La metodologia di analisi CART (Classification And Regression Trees) si basa sulla costruzione di alberi di classificazione e regressione.

Nell'analisi CART vi sono quattro componenti principali:

-La variabile obiettivo (target), la variabile che vogliamo stimare. -Variabili predittrici (predictors), le informazioni note. -L'insieme dei dati di apprendimento (learning data set) dati con associazioni tra variabili predittive e variabile obiettivo. -L'insieme dei dati di verifica (test data set)

In aggiunta vi sono anche le informazioni relative al “costo i un'errata classificazione, tali costi variano a seconda della situazione e a seconda dell'obiettivo da raggiungere.

Questo programma è particolarmente vantaggioso per le sue caratteristiche innovative. In primo luogo CART è intrinsecamente non parametrica. Cioè non viene formulato alcun presupposto sulla distribuzione di base dei valori delle variabili predittrici, quindi CART può maneggiare sia dati numerici sia dati non numerici. Inoltre CART identifica le variabili di suddivisione effettuando una ricerca esauriente di tutte le possibilità attraverso efficienti algoritmi e quindi funziona anche nei problemi con molte centinaia di predittori. Infine CART usa metodi sofisticati per trattare le variabili mancanti: non viene scartato l'intero dato ma nell'analisi sono individuate delle variabili surrogate che vengono poi usato quando per il predittore in esame mancano i valori.

L'analisi di CART si sviluppa in diversi passaggi fondamentali per ottenere il risultato migliore.

Il primo passaggio consiste nella costruzione dell'albero di decisione.

La costruzione dell'albero comincia dal nodo radice, che include tutti i record dei dati di apprendimento. In questa fare CART dovrà trovare la variabile migliore per cominciare la suddivisone dei nodi, esaminando tutte le variabili di suddivisione. Nella scelta del divisore migliore, il programma cerca di elevare la purezza media dei due nodi figli tramite alcune funzioni o criteri di suddivisione. La funzioni di suddivisione più famose sono la “Gini” seguito da “Twoing”, il processo di suddivisione dei nodi con conseguente assegnazione di una classe di predittori è ripetuto per ogni nodo figlio ed è continuato ricorsivamente fino a quando è possibile suddividere i dati presenti nel nodo in due classi. Ad ogni nodo è assegnata una classe di predittori, questa assegnazione della classe anche ai nodi non terminali è necessaria in quanto durante la fare di costruzione dell'albero non è possibile sapere se nella successiva fase di potature un determinato nodo da intermedio diventa terminale. Per ogni nodo “la variabile suddivisione primaria” è quella che suddivide meglio il nodo in base alla purezza dei nodi figli. Qualora per una specifica osservazione tale variabile risulti assente si cerca una variabile surrogata (Un divisore surrogato è una variabile che presenta caratteristiche simili a quella primaria e che quindi può essere usata al suo posto)

Il secondo passaggio fondamentale è l'arresto della costruzione dell'albero.

Il processo della costruzione dell'albero è interrotto quando si verificano alcune fra queste condizioni:

-i nodi figli terminali contengono solo una osservazione. -tutte le osservazioni all'interno di ogni nodo figlio hanno identica distribuzione delle variabili predittrici, che rende imposssibile un'ulteriore suddivisione. -È stata raggiunta la massima profondità dell'albero.

L'albero “massimale creato generalmente presenta un'eccessiva frastagliatura. Un albero ottimo non è detto che debba avere la medesima profondità in ogni suo ramo.

Il terzo passaggio fondamentale è la potatura dell'albero

Per generare la sequenza di alberi più semplici viene utilizzato il metodo della potatura “costo- complessità” basato sul parametro di complessità che viene gradualmente incrementato nella fase di potatura.

Il quarto e ultimo passaggio consiste nella selezione ottimale dell'albero.

Si deve attuare la selezione dell'albero ottimale poiché l'albero massimo spiega troppo accuratamente l'informazione presente nei dati replicandone anche il “rumore”. Questa operazione richiederebbe un insieme di dati indipendente da quello di apprendimento, ma si può evitare questo gravoso requisito utilizzando la tecnica della Convalida Trasversale.