



Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
1. Algoritmo del programma CART, basato sugli alberi di classificazione per l’estrazione dei dati da un sistema informatico.
Tipologia: Prove d'esame
1 / 5
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




I processi aziendali sono caratterizzati dalla scoperta di nuove relazioni e tendenze usando:
Per ovviare a questo problema sono stati sviluppati molti programmi basati su particolari algoritmi di classificazione dei dati, come il programma Cart.
Questo programma utilizza nuovi strumenti come Datawarehouse, Data mining e gli alberi di decisione, strumenti in grado di selezionare i dati e collegarli fra loro, rendendo il lavoro degli impiegati molto più semplice e intuitivo.
Prima di vedere nello specifico il funzionamento dell'algoritmo del programma CART si devono analizzare i vari strumenti sfruttati dal programma.
Il DW, detto anche “Sistema Informativo Aziendale” raccoglie, organizza, elabora, gestisce ed utilizza tutta l’informazione necessaria per la conduzione dell’azienda.
Le componenti di un DW possono essere divise in due categorie a seconda della loro finalità:
Il “Sistema Informativo Aziendale” è l’insieme degli strumenti Hardware e Software che permettono di gestire in maniera automatizzata l’informazione aziendale. Possono essere divisi in due categorie: applicazioni transazionali (sistemi e procedure informatiche di supporto all’attività operazionale quotidiana) e Sistemi di supporto alle decisioni (procedure informatiche di supporto alle scelte strategiche).
La definizione più rappresentativa di DW è stata data da W.H. Inmon definendola realizzabile tramite una base di dati di supporto al processo decisionale che sia:
Il datamining è un processo atto a scoprire correlazioni relazioni e nuove tendenze, setacciando grandi quantità di dati immagazzinati in archivi, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche.
Il Data mining non è altro che l'unione di precedenti tecnologie e tecniche unite insieme grazie allo sviluppo di tecniche avanzate di analisi come:
-Miglior accesso ai dati -Grande incremento delle capacità di elaborazione, in particolare dei desktop -Miglior educazione statistica -Grandi cambiamenti nei software, più facili ed intuitivi da utilizzare
Il Data mining non prende decisioni, ma trova relazioni nei dati e quindi fornisce ai decisori le informazioni utili per operare scelte consapevoli.
Gli strumenti del data mining si dividono in due gruppi: indagine e verifica.
Per quanto riguarda gli strumenti di indagine ne esistono molteplici:
Anche per gli strumenti di verifica si può parlare di:
A partire da un qualunque tipo di problema è quasi sempre possibile costruire l’albero di decisione corrispondente. Ad esempio con il seguente albero si può rappresentare il processo decisionale in base al quale decidere se entrare in un qualunque ristorante.
La metodologia di analisi CART (Classification And Regression Trees) si basa sulla costruzione di alberi di classificazione e regressione.
Nell'analisi CART vi sono quattro componenti principali:
-La variabile obiettivo (target), la variabile che vogliamo stimare. -Variabili predittrici (predictors), le informazioni note. -L'insieme dei dati di apprendimento (learning data set) dati con associazioni tra variabili predittive e variabile obiettivo. -L'insieme dei dati di verifica (test data set)
In aggiunta vi sono anche le informazioni relative al “costo i un'errata classificazione, tali costi variano a seconda della situazione e a seconda dell'obiettivo da raggiungere.
Questo programma è particolarmente vantaggioso per le sue caratteristiche innovative. In primo luogo CART è intrinsecamente non parametrica. Cioè non viene formulato alcun presupposto sulla distribuzione di base dei valori delle variabili predittrici, quindi CART può maneggiare sia dati numerici sia dati non numerici. Inoltre CART identifica le variabili di suddivisione effettuando una ricerca esauriente di tutte le possibilità attraverso efficienti algoritmi e quindi funziona anche nei problemi con molte centinaia di predittori. Infine CART usa metodi sofisticati per trattare le variabili mancanti: non viene scartato l'intero dato ma nell'analisi sono individuate delle variabili surrogate che vengono poi usato quando per il predittore in esame mancano i valori.
L'analisi di CART si sviluppa in diversi passaggi fondamentali per ottenere il risultato migliore.
Il primo passaggio consiste nella costruzione dell'albero di decisione.
La costruzione dell'albero comincia dal nodo radice, che include tutti i record dei dati di apprendimento. In questa fare CART dovrà trovare la variabile migliore per cominciare la suddivisone dei nodi, esaminando tutte le variabili di suddivisione. Nella scelta del divisore migliore, il programma cerca di elevare la purezza media dei due nodi figli tramite alcune funzioni o criteri di suddivisione. La funzioni di suddivisione più famose sono la “Gini” seguito da “Twoing”, il processo di suddivisione dei nodi con conseguente assegnazione di una classe di predittori è ripetuto per ogni nodo figlio ed è continuato ricorsivamente fino a quando è possibile suddividere i dati presenti nel nodo in due classi. Ad ogni nodo è assegnata una classe di predittori, questa assegnazione della classe anche ai nodi non terminali è necessaria in quanto durante la fare di costruzione dell'albero non è possibile sapere se nella successiva fase di potature un determinato nodo da intermedio diventa terminale. Per ogni nodo “la variabile suddivisione primaria” è quella che suddivide meglio il nodo in base alla purezza dei nodi figli. Qualora per una specifica osservazione tale variabile risulti assente si cerca una variabile surrogata (Un divisore surrogato è una variabile che presenta caratteristiche simili a quella primaria e che quindi può essere usata al suo posto)
Il secondo passaggio fondamentale è l'arresto della costruzione dell'albero.
Il processo della costruzione dell'albero è interrotto quando si verificano alcune fra queste condizioni:
-i nodi figli terminali contengono solo una osservazione. -tutte le osservazioni all'interno di ogni nodo figlio hanno identica distribuzione delle variabili predittrici, che rende imposssibile un'ulteriore suddivisione. -È stata raggiunta la massima profondità dell'albero.
L'albero “massimale creato generalmente presenta un'eccessiva frastagliatura. Un albero ottimo non è detto che debba avere la medesima profondità in ogni suo ramo.
Il terzo passaggio fondamentale è la potatura dell'albero
Per generare la sequenza di alberi più semplici viene utilizzato il metodo della potatura “costo- complessità” basato sul parametro di complessità che viene gradualmente incrementato nella fase di potatura.
Il quarto e ultimo passaggio consiste nella selezione ottimale dell'albero.
Si deve attuare la selezione dell'albero ottimale poiché l'albero massimo spiega troppo accuratamente l'informazione presente nei dati replicandone anche il “rumore”. Questa operazione richiederebbe un insieme di dati indipendente da quello di apprendimento, ma si può evitare questo gravoso requisito utilizzando la tecnica della Convalida Trasversale.