Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Algoritmo CART, Prove d'esame di Elementi di Informatica

Università degli Studi di Roma La Sapienza (UNIROMA1)Elementi di Informatica

1. Algoritmo del programma CART, basato sugli alberi di classificazione per l’estrazione dei dati da un sistema informatico.

Tipologia: Prove d'esame

2015/2016

Caricato il 27/04/2016

ale.schipani 🇮🇹

4.3

(10)

9 documenti

1 / 5

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

1. Algoritmo del programma CART, basato sugli alberi di

classificazione per l’estrazione dei dati da un sistema informatico

2.1 Introduzione

I processi aziendali sono caratterizzati dalla scoperta di nuove relazioni e tendenze

usando:

•Tecniche di riconoscimento delle relazioni

•Tecniche statistiche e matematiche

Per ovviare a questo problema sono stati sviluppati molti programmi basati su particolari

algoritmi di classiﬁcazione dei dati, come il programma Cart.

Questo programma utilizza nuovi strumenti come Datawarehouse, Data mining

e gli alberi di decisione, strumenti in grado di selezionare i dati e collegarli fra

loro, rendendo il lavoro degli impiegati molto più semplice e intuitivo.

Prima di vedere nello speciﬁco il funzionamento dell'algoritmo del programma

CART si devono analizzare i vari strumenti sfruttati dal programma.

2.2 Il Datawarehouse

Il DW, detto anche “Sistema Informativo Aziendale” raccoglie, organizza,

elabora, gestisce ed utilizza tutta l’informazione necessaria per la conduzione

dell’azienda.

Le componenti di un DW possono essere divise in due categorie a seconda

della loro ﬁnalità:

•Componenti per il supporto dell’attività operativa: si occupa di archiviare

ed elaborare tutta l’informazione per lo svolgimento dell’attività

quotidiana

•Componenti per il supporto decisionale: Analisi delle informazioni per

supportare i dirigenti nelle scelte strategiche

Il “Sistema Informativo Aziendale” è l’insieme degli strumenti Hardware e

Software che permettono di gestire in maniera automatizzata l’informazione

aziendale. Possono essere divisi in due categorie: applicazioni transazionali

(sistemi e procedure informatiche di supporto all’attività operazionale

quotidiana) e Sistemi di supporto alle decisioni (procedure informatiche di

supporto alle scelte strategiche).

La deﬁnizione più rappresentativa di DW è stata data da W.H. Inmon

deﬁnendola realizzabile tramite una base di dati di supporto al processo

decisionale che sia:

1. Orientata a soggetti: A diﬀerenza dei tradizionali database un data

warehouse è orientato ai soggetti che determinano le scelte dei

manager e permettono di raggruppare e confrontare i soggetti tra

loro.

Scopri Prove d'esame di Elementi di Informatica Università degli Studi di Roma La Sapienza (UNIROMA1)

Documenti correlati

Algoritmo per l'estrazione di radice quadrata

(1)

Tesina 1 cart e data mining

Algoritmo del programma CART (dal libro "Introduzione all'Informatica" di A. Scaringella)

tesina algoritmi e programma cart - informatica

Tesina informatica : algebra booleana e programma cart

paziente ematologico e carT: infermieristica della cronicità

algoritmo informatico

Tesina informatica sull?algoritmo

Algoritmo informatica

Definizione Algoritmo

Algoritmo ricorsivo

Algoritmo eq.differenziali

Anteprima parziale del testo

Scarica Algoritmo CART e più Prove d'esame in PDF di Elementi di Informatica solo su Docsity!

1. Algoritmo del programma CART, basato sugli alberi di

classificazione per l’estrazione dei dati da un sistema informatico

2.1 Introduzione

I processi aziendali sono caratterizzati dalla scoperta di nuove relazioni e tendenze usando:

Tecniche di riconoscimento delle relazioni
Tecniche statistiche e matematiche

Per ovviare a questo problema sono stati sviluppati molti programmi basati su particolari algoritmi di classificazione dei dati, come il programma Cart.

Questo programma utilizza nuovi strumenti come Datawarehouse, Data mining e gli alberi di decisione, strumenti in grado di selezionare i dati e collegarli fra loro, rendendo il lavoro degli impiegati molto più semplice e intuitivo.

Prima di vedere nello specifico il funzionamento dell'algoritmo del programma CART si devono analizzare i vari strumenti sfruttati dal programma.

2.2 Il Datawarehouse

Il DW, detto anche “Sistema Informativo Aziendale” raccoglie, organizza, elabora, gestisce ed utilizza tutta l’informazione necessaria per la conduzione dell’azienda.

Le componenti di un DW possono essere divise in due categorie a seconda della loro finalità:

Componenti per il supporto dell’attività operativa: si occupa di archiviare ed elaborare tutta l’informazione per lo svolgimento dell’attività quotidiana
Componenti per il supporto decisionale: Analisi delle informazioni per supportare i dirigenti nelle scelte strategiche

Il “Sistema Informativo Aziendale” è l’insieme degli strumenti Hardware e Software che permettono di gestire in maniera automatizzata l’informazione aziendale. Possono essere divisi in due categorie: applicazioni transazionali (sistemi e procedure informatiche di supporto all’attività operazionale quotidiana) e Sistemi di supporto alle decisioni (procedure informatiche di supporto alle scelte strategiche).

La definizione più rappresentativa di DW è stata data da W.H. Inmon definendola realizzabile tramite una base di dati di supporto al processo decisionale che sia:

Orientata a soggetti: A differenza dei tradizionali database un data warehouse è orientato ai soggetti che determinano le scelte dei manager e permettono di raggruppare e confrontare i soggetti tra loro.

Integrata e Consistente: Nel datawarehouse confluiscono dati provenienti da più sistemi transazionali e da fonti esterne. L'obiettivo dell'integrazione può essere raggiunto percorrendo differenti strade: mediante l'utilizzo di metodi di codifica uniformi, mediante il perseguimento di una omogeneità semantica di tutte le variabili, mediante l'utilizzo delle stesse unità di misura.
Rappresentativa dell’evoluzione temporale: In una data warehouse l’intervallo di tempo si allarga fino ad arrivare a coprire un arco di 5- anni. I dati tengono conto anche della storia dei soggetti e deve sempre contenere qualche elemento di tempo.
Non volatile: I dati contenuti nel datawarehouse non devono essere modificati dall’utente poiché esso viene usato per fare indagini e non per inserire o modificare operazioni.

2.3 Il Datamining

Il datamining è un processo atto a scoprire correlazioni relazioni e nuove tendenze, setacciando grandi quantità di dati immagazzinati in archivi, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche.

Il Data mining non è altro che l'unione di precedenti tecnologie e tecniche unite insieme grazie allo sviluppo di tecniche avanzate di analisi come:

-Miglior accesso ai dati -Grande incremento delle capacità di elaborazione, in particolare dei desktop -Miglior educazione statistica -Grandi cambiamenti nei software, più facili ed intuitivi da utilizzare

Il Data mining non prende decisioni, ma trova relazioni nei dati e quindi fornisce ai decisori le informazioni utili per operare scelte consapevoli.

Gli strumenti del data mining si dividono in due gruppi: indagine e verifica.

Per quanto riguarda gli strumenti di indagine ne esistono molteplici:

L'indagine esplorativa visuale, che sfrutta le doti di percezione dell'individuo come metodo di analisi.
Alberi decisionali, permettono di identificare velocemente ed efficacemente segmenti e gruppi significativi
Reti neurali, che simulano il processo di funzionamento del cervello umano.
L'analisi cluster, raggruppa casi o variabili in base a misure di similarità.
L'analisi fattoriale, ricava fattori riassuntivi detti “variabili latenti” che concentrano le informazioni contenute originariamente in un numero elevato di variabili.
Modelli di associazione, esaminano le interdipendenze tra le variabili.
L'induzione di regole, tecnica molto potente per scoprire le relazioni presenti nei dati.

Anche per gli strumenti di verifica si può parlare di:

Selezione di una regola di splitting per ogni nodo; ciò significa determinare le variabili, insieme al rispettivo valore soglia, che saranno usate per partizionare il data set ad ogni nodo.
Determinare quali nodi sono da intendersi terminali; quindi per ogni nodo bisogna decidere quando continuare con gli splits, quando fermarsi e considerare il nodo come terminale e di conseguenza assegnargli un’etichetta. Infatti senza un’adeguata regola, si corre il rischio di costruire alberi troppo grandi con una piccola capacità di generalizzazione, oppure alberi troppo piccoli che invece approssimano male i dati.
Assegnare le etichette ad ogni nodo terminale, ad esempio minimizzando il valore atteso di errata classificazione.

A partire da un qualunque tipo di problema è quasi sempre possibile costruire l’albero di decisione corrispondente. Ad esempio con il seguente albero si può rappresentare il processo decisionale in base al quale decidere se entrare in un qualunque ristorante.

2.5 L’algoritmo CART

La metodologia di analisi CART (Classification And Regression Trees) si basa sulla costruzione di alberi di classificazione e regressione.

Nell'analisi CART vi sono quattro componenti principali:

-La variabile obiettivo (target), la variabile che vogliamo stimare. -Variabili predittrici (predictors), le informazioni note. -L'insieme dei dati di apprendimento (learning data set) dati con associazioni tra variabili predittive e variabile obiettivo. -L'insieme dei dati di verifica (test data set)

In aggiunta vi sono anche le informazioni relative al “costo i un'errata classificazione, tali costi variano a seconda della situazione e a seconda dell'obiettivo da raggiungere.

Questo programma è particolarmente vantaggioso per le sue caratteristiche innovative. In primo luogo CART è intrinsecamente non parametrica. Cioè non viene formulato alcun presupposto sulla distribuzione di base dei valori delle variabili predittrici, quindi CART può maneggiare sia dati numerici sia dati non numerici. Inoltre CART identifica le variabili di suddivisione effettuando una ricerca esauriente di tutte le possibilità attraverso efficienti algoritmi e quindi funziona anche nei problemi con molte centinaia di predittori. Infine CART usa metodi sofisticati per trattare le variabili mancanti: non viene scartato l'intero dato ma nell'analisi sono individuate delle variabili surrogate che vengono poi usato quando per il predittore in esame mancano i valori.

L'analisi di CART si sviluppa in diversi passaggi fondamentali per ottenere il risultato migliore.

Il primo passaggio consiste nella costruzione dell'albero di decisione.

La costruzione dell'albero comincia dal nodo radice, che include tutti i record dei dati di apprendimento. In questa fare CART dovrà trovare la variabile migliore per cominciare la suddivisone dei nodi, esaminando tutte le variabili di suddivisione. Nella scelta del divisore migliore, il programma cerca di elevare la purezza media dei due nodi figli tramite alcune funzioni o criteri di suddivisione. La funzioni di suddivisione più famose sono la “Gini” seguito da “Twoing”, il processo di suddivisione dei nodi con conseguente assegnazione di una classe di predittori è ripetuto per ogni nodo figlio ed è continuato ricorsivamente fino a quando è possibile suddividere i dati presenti nel nodo in due classi. Ad ogni nodo è assegnata una classe di predittori, questa assegnazione della classe anche ai nodi non terminali è necessaria in quanto durante la fare di costruzione dell'albero non è possibile sapere se nella successiva fase di potature un determinato nodo da intermedio diventa terminale. Per ogni nodo “la variabile suddivisione primaria” è quella che suddivide meglio il nodo in base alla purezza dei nodi figli. Qualora per una specifica osservazione tale variabile risulti assente si cerca una variabile surrogata (Un divisore surrogato è una variabile che presenta caratteristiche simili a quella primaria e che quindi può essere usata al suo posto)

Il secondo passaggio fondamentale è l'arresto della costruzione dell'albero.

Il processo della costruzione dell'albero è interrotto quando si verificano alcune fra queste condizioni:

-i nodi figli terminali contengono solo una osservazione. -tutte le osservazioni all'interno di ogni nodo figlio hanno identica distribuzione delle variabili predittrici, che rende imposssibile un'ulteriore suddivisione. -È stata raggiunta la massima profondità dell'albero.

L'albero “massimale creato generalmente presenta un'eccessiva frastagliatura. Un albero ottimo non è detto che debba avere la medesima profondità in ogni suo ramo.

Il terzo passaggio fondamentale è la potatura dell'albero

Per generare la sequenza di alberi più semplici viene utilizzato il metodo della potatura “costo- complessità” basato sul parametro di complessità che viene gradualmente incrementato nella fase di potatura.

Il quarto e ultimo passaggio consiste nella selezione ottimale dell'albero.

Si deve attuare la selezione dell'albero ottimale poiché l'albero massimo spiega troppo accuratamente l'informazione presente nei dati replicandone anche il “rumore”. Questa operazione richiederebbe un insieme di dati indipendente da quello di apprendimento, ma si può evitare questo gravoso requisito utilizzando la tecnica della Convalida Trasversale.