Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione all'Algebra Booleana e al Data Mining, Tesine universitarie di Elementi di Informatica

tesina sull'algebra booleana, data mining, algoritmo CART

Tipologia: Tesine universitarie

2015/2016

Caricato il 25/02/2016

alessia.ancona.19
alessia.ancona.19 🇮🇹

1 documento

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1. L’algebra booleana
Nata a metà del secolo scorso ad opera di George Boole, l’algebra booleana ha costituito
uno strumento molto potente per la progettazione dei circuiti dei calcolatori elettronici. Il
linguaggio di tale algebra permette applicazioni importanti nella meccanizzabilità dei
ragionamenti e nell’interazione con l’elaboratore.
Nell’algebra booleana sono ammessi soltanto due valori: VERO e FALSO.
I{V;F}
Pertanto ogni variabile può assumere solo uno dei due valori suddetti. Queste variabili
prendono il nome di variabili booleane oppure di entità binarie nel caso in cui ai valori
VERO e FALSO si fanno corrispondere le cifre, rispettivamente, di 1 e 0.
Sulle variabili booleane possono essere compiute determinate operazioni i cui risultati
sono ricavabili dalle cosiddette tabelle di verità tra gli operatori utilizzati su entità binarie.
I principali operatori booleani sono:
AND o prodotto logico (moltiplicazione): corrisponde all’intersezione (simbolo )
Date due proposizioni A e B l’operatore AND permette di costruire una nuova
proposizione “A AND B” che è VERA solo se A e B sono entrambe vere.
A B A B
VVV
V F F
F V F
FFF
OR o somma logica (addizione): corrisponde all’unione (simbolo )
Date due proposizioni A e B l’operatore OR permette di costruire una nuova
proposizione “A OR B” che sarà FALSA solo se A e B sono entrambe false.
A B A B
F F F
F V V
1
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica Introduzione all'Algebra Booleana e al Data Mining e più Tesine universitarie in PDF di Elementi di Informatica solo su Docsity!

1. L’algebra booleana

Nata a metà del secolo scorso ad opera di George Boole, l’algebra booleana ha costituito uno strumento molto potente per la progettazione dei circuiti dei calcolatori elettronici. Il linguaggio di tale algebra permette applicazioni importanti nella meccanizzabilità dei ragionamenti e nell’interazione con l’elaboratore. Nell’algebra booleana sono ammessi soltanto due valori: VERO e FALSO.

I{V;F}

Pertanto ogni variabile può assumere solo uno dei due valori suddetti. Queste variabili prendono il nome di variabili booleane oppure di entità binarie nel caso in cui ai valori VERO e FALSO si fanno corrispondere le cifre, rispettivamente, di 1 e 0. Sulle variabili booleane possono essere compiute determinate operazioni i cui risultati sono ricavabili dalle cosiddette tabelle di verità tra gli operatori utilizzati su entità binarie.

I principali operatori booleani sono:

AND o prodotto logico (moltiplicazione): corrisponde all’intersezione (simbolo )

Date due proposizioni A e B l’operatore AND permette di costruire una nuova proposizione “A AND B” che è VERA solo se A e B sono entrambe vere.

A B A B V V V V F F F V F F F F

OR o somma logica (addizione): corrisponde all’unione (simbolo )

Date due proposizioni A e B l’operatore OR permette di costruire una nuova proposizione “A OR B” che sarà FALSA solo se A e B sono entrambe false.

A B A B

F F F

F V V

V F V

V V V

NOT o negazione logica( complemento a 1): corrisponde alla complementazione (simbolo ¯)

Il risultato è il complemento dell’unica variabile.

A Ā

V F

F V

Gli operatori aggiuntivi sono:

NAND o prodotto logico negato: date due proposizioni A e B l’operatore NAND permette di costruire una nuova proposizione “A NAND B” che è VERA solo se L’AND tra A e B è falso.

A B A NAND B

V V F

F F V

F V V

V F V

2. Applicazione dell’operatore NAND per PEN DRIVE:

La memoria flash o flash memory, è una tipologia di memoria a stato solido, di tipo non volatile, che per le sue prestazioni può anche essere usata come memoria a lettura- scrittura. Quando viene utilizzata come ROM viene anche chiamata flash ROM. In una memoria flash le informazioni vengono registrate in un array di Floating Gate MOSFET, una tipologia di transistor ad effetto di campo in grado di mantenere carica elettrica per un tempo lungo. Ogni transistor costituisce una "cella di memoria" che conserva il valore di un bit. Le nuove flash utilizzano delle celle multilivello che permettono di registrare il valore di più bit attraverso un solo transistor. La tecnologia Flash ha reso possibile il salvataggio o la cancellazione di dati in un unico passo, introducendo un incredibile guadagno in velocità, e grazie alla non-volatilità è usata frequentemente nelle fotocamere digitali, nei lettori di musica portatili, nei cellulari, nelle pen drive (chiavette USB), nei palmari, nei moderni computer portatili e in molti altri dispositivi che richiedono un'elevata portabilità e una buona capacità di memoria per il salvataggio dei dati. Tecnicamente si distinguono due tipi di memoria flash: la NOR e la NAND. La NAND (che come la NOR prende il nome dal tipo di operazione logica impiegata nel processo di funzionamento) è più rapida in fase di cancellazione e scrittura, ha una densità più alta (quindi una capacità di memorizzazione maggiore) e un costo per byte (ossia per unità di capacità di memoria) minore rispetto alla memoria NOR. Lo svantaggio è che può accedere ai dati solo in modo sequenziale, ossia in modo da recuperarli in un ordine prestabilito. Questo le rende adatte per un impiego sulle memory card dei PC o di altri dispositivi portatili, perché la necessità di un’estrema velocità nel recupero delle informazioni registrate non si pone. Sul piano delle prestazioni, le memorie flash non perdono i dati memorizzati quando vengono disconnesse dall’alimentazione di corrente e possono essere trasferite da un sistema all’altro senza problemi. Inoltre sono estremamente compatte e non contenendo parti meccaniche, sono robuste e più resistenti agli urti, il che le rende ideali per essere associate a dispositivi portatili come le macchine fotografiche digitali o i lettori multimediali. Rilevante anche l’amplissimo intervallo di temperature a cui le memorie flash sono in grado di funzionare: da -45°C a +85°C.

La pen drive è un’unità di memorizzazione di massa portatile che, tramite porta USB si collega al Personal computer. Al suo interno è utilizzata una memoria di tipo flash. La prima flash memory fu creata da INTEL nel 1988 con il nome di NOR flash. Successivamente la TOSHIBA ha realizzato la sua memoria flash basata su tecnologia NAND, risultando più veloce, meno costosa e di dimensioni

inferiori (seppur con capacità di immagazzinamento di dati superiore rispetto alla NOR flash).

3. Introduzione al Data Mining

il Data Mining (scelta dell’algoritmo, individuazione dei parametri, elaborazione e valutazione del modello) fa parte di un processo più generale definito processo di estrazione della conoscenza (Knowledge Discovery in Database, KDD).

Il Data Mining (letteralmente: estrazione di dati) è un’applicazione di supporto decisionale che permette di estrapolare informazioni strategiche dalla vasta mole di dati presenti nei sistemi informatici aziendali con l’obiettivo di individuare le informazioni più significative e di renderle disponibili e direttamente utilizzabili nell’ambito del decision making. Gli strumenti del Data Mining si dividono in due gruppi:

  1. Strumenti d’indagine che identificano relazioni e tendenze nei dati, aiutando a scoprire correlazioni fra variabili differenti:

♦ Indagine esplorativa visuale; ♦ Alberi decisionali; ♦ Reti neurali; ♦ Cluster analysis o analisi di segmentazione; ♦ Analisi fattoriale; ♦ Association rules o regole di associazione; ♦ Rule induction o induzione di regole.

  1. Strumenti di verifica che servono a convalidare le scoperte fatte in sede di indagine, per garantire decisioni corrette:

♦ Correlazioni; ♦ ANOVA; ♦ Regressione lineare; ♦ Analisi discriminante.

Le applicazioni del Data Mining hanno già dato importanti risultati in settori quali: banche, gestione clienti, marketing mirato, telecomunicazioni, medicina, astronomia , progettazione web e promozioni. I dati collezionati su cui condurre l’indagine possono essere personali e

L’algoritmo del programma CART rappresenta una importante applicazione dell’informatica per le Aziende e le amministrazioni in genere, per la Comunicazione e Decisione delle Imprese e per la Ricerca Sociale; è basato sugli alberi di classificazione, per l’estrazione dei dati da un sistema informativo. La metodologia di analisi CART (Classification And Regression Trees) fu sviluppata da Breiman nel 1984 e si basa sulla costruzione di alberi di Classificazione o di Regressione.

Nell’analisi CART vi sono quattro componenti principali:

  1. La variabile obiettivo (target) che vogliamo stimare;
  2. Le variabili predittrici (predictors), ovvero le informazioni note;
  3. (^) L’insieme dei dati di apprendimento (learning data set), cioè i dati che contengono alcune associazioni note fra variabile obiettivo e variabili predittive;
  4. L’insieme dei dati di verifica (test data test), un insieme similare a quello di apprendimento usato per verificare la qualità della classificazione.

In aggiunta a questi elementi nei problemi di decisione vi sono anche le informazioni relative al “costo” di una errata classificazione; tali costi sono dipendenti dalla specifica applicazione ed obiettivo da raggiungere. L’analisi produce un albero binario in cui ogni nodo interno corrisponde ad una scelta sulla base di una domanda.

L’analisi CART presenta un certo numero di vantaggi:

♦ L’analisi CART è intrinsecamente non parametrica, cioè non viene formulato alcun presupposto sulla distribuzione di base dei valori delle variabili predittrici. Quindi CART può maneggiare sia dati numerici, sia dati non numerici a struttura ordinale o non ordinale; ciò fa risparmiare all’analista tempo necessario ad effettuare una serie di transcodifiche per rendere le variabili con distribuzione normale. ♦ CART identifica le variabili di suddivisione (splitting) effettuando una ricerca esauriente di tutte le possibilità attraverso efficienti algoritmi e quindi funziona nei problemi con molte centinaia di possibili predittori. ♦ CART usa metodi sofisticati per trattare le variabili mancanti, quindi è possibile ottenere risultati utili anche qualora siano parzialmente mancanti le determinazioni delle variabili predittrici in alcuni record dell’insieme dei dati di apprendimento. ♦ L’analisi CART limita le preparazioni sui dati da parte dell’analista fornendo un metodo relativamente automatico di apprendimento. ♦ Gli alberi di CART sono relativamente semplici da interpretare per coloro che non sono statistici.

L’analisi CART consiste in quattro passi base:

  1. Costruzione dell’albero usando lo splitting ricorsivo di nodi. Ad ogni nodo risultante è assegnata una classe di predittori, in base alla distribuzione delle classi dell’insieme dei dati di apprendimento che si presenta in quel nodo ed alla matrice di costo della decisione. Tale assegnazione avviene anche se quel nodo verrà successivamente suddiviso in nodi figli;
  1. Arresto del processo di costruzione dell’albero. Ad un certo punto della fase di suddivisione si perviene ad un albero “massimale”, che probabilmente contiene oltremisura le informazioni dell’insieme dei dati di apprendimento;
  2. Potatura o “pruning” dell’albero, il cui risultato è la creazione di una sequenza di alberi più semplici, ottenuti tramite il riaccorpamento di nodi via via più importanti;
  3. selezione ottimale dell’albero. Fra gli alberi precedentemente potati viene scelto quello che meglio rappresenta le informazioni presenti nell’insieme dei dati di apprendimento, pur non presentando tali informazioni oltremisura. 6. Il programma CART, la struttura e l’utilizzo

Il programma CART della Salford Systems è l’unico sistema di alberi di decisione basato sull’algoritmo originale sviluppato dagli statistici della Stanford University e della Università della California a Berkley. L’attuale versione (5.0) include anche alcune migliorie sviluppate dalla Salford Systems con gli originali ideatori.

Le caratteristiche peculiari di CART sono:

♦ una strategia di potatura affidabile; ♦ (^) un potente approccio di ricerca degli schemi nascosti basato su suddivisioni binarie; ♦ procedure di “auto validazione” automatiche;

CART permette di trovare il modello di numerosi problemi reali tramite una distintiva combinazione di soluzioni automatizzate:

♦ (^) suddivisioni surrogati gestiscono intelligentemente i valori mancanti; ♦ penalità di erronea classificazione regolabile; ♦ ampia scelta di criteri di suddivisione alternativi.

La versione per Windows è composta da quattro sezioni:

  1. la barra del titolo;
  2. i menu;
  3. la barra degli strumenti;
  4. l’area di lavoro dove verranno visualizzate le finestre per i comandi ed i risultati.

All’avvio del programma viene mostrata nell’area di lavoro la finestra CART aperta suddivisa in due sezioni: sulla sinistra si trova “Report Contents” (dove verranno visualizzati dei collegamenti per accedere alle sezioni principali dei risultati) e sulla destra vi è la zona di immissione dei comandi testuali e di risposta testuale (all’avvio sono scritti i valori delle impostazioni principali del programma). Dopo l’elaborazione viene mostrata la finestra “Navigator” con i risultati in forma grafica. Le medesime informazioni sono riportate in forma testuale nella finestra CART.

Come si utilizza il programma CART: