Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Algoritmi e Data Mining: Proprietà Fondamentali degli Algoritmi e Caso Volkswagen, Tesine universitarie di Elementi di Informatica

Una prima tesina di informatica del corso di Laurea in Comunicazione, Tecnologie e Culture Digitali dell'Università La Sapienza di Roma. Esplora la definizione di algoritmo e le sue proprietà fondamentali. Successivamente, descrive il caso Volkswagen e come l'utilizzo di un software per bypassare i controlli ha portato alla luce il trucco di emissioni inquinanti. Infine, introduce l'algoritmo di Calderoli e il suo utilizzo per creare varianti di testi. Il documento conclude con l'introduzione del Data Mining e i suoi strumenti.

Tipologia: Tesine universitarie

2019/2020

Caricato il 20/05/2020

jestal961
jestal961 🇮🇹

4.3

(14)

10 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
UNIVERSITÀ “LA SAPIENZA” DI ROMA
FACOLTÀ DI SCIENZE POLITICHE, SOCIOLOGIA, COMUNICAZIONE
CORSO DI LAUREA IN COMUNICAZIONE, TECNOLOGIE E CULTURE
DIGITALI
PRIMA TESINA DI INFORMATICA:
ALGORITMI, DATA MINING E “CART”
ANNO ACCADEMICO 2015-2016
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Algoritmi e Data Mining: Proprietà Fondamentali degli Algoritmi e Caso Volkswagen e più Tesine universitarie in PDF di Elementi di Informatica solo su Docsity!

UNIVERSITÀ “LA SAPIENZA” DI ROMA

FACOLTÀ DI SCIENZE POLITICHE, SOCIOLOGIA, COMUNICAZIONE

CORSO DI LAUREA IN COMUNICAZIONE, TECNOLOGIE E CULTURE

DIGITALI

PRIMA TESINA DI INFORMATICA:

ALGORITMI, DATA MINING E “CART”

ANNO ACCADEMICO 2015-

Che cos’è un algoritmo?una sequenza ordinata e finita di passi elementari che conduce a un ben determinato risultato in un tempo finito .” Da questa definizione, si deducono quindi le seguenti proprietà fondamentali che deve avere un qualunque algoritmo:  i passi dell’algoritmo devono essere elementari, cioè non possono essere ulteriormente divisibili ( atomicità );  i passi dell’algoritmo non possono essere interpretati in altri modi ( non ambiguità );  l’algoritmo deve per forza essere svolto in un certo numero di specifici passi e, nello stesso tempo, deve richiedere in ingresso soltanto una determinata quantità di dati ( finitezza );  l’esecuzione dell’algoritmo deve terminare entro un certo periodo di tempo ( terminazione );  l’esecuzione dell’algoritmo deve portare ad un risultato univoco ( effettività );  ogni passo dell’algoritmo deve essere ben stabilito ( determinismo ). Algoritmo emissioni diesel La diffusione pubblica del caso Volkswagen è avvenuta in modo improvviso, altrettanto immediato è stato il crollo del titolo borsistico. La scoperta del trucco ideato dal colosso automobilistico tedesco, però, risale a parecchio tempo fa. Grazie a un grande lavoro di analisi dei dati e un pizzico di buona sorte la vicenda è emerso lo scandalo e il Ceo Martin Winterkorn ha dovuto presentare le dimissioni. Esso ebbe inizio nei primi mesi del 2014. I primi sospetti sorgono a Peter Mock, responsabile per l’Europa dell’International Council on Clean Transportation.

Creano milioni di varianti, piccole o grandi, partendo da un numero contenuto di modelli base, di regole grammaticali, di sinonimi. La produzione è ricca perché dipende da tre software incrociati, invenzione di Calderoli insieme col suo staff di ragazzi. I tre algoritmi funzionano più o meno così: scritto un emendamento, il computer lo riscrive spostando la virgola varie volte nel medesimo testo, creando altrettante varianti dell’emendamento, e lo stesso avviene per esempio con l’uso dei sinonimi. Come Calderoli spiega in modo volutamente elementare, «se in un emendamento scrivo la parola pera, l’algoritmo me lo riscriverà sostituendo pera con frutta, e poi con vegetale, e così via». Algoritmo MIUR per le assunzioni Il MIUR ha introdotto un piano di assunzioni di docenti. Per le assunzioni è stato scritto un algoritmo che incrocia le informazioni di fascia, punteggio e preferenze degli aspiranti. L’ordine di priorità con cui vengono esaminati i singoli candidati rispetto ai concorrenti presenti nella medesima graduatoria nazionale è dato solo dalla combinazione “fascia / punteggio / titoli” a livello nazionale. L’ordine con cui sono esaminate le province per ciascun candidato è dato dall’indicazione di preferenza delle 100 province espresse dal medesimo. Per ogni provincia, tipo di posto, insegnamento, gli aspiranti sono graduati fra loro a partire da quello con maggiore diritto. Nell'ambito di ciascuna provincia, viene data priorità a quello per il quale l'aspirante presenta Fascia/punteggio maggiore. A parità di Fascia/punteggio viene data priorità al grado di istruzione maggiore e, in caso di parità, si segue l'ordine crescente del codice delle classi di concorso. Per la tipologia di posto “sostegno” avviene lo stesso procedimento.

Data Mining Il Data Mining è il processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni nascoste tra le informazioni e le rendono visibili. In altre parole, col nome di Data Mining si intende l’applicazione di una o più tecniche che consentono l’esplorazione di grandi quantità di dati, con l’obiettivo di individuare le informazioni più significative e di renderle disponibili e utilizzabili nell’ambito del decision making. L’estrazione di informazioni significative avviene tramite individuazione delle associazioni o sequenze ripetute o regolarità nascoste nei dati. Esempi Cosa non può essere definito Data Mining:  cercare un numero di telefono nell'elenco;  fare una ricerca in Internet su "vacanze alle Maldive". Cosa può essere definito Data Mining:  fare una ricerca nel web su una parola chiave e classificare i documenti trovati secondo un criterio semantico (per esempio "corriere": nome di giornale, professione, ecc.);  scoprire chi sono i clienti che hanno maggiore propensione di acquisto su certi prodotti o campagne pubblicitarie. Gli strumenti del Data Mining si dividono in due gruppi:

  • Indagine
  • Verifica e sono entrambi necessari per completare il processo del Data Mining.

Applicazioni del Data Mining Queste tecniche sono applicabili a qualsiasi ambito di indagine, in generale trovano applicazione tutte le volte che siamo di fronte a grandi quantità di dati e abbiamo l'esigenza di conoscerne il contenuto. Le applicazioni del Data Mining hanno già dato importanti risultati in molti settori, come per esempio:

  • Banche:  predire l’affidabilità di un cliente per un prestito  predire l’uso di carte di credito rubate
  • Telecomunicazioni:  predire l’evenienza di un guasto in base alla sequenza di malfunzionamenti.
  • Medicina:  trovare una terapia più economica ma ugualmente efficace per un paziente.
  • Astronomia:  identificare una nuova galassia analizzando le immagini digitali dal telescopio. Algoritmo CART La metodologia di analisi CART (Classification And Regression Trees) fu sviluppata nel 1894 ed è basato sulla costruzione di alberi di Classificazione e Regressione. Nell’analisi CART vi sono 4 elementi principali: la variabile obiettivo, ovvero quella che vogliamo stimare; le variabili predittrici, cioè le informazioni note; l’insieme dei dati di apprendimento che contengono associazioni note fra variabile obiettivo e variabili predittrici; l’insieme di dati di verifica. L’algoritmo CART, permette di generare alberi binari, ovvero alberi in cui ad ogni nodo corrispondono due soli rami; tuttavia il CART è alla base di altri algoritmi che generano alberi più complessi.

L’analisi CART presenta un certo numero di vantaggi rispetto ad altri metodi di classificazione. Il primo vantaggio è quello di poter maneggiare sia dati numerici, sia non numerici a struttura ordinale e non ordinale. CART inoltre usa metodi sofisticati per trattare variabili mancanti, ottenendo quindi risultati ugualmente utili. Infine gli alberi di CART sono relativamente semplici da interpretare per coloro che non sono statistici. L’analisi CART consiste in quattro passi base:  costruzione dell’albero  arresto della costruzione dell’albero  potatura dell’albero  selezione ottimale dell’albero La costruzione dell’albero comincia al nodo della radice, che include tutti i record (osservazione) dell’insieme dei dati di apprendimento. Cominciando con questo nodo, il programma CART trova la variabile migliore per dividere i record del nodo in due suoi nodi figli, esaminando tutte le variabili possibili. Il processo di suddivisione dei nodi è ripetuto per ogni nodo figlio ed è continuato fino a quando è possibile suddividere i dati presenti nel nodo in due classi. Il processo della costruzione dell’albero è interrotto quando i nodi figli terminali contengono una sola osservazione (record) o quando le osservazioni dei nodi figli hanno identica distribuzione delle variabili predittrici ed è impossibile continuare la suddivisione, oppure quando l’albero ha raggiunto ha raggiunto massima profondità. Per trovare l’albero più piccolo che meglio si adatta ai dati, bisogna potare alcuni rami partendo dai livelli terminali, in modo da diminuire l’errore complessivo dell’albero. L’albero massimo costruito sul gruppo di dati di apprendimento originale, generalmente spiega troppo accuratamente l’informazione. Perciò è meglio ricercare un albero più semplice che approssima sufficientemente l’informazione senza tralasciare caratteristiche importanti presenti nei dati.