Analisi Dati: Tipi di Dati, Qualità e Visualizzazione con Boxplot e PCA | Schemi e mappe concettuali di Tecniche Di Analisi Dei Dati

Lezione 1 - 2 – Introduzione e Analisi introduttiva

Oggi enormi quantità di dati vengono raccolte e allocate con poco sforzo e con costi bassi.

I dati da soli non possono essere utilizzati così come sono per ottenere informazioni.

I dati sono una grande collezione di piccoli pezzi di informazioni.

Il cervello ha difficoltà a identificare i “pattern” tra una vasta collezione di dati.

La conoscenza sintetizza tutte le informazioni provenienti dai dati in un modello e permette

di indicarne il comportamento e fare predizioni circa il loro andamento.

Il DATO non è abbastanza per fare previsioni. Descrive:

● Una singola istanza (Singolo oggetto, persone, eventi in una determinata linea temporale)

● Una proprietà individuale

● C’è una vasta disponibilità dello stesso (Database, archivi, set di dati)

● Sono spesso semplici da collezionare od ottenere

● Non ci permettono di fare previsioni (Non è abbastanza da solo)

La CONOSCENZA invece:

● È una classe di istanze (Set di oggetti, persone, eventi, punti nel tempo…)

● Descrizive pattern generali, strutture, leggi, principi…

● Spesso è difficile e dispendiosa, in termini di tempo, da trovare

● Permette di fare predizioni e previsioni

CRITERI DI VALUTAZIONE DELLA CONOSCENZA

- Correttezza: I dati devono essere corretti, dare corretta rappresentazione della categoria

- Generalità: Il modello deve essere chiaro nel dominio e nelle condizioni di validità

- Utilità: I risultati devono dare risposta corretta per il problema e permettere predizioni

- Comprensibilità: semplicità, chiarezza, moderazione

- Novità: Deve dare conoscenze precedentemente sconosciute, inaspettate)

- Con il Machine Learning e AI bisogna spiegare perché traiamo i risultati o spiegarli

ANALISI DEI DATI

Nell’Analisi assumiamo e sviluppiamo tecniche statistiche computazionali assistite per

semplificatre o automatizzare l’analisi. Un buon punto d'inizio è l'analisi statistica dei dati:

Statistica descrittiva: Riassume dati senza fare specifiche ipotesi.

Statistica induttiva: Si manipola il processo di generazione dei dati con metodi rigorosi di

ipotesi. Le conclusioni sono valide se quest'ipotesi sono soddisfatte.

Nello studio sperimentale manipoliamo il processo di generazione del dato per uno scopo.

Si applica il test d’ipotesi: Faccio ipotesi e controllo che il dato sia coerente.

Nello studio di osservazione non possiamo controllare il processo di generazione del dato:

Il dato viene reso disponibile, così com’è, per il nostro studio.

In contrasto col test delle ipotesi c’è Analisi esplorativa dei dati (EDA): riguarda la

generazione di ipotesi (Da verificare) dal dato raccolto. Noi analizziamo il dato da diversi

punti di vista per generare alcuna ipotesi.

Analisi Dati: Tipi di Dati, Qualità e Visualizzazione con Boxplot e PCA, Schemi e mappe concettuali di Tecniche Di Analisi Dei Dati

Documenti correlati

Anteprima parziale del testo

Scarica Analisi Dati: Tipi di Dati, Qualità e Visualizzazione con Boxplot e PCA e più Schemi e mappe concettuali in PDF di Tecniche Di Analisi Dei Dati solo su Docsity!

CRITERI DI VALUTAZIONE DELLA CONOSCENZA

ANALISI DEI DATI

ATTRIBUTI DEI DATI

LA QUALITA’ DEI DATI DIPENDE DA

COMPRENSIONE DEI DATI

TABELLA CONTINGENTE

MEDIANA E MEDIA

COEFFICIENTE DI CORRELAZIONE DI PEARSON

CORRELAZIONE DEL RANGO

COEFFICIENTE DI CORRELAZIONE DEL RANGO DI SPEARMAN

COEFFICIENTE DI CORRELAZIONE DEL RANGO DI KENDALL

IL TEST DI DIPENDENZA X

P-VALUE

ERRORE CONDIZIONALE TRASPOSTO :

SCALING MULTIDIMENSIONALE (MDS)

VISUALIZZAZIONE DI DATI MULTIDIMENSIONALI

CLUSTERING GERARCHICO AGGLOMERATIVO

DISTANZA CLUSTER-A-CLUSTER

DECOMPOSIZIONE DELLA MISCELA GAUSSIANA (GMD)

IL MODELLO C-MEANS

RAGGRUPPAMENTO DEL RUMORE

COEFFICIENTE DI DISSOMIGLIANZA DI JACCARD

METRICHE ISOTROPICHE DI DISSOMIGLIANZA

DBSCAN

ALTRI ALGORITMI DI CLUSTERING

REGOLE DI ASSOCIAZIONE

REGOLE DI ASSOCIAZIONE - APRIORI

VALUTARE LE REGOLE DELL'ASSOCIAZIONE

L’ALBERO DECISIONALE OTTIMALE

ALGORITMO PER COSTRUIRE L’ALBERO DECISIONALE

L’ALGORITMO ID

VALORI MANCANTI

MISURA INFORMATIVA

POTATURA

RANDOM FOREST O FORESTA DI ALBERI DECISIONALI

TRAINING SET E VALIDATION SET

IL CLASSIFICATORE COMPLETO DI BAYES

ALGORITMI DI ESTRAZIONE DELLE REGOLE