























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti completi di Data analytics con anche esercizi svolti
Tipologia: Appunti
1 / 31
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
























L'algoritmo è il procedimento per la risoluzione di un problema utilizzando un numero finito di istruzioni. Gli aspetti fondamentali nella progettazione di un algoritmo sono: ● Correttezza : risolve correttamente il problema che si analizza ● Efficienza : può essere caratterizzata in due modi: → tempo : velocità dell'algoritmo → spazio : spazio di memorizzazione La progettazione di algoritmi è utilizzata per diversi problemi di analisi di dati, come: ● Ordinamento di dati (problema da risolvere), es. ordine alfabetico ● Calcolo di distanze tra elementi (problema da risolvere), es. due punti su una mappa ● PageRank
Scienza dei dati. Vengono prodotti moltissimi dati in formato digitale, questi dati vengono raccolti per ottenere delle informazioni. La nostra era è detta era dei dati. Nel 2020 sono stati creati 40.000miliardi di GB di dati. Differenziazione a seconda della tipologia dei dati; tre tipologie: ● Business data: ● Sensor data: rispondono a input provenienti dall'ambiente fisico ● Human data: attività delle persone
Analisi dei dati consiste nel:
Discipline dell'analisi dei dati: ● Informatica : algoritmi e software, definire l'elaborazione ● Matematica e statistica ● Conoscenza del dominio , studio dei dati in base all'ambito di applicazione
Informatica vs scienza dei dati Informatica nell'analisi dei dati fa attenzione agli algoritmi (veloci, corretti, …) il problema deve essere risolto con qualsiasi dato. Risultati plausibili. Idealizzazione dei dati. Invenzione dell'algoritmo che permette di analizzare i dati. Scienza dei dati nell'analisi dei dati fa attenzione ai dati (proprietà, cosa descrivono,…). Comprensione dei dati negli aspetti del mondo reale. I dati possono avere delle imperfezioni che devono essere affrontate. Scoperta dei dati. Dato vs informazione Dato : ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione; (in informatica) elementi di informazione costituiti da simboli che debbono essere elaborati. Il dato è costituito da sequenze di simboli.
Informazione : notizia, dato o elemento che consente di avere conoscenza più o meno esatta di fatti, situazioni, modi di essere. Descrive determinate proprietà di qualcosa. Il passaggio tra dato e informazione è anche legato alla tipologia di dati: ● Dati organizzati o strutturati: organizzazione con struttura in tabella; da dato a informazione è un passaggio immediato ● Dati non organizzati o non strutturati : non c'è una struttura organizzativa; bisogna creare le strutture.
Oggi i dati vengono detti Big data , in quanto i dati sono cresciuti notevolmente, non hanno una definizione formale e condivisa. In genere i big data hanno grande quantità di dati, difficili da conservare in memoria centrale, alcuni devono stare nella memoria di massa, provocando il rallentamento. La presenza di volumi considerevoli di dati permette l'applicazione di tecniche di analisi dei dati, come l’apprendimento automatico. Inoltre, c’è un eterogeneità di fonti e formati e ci potrebbero essere dati mancanti o errori. Le tre V dei big data: ● Volume : grandi quantità di dati ● Velocità : dati creati con un flusso di alta velocità; dare dei risultati in tempo reale ● Varietà : i dati possono essere di diverso formato (strutturati e non strutturati) Altri aspetti: ● Variabilità : dati con flussi non costanti; picchi periodici ● Complessità : i dati possono arrivare da molteplici fonti; i dati possono avere degli errori oppure mancanti Nella scienza dei dati viene considerato un dataset. L’analisi dei dati costruisce un modello dei dati, ha come obiettivo di individuare delle relazioni-proprietà tra elementi dei dati analizzati. Raccogliere i dati in archivi, esistono varie tipologie di archivi con vari argomenti.
L'obiettivo degli algoritmi è risolvere problemi dato un input, questo va trasformato per ottenere un output. Le tipologie di problemi sono: ● Decisione : hanno come risposta due possibilità, es. v o f ● Ordinamento : si parte da un insieme di dati in ordine casuale e bisogna riordinare con uno specifico ordinamento ● Ottimizzazione : rendere massimo o minimo una certa funzione obiettivo
Attività di modellazione. Un algoritmo può essere modellizzato in più modi. Bisogna scegliere un approccio e bisogna tenere conto delle proprietà che si vogliono avere nel risultato. Es. torneo sportivo tra 8 giocatori: come determinare il vincitore? ¤ Torneo all’italiana → massimizzare le partite, costruisce una graduatoria ¤ Eliminazione diretta → minimizzare le partite
Ordinamento e ricerca Si ha un vettore (lista di numeri) e, ad esempio, bisogna trovare il massimo. Si leggono i numeri all'interno del vettore e va trovato il massimo, si aggiorna il risultato quando trovo un numero massimo rispetto a quelli precedenti. esempio >>> mymax([5,4,3,11,4]) → 11 L'efficienza si valuta prendendo in considerazione il tempo nel caso peggiore, esso va espresso con n, poi si contano le operazioni che fa l'algoritmo; semplificazioni con la dipendenza di n, le costanti non sono considerate, Es. 2n-2 e n+1 sono considerati ordine di n. I problemi possono essere classificati in due categorie:
Considerando che metà dei numeri non vengono considerati ad ogni passo si ha n/2. Dal secondo
passaggio 𝑛2ℎ^ = 1 conℎ = 𝑙𝑜𝑔 2 𝑛
Es. 1.000.000 di dati in cui cercare un elemento
Distanze Per la rappresentazione della distanza viene usato il grafo o rete. Ci sono due tipologie di cose da rappresentare:
Fissando due nodi (uno di partenza e uno di arrivo) si può trovare il cammino , ovvero una sequenza di nodi che devono avere delle specifiche proprietà: adiacenti, distinti, che inizia da a e termina con b. Il problema da risolvere è il calcolo del cammino più breve (tempo e non numero di archi) tra due nodi. Uso dell' Algoritmo di Dijkstra per trovare il cammino più breve. Una possibilità è percorrere un solo arco. La seconda possibilità è che ci sia il nodo di partenza, quello di destinazione e i nodi intermedi. Partendo da a, per tutti gli altri nodi intermedi bisogna calcolare i cammini più brevi di questi, poi bisogna etichettare i nodi. Le etichette possono essere temporanee (non si è ancora arrivato a calcolare il tempo minimo) o definitive (non si può impiegare meno di quel tempo). Fase iniziale: si definiscono le etichette che in questo momento sono temporanee. L'algoritmo fa delle iterazioni, prende l'etichetta temporanea con il valore più piccolo e viene resa definitiva inoltre vengono aggiornate le altre etichette. Le etichette temporanee hanno valore 0 per a, tutte le altre etichette si dà un valore elevato/infinito ( l (a)=0; l (c)= ∞). Ad ogni passaggio viene presa un'etichetta con il valore minimo viene resa definitiva e si aggiornano i nodi adiacenti. Il processo continua finché tutti i nodi nel grafo sono stati aggiunti al percorso. In questo modo, si ottiene un percorso che connette il nodo sorgente a tutti gli altri nodi seguendo il cammino più breve possibile per raggiungere ogni nodo.
Algoritmi e motori di ricerca Alla fine degli anni '90 si analizza il web comprendendo che esso ha strutture differenti rispetto ai documenti classici, in quanto il web è ipertestuale. I link ipertestuali costruiscono dei legami tra le pagine web, per studiarli si usa il Grafo del web. I nodi sono le pagine web e gli archi sono orientati che seguono i l ink ipertestuali. Il grafo del web ha tantissimi nodi ed è una rete dinamica. Il grafo del web è utilizzato per:
Uno degli aspetti per valutare i nodi è misurarne l’ importanza dei risultati. Prima si considerava il grado per misurare l'importanza, più è alto il numero di pagine collegate a una pagina più è alto il grado.
I creatori di Google creano PageRank. Il loro obiettivo era definire in termini numerici l'importanza delle pagine web. L'importanza di una pagina dipende dall 'importanza dei link ipertestuali in entrata. Se una pagina ha rilevanza X e n link uscenti, trasmette una rilevanza X/n (divisa in parti uguali) ai nodi raggiunti dai link. Rilevanza di una pagina: somma delle rilevanze ricevute dai nodi con link alla pagina.
r(Pk) rilevanza della pagina Pk l(Pk) link in uscita della pagina Pk
Come avviene il calcolo del PageRank? Il calcolo di Pagerank avviene con procedura ricorsiva complessa , si parte dai valori precedenti di rilevanza e si continuano a ricalcolare, alla volta x il valore non cambia più rispetto a quello precedenza, ci si può fermare con il calcolo e si trova l'importanza delle pagine della rete (metodo convergenza). L'importanza delle pagine dipende dalla struttura della rete → Valore calcolato a priori. Interpretazione del PageRank è la navigazione Probabilistica: casualmente sceglie un link ipertestuale affinché si riesca a visitare una certa pagina.
I sistemi di raccomandazione sono software che propongono contenuti di (possibile) interesse per un utente. Essi hanno molti ambiti di applicazione, come intrattenimento, commercio, ecc... In alcuni casi c’è una vasta quantità di contenuti che sono fondamentali per la fruizione. Sono costruiti sull'analisi dei contenuti e/o studio comportamento degli utenti analizzando quelli simili tra vari utenti. Struttura grafo è detto delle valutazioni in cui vanno rappresentati i nodi del sistema: utenti e contenut i. Sistema che sfrutta le valutazioni. Due tipi di archi che si hanno quando l'utente valuta il contenuto:
Grafo delle valutazioni è un grafo bipartito , in quanto si possono suddividere in due categorie; gli archi non collegano mai due utenti o due contenuti. Approccio basato sulla selezione collaborativa:
Sistema dei fattori nascosti Gli utenti a cui piacciano o meno determinati contenuti, sono influenzati da alcune caratteristiche, detti fattori nascost i. Bisogna quantificare il valore di quanto influenzano questi fattori. Determinare i fattori nascosti è rilevante, per esempio, nell’ambito dei suggerimenti. Questi sistemi si basano su un catalogo di contenuti, si ipotizzano pochi fattori nascosti e bisogna trovare quanto influenzano le scelte degli utenti. Nella tabella si hanno le valutazione (1-5) dei contenuti di vari utenti. Non sempre ci sono le valutazioni.
Questi giudizi sono stati dati a causa delle influenze dei fattori nascosti. Si costruiscono due tabelle. La prima rappresenta l'interesse dell'utente per una caratteristica (descrizione numerica degli utenti). Nella seconda si rappresenta il grado di presenza di una caratteristica in un contenuto. Non si sa quanto valgono i valori delle due tabelle l'obiettivo è stimarli. Se si conoscessero i dati si saprebbe l'interesse per una caratteristica degli utenti e la presenza di una caratteristica di un contenuto, inoltre si potrebbe costruire la matrice delle valutazione. Determinare i fattori nascosti: Il giudizio di U1 su F1 = x1,1 y1,1+ x1,2 y2, x1,1 y1,1 → quanto la categoria 1 è apprezzata dall'utente 1 * quanto la caratteristica 1 è presente nel contenuto numero 1. x1,2 y2,1 → quanto la categoria 2 è apprezzata dall'utente 1 * quanto la caratteristica 2 è presente nel contenuto numero 1. Questo approccio si può fare per tutte le celle.
La tabella è ancora incognita e non si può ancora confrontare. Si parte da valori casuali, ad esempio tutti i valori uguali a 1 e con questi si può calcolare le matrice delle valutazioni.
Si calcolano le valutazioni a partire dalle tabelle 1 e 2: Il giudizio di U1 su F1 = x1,1 y1,1+ x1,2 y2,1 = 1+1 = 2 ; si fa per tutte le celle che avranno lo stesso valore, in questo caso sempre 2. → Si considera la tabella delle valutazioni iniziale; Basandosi sui valori stimati si calcola l'errore commesso e dal valore stimato si sottrae il valore reale (es. 2 - 4 = -2).
L'errore che si può commettere qualche volta è negativo e altre volte è positivo. Gli errori vanno elevati al quadrato così che anche quelli negativi diventano positivi. Errore quadratico medio si calcola prendendo i vari errori calcolati che vengono elevati al quadrato e vengono sommati tutto si divide per n che sta per i numeri degli errori e si calcola la radice quadrata. S = ((0+4+9+1+4+9+1)/7)^1/2=1, Il metodo cerca di rendere minore l'errore commesso. Per ridurre l'errore ci si fissa su un elemento della tabella di interesse dell’utente rendendolo l' unica incognita. Si calcola la matrice delle valutazioni tenendo conto della variabile. Il giudizio di U1 su F1 = x1,1 y1,1+ x1,2 y2,1 = x + 1 , si applica per tutte le celle e si trova una nuova stima avendo solo un incognita. Si prende questa nuova matrice e si calcola l'errore. Poi si applica l'errore quadratico medio nella nuova tabella. 𝑆 = (((𝑥 − 1) 2 + (𝑋 − 3) 2 + (𝑋 − 4) 2 + 1 + 4 + 9 + 1)/7) 1/. Si studia questa funzione per trovare il valore minimo, in questo caso
x=8/3 = 2,667. Questo valore lo si sostituisce nella tabella al posto dell'incognita.
Questo appena calcolato è la prima iterazione , infatti poi si deve inserire un incognita per le celle successive e fare i calcoli. I valori delle celle si possono aggiornare per rendere minimo l'errore medio. Il procedimento converge. Le tabelle calcolate vengono usate per fare delle previsioni delle valutazioni mancanti degli utenti e in base a queste si costruiscono i suggerimenti agli utenti. Nel 2006, Netflix propose una sfida per migliorare il sistema di raccomandazione che usava a quel tempo. Uno delle proposte fu quella dei fattori nascosti che riuscì a migliorarlo del 7%. La competizione venne vinta da BellKor’s Pragmatic Chaos : miglioramento di oltre il 10%: che combinava diversi algoritmi.
Statistica Discipline matematiche connesse all’analisi di eventi/dati:
Analisi dei dati Caratteristiche dei vari dati che si utilizzano:
Livello dei rapporti. Tutte le operazioni aritmetiche sono possibili. Dati espressi in modo quantificabile su cui è definito uno zero assoluto. Le operazioni consentite sono quelle dei livelli precedenti, la moltiplicazione e la divisione. In genere i valori non sono negativi. Per calcolare il centro sono quelle dei livelli precedenti, media geometrica (radice n di xnvalori che vanno moltiplicati). Es. temperature2 = [9, 11, 13, 14, 26, 27, 29, 31] Media = 20 Media geometrica = 18.
Alcune proprietà delle misure del centro Proprietà negativa della media aritmetica: alcuni dati ( outliers ) hanno un valore distante dalla maggioranza dei dati, la media viene molto influenzata da questi valori anomali. Invece la mediana è meno o non sensibile ai valori anomali. Es. temperature = [0, 30, 32, 32, 33, 33, 34] Media = 27,7 Mediana = 32 La media è una misura significativa per dati senza outliers e distribuzione simmetrica; es. altezza. Per capire se la media riesce a calcolare bene senza valori anomali, si devono calcolare gli scarti rispetto al centro dei dati, lo scarto rispetto al centro è la differenza tra il valore del dato e il valore del centro. Quando il centro è la media aritmetica: la somma degli scarti (eventualmente pesata) è nulla. Conferma la proprietà delle media come baricentro dei dati.
La dispersione misura come i dati si posizionano (complessivamente) rispetto al centro, nella media non si può usare la somma degli scarti. Gli scarti vanno elevati al quadrato, così che anche quelli negativi diventano positivi. Se si sommano gli scarti quadratici, il valore minimo lo si trova quando il centro dei dati è la media aritmetica, non si riesce mai a fare meglio della media aritmetica.
Se ci sono due variabili: si indica con E(X) la media della variabile x. La media di y = a + b * media di x → trasformazione lineare. Esempio: X: costo produzione di prodotti [10, 11, 11,5, 12, 14, 15,5, 16, 16,5] Y: prezzo di vendita 2* X + 1 [21, 23, 24, 25, 29, 32, 33, 34] E[X] = 13,3125 E[Y] = 2*E[X] + 1 = 27,
L'ordinamento dei dati permette la descrizione di calcolare la mediana e il calcolo dei quantili , ovvero delle posizioni rilevanti di un valore all'interno dei dati. Massimo e minimo sono dei quantili semplici. Dopo aver ordinato i dati, i dati vengono divisi in parti, come: quartili, percentili, decili. Nei quartili ogni parte deve contenere più o meno 1/4 dei valori. l quartile zero, il primo, il secondo, il terzo e il quarto quartile corrispondono con le prime modalità la cui frequenza cumulata percentuale è almeno 0, 25, 50, 75 e 100 rispettivamente:
Il centro dei dati cerca di descrivere l'aspetto dei dati. Ma ci sono delle misure che descrivono i dati più nel dettaglio, ovvero le misure di variabilità. Oltre al centro dei dati, possiamo misurare la variabilità dei dati: quanto sono distanti dal centro, per fare questo serve il centro e la variabilità. Le misure di variabilità più usate sono:
(tot dei dati) Esempio:
● Definizione standard : la deviazione standard misura la distanza media dei punti dal centro, si applica alla varianza la radice quadrata, si cerca di annullare l'effetto dell'elevamento al quadrato. Esempio: temperature1 = [15, 16, 17, 19, 21, 23, 24, 25] Media = 20 Dev. standard = 3.5707142142714252 temperature2 = [9, 11, 13, 14, 26, 27, 29, 31] Media = 20 Dev. Standard = 8.
Molti fenomeni osservabili hanno un distribuzione a campana (altezza, peso, aspettativa di vita, etc…). Questo tipo di distruzione ha delle particolarità:
Distribuzione di frequenza Con le misure di centralità e variabilità si possono descrivere in modo sintetico i dati, ma non sempre è sufficiente. Le frequenze danno maggiori informazioni. In generale bisogna individuare i valori di un carattere e poi contare le unità statistiche con lo stesso valore. Ci sono due tipologie di frequenze:
Molto spesso si analizzano due o più caratteri di insiemi di dati. Il c oefficiente di variazione permette di confrontare dei dati che hanno delle grandezze distanti (dispersione di più insiemi di dati). Approccio per la standardizzazione della dispersione. Coefficiente di variazione = Deviazione standard/media ; questo esprime la variabilità media rispetto al valore del centro.
La posizione relativa serve per capire la posizione in cui si colloca un determinato valore (quanto vicino/lontano alla media). Per calcolarlo si usa il punteggio zero o z-score → punteggio di un singolo dato che ha valori x. Si calcola facendo la differenza tra il valore x e la media aritmetica / deviazione standard. Calcola quanto è distante il punto dalla media. Esempio: n. visite pagina= [109, 98, 76, 202, 124, 56, 109] media = 110.57 deviazione standard = 42. z-score= [-0.037 (molto vicino alla media), -0.293, -0.8, 2.132 (molto distante dalla media), 0.313, -1.272, -0.037].
Proprietà punteggio z:
Correlazione Per correlazione si intendono le misure quantitative con fine quanto due dati sono legati tra di loro. Due tipologie di misure sono la covarianza e gli indici di correlazione. Con la covarianza vanno considerate due variabili statistiche x e y. Bisogna capire, se considerando gli individui della popolazione, come essi si collocano rispetto al centro comune (E[X]; E[Y]), se variano in modo simile oppure no. La covarianza è la media aritmetica del prodotto tra gli scarti dalla media di X e Gli scarti dalla media di Y → si prende il valore della persona 1 e si calcola lo scarto della media e si vede se è maggiore o minore, così per tutte le variabili. E poi vengono sommate tra di loro e divido per gli n valori Il valore della covarianza può essere
Correlazione tra i dati. Ci sono delle possibili ipotesi su un insieme di dati:
e invertita da variabili nascoste. Esempio del Test A/B: esempio di raccolta dati per sperimentazione nella progettazione web. Quando si progettano le pagine web si possono verificare le landing page , l'utente ci arriva senza passare dalla homepage, bisogna scegliere la versione più efficace tramite il test A/B. Gli utenti che provano il test vengono distinti in due gruppi, ognuno dei gruppi interagisce solo con una versione della pagina; si misura quanti hanno selezionato il servizio offerto dalla pagina, detto tasso di conversione : porzione di utenti che attivano una transazione della pagina. Per ogni pagina si calcola n persone che hanno fatto la conversione/n tot persone nel gruppo. Consideriamo un test A/B, con i seguenti tassi di conversione:
Analizzando i risultati: Pagina A ha migliori risultati in ogni fascia d’età e peggior risultato in generale. A cosa è dovuto questo risultato?
Formule su Excel Moda: =MODA(intervallo) es. =MODA(B2:B101) Mediana: =MEDIANA(intervallo) es. =MEDIANA(B2:B101). Media aritmetica: =MEDIA(intervallo) es. =MEDIA(B2:B101) Quartile: =INC.QUARTILE(intervallo; n quartile) es. =INC.QUARTILE(B2:B101;1) primo quartile Intervallo quartile: = III quartile - I quartile Intervallo di variazione: max - min Varianza: =VAR.P(intervallo) es. =VAR.P(B2:B101) Deviazione standard: =DEV.ST.P(intervallo) es. =DEV.ST.P(B2:B101) Frequenze: =CONTA.SE(intervallo;”valore che si vuole contare”) es. =CONTA.SE(B$2:B$101;"18") Contare le classi: =FREQUENZA(matrice1 intervallo; matrice2 contiene valori per la suddivisione in classe già dati) es. =FREQUENZA(B2:B101;G103:G107) Z.score: =(valore - media)/ deviazione standard es. =(B2-B$104)/B$ Correlazione Pearson: =CORRELAZIONE((matrice 1 primo intervallo; matrice 2 secondo intervallo) es. =CORRELAZIONE(L2:L101;M2:M101) Correlazione R: bisogna fare due operazioni =RANGO.MEDIA(cella; tutto intervallo) es. =RANGO.MEDIA(A98;A$2:A$101) =CORRELAZIONE(intervallo della posizione1; intervallo della posizione2) es. =CORRELAZIONE(C2:C101;D2:D101)
La Procedura/esperimento è un’azione che porta a un esito. L'esperimento può essere deterministico (quando si sanno i dati di input si calcola direttamente la formula, es. A =b*h) o casuale/non deterministico (non si conosce subito l'esito finale, es. lancio della moneta; i possibili esiti sono noti, ma non si sa quale si verificherà). L'esito a cui si è interessati è detto evento. L' evento elementare è uno dei possibili esiti di un
esperimento casuale; Es. Lancio di un dado {1, 2, 3, 4, 5, 6}. In generale un evento è un sottoinsieme dei possibili esiti, es. numero pari. Altri tipi di eventi:
**- Certi
Probabilità = n. di eventi in cui A si verifica / punti complessivi contenuti nella dimensione dello spazio dei campioni.
Per calcolare la probabilità di Ᾱ: → P(Ᾱ) = 1 - P(A) tutto lo spazio dei campioni - la probabilità di a → P(A) = 1 - P(Ᾱ) L’utilizzo degli eventi complementari è utile per il calcolo di alcune probabilità, due esempi:
Eventi composti: eventi composti tra due eventi A e B:
Regole per il calcolo di probabilità composte : Probabilità dell'unione con somma : Dati due eventi A e B, la probabilità dell’unione di A e B è data da: La somma della probabilità di A e della probabilità di B Meno la probabilità dell’intersezione tra A e B.
𝑃(𝐴|𝐵) = 𝑃(𝐴∩𝐵)𝑃(𝐵) = 20/10025/100 = 2025 = 0, 8
La probabilità condizionata soddisfa le proprietà della probabilità
Esercizio: Consideriamo la probabilità che un utente effettui una conversione su una pagina web. Abbiamo i seguenti dati:
Esercizio 2: Consideriamo la probabilità che un'email sia spam. Abbiamo i seguenti dati:
𝑃(𝑆|𝐶) = 𝑃(𝐶∩𝑆)𝑃(𝐶) = 200/1000500/1000 = (^200500)
La regola del prodotto permette di calcolare la probabilità di B * la probabilità di A dato B. 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴 𝐴𝑁𝐷 𝐵) = 𝑃(𝐵) * 𝑃(𝐴|𝐵) 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴 𝐴𝑁𝐷 𝐵) = 𝑃(𝐴) * 𝑃(𝐵|𝐴)
Esempio 1: Insieme di 20 persone, scelte casualmente
Esempio 2: Consideriamo due insiemi di utenti:
Esempio 3: Consideriamo la probabilità che un utente acquisti un prodotto. Abbiamo i seguenti dati:
P(di usare lo Smartphone ) = 20/ P(A|S) =50/ P (A int S) = 20/100 * 50/200 = 0,
Eventi indipendenti Due eventi sono indipendenti quando il risultato di un evento non influenza l’altro. Ha le seguenti probabilità: P(B|A)=P(B) e P(A|B)=P(A) → Se A è indipendente da B, allora B è indipendente da A. Inoltre c'è una proprietà per l'intersezione: P(A AND B) = P(A)P(B).* Esempio di evento indipendente: Due lanci di una moneta: primo lancio: testa, secondo lancio: croce
Classificatori: valutazione dei risultati I classificatori sono dei metodi il cui obiettivo è di assegnare degli oggetti a delle categorie. I classificatori binari sono dei classificatori con due categorie, come test influenzale, documento rilevante o meno…. Il classificatori stabilisce che ogni elemento analizzato appartenga a una delle due classi. Matrice-Tabella di confusione : si prendono in considerazione i dati e le due classi-previsioni (si e no). Previsioni si: elementi classificati positivi. Previsioni no: elementi classificati negativi. Casella A: classificatore ha identificato una previsione positiva; Casella D: metodo ha correttamente identificato come negativi; Caselle B e C il metodo ha classificato erroneamente. Si ha il comportamento ottimale quando le celle B e C non contengono nessun elemento. L'insieme B è l'insieme dei falsi positivi e l'insieme C è l'insieme dei falsi negativi.
Coefficienti di valutazione permettono di misurare la qualità delle classificazioni. Ci sono due aspetti:
L’ approccio bayesiano sfrutta le probabilità per descrivere gli eventi con l'obiettivo di fare una previsione della probabilità. L’approccio bayesiano è caratterizzato da tre concetti e dai legami tra di essi: