





















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti accurati delle lezioni di Data Analytics
Tipologia: Appunti
Offerta a tempo limitato
Caricato il 29/05/2020
4.5
(26)20 documenti
1 / 29
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






















In offerta
Prima parte del corso: Tecniche algoritmiche
Conoscenze di base dell’informatica Architettura di Von Neumann:
Tecnica Greedy (ingorda) È una tecnica che decide il modo in cui deve essere risolto un problema scegliendo gli elementi che devono essere selezionati. Per capire meglio vediamo il problema del resto: Una macchinetta del caffè deve dare il resto ai clienti Obiettivo: restituire il minimo numero di monete Es: 122 centesimi: 1 moneda da 1 euro, 1 moneta da 20 centesimi, 1 moneta da 2 centesimi. La tecnica ingorda si basa sull’idea che quando devo costruire il resto devo fare una serie di scelte. Ogni volta che si deve prendere una decisione si prende quella che in quel preciso momento è la scelta ottimale o appropriata. Nel caso del problema del resto: La macchina deve dare un resto x:
Il grafo del web è stato analizzato e ne son emerse le caratteristiche: è una rete orientata, cioè ci possono essere pagine con molti link ipertestuali uscenti ma pochissimi entranti, i link che escono da una pagina formano il grado uscente , mentre il grado entrante è dato dai link verso una certa pagina. Il contributo principale è quello del grado di separazione che è stata stimata a 19 link in media da Barabasi. Il grafo del web è utilizzato per due motivi dai motori:
Si tratta di un algoritmo complesso e si basa su una procedura ricorsiva questo nasce dall’esigenza di dover calcolare la rilevanza di una pagina web; la rilevanza della pagina che mi interessa dipende dalla rilevanza delle pagine web della stella entrante; mentre la rilevanza delle pagine web nella stella uscente è influenzata dalla rilevanza della mia pagina. Nel PageRank non basta contare la quantità di link ipertestuali diretti verso di essi ma è fondamentale anche l’importanza che hanno i link entranti. Questo rende complesso il calcolo del PageRank infatti bisogna applicare la procedura del calcolo del valore di rilevanza diverse volte. Intuitivamente se una pagina ha rilevanza X e N link uscenti, trasmette una rilevanza X/N ai nodi della stella uscente. Rilevanza della pagina : somma delle rilevanze ricevute dai nodi della stella entrante. Si dice che la procedura arriva a una convergenza ovvero se la applico per aggiornare le pagine non noto nessun cambiamento, i valori si sono stabilizzati e questi valori che ho calcolato sono i valori di rilevanza effettivi che hanno i nodi all’interno della rete. Il PagaRank è stato analizzato molto nel dettaglio e sono state fornite diverse interpretazioni del suo significato:
Fattori nascosti Determinazioni e previsioni Sistemi che cercano di comprendere le motivazioni che motivano i giudizi positivi o negativi degli utenti. L’obiettivo è individuare questi fattori che non sono espliciti per permettere una migliore comprensione dei meccanismi di valutazione da parte degli utenti. Il fattore nascosto è un attributo che ha un elemento all’interno che fa sì che l’utente giudichi positivamente o negativamente il bene o prodotto. In breve, influenza il giudizio di un utente. Determinare i fattori nascosti è rilevante nell’ambito dei sistemi di suggerimento e per capire le motivazioni che spingono gli utenti a comprare una cosa piuttosto che un’altra. ESEMPIO: Ammettiamo di considerare un catalogo di film. Ipotizziamo che esistano pochi fattori nascosti, diciamo 2, che influenzano le valutazioni degli utenti per esempio il genere del film e il paese in cui è stato girato. Cerchiamo di determinare quando questi fattori influenzano le scelte degli utenti. Supponiamo di avere:
Una volta terminato il procedimento abbiamo ottenuto che abbiamo una conoscenza su quanto gli utenti hanno interesse nei due fattori; un altro aspetto importante è che possiamo fare previsioni per il giudizio che gli utenti daranno ad un certo film. Sfida di Netflix Nel 2006 Netflix propose una sfida per migliorare il sistema di suggerimento usando il metodo dei fattori nascosti che ha portato un miglioramento del 7%. Purtroppo, ce n’è stato un altro che ha fatto meglio BellKor’s Pragmatic Chaos che combinava molti algoritmi e ha portato un miglioramento del 10%. SECONDA PARTE DEL CORSO LEZIONE 9 15/05/ I dati possono avere caratteristiche differenti:
Dati quantitativi e qualitativi I dati quantitativi sono dati esprimibili con dei numeri, a seconda del dato che ho posso effettuare delle operazioni matematiche, sono una delle categorie più diffuse di dati (fatturato di un negozio, numero di acquisti giornalieri, numero di visite di una pagina web). I dati qualitativi sono quelli che non vengono rappresentati come numeri e su cui non posso effettuare operazioni matematiche; ciò che si può fare è tenere conto della rappresentazione di categorie. Il testo in generale è un dato qualitativo, anche il CAP pur essendo numerico anche sommandoli non ottengo un dato significativo. Operazioni sui dati Dati quantitativi : posso fare operazioni di somma, media, andamento nel tempo come si sono evolute le visite a una pagina web tra ieri e oggi. Dati qualitativi : posso fare operazioni valori univoci (le parole che possiamo trovare in un testo), numero dei valori univoci (quante sono le parole distinte che occupano il testo), la frequenza dei valori (quanto spesso si verifica una parola). Dati discreti e continui I dati quantitativi possono essere divisi in: