riassunto per esame informatica e data analytics | Appunti di Informatica gestionale

Tecniche di ordinamento !

L’ordinamento è un’operazione fondamentale nell’analisi dei dati e consiste nel disporre un

insieme di elementi secondo un criterio prestabilito (ad esempio ordine crescente o decrescente).

È usato nell’analisi preliminare dei dati, nell’individuazione dei valori estremi e come supporto ad

altri algoritmi, come la ricerca.!

Esistono diversi algoritmi di ordinamento e la loro scelta dipende principalmente dall’eﬃcienza,

cioè dal tempo di esecuzione in funzione della dimensione dell’input.!

Il Selection Sort è un algoritmo semplice che, a ogni iterazione, seleziona l’elemento massimo (o

minimo) dall’insieme non ordinato, lo inserisce nell’insieme ordinato e lo rimuove dall’insieme di

partenza.La sua complessità temporale è O(n²), poiché per ogni elemento è necessario scorrere

l’intero insieme dei dati. Questo lo rende ineﬃciente per grandi volumi di dati.Un approccio più

eﬃciente è il divide et impera, utilizzato dal Merge Sort. Questo algoritmo divide l’insieme di dati

in due sottoinsiemi, li ordina ricorsivamente e infine li combina nella fase di merge.Poiché a ogni

livello vengono eﬀettuati al massimo n confronti e i livelli sono log₂n, la complessità del Merge

Sort è O(n log n). In conclusione, mentre algoritmi semplici come il Selection Sort sono adatti solo

a piccoli insiemi di dati, nelle applicazioni di data analytics, che coinvolgono grandi quantità di

dati, è preferibile utilizzare algoritmi più eﬃcienti come il Merge Sort.!

Descrivi misure del centro !

Le misure del centro sono valori che descrivono la tendenza centrale di un insieme di dati, cioè

permettono di rappresentare un insieme di osservazioni tramite un singolo valore compreso tra gli

estremi. Sono fondamentali nella statistica descrittiva perché consentono una sintesi eﬃcace dei

dati.!

Le principali misure del centro sono moda, mediana e media, e la loro applicabilità dipende dal

livello dei dati (nominale, ordinale, intervalli, rapporti).!

La moda è il valore che compare con maggiore frequenza all’interno di un insieme di dati.!

È l’unica misura del centro applicabile ai dati nominali, dove non sono definite operazioni

aritmetiche. Può essere utilizzata anche per dati ordinali e quantitativi, ma non sempre è unica o

significativa.!

La mediana è il valore che divide l’insieme di dati ordinati in due parti di uguale numerosità.!

È applicabile ai dati ordinali e quantitativi ed è particolarmente utile perché è poco sensibile ai

valori anomali (outliers). In presenza di distribuzioni asimmetriche, la mediana rappresenta meglio

il centro rispetto alla media.!

La media aritmetica si ottiene sommando tutti i valori e dividendo per il numero di osservazioni.!

È applicabile ai dati di livello degli intervalli e dei rapporti e rappresenta il baricentro dei dati,

poiché la somma degli scarti rispetto alla media è nulla. Tuttavia, la media è sensibile agli outliers,

che possono modificarne significativamente il valore.!

Oltre alla media aritmetica, in casi specifici si possono usare:!

•la media ponderata, quando i dati hanno pesi diversi;!

•la media geometrica, utilizzata solo in particolari contesti per dati di livello dei rapporti.!

In conclusione, la scelta della misura del centro più adatta dipende dalla natura dei dati e dalla

presenza di valori anomali, ed è fondamentale per una corretta analisi dei dati.!

Disuguaglianza !

La disuguaglianza di Chebyshev è un risultato della statistica descrittiva che permette di stimare

la proporzione di dati che si trovano entro una certa distanza dalla media, conoscendo solo la

media e la varianza di una variabile statistica.!

È particolarmente utile perché non richiede ipotesi sulla distribuzione dei dati.!

La disuguaglianza di Chebyshev è molto generale, ma fornisce stime conservative. Nel caso

particolare di una distribuzione normale, valgono risultati più precisi, come la regola empirica,

secondo cui circa il 68%, 95% e 99,7% dei dati si trovano rispettivamente entro 1, 2 e 3

deviazioni standard dalla media.!

In conclusione, la disuguaglianza di Chebyshev è uno strumento fondamentale per valutare la

dispersione dei dati attorno alla media anche in assenza di informazioni sulla distribuzione.!

Anteprima parziale del testo

Scarica riassunto per esame informatica e data analytics e più Appunti in PDF di Informatica gestionale solo su Docsity!

Tecniche di ordinamento L’ordinamento è un’operazione fondamentale nell’analisi dei dati e consiste nel disporre un insieme di elementi secondo un criterio prestabilito (ad esempio ordine crescente o decrescente). È usato nell’analisi preliminare dei dati, nell’individuazione dei valori estremi e come supporto ad altri algoritmi, come la ricerca. Esistono diversi algoritmi di ordinamento e la loro scelta dipende principalmente dall’efficienza, cioè dal tempo di esecuzione in funzione della dimensione dell’input. Il Selection Sort è un algoritmo semplice che, a ogni iterazione, seleziona l’elemento massimo (o minimo) dall’insieme non ordinato, lo inserisce nell’insieme ordinato e lo rimuove dall’insieme di partenza.La sua complessità temporale è O(n²), poiché per ogni elemento è necessario scorrere l’intero insieme dei dati. Questo lo rende inefficiente per grandi volumi di dati.Un approccio più efficiente è il divide et impera, utilizzato dal Merge Sort. Questo algoritmo divide l’insieme di dati in due sottoinsiemi, li ordina ricorsivamente e infine li combina nella fase di merge.Poiché a ogni livello vengono effettuati al massimo n confronti e i livelli sono log₂n, la complessità del Merge Sort è O(n log n). In conclusione, mentre algoritmi semplici come il Selection Sort sono adatti solo a piccoli insiemi di dati, nelle applicazioni di data analytics, che coinvolgono grandi quantità di dati, è preferibile utilizzare algoritmi più efficienti come il Merge Sort. Descrivi misure del centro Le misure del centro sono valori che descrivono la tendenza centrale di un insieme di dati, cioè permettono di rappresentare un insieme di osservazioni tramite un singolo valore compreso tra gli estremi. Sono fondamentali nella statistica descrittiva perché consentono una sintesi efficace dei dati. Le principali misure del centro sono moda, mediana e media, e la loro applicabilità dipende dal livello dei dati (nominale, ordinale, intervalli, rapporti). La moda è il valore che compare con maggiore frequenza all’interno di un insieme di dati. È l’unica misura del centro applicabile ai dati nominali, dove non sono definite operazioni aritmetiche. Può essere utilizzata anche per dati ordinali e quantitativi, ma non sempre è unica o significativa. La mediana è il valore che divide l’insieme di dati ordinati in due parti di uguale numerosità. È applicabile ai dati ordinali e quantitativi ed è particolarmente utile perché è poco sensibile ai valori anomali (outliers). In presenza di distribuzioni asimmetriche, la mediana rappresenta meglio il centro rispetto alla media. La media aritmetica si ottiene sommando tutti i valori e dividendo per il numero di osservazioni. È applicabile ai dati di livello degli intervalli e dei rapporti e rappresenta il baricentro dei dati, poiché la somma degli scarti rispetto alla media è nulla. Tuttavia, la media è sensibile agli outliers, che possono modificarne significativamente il valore. Oltre alla media aritmetica, in casi specifici si possono usare:

la media ponderata, quando i dati hanno pesi diversi;
la media geometrica, utilizzata solo in particolari contesti per dati di livello dei rapporti. In conclusione, la scelta della misura del centro più adatta dipende dalla natura dei dati e dalla presenza di valori anomali, ed è fondamentale per una corretta analisi dei dati. Disuguaglianza La disuguaglianza di Chebyshev è un risultato della statistica descrittiva che permette di stimare la proporzione di dati che si trovano entro una certa distanza dalla media, conoscendo solo la media e la varianza di una variabile statistica. È particolarmente utile perché non richiede ipotesi sulla distribuzione dei dati. La disuguaglianza di Chebyshev è molto generale, ma fornisce stime conservative. Nel caso particolare di una distribuzione normale, valgono risultati più precisi, come la regola empirica, secondo cui circa il 68%, 95% e 99,7% dei dati si trovano rispettivamente entro 1, 2 e 3 deviazioni standard dalla media. In conclusione, la disuguaglianza di Chebyshev è uno strumento fondamentale per valutare la dispersione dei dati attorno alla media anche in assenza di informazioni sulla distribuzione.

Approccio del machine learning Il Machine Learning è un approccio dell’analisi dei dati che permette ai sistemi di apprendere automaticamente dai dati senza essere esplicitamente programmati per ogni singolo compito. L’obiettivo è costruire modelli in grado di individuare schemi, relazioni e regolarità nei dati, per poi utilizzarli per previsioni, classificazioni o supporto alle decisioni. Nel contesto della data analytics, il machine learning rappresenta un’evoluzione rispetto agli approcci puramente descrittivi, poiché consente di passare dall’analisi del passato alla predizione di eventi futuri. L’approccio del machine learning si basa su tre elementi fondamentali:

dati: insieme di esempi osservati, spesso di grandi dimensioni;
modello: rappresentazione matematica delle relazioni tra i dati;
algoritmo di apprendimento: procedura che ottimizza il modello a partire dai dati. Il processo tipico di machine learning prevede:

raccolta e pre-elaborazione dei dati;
definizione del modello;
apprendimento dei parametri del modello dai dati;
valutazione delle prestazioni;
utilizzo del modello per fare previsioni su nuovi dati. Si distinguono principalmente tre approcci di machine learning:

apprendimento supervisionato, in cui i dati sono etichettati e il modello impara una relazione input–output (es. classificazione e regressione);
apprendimento non supervisionato, in cui non sono presenti etichette e l’obiettivo è individuare strutture o gruppi nei dati (es. clustering);
apprendimento per rinforzo, basato sull’interazione con un ambiente e su meccanismi di ricompensa. Nel file, esempi di applicazione dell’approccio di machine learning sono i sistemi di raccomandazione, in cui il modello apprende le preferenze degli utenti a partire dai dati, e i metodi a fattori nascosti, che stimano caratteristiche latenti che influenzano le valutazioni. In conclusione, l’approccio del machine learning è centrale nella data analytics moderna perché consente di trasformare grandi quantità di dati in conoscenza utile, automatizzando l’apprendimento e migliorando progressivamente le prestazioni dei modelli. Misure di variabilità

Le misure di variabilità (o di dispersione) sono strumenti statistici fondamentali che

indicano quanto i dati di un insieme si discostino dal loro valore centrale, fornendo una

visione più ricca e completa rispetto alla

semplice misurazione del centro.

Ecco una panoramica completa delle tecniche descritte nelle fonti:

1. Intervallo di Variazione (Campo di escursione)

È la misura più semplice per valutare l'ampiezza della distribuzione.

Definizione: Si calcola come la differenza tra il valore massimo e il valore

minimo del dataset.

Limite: È estremamente influenzato dalla presenza di valori anomali (outliers),

che possono distorcerne

il significato.

2. Intervallo Interquartile (IQR)

Per ovviare alla sensibilità agli estremi, si utilizza questa misura più robusta.

Definizione: È la differenza tra il terzo quartile (75%) e il primo quartile (25%).

Vantaggio: Ignora i valori estremi, concentrandosi sulla dispersione del 501%

centrale delle unità statistiche.

3. Dispersione rispetto alla Media

Queste misure considerano complessivamente quanto ogni singolo dato si allontana dal

"baricentro"

dell'insieme.

2. Metodo della Selezione Collaborativa (Collaborative Filtering)

Questa tecnica si basa sull'idea che utenti con gusti simili nel passato, apprezzeranno

contenuti simili in futuro. Il processo prevede:

Calcolo della similarità: Si associa a ogni utente un vettore (una lista) con le sue

valutazioni. La similarità tra due utenti si ottiene calcolando il prodotto dei giudizi

sui film comuni e dividendo per il numero totale di film valutati da almeno uno

dei due.

Stima della valutazione: Per un film non visto da un utente X, il sistema calcola

una media pesata dei giudizi degli altri utenti che lo hanno visto, dando più

importanza a quelli più simili a X.

Suggerimento: Le stime vengono ordinate in modo decrescente e all'utente

vengono mostrati i contenuti con il valore di stima maggiore.

Vantaggi e Svantaggi: Il vantaggio principale è l'indipendenza dalla conoscenza specifica

del contenuto; tuttavia, ignorare le caratteristiche intrinseche dell'oggetto (genere, attori,

ecc.) può rendere i suggerimenti meno mirati.

3. Metodi Avanzati: Fattori Nascosti ed Errore Quadratico

Per migliorare la precisione, i sistemi moderni utilizzano il metodo dei fattori nascosti,

ovvero caratteristiche non esplicite (come il genere o il paese d'origine) che influenzano il

giudizio.

Riduzione dell'errore: Poiché i valori iniziali di questi fattori sono ignoti, si

procede per tentativi. Si calcola la radice dell'errore quadratico medio tra le

valutazioni reali e quelle stimate. (

Ottimizzazione: Il sistema aggiorna iterativamente i valori nelle tabelle dei fattori

per minimizzare tale errore fino a raggiungere la convergenza

Un esempio storico di questo approccio è la sfida di Netflix del 2006, dove l'applicazione

dei fattori nascosti portò a un miglioramento dell'accuratezza dei suggerimenti di oltre il

Correlazione e casualità

La distinzione tra correlazione e causalità è un pilastro fondamentale della Data Analytics,

poiché scambiare l'una per l'altra può portare a decisioni basate su evidenze fuorvianti.

1. Definizioni e Differenze Concettuali

Correlazione: Indica che due variabili hanno un legame o una tendenza a variare

insieme. Può essere positiva (entrambe crescono), negativa (una cresce e l'altra

decresce) o nulla

Causalità: Implica una relazione di causa-effetto. Una variazione nella prima variabile

provoca direttamente una variazione nella seconda.

Il principio cardine è che la correlazione non implica necessariamente causalità

2. Gli Indici di Misura (Covarianza e Correlazione)

Per quantificare il grado di associazione tra due variabili si utilizzano:

Covarianza: Misura quanto due variabili variano rispetto ai loro valori medi. Se

positiva, variano nella stessa direzione; se vicina a zero, non c'è relazione

lineare.

Coefficiente di Pearson (r): Varia tra -1 e 1. Misura la forza e la direzione di una

relazione esclusivamente lineare.

Coefficiente di Spearman (R): Misura non parametrica basata sul rango (ordine)

delle osservazioni.

Valuta la monotonia della relazione, risultando più robusto di Pearson quando la

relazione non è lineare.

3. Perché la Correlazione non è Causalità?

Due variabili possono apparire correlate per due motivi principali che non implicano un

nesso diretto:

Correlazione Spuria: Le variabili sono correlate puramente per caso.

Fattore di Confusione (Variabile nascosta): Esiste una terza variabile, non

considerata nell'analisi, che influenza contemporaneamente le altre due. Ad

esempio, nel legame tra consumo di caffè e voti alti, il vero fattore causale

potrebbero essere le ore di sonno o lo stile di studio.

4. Il Paradosso di Simpson

E il fenomeno statistico in cui una relazione tra due variabili viene modificata o addirittura

invertita quando si considerano variabili di confusione.

• Esempio del Test A/B: In un test web, la Pagina B potrebbe sembrare migliore della

Pagina A a livello complessivo. Tuttavia, analizzando i dati per segmenti (es. Nord vs

Sud Italia), si potrebbe scoprire che la Pagina A è superiore in ogni singola regione, ma

appare peggiore a causa di uno sbilanciamento del campione (es. più utenti di una

regione specifica hanno visualizzato una pagina rispetto all'altra).

5. Come determinare la Causalità

Per passare dalla semplice osservazione della correlazione alla certezza della causalità, la

Data Science utilizza test statistici specifici, che misurano la probabilità che il legame

verificato abbia una motivazione reale e non sia dovuto al caso.

DOMANDE INFORMATICA

Grafic raster e grafica vettoriale

La codifica digitale delle immagini deve affrontare due sfide principali: la rappresentazione

del colore e quella della forma 1. Per quanto riguarda quest'ultima, esistono due approcci

tecnologici distinti: la grafica raster e la grafica vettoriale.

La grafica raster si basa sull'utilizzo di una bitmap, ovvero una griglia rettangolare

composta da minuscoli punti luminosi chiamati pixel 2. In questo sistema, l'immagine viene

memorizzata descrivendo le caratteristiche di ogni singolo punto della griglia; per questo

motivo, la qualità e la nitidezza dell'immagine sono 2 direttamente proporzionali al numero

di pixel utilizzati per comporla. È la tecnica standard per le fotografie e i formati più comuni

includono il BMP (non compresso) e formati che riducono lo spazio occupato tramite

compressione, come JPEG e GIF.

Al contrario, la grafica vettoriale adotta un approccio matematico e geometrico. Invece di

mappare ogni punto, essa codifica l'immagine utilizzando primitive forme geometriche.

Questo metodo è considerato molto più preciso rispetto al raster, poiché descrivendo le

forme tramite coordinate e funzioni, le immagini possono essere ingrandite o ridotte

all'infinito senza mai perdere nitidezza o apparire "sgranate".

In sintesi, mentre il raster è ideale per catturare la complessità cromatica della realtà

(come in una foto), il vettoriale è preferibile per elementi che richiedono precisione

assoluta e scalabilità, come loghi o disegni tecnici.

Alfabeto di simboli: l'insieme finito di simboli (come i numeri o lettere) che la

macchina può gestire.

Nastro diviso in celle: un supporto potenzialmente infinito dove ogni cella ospita

un singolo simbolo dell'alfabeto.

Unità di controllo: una testina che può muoversi lungo il nastro, leggendo il

contenuto della cella corrente o scrivendone uno nuovo.

Registro degli stati: un insieme di stati interni (inclusi uno stato iniziale e uno

finale) associati all'unità di controllo.

Tabella delle azioni: l'insieme di regole (o istruzioni) che determinano il

comportamento della macchina.

Logica di Funzionamento

Il funzionamento è guidato esclusivamente dalla tabella delle azioni. Per ogni passaggio,

la macchina analizza due variabili: lo stato attuale della testina e il simbolo letto sulla cella.

In base a questi, la regola indica tre operazioni da compiere:

1. Quale simbolo scrivere nella cella.

2. Verso quale nuovo stato evolvere.

3. In quale direzione muovere la testina sul nastro.

L'Importanza Storica e la Macchina Universale

Il contributo più rivoluzionario di Turing è l'introduzione della macchina di Turing

universale. Si tratta di un modello capace di simulare il comportamento di qualunque altra

macchina di Turing semplicemente leggendo delle opportune codifiche delle istruzioni.

Questo concetto è alla base della Turing Equivalenza:

un moderno calcolatore viene definito tale se è in grado di simulare una macchina

universale.

Infine, la tesi di Church-Turing postula che l'insieme dei problemi risolvibili tramite metodi

meccanici coincida esattamente con l'insieme dei problemi risolvibili dalla macchina di

Turing, definendo così i limiti stessi di ciò che può essere calcolato.

Gioco dell’imitazione di Turing

Il gioco dell'imitazione, introdotto da Alan Turing (considerato il padre dell'informatica),

rappresenta uno dei contributi più celebri e discussi nel campo dell'intelligenza artificiale,

volto a esplorare la possibilità che le macchine possano "pensare" come gli esseri umani,.

Origine e Funzionamento del Gioco

Dopo la Seconda Guerra Mondiale, Turing si concentrò sulle potenzialità dell'elaborazione

meccanica, ipotizzando che in futuro sarebbe stato possibile creare una "macchina

pensante". Per dimostrare tale capacità, propose un gioco basato su un passatempo di

società dell'epoca.

Nella versione originale, il gioco coinvolgeva due squadre:

La prima squadra composta da un uomo e una donna, con l'uomo che doveva

cercare di imitare il comportamento della donna nelle sue risposte scritte.

La seconda squadra, composta da diversi individui, aveva il compito di

indovinare il sesso dei partecipanti basandosi unicamente sulle risposte fornite.

Turing propose di sostituire l'uomo con una macchina, ponendole come obiettivo quello di

ingannare gli interrogatori imitando il comportamento umano.

Il Test di Turing

Esiste una seconda versione, più precisa, che è diventata nota come l'effettivo Test di

Turing. In questa configurazione, gli interrogatori devono distinguere tra un essere umano

(di qualunque sesso) e una macchina. Se la macchina riesce a farsi scambiare per

l'umano dalla maggior parte degli esaminatori, allora può essere considerata in grado di

simulare il pensiero umano.

Critiche e Limiti Teorici

Le potenzialità di questo test sono state messe in discussione da diversi studiosi, tra cui

Dreyfuss e Searle:

Dreyfuss sosteneva l'impossibilità di codificare la conoscenza umana in modo

puramente automatico, ritenendo che essa non possa essere definita in

maniera precisa.

Searle, attraverso il celebre esperimento della "Stanza Cinese", evidenziò la

differenza tra il semplice applicare regole (manipolazione di simboli) e l'avere

una conoscenza profonda di un tema. Secondo Searle, una macchina che

risponde correttamente a domande in una lingua che non "comprende" sta solo

seguendo un manuale di istruzioni, senza possedere una reale comprensione.

Macchina di Von Neumann

L'architettura di Von Neumann, derivata dal progetto EDVAC del 1944, rappresenta il

modello di riferimento universale per la struttura e il funzionamento della quasi totalità dei

computer moderni. Questo schema descrive un elaboratore Turing equivalente, ovvero

una macchina universale capace di risolvere qualunque problema computazionale per cui

esista un algoritmo.

Principi Cardine dell'Architettura

L'innovazione principale di Von Neumann risiede nell'idea che dati e istruzioni siano

memorizzati nello stesso dispositivo (la memoria centrale), eliminando la necessità di

riconfigurare fisicamente la macchina per ogni nuovo compito. Il sistema utilizza

l'aritmetica binaria e mantiene una netta distinzione logica tra la fase di memorizzazione e

quella di elaborazione.

Componenti Fondamentali

Il funzionamento coordinato del sistema è garantito da cinque componenti principali:

Processore (CPU): E l'unità dedicata all'elaborazione. Esegue le istruzioni in linguaggio

macchina in modo sequenziale e ciclico. Utilizza registri fondamentali come il PC

(Program Counter), che punta alla prossima istruzione, e l'IR (Instruction Register), che

ospita l'istruzione attualmente in esecuzione.

Memoria Centrale: Composta da celle, ognuna con un indirizzo univoco, ospita sia il

software (istruzioni) che i dati necessari per l'esecuzione.

Interfaccia di Input/Output: Permette il collegamento con l'esterno e con le periferiche.
Bus di sistema: È il canale di comunicazione che permette lo scambio di informazioni tra

le componenti.

Si suddivide in bus dati, bus indirizzi e bus di controllo

Orologio di sistema (Clock): Coordina le varie fasi inviando una sequenza costante di

impulsi; ad ogni impulso inizia un nuovo ciclo macchina.

Il Limite Tecnologico: Il "Collo di Bottiglia"

Un concetto critico spesso richiesto è il collo di bottiglia di Von Neumann. Si tratta di un

rallentamento che si verifica perché la velocità di elaborazione della CPU è molto

superiore alla velocità con cui i dati possono essere trasferiti sul bus. Di conseguenza, la

Data Analytics: Fondamenti e Applicazioni → Nel mondo moderno, l'analisi dei dati ha assunto un ruolo cruciale in svariati settori, rivoluzionando la nostra comprensione e le nostre capacità decisionali. Questo processo coinvolge due aspetti fondamentali: la progettazione di algoritmi e l'analisi dei dati. 1. Progettazione di Algoritmi → Gli algoritmi rappresentano il cuore pulsante della risoluzione di problemi attraverso un insieme finito di istruzioni. La loro efficacia si fonda su due pilastri: correttezza ed efficienza. La progettazione degli algoritmi trova applicazioni in diversi ambiti, dalle complesse operazioni di ordinamento dei dati al calcolo delle distanze, fino alla determinazione dei pagerank. Questi algoritmi sono fondamentali nell'analisi dei dati, poiché guidano il processo di estrazione e comprensione delle informazioni contenute nei vasti insiemi di dati. 2. Analisi dei Dati e Data Science → La data science , disciplina chiave nell'analisi dei dati, è emersa come risposta alla crescente mole di dati generati nell'era digitale. Nel corso degli ultimi decenni, la produzione di dati è esplosa, passando da 1800 miliardi di gigabyte nel 2011 a oltre 40 mila miliardi di gigabyte attuali, inaugurando così l'epoca dei big data. Questi dati sono prodotti dagli utenti durante le loro attività online, creando un vasto serbatoio di informazioni che richiedono analisi e interpretazione. Le tecniche di analisi e gli algoritmi sono strumenti fondamentali per estrarre significato e conoscenza da questo mare di dati. L' obiettivo principale dell' analisi dei dati è triplice : predire eventi futuri, fornire raccomandazioni personalizzate agli utenti e supportare processi decisionali fondati su evidenze. Tipologie di Dati e Big Data → I dati, la materia prima dell'analisi, possono essere organizzati o non organizzati. Questi ultimi costituiscono il nucleo dei big data , caratterizzati dalle tre " V ": volume , velocità e varietà. La gestione di questo enorme flusso di informazioni richiede non solo potenza di calcolo , ma anche sofisticate tecniche di analisi e comprensione dei dati. Python e l'Analisi dei Dati →Python si è affermato come uno dei linguaggi di programmazione più utilizzati nell'analisi dei dati. La sua versatilità e la vasta gamma di librerie specializzate lo rendono uno strumento indispensabile per i data scientist. Con Python, è possibile manipolare e analizzare dati in vari modi, sia attraverso codice sorgente che in modalità interattiva , offrendo così una flessibilità senza pari nell'esplorazione e nell'interpretazione dei dati. 3 ANALISI DI ALGORITMI → Gli algoritmi strumenti fondamentali x risolvere vasta gamma di problemi , fornendo procedure automatiche x elaborare dati e trovare soluzioni. Problemi categorizzati in diverse tipologie:

Decisione : richiedono di determinare se un insieme di dati possiede una certa proprietà, fornendo una risposta binaria.
Ordinamento e ricerca: mirano a organizzare i dati in un ordine specifico o a individuare un dato particolare all'interno di essi.
Ottimizzazione : coinvolgono la ricerca del valore ottimale, che può essere massimizzato o minimizzato. Per risolvere un problema, spesso ci sono più algoritmi disponibili, ciascuno con le proprie caratteristiche. La scelta dell'algoritmo dipende dagli obiettivi specifici, come massimizzare o minimizzare il numero di operazioni necessarie. La valutazione dell'efficienza di un algoritmo coinvolge l'analisi delle operazioni di base e il loro numero, solitamente in relazione alla dimensione dei dati di input. L'efficienza di un algoritmo è spesso valutata in base al tempo di calcolo nel caso peggiore, espresso in funzione della dimensione dei dati di input. Si considera anche la tecnologia utilizzata e il design dell'algoritmo stesso.I problemi possono essere classificati come facili o difficili , a seconda della presenza di algoritmi efficienti. L'ordinamento è un procedimento comune , con algoritmi come il SelectionSort e il MergeSort , che utilizza la Tecnica Divide et Impera → che mira a semplificare problemi complessi suddividendoli in sottoproblemi più gestibili. Chiaramente, i sottoproblemi avranno input di dimensione inferiore. Per risolvere un problema con questo algoritmo, dobbiamo prima risolvere i sottoproblemi e poi combinare le soluzioni. Nel contesto dell'ordinamento, si suddivide il problema ordinando prima un insieme e poi un altro. La ricerca è un'altra operazione comune, con algoritmi come la ricerca sequenziale , e la ricerca binaria. Il calcolo delle distanze è utilizzato per valutare la distanza tra due punti in un grafo, con algoritmi come l'algoritmo di Dijkstra per calcolare il cammino più breve. I motori di ricerca , come Google, utilizzano algoritmi complessi come il Pagerank per ordinare i risultati delle ricerche in base alla rilevanza delle pagine web.I sistemi di raccomandazione , come quelli utilizzati da Netflix e YouTube, utilizzano algoritmi basati sulla similarità tra utenti o contenuti per suggerire elementi di interesse. In conclusione, l'analisi degli algoritmi è fondamentale per comprendere e risolvere una vasta gamma di problemi in modo efficiente e accurato.

4 – LA STATISTICA E L'ANALISI DEI DATI→ Le discipline interconnesse all'analisi dei dati sono la statistica e il calcolo delle probabilità. La statistica è un campo applicativo che esamina ciò che è stato osservato , mentre la probabilità è utilizzata per fare previsioni future ed è quindi una disciplina teorica. 4. 1 La Statistica Descrittiva→ La statistica descrittiva comprende l'analisi dei fenomeni e dei dati raccolti. Si fa riferimento alla "popolazione" per indicare l'insieme di soggetti studiati ( unità statistiche ) e al " carattere " quando si parla della grandezza di un soggetto statistico. Inoltre, si definisce la " variabile statistica ", che è l'associazione tra un'unità statistica e il dato ( valore di un carattere ). 4. 2 Caratteristiche dei Dati→ I dati possono essere: ● Strutturati : hanno una struttura interna che semplifica l'analisi e sono organizzati in tabelle. Di solito, l'elaborazione e l'analisi di questi dati sono più semplici, e sono meno diffusi. ● Non strutturati : privi di struttura e organizzazione interna. L'elaborazione è più complessa e richiede tecniche di pre-elaborazione, ma sono più diffusi. La fase di pre - elaborazione presenta un input , in cui ci sono i dati non strutturati, e un output che riorganizza i dati. La definizione di una struttura si basa sulla definizione delle caratteristiche dei dati, come le parole in un testo o la presenza di caratteri speciali. I dati possono essere anche qualitativi o quantitativi : ● Quantitativi: esprimibili in forma numerica (fatturato negozio, acquisti giornalieri, visite di una pagina web). ● Dati Qualitativi : non esprimibili numericamente e quindi non applicabili a operazioni matematiche (CAP o testo di una pagina web). In questo caso, si possono usare categorie. Le operazioni applicabili sui dati quantitativi sono le operazioni aritmetiche ( somma o media ) o l'analisi dell'andamento nel tempo , mentre sui dati qualitativi si applicano operazioni come la ricerca di valori univoci o la frequenza dei valori. 4. 3 I Livelli dei Dati→ I dati possono avere diversi livelli , ognuno dei quali consente di descrivere le caratteristiche , le operazioni applicabili e le misure per descrivere i dati. Per ogni livello esistono misure del centro e della variabilità. Misurazione del Centro: Il centro è il valore che esprime la tendenza dei dati, facendo una sintesi con un solo valore compreso tra gli estremi di min e max. A seconda del livello, ci sono diverse misure del centro, come la moda, la media e la mediana. ● Primo livello - Livello Nominale: livello qualitativo e sono dati in cui abbiamo testo o categorie e sui quali non possiamo applicare nessuna operazione aritmetica, ma possiamo confrontarli. Non possono esserci misure del centro, ma possiamo utilizzare la moda , l’elemento + frequente all’interno della collezione dati ● Secondo - Livello Ordinale: Dati sui quali è possibile definire un ordine ed è un livello semi quantitativo. Le operazioni effettuabili in questo livello sono quelle del livello nominale, il confronto (operazioni basate sull’ordine) e l’ordinamento complessivo basato su un criterio di ordinamento. Nel livello ordinale il centro può essere stabilito con la moda , la mediana (valore intermedio tra gli estremi), mentre la media non è applicabile. Per il calcolo della mediana devo ordinare i dati e cerco l’elemento che li divide in due parti circa uguali. Se ho un numero dispari di numeri la mediana è il valore al centro. Se non ho dei numeri (ad esempio titoli di studio) posso prendere uno dei due valori al centro e suddivido ● Livello degli Intervalli: I dati sono espressi in modo quantificabile. Un insieme di dati appartiene a questo livello se è possibile fare addizioni e sottrazioni. Le misure del centro che possono esser utilizzate sono: moda , mediana , media ponderata e aritmetica ● Livello dei Rapporti: Dati espressi quantitativamente con presenza di zero assoluto. È possibile effettuare anche moltiplicazioni e divisioni e in genere i valori sono non negativi. Un altro modo per calcolare il centro è quello della **media geometrica.

4 Proprietà della Media e della Mediana** ● Media: Sensibile ai valori anomali (outliers); significativa per dati senza outliers e distribuzione simmetrica. ● Mediana : Non sensibile ai valori anomali; adatta per valutare dati sbilanciati. Nell'analisi della dispersione, la media è il baricentro dei dati. Si utilizzano gli scarti quadratici per valutare quanto la media sia vicina ai dati considerati. La media delle variabili statistiche si indica con E(X).

La disuguaglianza di Tchebychev fornisce una stima conservativa della distribuzione dei dati e ci aiuta a comprendere la variabilità dei dati rispetto alla media. Le distribuzioni normali , o gaussiane , sono un caso particolare di distribuzione che segue la disuguaglianza di Tchebychev in modo particolarmente preciso. 5. 5 La correlazione La covarianza e la correlazione sono misure quantitative che ci permettono di valutare il grado di associazione tra due variabili. Questo è fondamentale per estrarre conoscenza dai dati. 5. 5. 1 La covarianza La covarianza misura quanto variano due variabili rispetto ai loro valori medi. Se il valore della covarianza è positivo , le due variabili tendono a variare nella stessa direzione; se è negativo , variano in direzioni opposte; se è vicino a zero , non c'è una relazione lineare tra di loro. 5. 5. 2 Correlazione tra dati La correlazione ci indica se due variabili hanno un legame tra loro. Questo può essere positivo (andamento simile), negativo (andamento opposto) o nullo (nessuna associazione). Il coefficiente di correlazione di Pearson , che varia tra - 1 e 1 , misura la forza e la direzione di questa relazione. Tuttavia, non implica causalità. Correlazione di Spearman → Il coefficiente di correlazione di Spearman è una misura non parametrica della correlazione che si basa sul rango delle osservazioni anziché sui valori stessi. Questo coefficiente valuta la monotonia della relazione tra le variabili piuttosto che la loro linearità. Il coefficiente di Spearman conta il numero di coppie che rispettano l'ordine, senza assumere una relazione lineare. Anche in questo caso, non implica causalità. Valuta quindi se c'è una tendenza generale di aumento o diminuzione tra le variabili, anche se questa relazione non è necessariamente lineare. Come il coefficiente di correlazione di Pearson, il coefficiente di Spearman varia tra - 1 e 1 , dove - 1 indica una correlazione inversa perfetta, 1 indica una correlazione positiva perfetta e 0 indica l'assenza di correlazione. Aggiungere la correlazione di Spearman fornisce una prospettiva più completa sulle relazioni tra le variabili, specialmente quando non si possono assumere relazioni lineari. La causalità La causalità implica una relazione di causa-effetto. Sebbene la correlazione possa indicare l'esistenza di un legame tra due variabili, non ci dice nulla sulla direzione di questo legame o se esiste un effetto causale. Il paradosso di Simpson Questo paradosso evidenzia come l'analisi dei dati possa portare a conclusioni contraddittorie a causa di variabili di confusione non considerate. Il riconoscimento e il controllo di queste variabili sono cruciali per trarre conclusioni valide dalle analisi dei dati.

6. Il Calcolo delle Probabilità → 6. 1. Procedura ed Evento Quando osserviamo un'azione che può avere uno o più esiti, parliamo di un esperimento. Quest'ultimo può essere deterministico o casuale. Un esperimento è deterministico quando già conosciamo l'esito, come nel caso di un problema di geometria con una soluzione ben definita. Al contrario, in un esperimento casuale non conosciamo l'esito in anticipo, come nel lancio di un dado. ● Evento Elementare: Si riferisce a un singolo esito di un esperimento, come il lancio di un dado con risultati da 1 a 6 o il lancio di una moneta con testa o croce. ● Evento Generale : Può essere più complesso , coinvolgendo più eventi elementari, come ottenere un numero pari nel lancio di un dado. Gli eventi possono essere: ● Certi : Include tutti gli esiti possibili. ● Impossibili : L'evento fa parte di un insieme vuoto, come ottenere 7 nel lancio di un dado. Lo spazio campione rappresenta l'insieme di tutti i possibili eventi Nel definire la probabilità, consideriamo tre proprietà : ● Non Negatività: La probabilità di un evento è sempre maggiore o uguale a zero. ● Additività: Se due eventi sono disgiunti (non hanno niente in comune), la probabilità della loro unione è la somma delle loro probabilità. ● Norma : L'evento certo ha probabilità 1. Deve includere tutti gli esiti possibili, quindi la somma delle probabilità di tutti gli eventi possibili è 1. Intersezione di eventi → Si verifica quando entrambi gli eventi si verificano contemporaneamente. Unione di Eventi → Si verifica quando almeno uno dei due eventi si verifica. Probabilità di un Evento (A), indicata come \P(A), è data da: Eventi Composti → Dati due eventi (A) e (B), possiamo calcolare:

La probabilità che si verifichino entrambi gli eventi.
La probabilità che almeno uno dei due eventi si verifichi. 6. 2 Regole del Calcolo della Probabilità Nell'analisi degli eventi complessi, esistono regole per il calcolo delle probabilità composte: ● Regola della Somma: Dati due eventi (A) e (B), la probabilità dell'unione di (A) e (B) è data da: P(AUB)=P(A)+P(B) - P(A∩B) → Se sommiamo le probabilità di (A) e (B), contiamo due volte gli elementi dell'intersezione, quindi dobbiamo sottrarre 1 volta probabilità dell'intersezione x evitare conteggio duplicato ● Reciproca Esclusività: Gli eventi non possono verificarsi contemporaneamente. In questo caso, la regola della somma viene semplificata, non considerando l'intersezione. Quindi, la probabilità di (A) o (B) è uguale alla somma delle probabilità di (A) e (B). 6. 3 Approccio a Frequenza → In alcuni casi pratici, non è facile individuare lo spazio campione o calcolare la probabilità. In questi casi, si utilizza l'approccio basato sulla frequenza. Questo è un approccio sperimentale in cui si effettuano esperimenti e si approssima la probabilità considerando i risultati. La probabilità P(A) è definita come il numero di volte in cui si verifica l'evento A diviso il numero di ripetizioni della procedura. 6. 4 Probabilità Condizionale→ La probabilità condizionale, indicata come P(A|B) , è la probabilità che si verifichi l'evento A dato che l'evento B si è verificato. Si calcola considerando solo gli elementi che si trovano anche in B). 6. 5 Eventi Indipendenti→ Due eventi sono indipendenti quando il risultato di un evento non influenza il secondo. In questo caso, valgono le seguenti proprietà:Se A è indipendente da B, allora B è indipendente da A. ● P(B|A) = P(B) - P(B|A) = P(A) 6. 6 I Classificatori→ I classificatori sono strumenti utili per determinare a quale categoria appartiene un elemento. Nel caso dei classificatori binari, le possibilità di classificazione sono 2 e sono ampiamente utilizzate per scopi come valutare la rilevanza di un documento o classificare un messaggio come spam o non spam. Valutazione delle Prestazioni → Per valutare le prestazioni di un classificatore, si utilizza una tabella chiamata "matrice di confusione". Questa tabella presenta i dati positivi e negativi nelle righe e le previsioni positive e negative nelle colonne. Le celle correttamente classificate sono evidenziate in blu, mentre quelle erroneamente classificate sono evidenziate in rosso.

7. Comunicare i Dati → è fondamentale per trasmettere informazioni significative e comprensibili ai decisori e agli interessati. Esistono due approcci principali per comunicare i dati: verbale e visuale , tramite l'uso di grafici e visualizzazioni. La visualizzazione dei dati è cruciale per diverse ragioni: aiuta a esplorare i dati, individuare tendenze e identificare eventuali errori o anomalie nei dati; inoltre è efficace nel comunicare tendenze, andamenti e relazioni nei dati in modo chiaro e intuitivo. Nonostante le misure di sintesi indichino dati simili, la visualizzazione può rivelare differenze significative. 7. 1 Tipologie di Grafico ● Grafici a Torta : utilizzati per rappresentare la distribuzione della frequenza per caratteri qualitativi. ● Diagrammi a Barre : adatti per rappresentare variabili categoriche e confrontare la frequenza assoluta o relativa tra due insiemi di dati o gruppi di variabili. ● Istogrammi :simili ai diagrammi a barre ma sono utilizzati per variabili quantitative, con i dati suddivisi in classi e la frequenza relativa rappresentata in ogni classe. ● Grafici a Dispersione :utilizzati per rappresentare la relazione tra due variabili e identificare una possibile correlazione tra di esse. ● Grafici a Linee : I grafici a linee connettono i valori di una variabile nel tempo e sono utilizzati principalmente per variabili quantitative. ● Grafici Box - Plot : forniscono una rappresentazione sintetica della distribuzione dei dati, mostrando la mediana, il primo e il terzo quartile e individuando eventuali valori anomali. ● Mappe di Dati : possono essere utilizzate per rappresentare dati spaziali, come la distribuzione geografica di determinati fenomeni. Ogni tipo di grafico ha le proprie applicazioni e vantaggi, e la scelta dipende dalla natura dei dati e dagli obiettivi dell'analisi. Utilizzando una combinazione di grafici, è possibile comunicare in modo efficace le informazioni contenute nei dati, consentendo una comprensione più approfondita dei fenomeni studiati. 7. 2 Principi di Visualizzazione Nel processo di costruzione di un grafico, è importante prendere decisioni che massimizzino l'efficacia della comunicazione dei dati. Ecco alcuni principi fondamentali da considerare: ● Massimizzare il Rapporto Dati/Inchiostro: Il primo aspetto da considerare è massimizzare il rapporto dati/inchiostro. Questo significa che la maggior parte dell'inchiostro dovrebbe essere utilizzata per comunicare effettivamente i dati, piuttosto che per elementi decorativi. Un grafico chiaro ed efficace comunica i dati in modo conciso, senza sovraccaricare l'occhio con dettagli superflui. ● Minimizzare le Falsificazioni: È importante minimizzare le falsificazioni nei grafici. Alcune pratiche comuni che possono portare a una falsificazione includono la presentazione di medie senza indicare la varianza, l'uso di linee senza punti di dati associati, la distorsione della scala degli assi e l'assenza di etichette sugli assi. Eliminare queste pratiche aiuta a garantire che i dati siano rappresentati in modo accurato e onesto. ● Minimizzare gli Effetti Non Utili: Gli effetti non utili possono distogliere l'attenzione dal messaggio principale dei dati. Limitare l'uso di griglie di sfondo e colori troppo accesi può contribuire a mantenere il focus sui dati stessi. Inoltre, evitare l'uso eccessivo di inchiostro per segnalare valori non essenziali aiuta a mantenere il grafico pulito e leggibile. ● Uso Appropriato di Scale ed Etichettatura: Utilizzare scale e etichettatura appropriate è essenziale per garantire la comprensione dei dati. Limitare la scala degli assi solo se necessario, ma assicurarsi di non eliminare valori importanti. Le etichette sugli assi dovrebbero essere chiare e informative, consentendo ai lettori di comprendere facilmente i dati rappresentati. In sintesi, seguendo questi principi di visualizzazione, è possibile creare grafici chiari, accurati ed efficaci che comunicano in modo efficiente le informazioni contenute nei dati. 8. Machine Learning → Il machine learning rappresenta un approccio all'apprendimento automatico che si discosta dal metodo combinatorio. Mentre entrambi mirano a risolvere problemi, il processo attraverso il quale giungono alla soluzione è differente. Il concetto di intelligenza artificiale , e di conseguenza di machine learning, ha radici profonde nella storia dell'informatica. Alan Turing , con il suo celebre test dell'imitazione, si pose il quesito se una macchina fosse in grado di comportarsi in modo indistinguibile da un essere umano. Questo concetto è alla base del machine learning: la costruzione di sistemi in grado di apprendere e migliorare le loro prestazioni attraverso l'esperienza.

Le applicazioni del machine learning sono ampie e variegate. Esse includono: ● Previsioni: analisi dei dati per descriverli attraverso modelli e trovare regole implicite. ● Classificazioni : determinazione della categoria o dell'etichetta appropriata per un dato. ● Superamento del Rumore nei Dati : identificazione di relazioni complesse e pattern non immediatamente evidenti nei dati. Esistono diversi approcci al machine learning, ciascuno con le proprie caratteristiche: ● Con Supervisione: implica una fase di apprendimento basata su dati etichettati, seguita da una fase di applicazione. ● Senza Supervisione: non richiede dati etichettati per l'apprendimento iniziale. ● A Rafforzamento : ispirato al metodo educativo, in cui il sistema apprende attraverso prove ed errori. Quando si valutano i metodi di machine learning, è importante considerare diverse caratteristiche : ● Potere di Espressione: la capacità del modello di rappresentare relazioni complesse nei dati. ● Interpretabilità : la facilità con cui è possibile comprendere il funzionamento e le decisioni del modello. ● Velocità di Apprendimento e Predizione Il machine learning offre un approccio flessibile e potente per l'analisi e la comprensione dei dati, con applicazioni che spaziano da previsioni e classificazioni a problemi di riconoscimento e interpretazione. La sua capacità di apprendere e adattarsi alle informazioni lo rende uno strumento indispensabile in molti campi, dall'informatica alla ricerca scientifica e oltre. 8. 1 I Modelli Matematici → Costruire un modello matematico è un processo fondamentale per comprendere e predire fenomeni complessi. L'obiettivo è tradurre le caratteristiche di un fenomeno in formule matematiche che possano essere analizzate e interpretate. Questi modelli sono essenziali per ottenere una migliore comprensione dei dati e per fare previsioni affidabili. Un aspetto cruciale nella costruzione di modelli matematici è la complessità. La strategia del rasoio di Occam suggerisce che la spiegazione più semplice è preferibile. Questo perché, sebbene la complessità possa migliorare l'accuratezza dei modelli, può anche renderli più difficili da interpretare e adattare. Trovare il giusto equilibrio tra semplicità ed efficacia è essenziale nella progettazione di modelli matematici. Durante la modellazione, è importante essere consapevoli degli errori che possono verificarsi: ● Bias: assumere erroneamente delle condizioni che influenzano il modello. ● Underfitting : quando il modello non riesce a catturare le caratteristiche importanti dei dati di addestramento. ● Overfitting : quando il modello si adatta troppo fedelmente ai dati di addestramento, includendo il rumore e riducendo la sua capacità di generalizzazione. 8. 2 Approccio con Supervisione → L'approccio con supervisione mira a stabilire associazioni tra le caratteristiche dei dati e una variabile obiettivo. Questo tipo di apprendimento è utilizzato per comprendere le relazioni tra variabili note e variabili target, consentendo previsioni basate su dati etichettati. I dati vengono suddivisi in tre parti: dati di addestramento, dati di test e dati di valutazione. Le applicazioni includono previsioni di mercato, diagnostiche mediche e previsioni meteorologiche. La regressione è un approccio per identificare la relazione tra le variabili di input e la variabile target. Esistono due tipi principali di regressione: lineare e logistica. La regressione lineare assume una relazione lineare tra le variabili, mentre la regressione logistica è utilizzata per modellare relazioni non lineari. La classificazione bayesiana utilizza il teorema di Bayes per stimare la probabilità che un dato appartenga a una determinata categoria. È utilizzato per problemi di classificazione in cui l'obiettivo è assegnare una categoria o un'etichetta a un dato. 8. 3 Approccio Senza Supervisione→ L'approccio senza supervisione è utilizzato per l'analisi dei dati e il riconoscimento di strutture interne senza l'ausilio di dati etichettati. Le tecniche principali includono la riduzione dimensionale e il clustering , che è il processo di partizione dei dati in gruppi omogenei. 8. 4 Alberi Decisionali→ sono modelli che consentono di prendere decisioni basate su una serie di regole gerarchiche. Sono ampiamente utilizzati per problemi di classificazione e previsione. La costruzione di un albero decisionale avviene top-down , suddividendo iterativamente i dati in base alle condizioni più significative. La modellazione matematica e l'apprendimento automatico sono quindi potenti strumenti per l'analisi e la comprensione dei dati. Sia l'approccio con supervisione che quello senza supervisione offrono metodi efficaci per affrontare una vasta gamma di problemi, dalle previsioni alle decisioni basate sui dati. La scelta del modello e dell'approccio dipende dalla natura del problema e dalla disponibilità dei dati.

riassunto per esame informatica e data analytics, Appunti di Informatica gestionale

Documenti correlati