Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modulo 3 informatica, Appunti di Elementi di Informatica

il documento contiene tutti gli argomenti trattati in modulo 3, con qualche approfondimento, inoltre, se si vuole approfondire ulteriormente si rimanda al libro di testo utilizzato in alcune parti.

Tipologia: Appunti

2022/2023

Caricato il 16/02/2025

n.naz
n.naz 🇮🇹

2 documenti

1 / 20

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ANALISI STATISTICA DEI DATI CON IL FOGLIO ELETTRONICO
La statistica è l’arte e la scienza di raccogliere, analizzare, interpretare e presentare dati
nell’intento di trasformarli in informazione utile.
L’avere a che fare con dati che provengono da elementi di una stessa famiglia
(popolazione) impone di usare adeguate metodologie di analisi che prevedono descrittori e
misure implementabili come formule o grafici.
ALCUNE DEFINIZIONI NELLA STATISTICA DESCRITTIVA
La statistica descrittiva si occupa direttamente di riassumere e presentare l’informazione
contenuta nei dati (cit. Prof. Bonnini)
Le tecniche di statistica descrittiva consistono ad esempio in misure di sintesi che
permettano di riassumere l’informazione essenziale attraverso pochi numeri che
“comunichino” qualcosa che non era evidente con la semplice osservazione dei dati raccolti
(sempre dal Prof. Bonnini)
Quando si analizza un dato è necessario individuare una caratteristica di interesse su cui
portare l’osservazione statistica → si parla di variabile.
Esempi di variabili:
Soddisfazione di un cliente rispetto ad un investimento eseguito
Stipendio medio di un CFO (Chief Financial Officer)
Valore sul mercato di una commodity (es. petrolio, cereali, carbone, ecc.)
VARIABILI:
Una variabile viene identificata come qualitativa se le sue modalità (i valori che può
assumere) sono valori numerici e non misurabili (qualità appunto...)
Si dice che la variabile qualitativa è ordinale se le sue modalità sono passibili di un
ordinamento (es. la soddisfazione di un cliente → poco, abbastanza, tanto)
Si dice che la variabile qualitativa è nominale se invece non è possibile stabilire un
ordinamento delle sue modalità (es. nome di un bene → benzina, pane, latte)
Una variabile viene identificata come quantitativa se le sue modalità sono numeri e quindi
quantità misurabili.
Se la variabile quantitativa prevede operazioni di conteggio su un numero finito di
modalità allora si definisce discreta (es. numero di dipendenti di una piccola
industria).
Se la variabile quantitativa può assumere un numero qualsiasi all’interno di un
intervallo si definisce continua (es. stipendio medio di un impiegato).
Ogni variabile viene quindi osservata su un insieme di unità statistiche e pertanto genera
una distribuzione di valori o di modalità.
ANALISI DEI DATI QUALITATIVI – FREQUENZE
L’analisi di una variabile qualitativa per rappresentare un certo fenomeno inizia sempre con
la valutazione della sua distribuzione.
Nella pratica si avrà a che fare con una tabella in cui la maggior parte delle modalità
assunte dalla variabile si ripetono per una o più volte.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Anteprima parziale del testo

Scarica Modulo 3 informatica e più Appunti in PDF di Elementi di Informatica solo su Docsity!

ANALISI STATISTICA DEI DATI CON IL FOGLIO ELETTRONICO

La statistica è l’arte e la scienza di raccogliere, analizzare, interpretare e presentare dati nell’intento di trasformarli in informazione utile. L’avere a che fare con dati che provengono da elementi di una stessa famiglia (popolazione) impone di usare adeguate metodologie di analisi che prevedono descrittori e misure implementabili come formule o grafici.

ALCUNE DEFINIZIONI NELLA STATISTICA DESCRITTIVA La statistica descrittiva si occupa direttamente di riassumere e presentare l’informazione contenuta nei dati (cit. Prof. Bonnini) Le tecniche di statistica descrittiva consistono ad esempio in misure di sintesi che permettano di riassumere l’informazione essenziale attraverso pochi numeri che “comunichino” qualcosa che non era evidente con la semplice osservazione dei dati raccolti (sempre dal Prof. Bonnini) Quando si analizza un dato è necessario individuare una caratteristica di interesse su cui portare l’osservazione statistica → si parla di variabile. Esempi di variabili: ● Soddisfazione di un cliente rispetto ad un investimento eseguito ● Stipendio medio di un CFO (Chief Financial Officer) ● Valore sul mercato di una commodity (es. petrolio, cereali, carbone, ecc.)

VARIABILI: Una variabile viene identificata come qualitativa se le sue modalità (i valori che può assumere) sono valori numerici e non misurabili (qualità appunto...) Si dice che la variabile qualitativa è ordinale se le sue modalità sono passibili di un ordinamento (es. la soddisfazione di un cliente → poco, abbastanza, tanto) Si dice che la variabile qualitativa è nominale se invece non è possibile stabilire un ordinamento delle sue modalità (es. nome di un bene → benzina, pane, latte)

Una variabile viene identificata come quantitativa se le sue modalità sono numeri e quindi quantità misurabili. ● Se la variabile quantitativa prevede operazioni di conteggio su un numero finito di modalità allora si definisce discreta (es. numero di dipendenti di una piccola industria). ● Se la variabile quantitativa può assumere un numero qualsiasi all’interno di un intervallo si definisce continua (es. stipendio medio di un impiegato).

Ogni variabile viene quindi osservata su un insieme di unità statistiche e pertanto genera una distribuzione di valori o di modalità.

ANALISI DEI DATI QUALITATIVI – FREQUENZE L’analisi di una variabile qualitativa per rappresentare un certo fenomeno inizia sempre con la valutazione della sua distribuzione. Nella pratica si avrà a che fare con una tabella in cui la maggior parte delle modalità assunte dalla variabile si ripetono per una o più volte.

Per definizione, la distribuzione di frequenza di una data variabile è una tabella di sintesi che indica il numero di osservazioni per ciascuna modalità della variabile → Frequenza assoluta.

Tuttavia, per favorire l’interpretazione dei dati a volte conviene prendere in esame anche la distribuzione delle frequenze relative e percentuali. La prima indica la proporzione di osservazioni ascrivibili a ciascuna modalità , la seconda ne indica la percentuale.

LA FUNZIONE CONTA.SE

Per costruire la distribuzione di frequenza assoluta in un foglio elettronico si utilizza la funzione CONTA.SE (intervallo_dati;criterio_di_conteggio) Intervallo_dati contiene le osservazioni della variabile studiata e criterio_di_conteggio (scritto fra doppi apici) il criterio di selezione delle sue modalità.

Le frequenze relative possono essere calcolate agevolmente dal risultato della funzione CONTA.SE applicata su ogni modalità. Basta dividere le frequenze assolute ottenute dalla funzione per il numero totale delle osservazioni (...che ottenete con la funzione SOMMA applicata alle celle che contengono le frequenze assolute ad esempio...) Le frequenze percentuali si possono ottenere moltiplicando per un fattore 100 le frequenze relative oppure formattando le celle (in questo caso sarà non un calcolo ma una visualizzazione!) con il tipo di dato numerico «percentuale». In casi eccezionali si può usare la funzione CONTA.PIU’.SE che funziona come CONTA.SE , ma è applicata su più criteri di conteggio (utile quando si vogliono aggregare e confrontare più modalità ). Tuttavia si ritiene questa una funzionalità avanzata per questo corso.

GRAFICI PER L’ANALISI DI DATI QUALITATIVI – GRAFICO A TORTA

Basta selezionare la colonna delle frequenze assolute come insieme di dati prima di usare la funzionalità per inserire il grafico.

In questo caso più che organizzare la tabella delle frequenze per singolo valore di occorrenza della variabile si preferisce costruire delle classi di modalità → è necessario stabilirle però...

CLASSI DI MODALITA’

Per costruire una tabella di frequenza per classi di modalità si utilizza sempre la funzione FREQUENZA come visto precedentemente. In questo caso però, il secondo argomento della funzione deve contenere il limite superiore (il valore più elevato) di ogni classe di modalità stabilite. Prendendo l’esempio della slide precedente si può suddividere il rating dei titoli secondo le classi 1-3, 4-6, e 7-9. I limiti superiori delle classi saranno quindi 3, 6, e 9, rispettivamente. A questo punto si utilizza la stessa procedura di calcolo delle frequenze.

FREQUENZA CUMULATIVA

Quando si ha a che fare con variabili quantitative , potrebbe essere necessario contare la frequenza cumulativa. Essa rappresenta il numero di occorrenze minori o uguali alla modalità in esame. Molto utile per capire ad esempio quante volte un titolo ha un rating inferiore ad un certo valore. Dalla frequenza cumulativa si può passare alla frequenza cumulativa percentuale dividendo la prima per il totale delle osservazioni e moltiplicando per 100

GRAFICI PER L’ANALISI DI DATI QUANTITATIVI

Gli strumenti grafici maggiormente utilizzati per la rappresentazione delle variabili quantitative nel foglio elettronico sono: ● Il grafico a barre – usato per la rappresentazione della frequenza assoluta sull’ordinata e delle modalità della variabile in osservazione sull’ascissa. ● Il grafico a dispersione – usato per la rappresentazione della frequenza cumulativa sull’ordinata e delle modalità della variabile in osservazione sull’ascissa

ANALISI DEI DATI QUANTITATIVI CONTINUI Nel contesto delle variabili quantitative continue, data la natura del dato, la tabella di frequenza deve essere per forza organizzata per classi di modalità. Le classi vengono formate specificando gli intervalli per rappresentare i dati. Come regola generale si consiglia di utilizzare tra le 5 e le 20 classi a seconda del fenomeno che la variabile rappresenta → ma non sempre vero... L’ obiettivo è quello di utilizzare un numero sufficiente di classi che catturi la variabilità dei dati cercando di non avere classi con poche unità. Inoltre, sulla base della prassi e dell’esperienza di chi con la statistica ci lavora quotidianamente, si consiglia di usare classi ad ampiezza costante.

Una volta trovato il numero ottimale di classi è necessario definire la loro ampiezza attraverso il campo di variazione dei dati. Il campo di variazione è la più semplice misura di variabilità dei dati che si calcola come la differenza fra il valore massimo e il valore minimo degli stessi. ● In statistica si calcola come = MAX(intervallo_celle) - MIN(intervallo_celle)

Il campo di variazione diviso per il numero di classi in cui suddividere i dati rappresenta l’ampiezza delle classi. L’ampiezza delle classi tuttavia è un numero che deve essere arrotondato per eccesso all’intero usando la funzione ARROTONDA.ECCESSO (num;peso). ● Questa funzione prende come parametri il numero da arrotondare (num) e quale multiplo intero del parametro (peso) si vuole usare per l’arrotondamento ● Ad esempio se la cella C4 contiene il valore 24,65 = ARROTONDA.ECCESSO(C4;1) darà come risultato 25, mentre = ARROTONDA.ECCESSO(C4;10) sarà uguale a 30

A questo punto vanno creati gli estremi destri (limite superiore) di ogni classe. ● Si sceglie un valore che rappresenti l’ estremo destro della prima classe, mentre i successivi sono semplici incrementi di quest’ultimo in base all’ ampiezza calcolata. ● Ad esempio se l’ ampiezza delle classi è 4 e il primo estremo destro scelto è 9 , le classi successive avranno come estremi destri 13, 17, 21 , e così via... Controllate sempre che le classi scelte comprendano tutti i dati!

Ora che abbiamo tutte le informazioni che ci servono possiamo costruire la tabella delle frequenze assolute, relative, e percentuali per i nostri dati quantitativi continui con la ben nota funzione FREQUENZA Non capisco perché nella colonna L dell’esempio ci sia scritto «Valori centrali»

USARE GLI ISTOGRAMMI PER PLOTTARE I DATI (EXCEL)

Per fare un istogramma in Excel si può procedere allo stesso modo per la creazione di un diagramma a barre , con l’accortezza di allargare le barre in modo da rendere gli intervalli continui come mostrato in figura.. L’importante è che siano definiti sull’ascissa i valori centrali di ogni classe scelta e calcolati come differenza fra l’estremo destro di ogni classe e la metà della loro rispettiva ampiezza.

USARE LE PARETO CHARTS PER PLOTTARE I DATI (EXCEL)

Riprendiamo l’esempio visto precedentemente circa il monitoraggio dello stipendio annuale di 20 individui. Supponiamo di voler plottare un grafico che ci dica non solo la distribuzione di frequenza delle classi stipendiali ( istogramma ), ma che percentualmente ci dica quali classi pesano cumulativamente di più. Questo tipo di grafico prende il nome di Pareto chart e per attivarlo basta scegliere il set di dati da plottare e successivamente Inserisci grafico.

OSSERVAZIONE SU FREQUENZA

Come abbiamo visto la scelta delle classi (ampiezza ed estremi destri ) è un punto fondamentale. Se si sceglie male c’è il rischio che qualche osservazione della variabile in esame non venga conteggiata. In questo caso la funzione FREQUENZA ci può aiutare. Se nell’esempio precedente avessimo scelto classi di ampiezza 3,5 avremmo alcuni valori non conteggiati (valori maggiori di 30 nell’ultima classe ). Per ovviare al problema, invece di applicare la funzione FREQUENZA come al solito, si allunga l’ intervallo di celle che dovranno contenere le frequenze assolute di un’unità. In questo caso la cella aggiuntiva conterà il numero di osservazioni maggiori dell’ultimo estremo destro → Indicatore fondamentale per cambiare classi!

ANALISI UNIVARIATA DEI DATI (MISURE NUMERICHE)

Abbiamo visto la potenza del foglio elettronico nell’analisi dei dati mediante tabelle di frequenza e rappresentazioni grafiche. Tuttavia per le variabili quantitative abbiamo anche a disposizione una serie di strumenti di sintesi ancora più potenti: le misure numeriche. Le misure numeriche per dati univariati (relativi cioè ad una sola variabile ) si possono dividere in tre categorie: ● Misure di tendenza centrale ● Misure di variabilità ● Misure di forma

MISURE DI TENDENZA CENTRALE Le misure di tendenza centrale (o di centralità ) sono indicatori di sintesi di una distribuzione di frequenza. La centralità può essere definita in diversi modi, a cui corrispondono differenti indicatori associati. I più utilizzati sono: ● La media ● La mediana ● La moda

A questa famiglia di indicatori possono essere associati anche i percentili e quartili , che identificano misure di tendenza diverse da quella centrale, ma utili per una sintesi della distribuzione di frequenza.

LA MEDIA

LA MEDIANA

PRECISAZIONE

Quando il numero di osservazioni è dispari , la mediana corrisponde a quell’unico valore che divide esattamente in due metà la serie ordinata delle osservazioni.

RANGO INTERQUARTILICO

VARIANZA

VARIANZA (due formule)

DEVIAZIONE STANDARD

COEFFICIENTE DI VARIAZIONE

MEDIA E VARIANZA PER I DATI RAGGRUPPATI

Supponiamo di voler monitorare con un’analisi statistica l’andamento del fatturato in € di un anno di esercizio di 15 negozi appartenenti alla stessa catena A tal proposito attiviamo lo strumento Statistica descrittiva cliccando su Analisi dati nella scheda Dati della barra multifunzione. Dalla finestra di dialogo scegliamo Statistica descrittiva cliccando poi su OK.

Inseriamo come Intervallo di Input la colonna in cui si trovano i dati di fatturato e selezioniamo la casella Etichette nella prima riga. Come Intervallo di output ci scegliamo una cella dove posizionare il risultato dell’analisi statistica e selezioniamo Riepilogo statistiche. Cliccando su OK apparirà una tabella riassuntiva con la maggior parte delle misure di centralità, variabilità, e forma , più altri dati utili per definire il comportamento della popolazione di dati che abbiamo chiesto di analizzare.

STRUMENTI DI ANALISI DI EXCEL – RANGO E PERCENTILE Per esempio, da questi dati si può notare che l ’osservazione 432150 corrispondente al fatturato del 15-esimo negozio occupa il 71,40-esimo percentile e che la mediana (il 50-esimo percentile ) è pari a 365000. Lo strumento di analisi Rango e percentile , applicato alle osservazioni della variabile di interesse, produce un prospetto che indica per ciascuna osservazione , la sua posizione occupata nella serie ordinata per rango e il percentile di riferimento. L’inserimento e la scelta dei dati da computare avviene allo stesso modo di come descritto precedentemente.

STRUMENTI DI ANALISI DI EXCEL – ISTOGRAMMA Lo strumento di analisi Istogramma consente, dopo avere definito un intervallo di input dei dati, di creare un istogramma sia in forma testuale che grafica. Se non viene specificato nessun intervallo delle classi , Excel calcola automaticamente i valori centrali delle classi rilevate, indicando con Altro tutti i valori maggiori dell’ estremo destro dell’ultima classe. Di default Excel mantiene la visualizzazione delle barre separate. Sta all’utente avvicinarle come già indicato in questo corso.

VARIABILI CASUALI In termini informali una variabile casuale è una variabile quantitativa la cui distribuzione dei valori non è nota, ma sono note le sue modalità. Inoltre è possibile determinare la probabilità che ciascuno di tali valori possa essere osservato → possono essere sia discrete che continue. Una variabile casuale discreta può assumere un numero finito di valori o una sequenza di numeri interi (es. numero uscito da un lancio di un dado a 6 facce o il numero di azioni destinate all’interno di un portfolio). Una variabile casuale continua può assumere un qualsiasi valore numerico in un intervallo di valori (es. il valore esatto di un bene/servizio). Queste definizioni sono molto simili a quelle viste quando abbiamo parlato delle variabili quantitative non casuali.

DISTRIBUZIONI DI PROBABILITA’

La distribuzione di probabilità di una variabile casuale è la legge che stabilisce come le probabilità si distribuiscono sui possibili valori che la variabile casuale può assumere → vista come modello matematico. Per le variabili casuali discrete si parla di una funzione matematica nota con il nome di funzione di probabilità. Per le variabili casuali continue , invece, non è possibile definire una funzione di probabilità. Questo perché tra un valore e l’altro della variabile casuale esiste un numero infinito di valori → necessaria una riformulazione! In quest’ultimo caso la funzione di probabilità viene sostituita dalla funzione di densità in cui, graficamente, l’area sottostante alla funzione in un determinato intervallo fornisce la probabilità che la variabile casuale assuma un valore qualsiasi in tale intervallo.

LA DISTRIBUZIONE DI PROBABILITA’ BINOMIALE La distribuzione di probabilità binomiale è adatta a descrivere variabili casuali discrete rappresentative di molti fenomeni reali. Prendiamo il caso di un dato fenomeno che si manifesta in una sequenza di n prove identiche. Per ciascuna delle n prove supponiamo che esistano solo due possibili esiti: successo o insuccesso. La probabilità , indicata con p , che ciascuna prova dia luogo ad un successo è la stessa per tutte le n prove. Se le prove sono indipendenti (nessuna influenza l’altra), allora la variabile casuale « numero di successi verificati in n prove » segue una distribuzione di probabilità binomiale.

USARE LA DISTRIBUZIONE DI PROBABILITA’ BINOMIALE Supponiamo di eseguire un test di stress su 5 diversi istituti bancari per superare una certificazione di idoneità. Supponiamo che la probabilità di successo del test sia pari al 30% (0,3). La variabile casuale «numero di individui che avranno conseguito l’idoneità» segue una distribuzione binomiale con n = 5 e p = 0,. La funzione da utilizzare con Excel per modellare la distribuzione di probabilità binomiale è DISTRIB.BINOM.N(x;n;p;cumul) mentre in Fogli è DISTRIB.BINOM(x;n;p;cumul) dove x è il numero di successi di cui si vuole conoscere la probabilità, n è il numero di prove, p è la probabilità di successo. L’argomento cumul è un valore che può essere VERO o FALSO e indica ad Excel/Fogli se si vuole conoscere la probabilità cumulata di ottenere x successi o la probabilità esatta di avere x successi.

dove x è il numero di successi di cui si vuole conoscere la probabilità, media è il valore medio della distribuzione definito come np e p è la probabilità di successo. L’argomento cumul è un valore che può essere VERO o FALSO e indica a Excel se si vuole conoscere la probabilità cumulata di ottenere x successi o la probabilità esatta di avere x successi.

LA DISTRIBUZIONE DI PROBABILITA’ NORMALE La distribuzione di probabilità normale è la più importante tra le distribuzioni per le variabili casuali continue. Si usa per descrivere fenomeni «governati dal caso» quali: errori di misura, risultati di un test, altezza, peso, ecc. L’illustrazione della forma analitica di tale probabilità richiede la conoscenza del calcolo integrale. Dobbiamo però sapere che, così come per la distribuzione di probabilità binomiale , anche la distribuzione normale possiede dei parametri che la descrivono da un punto di vista della «forma». I parametri sono: ● La media → definisce la posizione della distribuzione sull’ascissa. ● La deviazione standard → definisce la larghezza della distribuzione.

Per calcolare la probabilità che una variabile casuale normale assuma un valore all’interno di un generico intervallo di valori a e b (ad esempio 5 e 7 nella figura) dobbiamo calcolare l’area sottostante la curva della funzione densità per quell’intervallo. Per definizione, l’ area totale sottostante la curva dell'intera funzione densità è uguale a 1 (evento certo) → Perché è sicuro che una variabile casuale normale assuma un valore nell’insieme dei numeri reali.

Per calcolare le probabilità della distribuzione di probabilità normale , attraverso il calcolo di specifiche aree sottostanti la curva, Excel ci mette a disposizione la funzione DISTRIB.NORM.N(x;media;dev_std;cumul) mentre Fogli usa DISTRIB.NORM(x;media;dev_std;cumul) dove x è il valore di cui si vuole ottenere la probabilità; media è il valor medio della distribuzione; dev_std è la deviazione standard della distribuzione.

Ancora una volta l’argomento cumul è un valore che può essere VERO o FALSO ed indica ad Excel/Fogli se si vuole calcolare la probabilità (cumulata) che la variabile normale assuma valore pari o inferiore ad x o la funzione di densità in corrispondenza di x.