Data analytics fondi | Schemi e mappe concettuali di Analisi Dei Dati

-Semisomma estremi:

Un’altra idea, oltre alla media interquartile, è la semi somma degli estremi: abbiamo dei

valori che sono ordinati, calcoliamo il minimo e il massimo e dividiamo per due.

(massimo + minimo)/2

La grande diﬀerenza tra le due è simile a

quella che abbiamo riscontrato tra la media

aritmetica e la mediana: la semisomma degli

estremi è molto sensibile agli outliers (proprio perché

prendendo minimo e massimo sto già prendendo due

valori potenzialmente anomali),

la media interquartile no perché usando il primo e il

terzo quartile non ho una misura sensibile ai valori

anomali (per essere definiti come tali, devono essere

pochi: non posso avere 1/4 di dati di valori anomali).

DISPERSIONE DEI DATI-misure di variabilità

Spesso succede di avere un insieme di dati che hanno lo stesso centro o comunque un centro

molto vicino. Quindi come posso descrivere i dati più nel dettaglio?

In entrambi i casi la media è 20 nel primo insieme se guardo

gli estremi ho 15 e 25, nel secondo caso invece ho 9 e 31

che sono molto distanti. I dati del secondo insieme hanno

una distanza maggiore rispetto al primo insieme anche se il

centro è uguale: il centro descrive certe proprietà ma alcune

non riesce a descriverle.

Di conseguenza, quello che ci chiediamo è:

possiamo arricchire la descrizione dei dati con altre misure sintetiche per distinguere casi come

questi? Si, attraverso misure di variabilità dei dati

Oltre al centro dei dati, possiamo misurare la variabilità dei dati: quanto sono distanti dal centro.

Per fornire una descrizione più precisa dei dati usiamo quindi il centro e la variabilità.

Parlando di misure di variabilità dei dati facciamo riferimento a:

→ Intervalli di variazione

→ Intervallo Interquartile

→ Misure della dispersione dei dati

Le prime due misure degli intervalli si rifanno a delle posizioni singole dei dati, invece le misure

della dispersione sono delle misure complessive che misurano complessivamente quanto i dati

sono distanti dal centro dei dati.

Intervallo di variazione: ampiezza dei valori assunti

Prendiamo il valore del valore massimo e del valore minimo e facciamo la diﬀerenza: max-min.

Vogliamo capire quanto è ampio l’intervallo di valori che possono assumere i dati presi in

considerazione: quanto sono lontani i dati della variabile statistica.

L’ampiezza di variabilità (diﬀerenza tra max e min) prende il nome di campo di escursione .

Oltre all’ampiezza, la descrizione include i valori estremi

L’ampiezza è però influenzata da valori anomali/estremi: se ho due valori che sono molto

distanti e che sono il minimo e il massimo e gli altri valori sono tutti più distanti dal centro,

ovviamente quando calcolo il campo di escursione trovo che esso è molto ampio quando in

realtà, a parte quei due dati, è molto più piccolo.

semisonna

desei

estrem

Max

Dati

con

Stesso

Cavito

Data analytics fondi, Schemi e mappe concettuali di Analisi Dei Dati

Documenti correlati

Anteprima parziale del testo

Scarica Data analytics fondi e più Schemi e mappe concettuali in PDF di Analisi Dei Dati solo su Docsity!

semisonna desei^

estrem

- /Max^ :^

es

Internit 1

Dicees

n+^ kV^ -