Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Data analytics fondi, Schemi e mappe concettuali di Analisi Dei Dati

Data analisi anno 2024 fondi unibg

Tipologia: Schemi e mappe concettuali

2023/2024

Caricato il 30/06/2025

martina30122002
martina30122002 🇮🇹

5

(1)

3 documenti

1 / 6

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
-Semisomma estremi:
Un’altra idea, oltre alla media interquartile, è la semi somma degli estremi: abbiamo dei
valori che sono ordinati, calcoliamo il minimo e il massimo e dividiamo per due.
(massimo + minimo)/2
La grande dierenza tra le due è simile a
quella che abbiamo riscontrato tra la media
aritmetica e la mediana: la semisomma degli
estremi è molto sensibile agli outliers (proprio perché
prendendo minimo e massimo sto già prendendo due
valori potenzialmente anomali),
la media interquartile no perché usando il primo e il
terzo quartile non ho una misura sensibile ai valori
anomali (per essere definiti come tali, devono essere
pochi: non posso avere 1/4 di dati di valori anomali).
DISPERSIONE DEI DATI-misure di variabili
Spesso succede di avere un insieme di dati che hanno lo stesso centro o comunque un centro
molto vicino. Quindi come posso descrivere i dati più nel dettaglio?
In entrambi i casi la media è 20 nel primo insieme se guardo
gli estremi ho 15 e 25, nel secondo caso invece ho 9 e 31
che sono molto distanti. I dati del secondo insieme hanno
una distanza maggiore rispetto al primo insieme anche se il
centro è uguale: il centro descrive certe proprietà ma alcune
non riesce a descriverle.
Di conseguenza, quello che ci chiediamo è:
possiamo arricchire la descrizione dei dati con altre misure sintetiche per distinguere casi come
questi? Si, attraverso misure di variabilità dei dati
Oltre al centro dei dati, possiamo misurare la variabilità dei dati: quanto sono distanti dal centro.
Per fornire una descrizione più precisa dei dati usiamo quindi il centro e la variabilità.
Parlando di misure di variabilità dei dati facciamo riferimento a:
Intervalli di variazione
Intervallo Interquartile
Misure della dispersione dei dati
Le prime due misure degli intervalli si rifanno a delle posizioni singole dei dati, invece le misure
della dispersione sono delle misure complessive che misurano complessivamente quanto i dati
sono distanti dal centro dei dati.
Intervallo di variazione: ampiezza dei valori assunti
Prendiamo il valore del valore massimo e del valore minimo e facciamo la dierenza: max-min.
Vogliamo capire quanto è ampio l’intervallo di valori che possono assumere i dati presi in
considerazione: quanto sono lontani i dati della variabile statistica.
L’ampiezza di variabilità (dierenza tra max e min) prende il nome di campo di escursione .
Oltre all’ampiezza, la descrizione include i valori estremi
L’ampiezza è però influenzata da valori anomali/estremi: se ho due valori che sono molto
distanti e che sono il minimo e il massimo e gli altri valori sono tutti più distanti dal centro,
ovviamente quando calcolo il campo di escursione trovo che esso è molto ampio quando in
realtà, a parte quei due dati, è molto più piccolo.
semisonna
desei
S
estrem
-
/
Max
:
2
Dati
con
la
Stesso
Cavito
-
-
-
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Data analytics fondi e più Schemi e mappe concettuali in PDF di Analisi Dei Dati solo su Docsity!

- Semisomma estremi: Un’altra idea, oltre alla media interquartile, è la semi somma degli estremi: abbiamo dei valori che sono ordinati, calcoliamo il minimo e il massimo e dividiamo per due. (massimo + minimo)/ La grande differenza tra le due è simile a quella che abbiamo riscontrato tra la media aritmetica e la mediana: la semisomma degli estremi è molto sensibile agli outliers (proprio perché prendendo minimo e massimo sto già prendendo due valori potenzialmente anomali), la media interquartile no perché usando il primo e il terzo quartile non ho una misura sensibile ai valori anomali (per essere definiti come tali, devono essere pochi: non posso avere 1/4 di dati di valori anomali). DISPERSIONE DEI DATI-misure di variabilità Spesso succede di avere un insieme di dati che hanno lo stesso centro o comunque un centro molto vicino. Quindi come posso descrivere i dati più nel dettaglio? In entrambi i casi la media è 20 nel primo insieme se guardo gli estremi ho 15 e 25, nel secondo caso invece ho 9 e 31 che sono molto distanti. I dati del secondo insieme hanno una distanza maggiore rispetto al primo insieme anche se il centro è uguale: il centro descrive certe proprietà ma alcune non riesce a descriverle. Di conseguenza , quello che ci chiediamo è: possiamo arricchire la descrizione dei dati con altre misure sintetiche per distinguere casi come questi? Si, attraverso misure di variabilità dei dati Oltre al centro dei dati, possiamo misurare la variabilità dei dati: quanto sono distanti dal centro. Per fornire una descrizione più precisa dei dati usiamo quindi il centro e la variabilità. Parlando di misure di variabilità dei dati facciamo riferimento a: → Intervalli di variazione → Intervallo Interquartile → Misure della dispersione dei dati Le prime due misure degli intervalli si rifanno a delle posizioni singole dei dati, invece le misure della dispersione sono delle misure complessive che misurano complessivamente quanto i dati sono distanti dal centro dei dati. Intervallo di variazione: ampiezza dei valori assunti Prendiamo il valore del valore massimo e del valore minimo e facciamo la differenza: max-min. Vogliamo capire quanto è ampio l’intervallo di valori che possono assumere i dati presi in considerazione : quanto sono lontani i dati della variabile statistica. L’ampiezza di variabilità (differenza tra max e min) prende il nome di campo di escursione. Oltre all’ampiezza, la descrizione include i valori estremi L’ampiezza è però influenzata da valori anomali/estremi: se ho due valori che sono molto distanti e che sono il minimo e il massimo e gli altri valori sono tutti più distanti dal centro, ovviamente quando calcolo il campo di escursione trovo che esso è molto ampio quando in realtà, a parte quei due dati, è molto più piccolo.

semisonna desei^

S

estrem

- /Max^ :^

Dati con^ la^ Stesso^ Cavito

Il campo di escursione nel primo caso è di 10 quindi abbastanza limitato, nel secondo caso invece è il doppio infatti corrisponde a 20. I due insieme di dati sono identici tranne che negli estremi che nel primo è 25 nel secondo 30 e ancora nel primo 15 e nel secondo 10 questo sottolinea come il minimo e il massimo sono determinanti nel calcolo del campo di escursione. Per evitare l’effetto negativo dei valori estremi è stata introdotta la differenza interquartile: se i valori anomali influenzano il campo di escursione, allora dobbiamo determinare una misura che non considera i valori estremi. La differenza interquartile identifica dove sta il 75% dei dati che sono minori di X0.75 e poi il secondo fattore che considero è il primo quantile cosi che considero quel valore X0.25 che in qualche modo separa il 25% dei dati più piccoli dal resto dei dati Prendo primo e terzo quartile e ne faccio la differenza: X0.75 - X0. Dispersione dei dati: Questo tipo di misure sono sostanzialmente misure che si basano su posizioni (cercano di riflettere e rappresentare i dati però si basano su posizioni: minimo e massimo o ancora primo e terzo quartile). Nell’analisi dei dati sono state introdotte delle misure che invece cercano di essere più complessive: rappresentare complessivamente (tenendo conto di tutti i valori) come sono e quanto sono distanti questi dati dal centro, in particolare dalla media. → scarto = differenza tra un dato e la media Abbiamo visto anche che se facciamo la somma degli scarti troviamo che la somma degli scarti è nulla: la media aritmetica è definita in modo tale che la somma degli scarti diventi nulla (somma uguale a zero). La somma degli scarti essendo nulla, per ogni insieme di dati che ha la stessa media, se la media è la stessa ma gli dati sono diversi, se sommo gli scarti non ottengo nulla. Il problema della somma degli scarti è che ho scarti positivi e negativi che si compensano (somma nulla), quindi una soluzione è elevare tutti gli scarti al quadrato, i quali diventano tutti positivi: essendo tutti valori positivi posso sommarli e ottenere dei valori che descrivono la variazione dei dati rispetto al centro: si elimina così il processo di compensazione. Le misure che vengono introdotte per descrivere la dispersione dei dati rispetto agli scarti quadratici sono due: varianza e deviazione standard/scarto quadratico medio.

Disuguaglianza di Tchebychev (matematico russo) Assumiamo ora di conoscere Media e Varianza di una variabile statistica Riusciamo a quantificare e stimare quanti sono i dati che sono vicini alla media o in un certo intervallo rispetto alla media? Si, si riesce attraverso due risultati:

- Disuguaglianza di Tchebychev: risultato generale che vale sempre, con qualsiasi dataset - Distribuzione normale: si applica solo a un certa categoria di dati, con una certa distribuzione La disuguaglianza di Tchebychev permette di valutare quanti dati sono presenti all’interno di un intervallo comprendente la media Data una variabile statistica con: - Media: m - Varianza: v 2 In un intervallo [m-kv, m+kv]

  1. I dati esterni all’intervallo sono non più di 1/k 2
  2. I dati interni all’intervallo sono almeno 1 - 1/k 2 Esercizio: a quale distanza dalla media sta il 75% dei dati? ovvero voglio che nell’intervalli [m-kv, m+kv] sia incluso il 75% dei dati Se una certa media e una certa varianza e voglio capire dove sicuramente si trovano 3/4 dei dati quindi il 75%. Voglio trovare un intervallo centrato nella media per cui garantisco che al suo interno trovo almeno il 75% dei dati. 1 - 1/ K 2 deve essere uguale a 75% dei dati e se svolgo i calcoli trovo che K deve essere uguale a
  3. Quindi il risultato a cui arrivo è che in questo intervallo trovo almeno il 75% dei dati e ci sono dei casi in cui ne trovo di più ma non posso sicuramente trovarne di meno. quindi 75% voglio che siano i dati all’interno dell’intervallo. +1 - 75%=25% che è un quarto Esercizio 2 : ci chiediamo qual è la porzione di studenti che hanno un voto compreso tra 72 e 88. 7 2 e 88 sono gli estremi dell’intervallo. Dobbiamo trovare quanto vale k, come faccio? Lo trovo con il numero più grande che 80, la sua formula è è m+kv Potevo trovarlo anche con il numero più piccolo 72, la sua formula rispettiva è m-kv. k4 =88 – 80 k4=8 - > k=8:4 - > k= Almeno 1- 1/ 4-> 1 meno 1 diviso 4-> 4:1 x 4=4 / 4:4 x 1=1-> ottengo numeratori 4- 1 - > ¾->75%

es

: 1/h

    • Internit 1

       1/ 

wiervallo

Dicees

u

  • kv -O Sceg^ D

n+^ kV^ -

  • GVANDO

esercizio 3 : ci chiediamo quanti studenti hanno ottenuto un punteggio che sta fuori dall’intervallo 70 e 90? devo sempre trovare k lo troviamo con il numero più grande 90, formula è m+kv 80+k4= K4=-80+ K4= K=10:4-> k=2, Al più 1/6,25=0,16-> 16% Distribuzione normale /Gaussiana La differenza di Chebychev è un risultato generale che possiamo applicare su qualsiasi dataset, però nella realtà, quando dobbiamo analizzare i dati, la distribuzione che hanno i dati che analizziamo non è sempre generica, spesso ci sono delle regolarità che possiamo descrivere attraverso formule e diagrammi. Ci sono delle distribuzioni che hanno forme particolari ben precide che prendono il nome di distribuzione normale o gaussiana. Molti fenomeni osservabili hanno un distribuzione a campana dove la maggior parte dei valori sono concentrati vicino alla media. Ci sono tanti dati che sono vicini alla media: è difficile osservare valori molto distanti dalla media, i valori estremi sono comunque in genere relativamente vicini. Si tratta di una distribuzione simmetrica (vuol dire che ho la media, dei valori più piccoli e più grandi che tendenzialmente si compensano). Esempi di tipi di dati che seguono l’andamento con distribuzione normale:

- Altezza - Peso - Aspettativa di vita In un intervallo centrato sulla media, possiamo stimare quanti sono i dati vicini alla media? Ovviamente possiamo applicare la disuguaglianza di Tchebychev che è generale ma possiamo essere più specifici e più precisi rispetto ai valori, sapendo che seguono un andamento simile a quello del grafico? Si, sapendo la “regola” che seguono i dati possiamo definire la REGOLA EMPIRICA che fornisce delle informazioni più precise su dove stanno i dati rispetto alla media, sapendo la media e la varianza.