Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Metodologie e Analisi dei Dati - Prof. Gagliardi, Sbobinature di Statistica

Una panoramica introduttiva alla statistica, esplorando le metodologie per la raccolta, l'analisi e l'interpretazione dei dati. Vengono illustrati i concetti fondamentali come la matrice dei dati, le unità statistiche, le variabili e le modalità, essenziali per comprendere come organizzare e analizzare le informazioni. Il testo include anche una classificazione dei caratteri statistici, distinguendo tra dati qualitativi e quantitativi, e offre esempi pratici per facilitare la comprensione dei concetti chiave. Inoltre, vengono presentati i tre concetti fondamentali della statistica: dati e ipotesi, statistica e software statistico, formule, test, concetti ed esempi. Il documento si conclude con domande di autovalutazione per verificare la comprensione dei concetti.

Tipologia: Sbobinature

2024/2025

In vendita dal 08/08/2025

qvjbrkvqkc
qvjbrkvqkc 🇮🇹

6 documenti

1 / 85

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
6 marzo
Oggi non si può sfuggire ai dati perché nel mondo digitale, vengono raccolti sempre più dati.
I dati sono fatti sul mondo e sono costantemente riportati come numeri da un numero
sempre più crescente di fonti. Nell’ambito della medicina, qualsiasi medicinale, vaccino
viene analizzato tramite analisi statistiche.
Chiunque si occupi di business deve scegliere come affrontare questa esplosione di dati:
- può ignorare e sperare per il meglio;
- può contare su analisi e sintesi dei dati, fatte da altre persone→ sono analisi che
costano moltissimo;
- può sviluppare le proprie capacità o informazioni, per essere in grado di effettuare le
analisi da solo.
Per applicare correttamente un’analisi statistica bisogna seguire degli step, per ridurre la
possibilità di commettere errori:
- definire i dati che vuoi studiare per risolvere un problema o raggiungere un obiettivo;
- raccogliere dati da fonti appropriate;
- organizzare i dati raccolti sviluppando tabelle;
- visualizzare i dati sviluppando grafici o tabelle;
- analizzare i dati raccolti per giungere a conclusioni e presentare i risultati.
L’analisi statistica dei dati è uno strumento intermedio, per far parlare la mole dei dati,
essendo troppo grande.
Nelle aziende:
- sono sempre necessarie le capacità analitiche per l’ambiente aziendale sempre più
basato sui dati;
- molti studi mostrano un aumento della produttività, dell’innovazione e della
competitività per le compagnie che abbracciano l’analisi aziendale;
- per citare Hal Varian, capo economista di Google, “il lavoro sexy nei prossimi 10 anni
sarà quello dei dati statistici”.
Che cos’è la statistica?
La statistica è un argomento molto ampio, con applicazioni in un vasto numero di campi
diversi. In generale si può dire che la statistica è un insieme di metodologie per raccogliere,
analizzare, interpretare i dati e trarre le conclusioni dai dati.
- che tipo e quanti dati devono essere raccolti?
- come dovremmo organizzare e riassume i dati?
- come possiamo analizzare i dati e trarre conclusioni?
- come possiamo valutare la forza delle conclusioni e valutare la loro incertezza?
È l’insieme di criteri e metodologie di tipo quantitativo per l’osservazione, l’analisi e
l’interpretazione di fenomeni collettivi, generati da un insieme di manifestazioni individuali.
Operazioni tipiche delle analisi statistiche sono:
- il conteggio, contare quanto questo fenomeno si manifesta nel campione della
popolazione rappresentata.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Metodologie e Analisi dei Dati - Prof. Gagliardi e più Sbobinature in PDF di Statistica solo su Docsity!

STATISTICA

6 marzo Oggi non si può sfuggire ai dati perché nel mondo digitale, vengono raccolti sempre più dati. I dati sono fatti sul mondo e sono costantemente riportati come numeri da un numero sempre più crescente di fonti. Nell’ambito della medicina, qualsiasi medicinale, vaccino viene analizzato tramite analisi statistiche. Chiunque si occupi di business deve scegliere come affrontare questa esplosione di dati:

  • può ignorare e sperare per il meglio;
  • può contare su analisi e sintesi dei dati, fatte da altre persone→ sono analisi che costano moltissimo;
  • può sviluppare le proprie capacità o informazioni, per essere in grado di effettuare le analisi da solo.

Per applicare correttamente un’analisi statistica bisogna seguire degli step, per ridurre la possibilità di commettere errori:

  • definire i dati che vuoi studiare per risolvere un problema o raggiungere un obiettivo;
  • raccogliere dati da fonti appropriate;
  • organizzare i dati raccolti sviluppando tabelle;
  • visualizzare i dati sviluppando grafici o tabelle;
  • analizzare i dati raccolti per giungere a conclusioni e presentare i risultati. L’analisi statistica dei dati è uno strumento intermedio, per far parlare la mole dei dati, essendo troppo grande.

Nelle aziende:

  • sono sempre necessarie le capacità analitiche per l’ambiente aziendale sempre più basato sui dati;
  • molti studi mostrano un aumento della produttività, dell’innovazione e della competitività per le compagnie che abbracciano l’analisi aziendale;
  • per citare Hal Varian, capo economista di Google, “il lavoro sexy nei prossimi 10 anni sarà quello dei dati statistici”.

Che cos’è la statistica? La statistica è un argomento molto ampio, con applicazioni in un vasto numero di campi diversi. In generale si può dire che la statistica è un insieme di metodologie per raccogliere, analizzare, interpretare i dati e trarre le conclusioni dai dati.

  • che tipo e quanti dati devono essere raccolti?
  • come dovremmo organizzare e riassume i dati?
  • come possiamo analizzare i dati e trarre conclusioni?
  • come possiamo valutare la forza delle conclusioni e valutare la loro incertezza?

È l’insieme di criteri e metodologie di tipo quantitativo per l’osservazione, l’analisi e l’interpretazione di fenomeni collettivi , generati da un insieme di manifestazioni individuali. Operazioni tipiche delle analisi statistiche sono:

  • il conteggio , contare quanto questo fenomeno si manifesta nel campione della popolazione rappresentata.
  • la classificazione, serve per definire ciascuna delle informazioni che andremo a raccogliere su una popolazione di riferimento, come è classificata. In base alla classificazione io andrò ad applicare un metodo di analisi diverso.
  • la misurazione, capire come sono misurati i dati.
  • la sintesi tramite modelli esplicativi dei fenomeni reali, che siano funzionali a spiegarmi cosa mi dicono quei dati.

La statistica è un ramo della matematica che tratta l’analisi e l’interpretazione di grandi quantità di dati. Si utilizza per fornire una rappresentazione dei dati sotto forma di grafici o tabelle , oppure per sintetizzarli con indicatori caratteristici. La statistica può essere vista come strumento per conoscere le caratteristiche di un fenomeno a partire dalle informazioni su singole osservazioni.

Nella statistica univariata viene presa una colonna alla volta → nella statistica bivariata si analizzerà anche due colonne contemporaneamente.

3 concetti fondamentali:

  • dati e ipotesi: In tutte le discipline scientifiche molto raramente i dati ottenuti attraverso un esperimento, un campionamento ci permettono di giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare le diverse ipotesi: lo studio e l’interpretazione dei fenomeni dipende quindi strettamente dal metodo statistico.
  • statistica e software statistico: L’utilizzo di un software specifico per applicazioni in ambito statistico è fondamentale, ma non ha reso inutile l’insegnamento della statistica. Nelle analisi statistiche il personale computer svolge solo le funzioni più noiose e meno importanti: ricordare le formule e applicarle velocemente ai dati riducendo il rischio di fare errori. (excel: analisi dati→ “file”--> opzioni→ analisi dati). Bisogna però capire il principio di un’analisi, decidere se tale analisi è adatta ai dati disponibili, e saperne interpretare il risultato.
  • formule, test, concetti, ed esempi: Alla fine di un corso universitario di statistica destinato ai vostri curricula, uno studente non dovrebbe ricordarsi solo gli aspetti tecnici o matematici di questa disciplina. Risulterà invece fondamentale aver capito a cosa serve la statistica, quando serve, e perché funziona in quel modo. A tale scopo aiuta molto avere sempre in mente uno o più esempi specifici per ogni tipo di analisi.

7 marzo -La popolazione è l’insieme di individui o oggetti che si vogliono studiare. Questi individui o oggetti vengono denominati unità statistiche. -la variabile è una caratteristica di ogni appartenente alla popolazione. -un campione è una parte della popolazione. -il censimento è lo studio dell’intera popolazione.

  • l’errore di campionamento è la differenza tra una caratteristica misurata sull’intera popolazione e la stessa riscontrata in un campione di quella popolazione. -il grado di variabilità è una misura di come gli elementi della popolazione differiscono gli uni dagli altri in riferimento alla variabile sotto studio.

Se il carattere che si studia deve avere la proprietà di manifestarsi con differenti modalità nel collettivo. Variabilità = attitudine ad assumere differenti modalità.

Classificazione dei caratteri statistici:

Carattere:

  • modalità non numeriche (qualitativo);
  • modalità numeriche (quantitativo);

Le modalità devono essere esaustive (queste modalità devono coprire tutti i possibili valori e qualità che possono essere verificate) e non sovrapposte (una modalità deve essere esclusiva per l’altra modalità, deve averne una sola).

I dati qualitativi: -I dati qualitativi descrivono una caratteristica particolare di un’osservazione campionaria. Nella maggior parte dei casi non sono numerici. Le modalità del carattere si esprimono tramite attributi→ sondaggi anche numerici (quanto sei soddisfatto da 1 a 10) sono qualitativi perché si traduce il grado di soddisfazione in numeri. -I dati creati assegnando codifiche numeriche alle diverse categorie, senza che tali numeri abbiano un reale significato, sono chiamati dati nominali o sconnessi (es. religione, luogo di nascita, genere, non esiste un ordine naturale delle modalità). -I dati che sono creati assegnando numeri alle categorie dove l’ordine di assegnazione ha un significato sono chiamati dati ordinali o ordinati (es. grado di soddisfazione, posizione in una graduatoria, i mesi dell'anno, esiste un ordine naturale delle modalità). Tra queste due variabili potrò attuare strategie di analisi diverse.

Le scale di Likert sono utilizzate per raccogliere informazioni su atteggiamenti e opinioni incluso il grado di consenso di una affermazione, frequenza di uso, importanza di un argomento, qualità e gradimento. Meglio utilizzare valori dispari, invece che pari.

I dati quantitativi:

  • i dati che sono intrinsecamente numerici sono chiamati dati quantitativi. Le modalità del carattere si esprimono tramite valori numerici (o intensità).
  • tali valori sono molto spesso il risultato di misurazioni.
  • i dati discreti possono assumere solo determinati valori. Questi valori sono spesso numeri interi o comunque non decimali. Le modalità possono essere messe in corrispondenza biunivoca con un sottoinsieme di numeri interi. → es. numero di figli, età in anni, tipicamente riguardano i conteggi, ad esempio numeri di pezzi prodotti da una catena montaggio, numero di esami superati in un anno…
  • i dati continui possono assumere un infinito numero di valori possibili entro un intervallo di valori della scala numerica. Le modalità possono essere messe in corrispondenza biunivoca con un sottoinsieme dei numeri reali. → es. peso, altezza, ricavi, costi…

I dati quantitativi si distinguono in:

  • su scala di intervalli (temperatura);
  • su scala di rapporti (reddito, altezza);
  • continui (peso, altezza, ricavi e costi);
  • discreti (numero di figli, età in anni, tipicamente riguardano conteggi, ad esempio numero di pezzi prodotti da una catena di montaggio, numero di esami superati in un anno);
  • trasferibili la sua intensità può essere trasferita da un’unità all’altra (reddito, numero di dipendenti);
  • non trasferibili (riguarda l’individuo in sé→peso, età).

Alcune volte può succedere che ci siano delle variabili continue, ma che vengono trattate come fossero discrete, a causa del metodo di misurazione (es. PIL misurato in milioni di euro senza l’uso dei decimali; l’età in anni, il peso in kg senza decimali).

ESEMPIO : classificazione dei caratteri (autovalutazione) All’uscita di una libreria, supponete di venire coinvolti in un sondaggio dove vi viene chiesto: -Se avete comprato qualcosa, SI O NO→variabile qualitativa nominale; -Se sì, -quanto avete speso (somma spesa) → variabile quantitativa continua; -quanti libri avete acquistato (numero di libri) → variabile quantitativa discreta; -come avete pagato (mezzo di pagamento) → variabile quantitativa nominale. Qual è la vostra condizione lavorativa o non (attività principale) →variabile qualitativa nominale.

Esercizi di autovalutazione: -Un manager deve valutare la resistenza delle lampadine prodotte in un determinato processo produttivo. A questo scopo, il collettivo statistico di lampadine sarà l’intera popolazione di lampadine prodotte oppure un campione di esse? Perché? →il collettivo statistico di una lampadina sarà un campione delle lampadine prodotte e non l’intera popolazione. Motivo: verificare la resistenza delle lampadine spesso implica test distruttivi, quindi non è possibile testare tutte le lampadine prodotte. Si seleziona un campione rappresentativo che permetta di trarre conclusioni affidabili sull’intera produzione.

-Il rettore di un'università vuole sapere che tipo di attività hanno intrapreso i laureati 5 anni dopo il conseguimento del titolo. Qual è la popolazione in studio? (es. 1.2 Pelosi) → La popolazione in studio è di tutti i laureati dell’università in questione, 5 anni dopo il conseguimento del titolo. L’interesse è rivolto a tutti i laureati di un certo periodo.

10 marzo ACQUISIZIONE DEI DATI: Fonte primaria : dati raccolti direttamente

  • situazione sperimentale (è possibile controllare le condizioni sotto le quali avviene la rilevazione);
  • situazione osservazionale (si osserva la realtà senza intervenire su di essa). Fonte secondaria :
  • dati pubblicati o distribuiti da organizzazioni pubbliche o private;
  • dati amministrativi.

La raccolta dei dati tramite il campionamento viene utilizzata quando selezionare un campione è:

  • più veloce rispetto alla selezione di ogni elemento della popolazione.
  • meno costoso rispetto alla selezione di ogni elemento della popolazione.
  • meno pesante e più pratico dell’analisi dell’intera popolazione.

Estrazione del campione:

  • campionamento casuale : insieme di tutte quelle tecniche di formazione del campione in cui la selezione delle unità è affidata a regole probabilistiche;
  • campionamento casuale semplice : i campioni della stessa dimensione estraibili da una popolazione hanno uguale probabilità di essere estratti. Inoltre tutti i membri della popolazione hanno la stessa probabilità di essere scelti. Il campione deve essere omogeneo.
  • Campionamento casuale stratificato : la popolazione viene suddivisa in un certo numero di strati. Da ogni strato in maniera indipendente viene poi estratto un campionamento casuale semplice.

Statistica descrittiva e inferenza: La statistica descrittiva fornisce gli strumenti per sintetizzare ed esplicitare in forma corretta il modo in cui il fenomeno si è manifestato nel collettivo osservato. Mediante l’inferenza statistica è possibile misurare e controllare l’attendibilità delle informazioni provenienti da un campione→ estrazione del campione.

Statistica descrittiva: metodologie per rappresentare e interpretare un insieme di dati con lo scopo di descriverne e sintetizzarne le caratteristiche. →es. il governo italiano desidera conoscere il numero di disoccupati analizzando dati mensili. L’andamento temporale è evidenziato da una rappresentazione grafica. Un’indicazione sintetica dell’intensità del fenomeno è data dal valore medio. Per avere le variazioni percentuali mese per mese è sufficiente calcolare la serie dei numeri indici a base mobile.

Statistica inferenziale: metodi che consentono di stimare una caratteristica (parametro) della popolazione e di prendere decisioni sulla popolazione basandosi sull’osservazione del campione. →es. un’azienda è interessata ad acquistare uno spazio pubblicitario sulla home page di un sito web. Vuole conoscere la durata media del collegamento degli utenti che accedono a quel sito perché la decisione (se acquistare lo spazio o no) è legata al parametro durata media. Da un campione di accessi al sito si calcola la durata media e il risultato si estende all’intera popolazione. ● la teoria della probabilità è usata per calcolare la verosimiglianza di osservare o selezionare un particolare campione della popolazione. ● le decisioni sono basate su informazioni incomplete e quindi è necessario prendere decisioni in condizioni di incertezza.

Rappresentazione grafica dei dati Presentare le informazioni raccolte nella forma matrice grezza dei dati non ha senso. È utile rappresentarle in forma organizzata e sintetica allo scopo di:

  • evidenziare le caratteristiche principali;
  • facilitare la lettura e l’interpretazione. → rappresentazione tabellare o distribuzione di frequenza, ci consente di partire dalla tabella dei dati e passare ad un’ulteriore tabella piccola, in cui in ogni colonna andremo a contare tutti i dati. → rappresentazione grafica.

ESERCIZIO EXCEL: copia tabella, inserisci, tabella pivot→ selezionare la tabella; a destra si apre il pannello di lavoro (4 quadranti in basso, a noi servono i due in basso) → numero di addetti nel quadrante righe→ poi per il conteggio si riprende il numero di addetti e si trascina nel quadrante valori. Per cambiare somma in conteggio→ premere freccetta vicino a valori → “impostazioni campo valore” → conteggio

13 marzo Le distribuzioni di frequenza sono delle tabelle che riporta le variabili e le frequenze assolute della modalità della variabile. La somma della colonna delle frequenze deve essere pari al numero delle righe. Frequenze assolute sono le meno utilizzate e perché tutto ciò che è in termini assoluti ci serve di meno, quindi → Frequenze relative e Frequenze relative percentuali (che si ricavano però dalle Frequenze assolute) Il passaggio avviene da assoluto a relativo rimuove il problema della dimensione diversa del campione e della diversa unità di misura, come si fa?

  • per sottrazione
  • per rapporto → noi usiamo questo per togliere la dimensione del campione (che disturba), si trova dividendo ciascuna frequenza assoluta per n = il risultato è la frequenza relativa, che è un numero puro, cioè che non è più influenzato né dalla dimensione del campione né dall’unità di misura.

→ quando si sommano le frequenze assolute sommano sempre a n (numerosità del campione), quindi la somma delle funzioni relative sommerà sempre a 1 (perché n/n), cioè 9 sono frequenze che sono limitate superiormente a 1 e inferiormente a 0 (diverso dalle frequenze assolute che invece non hanno limiti)

  • questa limitazione ci aiuta a interpretare il dato (se è più vicino a 0 o 1 ecc) e ci aiuta a paragonare campioni diversi tra loro (non si può fare con le frequenze assolute)

Frequenze relative e frequenze relative percentuali:

La colonna delle frequenze relative si somma a 1, perché nj/n avrà numero massimo di 1. La frequenza relativa percentuale somma a 100.

Le frequenze assolute dipendono dalla numerosità del campione, quindi non possono essere utilizzate per effettuare confronti tra collettivi con diversa numerosità. Al contrario le frequenze relative e quelle percentuali sono numeri pari. Sì utilizzano per confrontare distribuzioni di frequenza riferite a collettivi di diversa numerosità.

Le frequenze relative percentuali sono quelle più usate e utili perché danno un ordine di grandezza rispetto alle modalità (22,2% dei negozi hanno 3 addetti ecc.). → non si possono fare nelle Tabelle Pivot su excel (solo per frequenze assolute), si usano le funzioni base di excel ● Le frequenze assolute dipendono dal campione quindi non possono essere usati per confrontare collettivi con numerosità diverse ≠ frequenze relative (numero tra 0 e 1) e relative percentuali sono numeri puri e si utilizzano per confrontare distribuzioni di frequenza riferite a collettivi di diversa numerosità.

Esempio di utilizzo delle frequenze relative percentuali: supponiamo che il manager dell’azienda debba valutare se la distribuzione dei punti vendita per numero di addetti in Toscana è diversa da quella di una regione spagnola, la Catalogna. Si sospetta che in Toscana ci siano più punti vendita con pochi addetti rispetto alla Catalogna. Se i due campioni sono di numerosità (n) diversa non si possono confrontare.

Frequenze cumulate : sono una derivazione delle altre tre frequenze, cioè uno strumento che si può applicare alle frequenze assolute, relative e relative percentuali. Cumulate = la somma delle frequenze di tutte le modalità che stanno prima di quella modalità. Rappresenta una porzione del numero totale delle osservazioni e può essere espressa come una frazione, un numero decimale o una percentuale. → si indicano con la maiuscola corrisponde della sua frequenza (N,F,P).

Frequenza assoluta cumulata:

Caratteristiche: ● le classi sono formate da gruppi contigui di modalità (uno di seguito all’altro, senza buchi nel mezzo) ● le classi NON devono sovrapporsi (perché una modalità deve appartenere ad una sola classe) ● le classi devono comprendere tutti i valori dell’insieme di dati ● e classi possono avere uguale ampiezza o diverse ampiezze (si decide osservando i dati, in base al tipo di risultato che si vuole ottenere) Nel caso di classi di uguale ampiezza, la dimensione di ogni classe può essere calcolata seguendo una regola empirica =

  • si parte dalla radice di n
  • se poi gli intervalli devono essere di uguale ampiezza, si prendono i valori e si inseriscono nella retta di numeri in base al valore più grande e più piccolo, facendo la differenza per sapere quanto è lungo tutto l'intervallo di valori
  • si divide l'intervallo di valori per il numero di classi che vogliamo ottenere

In questo caso non ha senso fare la tabella pivot su excel perché ogni valore si ripete solo una volta, in questo caso si raggruppano in 3 classi (decise da noi). → sono intervalli continui ma ci sono anche dei punti in cui si toccano, bisogna decidere in quale intervallo sta quel margine per non sovrapporlo e contare due volte.

Significa decidere quale parte dell'intervallo è aperto o chiuso (se è chiuso significa che quel borso sta nell’intervallo, se è aperto non sta nell’intervallo), per farlo si usano le parentesi :

  • parentesi quadra (valore chiuso);
  • parentesi tonda (valore aperto) (es.Fino a 250 (incluso) , Da 250 (escluso) a 350 (incluso) , Oltre 350).

ESERCIZIO EXCEL - Classi di valori con formula “Frequenza” o “Conta.se”.

17 marzo EXCEL Da una matrice dei dati su un foglio di lavoro Excel, è possibile creare una tabella (distr. di freq. o di quant.) selezionando dal menu “Inserisci” l’opzione “ Tabella Pivot”.

Seguono vari passaggi: Indico dove si trovano i dati da utilizzare (area del foglio Excel) Indico dove voglio che sia prodotta la tabella Dalla finestra di dialogo “Layout” specifico la variabile di classificazione (ad es. VAR1) trascinando il corrispondente pulsante nell’area “RIGA”

  • Se voglio la distribuzione di frequenza di VAR1 trascino il pulsante di VAR1 nell’area “VALORI”. Clicco nel menù a tendina sottostante e seleziono “Impostazioni campo valore” e scelgo ‘CONTEGGIO’
  • Se voglio la distribuzione di quantità (somma) di VAR2 trascino il pulsante di VAR nell’area “VALORI”. Clicco nel menù a tendina sottostante e seleziono “Impostazioni campo valore” e scelgo “SOMMA”

Rappresentazioni grafiche:

  • grafici a barre (per caratteri qualitativi ordinati, caratteri quantitativi discreti) o a nastri (per caratteri qualitativi non ordinati)
  • grafici ad aree (per caratteri quantitativi continui nel tempo)
  • istogramma (per caratteri quantitativi continui suddivisi in classi)
  • grafici a torta (per caratteri qualitativi non ordinati o ordinati ciclici)
  • grafici radar (per caratteri ciclici)
  • cartogramma (per serie territoriali)
  • diagramma (per serie storiche)

DIAGRAMMA A BARRE = per variabili quantitative discrete. Rappresenta la frequenza o la frequenza relativa di una tabella di frequenza sotto forma di un rettangolo o barra o colonna :

  • asse per le modalità
  • per ogni modalità un rettangolo la cui altezza rappresenta una delle frequenze scelte (assoluta, relativa o relativa percentuale) → questi grafici si basano sulle tabelle di frequenza e non sui dati originali!!!

● grafico a barre tridimensionale → quando si passa dal bidi al tridi si perde un po l’altezza effettiva della barra, nel bidi è un’altezza più reale (se ci sono colonne con poca distanza, nel tridimensionale diventano ancora meno leggibili e informativi) → Il grafico deve essere il più pulito e leggibile possibile! ● grafico a barre multiple (se ci sono più valori, ma non sempre sono leggibili)

  • vertice al centro da cui si diramano una barra per ciascun mese (es. matrimoni)
  • ogni valore è scalato, il centro è 0 e man mano che ci si allontana il valore cresce, nei segmenti si inseriscono i valori della variabile
  • dopo aver ottenuto i valori di ciascun mese si unisce graficamente ogni punto attraverso una spezzata → si identifica un’area che visivamente ci fa vedere l’incidenza della variabile nel tempo (andamento nell'intero anno). Tiene sotto controllo qualcosa che ha più dimensioni in un unico grafico!!

CARTOGRAMMA = solo per dati con connotazione geografica, serie territoriali

  • quando nei miei dati ho un valore per ogni area geografica, in questo caso si riporta un colore (ma si perde l'effettivo valore di ogni variabile, non so più il valore preciso di ogni area ma si fanno delle aree colorate a seconda dell’intensità del fenomeno)

→ nella legenda si specifica l’intervallo che ricopre quel colore in base ai dati iniziali (è come se si discretizzasse il dato, ma è utile perchè con questo grafico si nota subito la gravità o meno del fenomeno, ha un impatto visivo immediato comprensibile anche per un non esperto di analisi dati)

Si usa anche per confrontare le diverse situazioni geografiche perdendo però il singolo dato con rappresentazioni in classe!! (si potrebbe anche inserire una tabella con valori o il dato esatto sopra ogni area ma diventa meno leggibile).

DIAGRAMMA CARTESIANO = per dati misurati nel tempo, rilevazione si muove nel corso del tempo, per serie storiche

  • asse ascisse : tempo
  • asse ordinate : valore del fenomeno da seguire nel tempo Per ogni istante temporale si riporta il valore (puntino) e poi si uniscono con la spezzata → con un solo grafico si nota la differenza tra le varie aree e i vari periodi

Serie storica : dati che si muovono nel corso del tempo (dimensione temporale), sempre lo stesso fenomeno ma tempi diversi ● Dati cross section : preciso istante temporale per uno spaccato geografico (dimensione geografica), solo fenomeno ma “luoghi” diversi ● Dati con doppia dimensione “Panel” : sia dimensione geografica che temporale (es. intervista alle stesse persone in anni diversi)

ORGANIZZAZIONE E VISUALIZZAZIONE DELLE VARIABILI

Quando si organizzano e si rappresentano i dati è necessario prestare attenzione a:

  • limiti della capacità degli altri di percepire e comprendere (bisogna pensate a chi va presentato quel grafico, non tutti hanno le stesse capacità percettive del fenomeno, la tabella e grafico vanno “tarati” in base al “pubblico”)
  • problemi di presentazione che possono minare l'utilità dei metodi scelti (quando le rappresentazioni sono state fatte male danno una rappresentazione diversa rispetto a quella originale, alcune sintesi possono oscurare dati o creare false impressioni)
  • es. Grafico sovraccarico che diventa illeggibile

Le false impressioni sui dati possono essere create in molti modi:

  • facendo sintesi selettive (presentare solo una parte di dati raccolti oscurando alcuni dati che avrebbero portato ad altre conclusioni)
  • usando grafici costruiti in modo improprio ● potenziali problemi con il grafico a torta ● assi scalati in modo improprio ● asse Y che non inizia dall'origine o è un asse senza valori intermedi (asse non parte da 0 ma da un valore vicino all’ultimo dato, allora i valori si interpretano male)
  • Grafici “spazzatura” o Junk graff (derivano dalla letteratura americana)

Un esempio di sintesi selettiva, queste due tabelle raccontano storie completamente diverse: → se si oscurano le colonne finali non si vede che c’è stata una caduta importante nel mercato, cosa che nella colonna iniziale non si nota, le cresciute dell’anno 3 sono dovute al tentativo delle imprese di riottenere quello che avevano perso nei due anni prima (tassi di crescita importanti a seguito di picchi negativi - mercato in recupero, non è una bolla di crescita improvvisa) … si nasconde il motivo della crescita del terzo anno, i dati non sono sbagliati ma oscurati, l'interpretazione è diversa!

→ manca la legenda delle fette e i valori + se si cambia grafico ma il fenomeno è lo stesso anche il colore deve essere lo stesso! (stessa modalità di riposte = stesso valore) … spesso anche excel cambia i colori perchè non vede le stesse modalità

In Excel è facile creare inavvertitamente distorsioni:

  • excel speso crea un grafico in cui l’asse verticale non inizia da 0;
  • excel offre l’opportunità di trasformare semplici grafici in grafici 3D e nel processo può creare immagini distorte;
  • I grafici insoliti offerti come scelte da excel creano molto spesso immagini distorte.

Best practices per la rappresentazione dei dati:

  • usa una rappresentazione più semplice possibile;
  • inserisci un titolo
  • etichetta su tutti gli assi
  • Inserisci una scala per ogni asse se il grafico contiene assi
  • Inizia la scala per l’asse verticale da zero
  • Usa una scala costante
  • Evita gli effetti 3D
  • Evita la spazzatura dei grafici

ESERCIZIO EXCEL : Disegnare Grafici (Inserisci - Visualizza tutti grafici - Grafici consigliati)

20 marzo Per creare i grafici su excel dobbiamo selezionare la tabella dei dati→ inserisci→ grafici consigliati→ dobbiamo vedere che tipo di variabile è e scegliere poi il tipo di grafico giusto. Si può cambiare titolo→si può cambiare le barre. → aggiungi etichette dati (tasto destro). Per calcolare le frequenze relative e quelle relative %, dobbiamo calcolare il totale e poi fare il calcolo. Per copiare due tabelle dobbiamo copiare, la prima poi tenere premuto CTRL e premere la terza tabella. Per la frequenza relativa %, l’asse verticale dovrebbe avere un massimo di 100.

21 marzo 3- Indici di Posizione o di tendenza centrale Questi si usano per sintetizzare in maniera estrema i dati→ in un solo valore (fino ad ora abbiamo fatto solo una sintesi parziale)

Gli indici di posizione o di tendenza centrale ci daranno modo di trovare il “centro” dei nostri dati (identificabili come una nuvola di punti sulla retta dei numeri). Ci sono più classi di indicatori :

  1. indici di posizione o tendenza centrale = per identificare, numericamente se i dati sono numerico non numericamente se i dati non sono numerici, il centro dei dati → valori di una variabile numerica si raggruppano attorno a un valore tipico o centrale (media, mediana, moda)
  2. indici di variabilità dei dati = forniscono un’informazione non alternativa ma complementare rispetto alla posizione centrale, è la quantità di dispersione dei valori rispetto al valore centrale (quanta tendenza hanno i dati ad assumere dati diversi, completano il centro perchè nuvole di valori diverse ma con lo stesso centro non è detto che abbiano gli stessi valori intorno/fuori dal centro) → nella sintesi estrema l'informazione completa è data dall'insieme di indici di tendenza centrale e indici di variabilità dei dati (soprattutto quando abbiamo una grande numerosità)!
  1. indicatori di forma o asimmetria = indica (dopo aver stabilito centro e variabilità dei dati) se i punti sono simmetrici, più o meno equidistanti o distribuiti allo stesso modo → descrive la “forma” della curva descritta dai dati (es. variabili monetarie sono di solito di distribuzione asimmetrica, come redditi di famiglie che parte da barre alte per redditi bassi, e si arriva a una lunga coda di redditi alti ma con barre basse - in un istogramma)

Concetti utili:

  • Una statistica è un descrittore numerico calcolato dai dati campionari ed è usato per descrivere il campione. Le statistiche, di norma, si rappresentano con lettere romane.
  • Un parametro è un descrittore numerico usato per descrivere la popolazione. I parametri, di norma, si rappresentano con lettere greche→ è un valore che ci interessa investigare di una popolazione, ma visto che di solito non abbiamo dati dell’intera popolazione si calcola la statistica su dati campionari.

MEDIA = (si sottintende la media aritmetica), è un concetto considerato primitivo, cioè si considera innato e intuitivo in ciascun individuo per cui non c’è bisogno di darne una definizione

  • è primo valore che sintetizza la distribuzione di una variabile con 1 solo unico valore -
  • è il punto di equilibrio per eccellenza (baricentro) dei dati analizzati (ovvero variabile, cioè della colonna di excel)

La media aritmetica sintetizza la posizione (tendenza centrale) della distribuzione di un insieme di dati. Si trova sommando tutti i valori dei dati e dividendo per il numero totale delle osservazioni. ● Il parametro media ignoto della popolazione si identifica con la lettera greca μ (mu). ● la media di un campione è indicata da →

Tendenza centrale (media, mediana, moda)

  • La tendenza centrale o posizione di un insieme di dati indica dove, numericamente, i dati sono posizionati o concentrati. La tendenza centrale è la misura in cui i valori di una variabile numerica si raggruppano attorno a un valore tipico o centrale.

Variabilità (varianza, campo di variazione, concentrazione, eterogeneità)

  • La variabilità di un insieme di dati descrive come i dati sono disposti intorno ai valori della tendenza centrale. La variazione è la quantità di dispersione mostrata dai valori di una variabile numerica rispetto a un valore centrale mostrato.

Forma (asimmetria)

  • La forma di un insieme di dati descrive come i dati si distribuiscono intorno ai valori centrali relativamente alla simmetria o asimmetria. Descrive la ‘forma’ della curva descritta dai dati.

Tendenza centrale: la media

  • Il modo più intuitivo per sintetizzare un insieme di valori passa attraverso il calcolo della media. La media sintetizza la distribuzione di un carattere con un solo valore. E’ considerato un concetto primitivo (che tutti conosciamo capiamo senza definirlo).