Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Campionamento e Distribuzioni di Frequenza, Appunti di Statistica

Una introduzione alla statistica, con un focus sul campionamento e sulle distribuzioni di frequenza. Come selezionare campioni rappresentativi, distingue tra campionamento probabilistico e non probabilistico, e descrive le diverse tipologie di variabili e modalità. Viene inoltre illustrato come calcolare le frequenze assolute, relative e percentuali, e come utilizzare la sommatoria per determinare la popolazione totale. Il documento include anche esempi pratici per illustrare le applicazioni di queste tecniche.

Tipologia: Appunti

2018/2019

Caricato il 04/12/2019

martina-teruzzi
martina-teruzzi 🇮🇹

4.3

(10)

19 documenti

1 / 30

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica
Community password: sta4422!
ISTAT !
Chi produce le statistiche uciali con cui si prendono le decisioni? !
Istituto nazionale delle statistiche italiano, che produce tutte le statistiche che ci servono. !
Introduzione alla statistica!
Che cos’è? !
La Statistica pullula soprattutto nel periodo elettorale. !
Oggi la statistica è sotto l’occhio di tutti: in continuo aumento l’utilizzo di dati statistici nei
giornali e nei media per avvalorare oppure criticare scelte e posizioni di vario genere; ma
per il cittadino comune non è quasi mai facile orientarsi, comprendere messaggi
imprecisi, parziali o addirittura sbagliati. !
La statistica è uno strumento utile al cittadino consapevole che vuole capire i fenomeni
che lo riguardano (naturali, sociali, economici e politici) svolgendo, così, anche un’attività
di monitoraggio e controllo: nella vita di tutti i giorni è sempre più importante saper
valutare le numerose informazioni statistiche che giungono da diverse fonti,
comprenderne il significato e riconoscerne l’attendibilità.!
La statistica racconta una storia, bisogna saper coniugare il contesto con i numeri. Storia
raccontata dai numeri, non storia che si vuole far raccontare dai numeri. !
La statistica è uno strumento per essere consapevoli chi ci prende in giro e quanto ci
prende in giro. !
Come opera la statistica? !
Partiamo dal decisore che deve mettere in atto delle scelte, queste scelte ricadono
sull’aspetto pubblico, privato e sociale e gli eetti vengono misurati sui soggetti che
vengono chiamati unità statistiche, essere percependo le decisioni attuano dei
comportamenti e questi azioni, generano delle nuove decisioni che andranno a ricadere
sugli aspetti pubblici, privati e sociali, che poteranno a nuovi eetti misurati sulle unità
statistiche. !
Circolo! !
Raccolta delle informazioni !
Quando noi chiediamo delle informazioni stiamo facendo delle statistiche
inconsapevolmente, perché poi prenderemo una nostro decisione, eettuando un criterio
di scelta. !
Lessico: !
Informazione > la statistiche riguarda l’acquisizione di informazioni da più individui, quindi
unità statistiche. Quindi non si possono creare statistiche con un solo corrispondente,
perché la statistica è espressione di un fenomeno collettivo. !
Raccolta informazioni > come queste info vengono raccolte. Le info devono essere
raccolte in modo coerente coni dettami della disciplina che è quindi la statistica !
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Campionamento e Distribuzioni di Frequenza e più Appunti in PDF di Statistica solo su Docsity!

Statistica

Community password: sta ISTAT Chi produce le statistiche ufficiali con cui si prendono le decisioni? Istituto nazionale delle statistiche italiano, che produce tutte le statistiche che ci servono.

Introduzione alla statistica

Che cos’è? La Statistica pullula soprattutto nel periodo elettorale. Oggi la statistica è sotto l’occhio di tutti: in continuo aumento l’utilizzo di dati statistici nei giornali e nei media per avvalorare oppure criticare scelte e posizioni di vario genere; ma per il cittadino comune non è quasi mai facile orientarsi, comprendere messaggi imprecisi, parziali o addirittura sbagliati. La statistica è uno strumento utile al cittadino consapevole che vuole capire i fenomeni che lo riguardano (naturali, sociali, economici e politici) svolgendo, così, anche un’attività di monitoraggio e controllo: nella vita di tutti i giorni è sempre più importante saper valutare le numerose informazioni statistiche che giungono da diverse fonti, comprenderne il significato e riconoscerne l’attendibilità. La statistica racconta una storia, bisogna saper coniugare il contesto con i numeri. Storia raccontata dai numeri, non storia che si vuole far raccontare dai numeri. La statistica è uno strumento per essere consapevoli chi ci prende in giro e quanto ci prende in giro. Come opera la statistica? Partiamo dal decisore che deve mettere in atto delle scelte, queste scelte ricadono sull’aspetto pubblico, privato e sociale e gli effetti vengono misurati sui soggetti che vengono chiamati unità statistiche, essere percependo le decisioni attuano dei comportamenti e questi azioni, generano delle nuove decisioni che andranno a ricadere sugli aspetti pubblici, privati e sociali, che poteranno a nuovi effetti misurati sulle unità statistiche. Circolo! Raccolta delle informazioni Quando noi chiediamo delle informazioni stiamo facendo delle statistiche inconsapevolmente, perché poi prenderemo una nostro decisione, effettuando un criterio di scelta. Lessico: Informazione > la statistiche riguarda l’acquisizione di informazioni da più individui, quindi unità statistiche. Quindi non si possono creare statistiche con un solo corrispondente, perché la statistica è espressione di un fenomeno collettivo. Raccolta informazioni > come queste info vengono raccolte. Le info devono essere raccolte in modo coerente coni dettami della disciplina che è quindi la statistica

Statistica > è la disciplina. Statistiche > è il risultato della statistica. Statistico > è colui che applica la disciplina. La statistica è una disciplina che studia i modi in cui un fenomeno collettivo, può essere analizzato e quindi compreso. Altro termine di riferimento POPOLAZIONE > fenomeno collettivo. A seconda del fenomeno che vogliamo analizzare ci sono diverse popolazioni. Dentro le popolazioni ognuno di noi è un’unità. Popolazione italiana > siamo interessati a studiare i fenomeni della popolazione italiana Queste informazioni sulla popolazione si hanno tramite il censimento (indagine decennale fino al 2011 con una procedura capillare con tutti i componenti della famiglie / ora solo prese in considerazione solo le famiglie come nel resto dell’Europa) Census: vuol dire misurare-rilevare. Serve a quantificare gli abitanti. Introduzione alla statistica descrittiva La statistica studia i modi in cui un fenomeno collettivo può essere sintetizzato, analizzato e quindi compreso. Non possiamo pensare di fare statistica pensando a solo un’unità. Quindi dobbiamo considerare la popolazione. La propensione al conteggio è proprio dentro di noi, per questo questa tecnica è molto antica. Contare fa parte della nostra evoluzione. Abbiamo bisogna di fare una sintesi, e la sintesi è il campione. La popolazione è l’insieme delle unità statistiche esposte allo stesso fenomeno nello stesso momento. Dobbiamo scomodare degli apparati che si chiamano misure, queste misure se siamo nella popolazione si chiamano parametri (una percentuale, un valore medio, una misura di variabilità, quanto siamo diversi gli uni dagli altri), invece se parliamo di misure in riferimento al campione si chiamerebbero statistiche. Perché abbiamo bisogno di indicare in modo diverso le stesse misure? perché molte volte può capire che non viene specificato se si sta parlando di popolazione o campione, ma viene scritta la misura, quindi parametro o statistica. DOMANDA ESAME: Quando parlo di stitiche mi riferisco a popolazione, campione, a misure distorte? Campione! Età media, reddito: parametro. Abbiamo la necessità di utilizzare il campione perché non è possibile analizzare tutti i componenti di una popolazione. Queste popolazioni selezionate sono i campioni.

Quindi il titolo di studio si presenta come ad esempio licenza elementare, licenza media ecc. Quante modalità ha il genere? 3: maschio, femmina e alto Quante modalità ha la resistenza? 2: sede e fuori sede. Quante modalità ha il colore di capelli? Praticamente tutta la gamma dei colori. Associato alle modalità abbiamo un’altra parte: quante persone detengono quella modalità , quindi la frequenza. Cosa c’è nella tabella?

- Titolo

  • Indicazione della variabile > che si declina in modalità > che si declina in frequenze
  • Totale : fa riferimento alla somma delle frequenze
  • Fonte : deve tutelare ciò che si sta scrivendo

La statistica descrittiva in 4 domande :

Cosa rileviamo? aspetti, caratteri o variabili Come si presentano? in diversi modi o modalità Come si misurano? scale di musica Quante volte si presentano? Frequenza Scale di misura: non compare nella tabella, ma ci guida in tutte le elaborazioni successive. Quindi la somma della frequenza mi da il totale della numerosità, ossia i componenti del mio collettivo e della popolazione.

Caratteri o variabili

Noi possiamo avere dei caratteri o della variabili La statistica si occupa di rilevare dei fenomeni che vengono chiamati caratteri o variabili. Variabili si dividono in: variabili qualitative : rilevo una qualità (colore degli occhi) variabili quantitative : quando le modalità esprimono numeri (altezza) Variabili qualitative si dividono in:

  • (^) sconnesse : le modalità non hanno un ordine (quindi il colore dei capelli o degli occhi, non posso dire che il nero viene prima del biondo). Modalità sconnesse. Modalità che si articolano senza ordine. Carattere Frequenza Modalità Frequenza Scale di misura Modalità Frequenza Modalità Frequenza totale totale della numerosità
  • (^) rettilineo : quando le modalità si presentano in un ordine, in una gerarchia. Modalità che esprimono una gerarchia. (All’interno dell’università, all’interno degli ospedali, all’interno della politica). All’interno delle variabili qualitative rettilinee (tipo ordinario) c’é: variabili qualitative rettilinee di tipo ciclico : quando c’è ordine e ripetitività (giorni della settimana). Variabili quantitative si dividono in:
  • (^) discrete : le modalità si rilevano senza virgola (numero di viaggi, dei figli). Tutti quei fenomeni le cui modalità rilevano un valore numerico senza virgola.
  • (^) continue : le modalità si rilevano con la virgola (altezza, peso, reddito, la distanza, consumo di benzina).

Dettagli: Codici

Non dobbiamo farci tratte in inganno da quelle modalità che presentano dei numeri, ad esempio: non è detto che un fenomeno è presentato con un valore numerico sia una variabile quantitativa. Ad esempio il cap sono dei codici che descrivono le città, e quindi deve pensare alla variabile qualitativa e non quantitativa perché quei numeri non sono numeri, ma codici. Devo sempre guarda quindi qual è la natura del fenomeno.

Simbologia: variabili e modalità

La prima variabile viene sempre indicata con X (maiuscolo) > per riconoscere come si identifica la variabile nelle modalità useremo x (minuscolo). Esempio: determinare se queste variabili sono discrete o continue

  1. numero di teste ottenute in una serie di 5 lanci di una moneta: discrete
  2. numero di macchine: discreta
  3. : continua

Variabili e scale di misura

Le misure utilizzare: per le scarpe (39) il reddito mensile (0-10000) i maglioni (XS, S, M, L, XL) i colori (verde, viole, fucsia, Ogni fenomeno è misurato con un apposito sistema di misura. Il sistema di misura della statistica sono le scale di misura. Sono 4 e sono strettamente connesse alle tipologie delle variabili. Variabili qualitative sconnesse : scala nominale > i modi di presentarsi delle variabili qualitative viaggiano su delle modalità. La modalità che collega le diverse modalità è la proprietà dell’uguaglianza Variabili qualitative rettilinee e cicliche : scala ordinale > le modalità seguono una gerarchia. Variabili quantitative discrete e continue : scala ad intervalli > i fenomeni che si prestano da questo tipo di misurazione non partono dallo zero assoluto. (Quando

La rivista famosa aveva sbagliato la basa dei campioni, era una base che prendeva in considerazione solo una parte dell’elettorato, ossia la parte che aveva il telefono, avevano la macchina, una parte dell’elettorato che avrebbe dato il suo voto alla parte democratica. Rappresentava solo una parte dell’elettorato, campione distorto. Invece l’altra rivista non famosa, aveva preso in considerazione le varie classi sociali e da lì aveva estratto i propri campioni, era un campione rappresentativo perché rappresentava tutto l’elettorato. Tipologie di campionamento:

  • (^) probabilistico: possibilità di generalizzazione i risultati
  • (^) non probabilistico: poco affidabili, autoselezione (volontà di compilare il questionario dall’auto unità).

Nel campionamento probabilistico > ogni unità che fa parte della popolazione ha la

stessa probabilità nota di far parte del campione. Metodi > metodi per costruire un campione di riferimento. Sono metodi di tipo probabilistico perché le risposte che forniscono non sono risposte certe, ma risposte probabile perché il campione è solo rappresentativo e non è tutta la popolazione, quindi al risultato va associata una probabilistica. Qualsiasi risposa il campione dovrebbe fornirvi, visto che è associato ad una probabilità, il risultato potrebbe essere affetto da un errore. La risposta va ponderata quindi è probabilistica ed essendo probabilistica può essere affetta da un errore, il compito del ricercatore è cercare di rendere questo potenziale errore di campionamento il più basso possibile. Metodologie di tipo probabilistico, 4 grandi famiglie e una 5 che è la combinazione delle quattro di prima, è un campionano di tipo misto:

  • (^) campionamento causale semplice : scelta random dei soggetti tra la popolazione. Es. Natale, giocare a tombola: nel sacchetto dove ci sono tutti i numeri (sono la popolazione) da cui io estraggo un numero in modo causale e quel numero va a popolare la mia schedina (che è il mio campione). Ho 12 modi diversi per far tombola perché ho 12 cartelle, e dipende solo dalla fortuna e dal caso con cui vengono estratti i numeri. La lista dei componenti deve essere dichiarata. Successivamente però io mi chiedo: quante unità deve avere il mio campione, nella cartella ci dovrebbero essere 10 unità, quindi significa che io da una popolazione a seconda di come si combinano le diverse estrazioni, posso fare tombola in modo diverso, ma questa combinazione di numeri deriva dalla stessa popolazione. Quindi noi abbiamo la possibilità di estrarre diversi numeri di campione della popolazione della stessa ampiezza e questo ci dice che per ogni campione il numero medio che è in ogni cartella può essere diverso dalle altre. C’è un teorema che ci dice che la media di tutte le cartelle equivale alla media della popolazione. La media di tutti i campioni equivale alla media di tutta la popolazione, ma questo non è corretto perché quella media equivale solo a quel campione. Non c’è un solo modo per creare un campione da 2, da 5 elementi della popolazione. Per estrarre questi 2 campioni devo fare un’operazione. Questi campioni possono variare anche se sono ottenuti dallo stesso metodo. Estraendo un campione ci sono tante possibilità di assemblare un campione e successivamente ci focalizziamo solo su uno. N su n (no frazione) > popolazione di ampiezza N da cui voglio sapere quanti campioni

di ampiezza che decido posso ottenere. N! > coefficiente fattoriale ! = significa che devono moltiplicare tutte le cifre precedenti a quella presa in considerazione fino a quando arrivo all’unità > quindi 4! = 4x3x2x1 >> quindi ! = prodotto delle cifre precedenti al numero fino ad arrivare alla unità. Costruire un campione causale semplice > è la forma di campionamento elementare e per questo ricorre anche nelle altre tipologie campionare. Dobbiamo conoscere la popolazione che dobbiamo andare ad indagare quindi devo avere un elenco, poi andrò a numerare gli individui e l’ultimo mi dirà l’ampiezza della popolazione, poi dovrò indicare di quante unità statistiche si dovrà comporre il mio campione.

  1. costruire un elenco di tutta la popolazione (lista o frame)
  2. numerare tutti gli individui, l’ultimo individuo corrisponderà a N
  3. usare la tavola dei numeri casuali o un software per generare n numeri in cui n corrisponde all’ampiezza del campione Come si fa a selezionare l’unità che possono entrare nel campione?
  • metodo arcaico: tavola dei numeri causali > introdotta nel 1927 da uno studioso. Non sono altro che una sequenza di numeri generati casualmente in base a diverse distribuzioni. La scelta di questi numeri associati alle unità garantisce una dimensione probabilistica del campione. Come si legge? Due arbitrarietà:
  1. il numero di partenza: popolazione di partenza 100, voglio un campione di 30 unità. Per poter selezionare le 30 unità decido di non affidarmi ai software, ma farlo con l tabella dei numeri casuali. Quindi partendo da una popolazione di 100, quindi numero formato da 3 cifre, quindi devo partire dalle prime 3 cifre, o ultime 3, o quelle in mezzo, in questo caso decido di prendere le ultime 3 cifre. 15920: 920 non sta nel 100 quindi no, 84084: 084, 84 rientra nel 100 quindi questo va bene. 30 unità quindi devo trovare 30 cifre formate da 3 numeri che stiano dentro a 100. Mi muovo o in verticale o in orizzontale dipendendo dalla seconda arbitrarietà. Cifre minori uguali a 100, unità minori uguali a 30.
  2. devo decidere come mi muovo in queste colonne che portano a creare campioni diversi.
  • metodo moderno: software > in ogni programma anche dal banale excel, si possono generare casualmente di numeri. Generare da 1 a 30 numeri dobbiamo indicare il tipo di distribuzione sottostante. 5 numeri perché voglio 5 unità, questi 5 numeri il software me li genera in modo casuale tra i numeri 1 e 30. Distribuzione di tipo uniforme : la probabilità dei numeri di essere estratta è pari per tutti i numeri. Non c’è una probabilità maggiore/minore di estrarre determinati numeri rispetto agli altri. RIASSUNTO La statistica studia i fenomeni collettivi, composti da unità statistiche che si possono aggregare in popolazioni e campioni. I campioni possono essere ottenuti tramite strategie di campionamento, criteri di campionamento -> campione di tipo probabilistico e non probabilistico. Al fine di avere dei campioni rappresentativi sarebbe ottimale procedere x campioni probabilistico. Così ogni singola unità ha la possibilità di far parte del campione. 4 tipologie di campionamento fondamentali. La selezione del campionamento casuale semplice: lista, applicare la tavola dei numeri causali o il software. Da una popolazione
  • (^) campionamento stratificato : sono di numero ridotto perché ogni strato è molto popolato per cui devo ricorrere ad un campionamento di secondo livello ovvero semplice. Chi effettua l’indagine decide quali sono le variabili su cui stratificare la popolazione di riferimento. Le unità però devono essere omogenee a seconda di certe caratteristiche. Devo ottenere campioni omogenei tra di loro. VARIABILE A POSITIVA VARIABILE B NEGATIVA Parto sempre da una popolazione pre definita di cui ho delle caratteristiche e posso quindi stratificarla. Esempio: supermercati 210, divisi in 3 aree di ubicazione. Colonna dei 210 supermercati e la colonna delle ubicazione. Io vado a selezionare in modo causale un numero di supermercati omogeneo da ognuna delle 3 ubicazioni. Ognuna delle estrazioni da ogni singolo strato è 4, quindi ogni strato avrà 4 unità selezionate in modo causale. Differenza tra quello casuale e questo: qui devo avere un’altra caratteristica di riferimento, devo avere una variabile di stratificazione. Ognuna delle ubicazioni di riferimento è rappresentata. Mi richiede delle info aggiuntiva, ma sicuramente il campione è costruito in modo più accurato.
  • (^) campionamento a grappolo : detto Cluster. Questo metodo viene applicato su popolazioni abbastanza numerose, dove questa popolazione di riferimento è già suddivisa in gruppi eterogenei, cosiddetti grappoli. Quindi conosco la popolazione e conosco elementi soggettivi che dividono in gruppi eterogenei la popolazione. Eterogenei vuol dire avere la certezza che gli individui che compongono un grappolo possono essere rappresentativi della popolazione di riferimento. Una volta che ho ciò seleziono uno o più grappoli i cui individui che lo compongono saranno tutti quanti soggetti inclusi nel mio campione di riferimento. Quindi devo capire quale grappolo considerare e quanti. Quanti: è sempre una scelta del ricercatore statistico che determina la numerosità campionaria. Quali: grappa tipicamente la scelta viene fatta su base causale, con i famosi numeri, ad esempio con la tabella oppure con il software. Tutti gli individui che costituiscono i grappoli che ho scelto fanno parte del campionamento. Esempio: popolazione Boston. L’unica lista necessaria è quella degli isolati, quindi avere la lista da 1 a 10493. Popolazione degli iscritti che viene al suo interno suddivisa in 4 tipologie di grappoli, e posso scegliere di sottoporre ad indagine il grappolo II, scelgo causalmente il grappolo, però la popolazione che costituisce il grappolo è uguale alla popolazione di campionamento. Esempi supermercati Supponiamo che ci siano 3 città, quindi dividiamo in 3 grappoli, naturalmente costituiti. L’unica cosa che devo fare è capire quale grappolo selezionare. Questa metodologia ha di diverso un numero che non compare: la numerosità campionaria. Nel grappolo ad esempio ci possono essere 20 supermercati, quindi il numero 12 non c’è, non c’è questo vincolo del numero 12. Mi focalizzo sulla naturale clusterizzazione.
  • (^) campionamento multistadio (Le scale ordinali danno una gerarchia nelle modalità, quindi in questo caso dal più semplice al più difficile)

Nel campionamento non probabilistico >

- (^) Campione di comodo > il ricercatore sceglie in maniera arbitraria le unità più facilmente raggiungibile, il criterio è soggettivo. Sto selezionando in modo soggettivo. - (^) Campione a scelta ragionata > le unità campionarie vengono scelte dal ricercatore in base ad alcune loro caratteristiche, perché meglio rappresentano il fenomeno di esame, di solito si utilizza quando l’ampiezza del campione è limitata. - (^) Campione per quote > analogo al campionamento stratificato, Una colta che ho individuato il campione decido di sceglierne solo alcuni per criteri utili a me.

Errori nelle indagini campionarie

Obiettivo è utilizzare al meglio il campione per cercare di esportare delle regole applicabili alla popolazione. Devo cercare di inferire la realtà partendo da un campione, ma bisogna tener conto degli errori. Ci possono essere errori di campionamento e altri non campionari. Ovviamente bisogno minimizzare questi tipi di errori, perché se no non si può estendere alla popolazione.

- Errore di campionamento^ > è un errore inevitabile perché deriva dal fatto che sto ponendo ad indagine campanaria solo un campione e non l’intera popolazione. Quindi sto selezionando una ripartizione della popolazione. E’ il tipo di errore che è frutto del numero della numerosità campionaria. Tanto più è elevata la numerosità campionaria, tanto più quell’errore si riduce. semplicemente perché il campione che sto estraendo non è sufficientemente rappresentativo. E’ il tipo di errore legato alla numerosità campionaria, tanto più è elevata e vicina alla popolazione, tanto più l’errore è basso, se invece la numerosità campionaria è lontana dalla popolazione, l’errore è alto. - Errori non campionari^ > rappresentano tutti quegli errore che possono manifestarsi in ciascuna delle fasi e delle operazioni di realizzazione. - Errore da mancata risposta^ > si verifica quando anche avendo un numero definito non riesco a estrarre la risposta dal campione, quindi si utilizzano dei campioni di riserva. - Errore di copertura^ > si può verificare ad esempio quando la lista di partenza in quanto nota non è completa. Ci sono delle unità che non sono state coperte da qualsiasi indagine campionaria. - Errore di misurazione^ > fa riferimento essenzialmente alla potenziale imprecisione che c’è nelle risposte. Questo dipende molto da come le domande sono formulate.

Es. in questa distribuzione sto raggruppando in modalità. Ci da la possibilità di iniziare a pensare in termini di formule. Serve perché la ritroviamo nella formula della media, della variabilità e il z-store. Ci aiuta a leggere le formule. Il concetto di sommatoria nella sua genericità è semplice, non fa altro che sostituire una serie di addendi. Le frequenze sono il numero di volte che ogni modalità si presenta, si indica con n(minuscolo).

  • Frequenze relative e percentuali > le frequenze percentuali sono una derivata delle relative. DOMANDA ESAME Frequenze relative > servono a poter confrontare le popolazioni di numerosità diversa. Noi andiamo a confrontare qual è il peso della modalità sull’intero campione. Tutte le volte che ci troviamo davanti a diverse popolazioni dobbiamo utilizzare le frequenze relative o percentuali. Come ottengo la frequenza relativa? Esprime la frequenza relativa il peso d’importanza che ogni modalità ha sul totale, che quindi esprime la frequenza associata ad ogni modalità che ha sul totale. Ottenere la frequenza relativa altro non è che fare un quoziente tra ogni singola frequenza assoluta associata alle modalità e il totale. Il range è un intervallo che è delimitato dal valore minimo e il valore massimo. Le frequenze assolute vengono indicata con ni Le frequenze relative vengono indicate con fi: rapporto tra frequenza assoluta e il totale Le frequenze percentuali vengono indicate con pi: frequenza relativa X 100 fi compreso tra 0 e 1 Rapporto di composizione : è la prima tipologia di confronto che permette di verificare qual è il peso associato alle differenti componenti della popolazione. Quando noi facciamo un confronto su diverse quantità che compongono il tutto, quindi confronto tra una componente e il tutto. Però non devono essere frequenze. Quindi prendo l’info quantitativa e la divido per il totale e volendo la moltiplico per 100. Ci indica quanto pesa quel componente sul totale. Qui non abbiamo frequenze, ma quantità. La metodo è sempre la stessa dobbiamo confrontare le quantità. Frequenze percentuali > sono solo la moltiplicazione per 100 delle frequenze relative. La maggior parte delle volte le modalità non vengono sommate, perché noi dobbiamo lavorare sulle frequenze o sul prodotto modalità frequenza. L’utilizzo delle distribuzioni relative o percentuali permette di confrontare agevolmente

collettivi o sottopopolazioni diverse.

  • Frequenze assoluta cumulate > quando le variabili sono ordinali o quantitative, si può calcolare la distribuzione delle frequenze cumulate. Si indica con N seguita dal pedice i: Ni. Le frequenze cumulate a seconda della tipologia di variabile che noi abbiamo possiamo pensare di associare/cumulare le frequenze alle diverse modalità, perché siamo guidati da un principio basico di gerarchia delle modalità. Quando non si possono cumulare le frequenze? C’è solo un caso: quando le modalità non sono ordinate, quindi quando abbiamo delle variabili qualitative misurabili su scale ordinali. Quindi quando non c’è un ordine nelle modalità. Quando lavoro con le variabili qualitativa su scale ordinali devo ordinare dal più piccolo al più grande le modalità, che non significa ordinare le frequenze. Le frequenze sono un di cui delle modalità, quindi non devo ordinare le variabili qualitative tramite le frequenze, ma tramite le modalità. Esempio: per trovare la Ni 3 sommo la ni precedenti, quindi 2 e 1. Piramide dell’età : piramide era nata così perché doveva essere una piramide molto giovane e quindi base molto larga e via via più piccola. Oggi più piccola in basso, larga al centro e piccolissima in alto, quindi piramide rovesciata.
  • Frequenze cumulate relative > Fi, meccanismo sempre lo stesso.
  • Frequenze cumulate percentuali > Pi, meccanismo sempre lo stesso. RIASSUNTO Frequenze assoluta: ni > numero di volte che si presenta una modalità Frequenza relativa: fi > peso attribuito a ciascuna modalità rispetto al totale Frequenza percentuali: pi > frequenza relativa x 100 Frequenze cumulata: Ni > se siamo interessati a partire una frequenza associate a un determinato livello di modalità Frequenza cumulata relativa: Fi Frequenza cumulata percentuale: Pi

Classi - piramide delle età

Variabile quantitativa misurata su una scala di rapporti, di tipo discreto, però le classi sono trattate come se fossero continue. Si creano delle classi di modalità che possono raggruppare si modalità di tipo discreto quando le modalità sono molte oppure di tipo continuo, modalità di base, supponiamo che siano tutte vicine. La colonna dove c’è scritto età: è una sistemazione in classi o intervalli di una variabile quantitativa di tipo continuo o discreto. Nelle colonne maschio e femmine: c’è la frequenze delle modalità della colonna delle età. Quando si aggregano i dati in classi, andiamo a perdere la frequenza associata alla modalità.

Importanza dei grafici

I grafici partono da una storia e partono dal 1600 in avanti e man mano l’interesse degli studi diventa più evoluto e si avvicina allo studio dei grafici, perché lo studio diventa più complesso. 1900-1950 si cerca di descrivere la variabili qualitative con le immagini. 1975-present fino ad arrivare a delle mappe. Evoluzione storica Colui che ha sancito il punto di svolta tra realtà e l’evoluzione statistica è John W. Tukey. Il termine “bit” è stato coniato da lui. Inoltre coniò pure la parole “software”. Tukey è molto importante perché ha segnato nel 1965 una nuova era. Fino a quell’anno si partiva da un’analisi capovolta, cioè io non prendevo la realtà e sulla base della realtà applicavo i metodi, ma io avevo il metodo e adattavo la realtà al metodo. Questo era un piegare la realtà alla teoria, e la teoria non è utile per spiegare ciò che succede, ma serve ad avvalorale il metodo che ho utilizzato. Tukey capovolse e quindi partiva dall’analisi del dato e dalla determina cosa che volevo sapere vado ad adottare il metodo più giusto per identificarlo. Exploratory Data Anallysis e box-plot. Analisi del fenomeno della popolazione > Tukey creò un grafico denominato box-plot , oppure scatola barba e baffi, va a sintetizzare in un unico grafico le misurare di variabilità, quindi ci da la possibilità di confrontare diversi fenomeni in un unico grafico e di analizzare la tendenza e fare delle riflessioni sulle singole variabili. Edward Tufte : grafici che ha inventato: Chartjunk > uno degli ultimi grafici che ha proposto. E’ una rivisitazione artistica dei diagrammi di flusso. Utilizzato di più nell’ambito scientifico, minerario, fisico e chimico. rappresentazioni grafiche che sovrabbondano di rappresentazioni grafiche e che deviano la rappresentazione statistica. Pittogrammi : es. rappresentazione d’impatto, la rappresentazione di bancone si chiama pittogramma, perché esso è un fenomeno associato a delle immagini. Dobbiamo dare una scala per riuscire a dare un valore. Qui l’attenzione era attratta dalla dimensione della banconota. Quindi il focus dell’attenzione era passata dall’andamento del tempo minimo di salario, all’immagine. Diagramma dimetico : é un diagramma cartesiano su cui gli assi vengono rilevati quantità diverse. Serie storiche : tutti quei fenomeni che esprimono una misurazione nel corso del tempo. Le serie storiche devono essere rappresentate su un diagramma dimetico, e sulle ascisse poniamo il tempo (intensità del fenomeno), facendo attenzione alle proporzioni e nelle ordinate troviamo l’espressione del fenomeno di ciò che stiamo misurando. Sparklines > rappresentazione grafica dell’andamento dinamico degli indici di borsa. Ci fa vedere le oscillazioni dell’indice di borsa nella giornata, mi fa verificare se ha avuto un calo e a che ora e posso vedere nel rilascio stampa cosa è successo a quella determinata ora. E’ un unico grafico laddove mi sintetizza le informazioni rilevanti.

Quindi il grafico sintetizza le informazioni rilevanti, diversi grafici perché ci sono diverse informazioni da rilevare. Prima di fare un grafico devo sapere qual è la mia variabile e come è misurata.

Variabili e tipologia di grafici

Serie storiche >

  • ascisse: tempo (intensità del fenomeno)
  • ordinata: fenomeno Si ricorre al digramma cartesiano di tipo dinemico ha sull’asse delle ascisse il tempo (è l’asse dei numero reali) e sull’asse delle ordinate il fenomeno. Devo costruire una retta che va in ordine di tempo. Traslazione sull’asse dei tempo, abbiamo creato le coordinate da mettere sul piano e abbiamo unito con un linea continua i vari punti, in ordine di tempo. Qualitative sconnesse >
  • (^) torta : quando vogliamo far vedere qual è il peso su una modalità totale. Quando siamo interessati a far vedere che ci sono dei singoli componenti che rappresentano un tutto. La torta la dividiamo in spicchi e l’ampiezza dello spicchio fa riferimento al numero di frequenza di quelli che hanno scelto quella modalità e quindi rappresentiamo il numero di frequenza attraverso i gradi. Dobbiamo capire quando è ampio l’angolo, ma per capirlo dobbiamo capire quante persone ci sono dentro. Esempio non preciso di trovare la misura dell’angolo: prendo la torta, la divido in 4, se la divido in 4 e dato che sto lavorando con le frequenze percentuali, assimilo che tutto quello che è nella torta è 100, allora faccio una croce all’interno del cerchio e vado a prendere il 26,6%, poi 69,6% e quasi poco più di due spicchi, e poi quello che rimane è l’agricoltura. L’ampiezza dei settori circolare : formula precisa per sapere quanto l’angolo al centro vale. L’ampiezza dei settori circolari (angolo al centro) per una modalità i è proporzionale alla frequenza relativa. Su 360 c’è un peso pari al rapporto della frequenza assoluta associata ad ogni modalità sul totale mi da l’ampiezza dei settori circolari. Es. Biondo : totale x 360 1(ni) :14= 0,071(fi) x 360 = 25, I grafici servono a rappresentare in modo corretto i fenomeni e non a distorcerli.
  • (^) barre orizzontale / nastri : quando vogliamo soltanto descrivere le diverse frequenze che sia assolute o relative. Le variabili qualitative non hanno una distanza tra una e l’altra, quindi è un errore rappresentare le variabili qualitative su un’asse delle ascisse graduato. Le nostre modalità nella variabili qualitative non sono graduate, quindi non vanno rappresentate sull’asse delle ascisse. Invece sull’asse delle ordinate abbiamo le frequenze della modalità. Noi partiamo in corrispondenza della modalità di riferimento, la larghezza della barra non ha importanza, mentre l’altezza si perché si deve fermare alla frequenza indicata sull’asse delle ordinate. Le barre non sono attaccate, visto che stiamo parlando di qualità diverse. Questo è un diagramma a barre , non è un istogramma.

Le frequenze cumulate ci serve per calcolare la mediana in frequenze in cui la modalità si presenta più volte. Per poter capire qual è la modalità che divide in due il collettivo devo: -calcolare la distribuzione frequenze cumulate Ni (2+4=6) -le modalità sono 16, quindi pari quindi: -sia 8 che 9 fanno parte delle modalità xi del 6, quindi 6 è la modalità di x associata alle frequenze cumulate 8 e 9. Sia 8 che 9 corrispondono a 6 -quindi dico che 6 è il mio valor mediano, ovvero che divide in due gruppi il mio collettivo Scompone la tabella delle frequenze Quanti 3 ci sono= 2 Quanti 5 ci sono= 4 Etc Calcolo le mie due mediane E dai due numeri che escono conto in n delle posizioni Se avessi avuto, invece dei numeri, le etichette delle posizioni di studio non posso determinare una modalità mediana perchè non posso fare la media delle etichette perchè sono scritte. Se abbiamo variabili qualitative misurate su scale nominali che non si possono mettere in ordine la mediana non si può calcolare. La mediana è una statistica robusta ovvero è indifferente ai valori anomali. Si possono costruire i quartini che sono la divisione in 4 parti della nostra popolazione, quindi si ha il valore mediano ma anche il valore del primo quartile che individua il primo 25% del campione della popolazione. Il 25% lo trovo applicando le mediane al primo 50% che ho trovato, ovvero alla prima mediana. Funziona in due step:

  1. va a calcolare la posizione della mediana influisce sul conteggio della frequenza
  2. mi sposto sulla modalità

Individuare la posizione mediana e per individuarla devo partire dalla dimensione del collettivo ed è dispari quindi N/2 +1: 15+1/2 = 16/2= 8.

Quartili

A quale modalità corrisponde il 1% della popolazione? Lavoriamo in termini percentuali: 0 e 100 Stabilite le modalità che cadono nella parte tra 0 e 50 applico nuovamente il metodo per calcolare la mediana per scoprire Q1.

Intervallo o differenza interquartile

E’ la differenza tra il terzo e il primo quartile. Faccio la differenza tra le frequenze o modalità associata a Q3? Alle modalità associate a Q3. Ci sono dei casi particolari di distribuzione in cui possono cadere nella stessa posizione. Addensamento della distribuzione su una modalità. La distruzione è polarizzata su una modalità in particolare e c’è la coincidenza del Q1, Q e Q3.

Boxplot e presenza di outliner

Molto utile per individuare se nella nostra distribuzione esistono dei valori anomali o valori outliner: sono quei valori che si distanziano / differiscono notevolmente dall’andamento della nostra distribuzione. Es. 5 valore anomalo verso il basso 75 valore anomalo verso l’alto Trovare un valore soglia che identifica quali sono quei valori che stanno all’interno della distribuzione che non risentono dei valori anomali. E capire quali sono quei valori che esulano e che indicano un’anomalia, quindi sottospecie di popolazione / campione diversi dagli altri. Possiamo individuare i valori anomali a sinistra quindi quelli bassi se risultano più piccoli di LI= Q1-1,5xIRQ (distanza tra Q1 e Q3), limite inferiore. Li posizioniamo al di là del limite inferiore con delle stelline. Allo stesso modo nella parte più alta, quindi limite superiore LS= Q3+1,5xIRQ qualcosa di più grande del limite superiore è un valore anomalo quindi stellina.