






















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione alla statistica, con un focus sul campionamento e sulle distribuzioni di frequenza. Come selezionare campioni rappresentativi, distingue tra campionamento probabilistico e non probabilistico, e descrive le diverse tipologie di variabili e modalità. Viene inoltre illustrato come calcolare le frequenze assolute, relative e percentuali, e come utilizzare la sommatoria per determinare la popolazione totale. Il documento include anche esempi pratici per illustrare le applicazioni di queste tecniche.
Tipologia: Appunti
1 / 30
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!























Community password: sta ISTAT Chi produce le statistiche ufficiali con cui si prendono le decisioni? Istituto nazionale delle statistiche italiano, che produce tutte le statistiche che ci servono.
Che cos’è? La Statistica pullula soprattutto nel periodo elettorale. Oggi la statistica è sotto l’occhio di tutti: in continuo aumento l’utilizzo di dati statistici nei giornali e nei media per avvalorare oppure criticare scelte e posizioni di vario genere; ma per il cittadino comune non è quasi mai facile orientarsi, comprendere messaggi imprecisi, parziali o addirittura sbagliati. La statistica è uno strumento utile al cittadino consapevole che vuole capire i fenomeni che lo riguardano (naturali, sociali, economici e politici) svolgendo, così, anche un’attività di monitoraggio e controllo: nella vita di tutti i giorni è sempre più importante saper valutare le numerose informazioni statistiche che giungono da diverse fonti, comprenderne il significato e riconoscerne l’attendibilità. La statistica racconta una storia, bisogna saper coniugare il contesto con i numeri. Storia raccontata dai numeri, non storia che si vuole far raccontare dai numeri. La statistica è uno strumento per essere consapevoli chi ci prende in giro e quanto ci prende in giro. Come opera la statistica? Partiamo dal decisore che deve mettere in atto delle scelte, queste scelte ricadono sull’aspetto pubblico, privato e sociale e gli effetti vengono misurati sui soggetti che vengono chiamati unità statistiche, essere percependo le decisioni attuano dei comportamenti e questi azioni, generano delle nuove decisioni che andranno a ricadere sugli aspetti pubblici, privati e sociali, che poteranno a nuovi effetti misurati sulle unità statistiche. Circolo! Raccolta delle informazioni Quando noi chiediamo delle informazioni stiamo facendo delle statistiche inconsapevolmente, perché poi prenderemo una nostro decisione, effettuando un criterio di scelta. Lessico: Informazione > la statistiche riguarda l’acquisizione di informazioni da più individui, quindi unità statistiche. Quindi non si possono creare statistiche con un solo corrispondente, perché la statistica è espressione di un fenomeno collettivo. Raccolta informazioni > come queste info vengono raccolte. Le info devono essere raccolte in modo coerente coni dettami della disciplina che è quindi la statistica
Statistica > è la disciplina. Statistiche > è il risultato della statistica. Statistico > è colui che applica la disciplina. La statistica è una disciplina che studia i modi in cui un fenomeno collettivo, può essere analizzato e quindi compreso. Altro termine di riferimento POPOLAZIONE > fenomeno collettivo. A seconda del fenomeno che vogliamo analizzare ci sono diverse popolazioni. Dentro le popolazioni ognuno di noi è un’unità. Popolazione italiana > siamo interessati a studiare i fenomeni della popolazione italiana Queste informazioni sulla popolazione si hanno tramite il censimento (indagine decennale fino al 2011 con una procedura capillare con tutti i componenti della famiglie / ora solo prese in considerazione solo le famiglie come nel resto dell’Europa) Census: vuol dire misurare-rilevare. Serve a quantificare gli abitanti. Introduzione alla statistica descrittiva La statistica studia i modi in cui un fenomeno collettivo può essere sintetizzato, analizzato e quindi compreso. Non possiamo pensare di fare statistica pensando a solo un’unità. Quindi dobbiamo considerare la popolazione. La propensione al conteggio è proprio dentro di noi, per questo questa tecnica è molto antica. Contare fa parte della nostra evoluzione. Abbiamo bisogna di fare una sintesi, e la sintesi è il campione. La popolazione è l’insieme delle unità statistiche esposte allo stesso fenomeno nello stesso momento. Dobbiamo scomodare degli apparati che si chiamano misure, queste misure se siamo nella popolazione si chiamano parametri (una percentuale, un valore medio, una misura di variabilità, quanto siamo diversi gli uni dagli altri), invece se parliamo di misure in riferimento al campione si chiamerebbero statistiche. Perché abbiamo bisogno di indicare in modo diverso le stesse misure? perché molte volte può capire che non viene specificato se si sta parlando di popolazione o campione, ma viene scritta la misura, quindi parametro o statistica. DOMANDA ESAME: Quando parlo di stitiche mi riferisco a popolazione, campione, a misure distorte? Campione! Età media, reddito: parametro. Abbiamo la necessità di utilizzare il campione perché non è possibile analizzare tutti i componenti di una popolazione. Queste popolazioni selezionate sono i campioni.
Quindi il titolo di studio si presenta come ad esempio licenza elementare, licenza media ecc. Quante modalità ha il genere? 3: maschio, femmina e alto Quante modalità ha la resistenza? 2: sede e fuori sede. Quante modalità ha il colore di capelli? Praticamente tutta la gamma dei colori. Associato alle modalità abbiamo un’altra parte: quante persone detengono quella modalità , quindi la frequenza. Cosa c’è nella tabella?
- Titolo
Cosa rileviamo? aspetti, caratteri o variabili Come si presentano? in diversi modi o modalità Come si misurano? scale di musica Quante volte si presentano? Frequenza Scale di misura: non compare nella tabella, ma ci guida in tutte le elaborazioni successive. Quindi la somma della frequenza mi da il totale della numerosità, ossia i componenti del mio collettivo e della popolazione.
Noi possiamo avere dei caratteri o della variabili La statistica si occupa di rilevare dei fenomeni che vengono chiamati caratteri o variabili. Variabili si dividono in: variabili qualitative : rilevo una qualità (colore degli occhi) variabili quantitative : quando le modalità esprimono numeri (altezza) Variabili qualitative si dividono in:
Non dobbiamo farci tratte in inganno da quelle modalità che presentano dei numeri, ad esempio: non è detto che un fenomeno è presentato con un valore numerico sia una variabile quantitativa. Ad esempio il cap sono dei codici che descrivono le città, e quindi deve pensare alla variabile qualitativa e non quantitativa perché quei numeri non sono numeri, ma codici. Devo sempre guarda quindi qual è la natura del fenomeno.
La prima variabile viene sempre indicata con X (maiuscolo) > per riconoscere come si identifica la variabile nelle modalità useremo x (minuscolo). Esempio: determinare se queste variabili sono discrete o continue
Le misure utilizzare: per le scarpe (39) il reddito mensile (0-10000) i maglioni (XS, S, M, L, XL) i colori (verde, viole, fucsia, Ogni fenomeno è misurato con un apposito sistema di misura. Il sistema di misura della statistica sono le scale di misura. Sono 4 e sono strettamente connesse alle tipologie delle variabili. Variabili qualitative sconnesse : scala nominale > i modi di presentarsi delle variabili qualitative viaggiano su delle modalità. La modalità che collega le diverse modalità è la proprietà dell’uguaglianza Variabili qualitative rettilinee e cicliche : scala ordinale > le modalità seguono una gerarchia. Variabili quantitative discrete e continue : scala ad intervalli > i fenomeni che si prestano da questo tipo di misurazione non partono dallo zero assoluto. (Quando
La rivista famosa aveva sbagliato la basa dei campioni, era una base che prendeva in considerazione solo una parte dell’elettorato, ossia la parte che aveva il telefono, avevano la macchina, una parte dell’elettorato che avrebbe dato il suo voto alla parte democratica. Rappresentava solo una parte dell’elettorato, campione distorto. Invece l’altra rivista non famosa, aveva preso in considerazione le varie classi sociali e da lì aveva estratto i propri campioni, era un campione rappresentativo perché rappresentava tutto l’elettorato. Tipologie di campionamento:
stessa probabilità nota di far parte del campione. Metodi > metodi per costruire un campione di riferimento. Sono metodi di tipo probabilistico perché le risposte che forniscono non sono risposte certe, ma risposte probabile perché il campione è solo rappresentativo e non è tutta la popolazione, quindi al risultato va associata una probabilistica. Qualsiasi risposa il campione dovrebbe fornirvi, visto che è associato ad una probabilità, il risultato potrebbe essere affetto da un errore. La risposta va ponderata quindi è probabilistica ed essendo probabilistica può essere affetta da un errore, il compito del ricercatore è cercare di rendere questo potenziale errore di campionamento il più basso possibile. Metodologie di tipo probabilistico, 4 grandi famiglie e una 5 che è la combinazione delle quattro di prima, è un campionano di tipo misto:
di ampiezza che decido posso ottenere. N! > coefficiente fattoriale ! = significa che devono moltiplicare tutte le cifre precedenti a quella presa in considerazione fino a quando arrivo all’unità > quindi 4! = 4x3x2x1 >> quindi ! = prodotto delle cifre precedenti al numero fino ad arrivare alla unità. Costruire un campione causale semplice > è la forma di campionamento elementare e per questo ricorre anche nelle altre tipologie campionare. Dobbiamo conoscere la popolazione che dobbiamo andare ad indagare quindi devo avere un elenco, poi andrò a numerare gli individui e l’ultimo mi dirà l’ampiezza della popolazione, poi dovrò indicare di quante unità statistiche si dovrà comporre il mio campione.
- (^) Campione di comodo > il ricercatore sceglie in maniera arbitraria le unità più facilmente raggiungibile, il criterio è soggettivo. Sto selezionando in modo soggettivo. - (^) Campione a scelta ragionata > le unità campionarie vengono scelte dal ricercatore in base ad alcune loro caratteristiche, perché meglio rappresentano il fenomeno di esame, di solito si utilizza quando l’ampiezza del campione è limitata. - (^) Campione per quote > analogo al campionamento stratificato, Una colta che ho individuato il campione decido di sceglierne solo alcuni per criteri utili a me.
Obiettivo è utilizzare al meglio il campione per cercare di esportare delle regole applicabili alla popolazione. Devo cercare di inferire la realtà partendo da un campione, ma bisogna tener conto degli errori. Ci possono essere errori di campionamento e altri non campionari. Ovviamente bisogno minimizzare questi tipi di errori, perché se no non si può estendere alla popolazione.
- Errore di campionamento^ > è un errore inevitabile perché deriva dal fatto che sto ponendo ad indagine campanaria solo un campione e non l’intera popolazione. Quindi sto selezionando una ripartizione della popolazione. E’ il tipo di errore che è frutto del numero della numerosità campionaria. Tanto più è elevata la numerosità campionaria, tanto più quell’errore si riduce. semplicemente perché il campione che sto estraendo non è sufficientemente rappresentativo. E’ il tipo di errore legato alla numerosità campionaria, tanto più è elevata e vicina alla popolazione, tanto più l’errore è basso, se invece la numerosità campionaria è lontana dalla popolazione, l’errore è alto. - Errori non campionari^ > rappresentano tutti quegli errore che possono manifestarsi in ciascuna delle fasi e delle operazioni di realizzazione. - Errore da mancata risposta^ > si verifica quando anche avendo un numero definito non riesco a estrarre la risposta dal campione, quindi si utilizzano dei campioni di riserva. - Errore di copertura^ > si può verificare ad esempio quando la lista di partenza in quanto nota non è completa. Ci sono delle unità che non sono state coperte da qualsiasi indagine campionaria. - Errore di misurazione^ > fa riferimento essenzialmente alla potenziale imprecisione che c’è nelle risposte. Questo dipende molto da come le domande sono formulate.
Es. in questa distribuzione sto raggruppando in modalità. Ci da la possibilità di iniziare a pensare in termini di formule. Serve perché la ritroviamo nella formula della media, della variabilità e il z-store. Ci aiuta a leggere le formule. Il concetto di sommatoria nella sua genericità è semplice, non fa altro che sostituire una serie di addendi. Le frequenze sono il numero di volte che ogni modalità si presenta, si indica con n(minuscolo).
collettivi o sottopopolazioni diverse.
Variabile quantitativa misurata su una scala di rapporti, di tipo discreto, però le classi sono trattate come se fossero continue. Si creano delle classi di modalità che possono raggruppare si modalità di tipo discreto quando le modalità sono molte oppure di tipo continuo, modalità di base, supponiamo che siano tutte vicine. La colonna dove c’è scritto età: è una sistemazione in classi o intervalli di una variabile quantitativa di tipo continuo o discreto. Nelle colonne maschio e femmine: c’è la frequenze delle modalità della colonna delle età. Quando si aggregano i dati in classi, andiamo a perdere la frequenza associata alla modalità.
I grafici partono da una storia e partono dal 1600 in avanti e man mano l’interesse degli studi diventa più evoluto e si avvicina allo studio dei grafici, perché lo studio diventa più complesso. 1900-1950 si cerca di descrivere la variabili qualitative con le immagini. 1975-present fino ad arrivare a delle mappe. Evoluzione storica Colui che ha sancito il punto di svolta tra realtà e l’evoluzione statistica è John W. Tukey. Il termine “bit” è stato coniato da lui. Inoltre coniò pure la parole “software”. Tukey è molto importante perché ha segnato nel 1965 una nuova era. Fino a quell’anno si partiva da un’analisi capovolta, cioè io non prendevo la realtà e sulla base della realtà applicavo i metodi, ma io avevo il metodo e adattavo la realtà al metodo. Questo era un piegare la realtà alla teoria, e la teoria non è utile per spiegare ciò che succede, ma serve ad avvalorale il metodo che ho utilizzato. Tukey capovolse e quindi partiva dall’analisi del dato e dalla determina cosa che volevo sapere vado ad adottare il metodo più giusto per identificarlo. Exploratory Data Anallysis e box-plot. Analisi del fenomeno della popolazione > Tukey creò un grafico denominato box-plot , oppure scatola barba e baffi, va a sintetizzare in un unico grafico le misurare di variabilità, quindi ci da la possibilità di confrontare diversi fenomeni in un unico grafico e di analizzare la tendenza e fare delle riflessioni sulle singole variabili. Edward Tufte : grafici che ha inventato: Chartjunk > uno degli ultimi grafici che ha proposto. E’ una rivisitazione artistica dei diagrammi di flusso. Utilizzato di più nell’ambito scientifico, minerario, fisico e chimico. rappresentazioni grafiche che sovrabbondano di rappresentazioni grafiche e che deviano la rappresentazione statistica. Pittogrammi : es. rappresentazione d’impatto, la rappresentazione di bancone si chiama pittogramma, perché esso è un fenomeno associato a delle immagini. Dobbiamo dare una scala per riuscire a dare un valore. Qui l’attenzione era attratta dalla dimensione della banconota. Quindi il focus dell’attenzione era passata dall’andamento del tempo minimo di salario, all’immagine. Diagramma dimetico : é un diagramma cartesiano su cui gli assi vengono rilevati quantità diverse. Serie storiche : tutti quei fenomeni che esprimono una misurazione nel corso del tempo. Le serie storiche devono essere rappresentate su un diagramma dimetico, e sulle ascisse poniamo il tempo (intensità del fenomeno), facendo attenzione alle proporzioni e nelle ordinate troviamo l’espressione del fenomeno di ciò che stiamo misurando. Sparklines > rappresentazione grafica dell’andamento dinamico degli indici di borsa. Ci fa vedere le oscillazioni dell’indice di borsa nella giornata, mi fa verificare se ha avuto un calo e a che ora e posso vedere nel rilascio stampa cosa è successo a quella determinata ora. E’ un unico grafico laddove mi sintetizza le informazioni rilevanti.
Quindi il grafico sintetizza le informazioni rilevanti, diversi grafici perché ci sono diverse informazioni da rilevare. Prima di fare un grafico devo sapere qual è la mia variabile e come è misurata.
Serie storiche >
Le frequenze cumulate ci serve per calcolare la mediana in frequenze in cui la modalità si presenta più volte. Per poter capire qual è la modalità che divide in due il collettivo devo: -calcolare la distribuzione frequenze cumulate Ni (2+4=6) -le modalità sono 16, quindi pari quindi: -sia 8 che 9 fanno parte delle modalità xi del 6, quindi 6 è la modalità di x associata alle frequenze cumulate 8 e 9. Sia 8 che 9 corrispondono a 6 -quindi dico che 6 è il mio valor mediano, ovvero che divide in due gruppi il mio collettivo Scompone la tabella delle frequenze Quanti 3 ci sono= 2 Quanti 5 ci sono= 4 Etc Calcolo le mie due mediane E dai due numeri che escono conto in n delle posizioni Se avessi avuto, invece dei numeri, le etichette delle posizioni di studio non posso determinare una modalità mediana perchè non posso fare la media delle etichette perchè sono scritte. Se abbiamo variabili qualitative misurate su scale nominali che non si possono mettere in ordine la mediana non si può calcolare. La mediana è una statistica robusta ovvero è indifferente ai valori anomali. Si possono costruire i quartini che sono la divisione in 4 parti della nostra popolazione, quindi si ha il valore mediano ma anche il valore del primo quartile che individua il primo 25% del campione della popolazione. Il 25% lo trovo applicando le mediane al primo 50% che ho trovato, ovvero alla prima mediana. Funziona in due step:
Individuare la posizione mediana e per individuarla devo partire dalla dimensione del collettivo ed è dispari quindi N/2 +1: 15+1/2 = 16/2= 8.
A quale modalità corrisponde il 1% della popolazione? Lavoriamo in termini percentuali: 0 e 100 Stabilite le modalità che cadono nella parte tra 0 e 50 applico nuovamente il metodo per calcolare la mediana per scoprire Q1.
E’ la differenza tra il terzo e il primo quartile. Faccio la differenza tra le frequenze o modalità associata a Q3? Alle modalità associate a Q3. Ci sono dei casi particolari di distribuzione in cui possono cadere nella stessa posizione. Addensamento della distribuzione su una modalità. La distruzione è polarizzata su una modalità in particolare e c’è la coincidenza del Q1, Q e Q3.
Molto utile per individuare se nella nostra distribuzione esistono dei valori anomali o valori outliner: sono quei valori che si distanziano / differiscono notevolmente dall’andamento della nostra distribuzione. Es. 5 valore anomalo verso il basso 75 valore anomalo verso l’alto Trovare un valore soglia che identifica quali sono quei valori che stanno all’interno della distribuzione che non risentono dei valori anomali. E capire quali sono quei valori che esulano e che indicano un’anomalia, quindi sottospecie di popolazione / campione diversi dagli altri. Possiamo individuare i valori anomali a sinistra quindi quelli bassi se risultano più piccoli di LI= Q1-1,5xIRQ (distanza tra Q1 e Q3), limite inferiore. Li posizioniamo al di là del limite inferiore con delle stelline. Allo stesso modo nella parte più alta, quindi limite superiore LS= Q3+1,5xIRQ qualcosa di più grande del limite superiore è un valore anomalo quindi stellina.