
















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
riassunto delle lezioni e video pillole
Tipologia: Sintesi del corso
1 / 24
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

















Statistica: Lezione 6/03: la statistica è matematica applicata. Primo blocco: statistica descrittiva e Secondo blocco: probabilità e distribuzione di probabilità. Terzo blocco statistica inferenziale. Definizione: statistica descrittiva: disciplina che ha a che fare con l’analisi dei dati che si riferiscono ad un certo fenomeno e la statistica è quella disciplina che utilizza i dati a disposizione per ottenere info. L’ambito è quello in cui noi impariamo delle tecniche utili di descrivere dati non fenomeni. Non spiegazione ma descrizione. Tutte le tecniche per descrivere tutti quei dati che abbiamo a disposizione. Media dei voti, descriviamo l’andamento dei voti, e ci sono due gruppi: in forma grafica: istogrammi e torte e media numerica: media tipo tutte le altezze dei bambini e poi si fa media. Questa descrizione si fa o con la rappresentazione con dei grafici in generale oppure in forma quantitativo tipo la percentuale. Descrive la maggior interazione con i dati. 80- 90% dei dati ci soddisfacciamo della descrizione dei dati. Statistica inferenziale: estrarre, generalizzare delle info valide per una popolazione studiando solo un piccolo campione, generalizzando ad un’intera popolazione. Es. studio il comportamento di 300 studenti universitari e dall’analisi cerco di capire come si comporta tutta la situazione italiana, quindi, è il rapporto tra un piccolo campione e la popolazione. Campione= piccolo sotto insieme di una popolazione. Non studio tutte perche non ho tempo, risorse finanziarie ecc. estraggo un piccolo campione e poi estendo il risultato su un’intera insieme, popolazione, palline colorate ecc. se lo ripetiamo l’operazione 10 volte il risultato non è sempre lo stesso e quindi tanti risultati differente e possiamo fare inferenza facendo una stima di quanto possiamo sbagliare, l’errore fatto. Probabilità e distribuzione di probabilità: quando estraniamo tanti campioni non stiamo contando tutte le palline ma stiamo facendo un evento di natura probabilistica. Quel valore con probabilità di…! Gli strumenti di inferenziale partono dalle probabilità. LEZIONE 20/ Discreto: non si riferisce solo ai numeri naturali ma a tutti quei numeri che possono essere in relazione con i numeri naturali anche numeri con la virgola sono sempre discreti. Quando si ha un fenomeno statistico quando riusciamo a determinare la distribuzione delle orssevazioni abbiamo la migliore rappresentazione di quel fenomeno. Maggiore comprensione. Si cerca di fare la Rappresentazione delle proprietà di una distribuzione utilizzando dei parametri di statistiche di sintesi. Calcolare la media è un esempio: prendere tutti i valori e li faccio coincidere con una cosa che si chiama media. Sostituisco la ricchezza della distribuzione con un unico valore di sintesi che rappresenta la tendenza centrale dell’intero fenomeno. Tipo il reddito media di una popolazione. Tanta info si perde ma cmq cerchiamo di interpretare la media. Dalla distribuzione si estraggono due elementi centrali: valori di tendenza centrale: media , mediana e moda= valori che rappresentano una sintesi unitaria della distribuzione e la sua complessità. L’altro elemento è il valori delle dispersione= varianza, dilazione standard range, range interquartile= quanti i dati sono vicino a lontano dalla distribuzione.
CORTO CIRCUITO logico: si completa se noi prendiamo l’albero delle diverse tipologie di variabile e ci chiediamo se per ciascuna tipologia di variabile passiamo calcolare tutti i parametri di tendenza centrale e tutti i valori di dispersione: la risposta è NO. Dipende dal tipo di variabile. Se il variabile è continua si può calcolare la media, moda = ha poco significato. Variabile categoriale non ordinabile non si può calcolare la media e mediana ma solo la moda. Non può essere calcolato la varianza. Il tipo di variabile influenza anche il tipo di analisi che si può fare. Il senso del cap. 2: Descrizione quantitativa dei dati anche per la variabile categoriale e della variabile continue e discrete. Es: voti dell’esame: mettiamo che abbiamo preso 24 e 25 e si calcola la media non è 24,5 in quanto non abbiamo in disposizione 24,5 all’interno dei nr, quindi, bisogna scegliere a quale è più vicino. Da una scala continua si passa ad una scala concreta. (studiare i capitoli 2, 3 e 4). Esercizi: autovalutazione test capitoli 1-3 (aula) 1- Misura riepilogativa di una popolazione può essere un parametro in un caso e una statistica in un altro caso. Parametro quando si riferisce ad una popolazione e statistica quando si riferisce ad un campione. Tipo: la media dei voti lo chiamiamo statistica se prendiamo un gruppo di studenti, un campione ed è parametro quando prendiamo tutta la popolazione. Ma in entrambi si può calcolare la media. 2- La statistica: il tempo medio in quel caso. 3- Variabile causale discreta: il nr 1,2,3, non s’è un numero con la virgola. Bisogna ragionare sul fenomeno sottostante; il tempo è variabile continua, una frazione % è continua. 4- Discreta. Quante volte è un numero discreto. 5- Non è ordinabile perché non si può mettere in ordine e quindi variabile quantitativa nominale. 6- Età di un insieme di clienti: % =quanti sono i visitatori 36 in tutto. Quanti hanno almeno 25 anni= 31 al risposta è più vicino al numero 36 quindi tra i tre valori si sceglie quello più alta come %. In questo caso è B. i valori delle % si leggono in doppia rappresentazione cioè 69,9 si legge anche 0,69 perché semplicemente si usano due scale diverse di calcolo e rappresentazione. 7- Variabile quantitativa: quella variabile che può essere espressa con un numero. In questo caso c. 8- Variabile numerica continua: popolazione è numero discreto quindi no, risme sono discrete, no come anche i galloni di vernice no. A questo punto è il numero di miglia in quanto è una misura dello spazio. La risposta giusta. LEZIONE: 27/03: probabilità: consente di fare un esperimento per sapere quante volte si verifica un evento. Considerando il fatto che non sempre si può ripetere un esperimento in quanto può avere anche dei costi allora ci si è arrivati anche ad altre definizioni di probabilità come: è quella che un esperto riesce a indicare (soggettiva). SINTESI: definizioni di probabilità sono diverse e per sapere quale si applica dobbiamo andare in base al contesto. Devono dare risultati coerenti non si devono contrapporre. Lancio di due dadi: sommando possono uscire da 2 a 12 (casi possibili 2,3,4,5,6,7,8,9,10,11,12) numeri interi. Per ciascuno degli eventi singoli quali sono le probabilità che venga fuori? Il 2 si verifica in 1 caso, 1 e 1, 1 su 36. Il 3 in due casi (1e 2, 2 e 1) 2 su 36. Il 4 in 3 casi E così via. Mettendo in un grafico tutti questi dati avremmo la distribuzione delle probabilità. Se facciamo la somma di tutto la somma è
Grafico a torta (pie chart): grafico in cui le frequenze relative delle modalità osservate sono rappresentate da settori circolari, in modo che il cerchio completo rappresenti l’intero insieme di osservazioni, ossia il 100%. indagine statistica: 20 famiglie: viene riportato il nr di figli: andare a stimare e costruire una tabella del carattere nr di figli. Ni= frequenza assoluta, NI=frequenza cumulativa. Fi=frequenza, il rapporto di quante famiglie hanno 0 figli, chi 1 ecc. nel caso avere tanti dati si fa min: valore minimo = selezione tutta la cella e min= oppure max: 4. Vado a costruire quinci il range xi=0,1,2,3,4 e vado a contare all’interno delle famiglie utilizzanto conta se per contare nel campione quante volte si verifica il d2?. X1=0 ni=1 x2=1 n1= Come posso sintetizzare questi dati? Raggruppare le info. Si va a quantificare. Ni frequenza assoluta, 180 famiglie vengono rappresentate in questo modo. Sintetizzare. Quindi si va a descrivere il nr delle famiglie con 1, 2, 3, 4, 5, 6, 7, ecc tot famiglie con 0 figli, tot famiglie con 1 figlio ecc. NI: frequenza assoluta cumulata: la prima osservazione dove ci sono 0 figlie da il nr di quello del )ni piccolo), nella seconda riga dove sono le famiglie con 1 figlio dà la soma tra le famiglie con 0 fogli con quelli di 1 figlio. La terza riga la somma tra la terza riga e le due precedenti cosi per rispondere alla domanda quante famiglie hanno almeno un tot di figli. Es: terza riga risponde alla domanda quante famiglie hanno almeno 2 figli? E così via per le altre righe. Quando si fa la domanda quante bambini hanno = 2 figli si risponde con il nr delle famiglie che hanno due figli ma se la domanda è quante famiglie hanno minore/uguale 2 figli si fa la somma delle 3 righe. Con la frequenza assoluta cumulata. Frequenza relativa: fi=il rapporto, delle % per sapere quanto vale quel risultato sul totale. Es: se le famiglie che hanno 0 figli sono 8, quanto vale questo 8 su 180 che è il totale? Si fa 8 su 180 è il risultato è 0,044. Quindi queste famiglie su 180 pesano 0.04. in % si va a fare x 100 e il risultato è 4.4. 180 = 100% Frequenza relativa cumulata si fa come quella assoluta cumulata si sommano le righe. Risponde alle domande quanto pesano le famiglie con minore/uguali a 2 figli? Qual è il grafico migliore per rappresentare un tipo di dato e se i dati sono di frequenza relativa il miglior grafico è quello a torta. I grafici sono collegati al tipo di dati. Dati del tempo con i grafici di linea o barre. X è il carattere che sto osservando Nel caso dei lavoratori che rispondono s il lavoro è faticoso o no meglio usare il grafico a barre che ci fa vedere l’andamento Stem end leaf : il ramo e la foglia: id dei pazienti che viene misurata la pressione. Nella misura della pressione del paziente è 89 il ramo è 8 e la foglia è 9. Nel caso spiegata nella lezione osservo che nei dati che vanno dalla misura di 89 a 145 so che il ramo minimo è 8 e massimo è 14. Quando ci sono più misure tipo: uno ha la pressione 92 l’altro 95 poi 95 e 99 scrivo che il ramo è 9 e la foglia=i numeri che seguono il 9 in tutte le misure quindi 2559.
Dati istat: quanti abitano a nord centro sud, e per fare il % tipo il nr delle persone che vivono a nord su il nr totale che vivono in italia e viene fuori il risultato. Composizione percentuale della distribuzione della popolazione in italia. Distribuzione per genere non si fa tipo la percentuale delle femmine sul totale ma femmine su maschi per questo si chiama indice e non %. Rapporti coesistenza. Rapporto di maschi è sul totale di femmine x 100. Quanto femmine su maschi? Nr delle femmine su su quello dei maschi x 100. Se si fa il rapporto dei maschi oppure femmine sul totale andiamo a fare la frequenza relativa. Caso: tasso: nati vivi per confrontare diverse regioni, tra stati ecc. in questo caso e su regioni di nati vivi. si mettono i dati della popolazione media per ogni regione e i nati vivi per 1000 abitanti è il rapporto tra i nati vivi e la popolazione media x 1000. E l’interpretazione di un dato tipo 9,25 è 9 su 1000 e poi si osserva chi ha i nati vivi più bassi su 1000 abitanti. Il gioco è sempre sulla frequenza che viene usata per quantificare, classificare e confrontare all’interno ma anche in due categorie. Ma anche quantificare, classificare e confrontare all’interno all’ambienti esterni ed interni. Se vediamo che in lombardia sono nati di più ma essendo grande come regione e quindi ha una grande popolazione cmq il tasso è basso, se guardiamo il tasso. Dipende dal rapporto tra i nati e la popolazione all’interno di ciascuna regione. Se vediamo solo il valore assoluto non avremmo contezza di questa info perché il nr degli assoluti sono importanti ma dobbiamo rapportarlo con la popolazione. SLIDE: richiami di matematica: Discreto e Continuo: discreto: continuo: la variabile viene indicata con la lettera maiuscola in grassetto indica qualcosa associata ad un fenomeno, sociale, statistico ecc. il nome o il simbolo che noi attribuiamo ad una variabile non ha alcun significato fenomenologia. Vengono spesso utilizzati gli stessi nomi per una prassi convenzionale senza significato. Esempi di variabili: x altezza dei bambini: riesce a sintetizzare all’interno una fenomenologia, Y= cibo preferito dagli adolescenti: Z= voto conseguito all’esame. Il simbolo che attribuisco è solamente arbitrario, si può dare qualsiasi simbologia o nome in quanto non definisce nulla. Una variabile viene quantificato da un pre-determinato chiamoto= DOMINIO della variabile= tutto l’insieme del valore che la variabile può assumere. Tipo: x0 110 e 170 cm, la misura o il nome che le viene detto, ciò che può assumere definito da noi. Esempio: il voto dell’esame degli studenti Z= da 0 a 30 e quindi può essere 1,2,3, 4… 28,29,30) Se questa variabile assume solo un valore = COSTANTE. Si distinguono in Numeriche: quelle espresse da un nr (x e z) o qualitative espresse da una qualità tipo giallo, o categoria es:Y. Se in può assumere qualsiasi valore compreso tra due dati valori è detta CONTINUA altrimenti è DISCRETA = può assumere alcuni valori non tutti! Esempio: in nr dei bambini di una famiglia che può assumere qualsiasi nr tranne 2,5 o 1,673 è DISCRETA. Invece altezza di un individuo è può essere sia 170cm ma può assumere anche valori come 176,45cm vuol dire che è CONTINUA. La variabile X potrebbe essere anche discreta perché dipende dalla modalità di
centimetro siamo certi della misura. Se calcoliamo la media di queste 3 misure otteniamo 178,666666666…. Si scrive correttamente 178,7cm per 2 motivi: l’incertezza cade sulla prima cifra decimale e tutti i valori d’origine hanno una cifra decimale. Bisogna fare l’approssimazione non scrivere il nr ripetuto. ANDIAMO AL LIMITE: abbiamo un insieme x con nr reali= (-5;5) c R; X è un insieme continuo, quindi con un nr infinito di elementi, ma limitato. Quanto vale 1/x se x=0. L’aritmetica dice che è un’operazione impossibile, non definita, non possiamo dividere per zero ma… se facciamo 1/0,1; 1/0.01 oppure 1/-0.1 ecc succede che il risultato è 10,100,-10, -100. Cioè man mano che ci avviciniamo a 0 per valori positivi il rapporto aumenta(destra). Invece se mi avvicino a 0 per valori negativi, da sinistra, il rapporto diminuisce. 1/0 non si può calcolare. Questa si chiama operazione di ‘limite’: ci consente di determinare cosa succede a una funzione quando ci avviciniamo a un punto critico in cui la funzione non è definita (non possiamo calcolarla). ATTENZIONE: cosa sarebbe successo se x= (-5;5) c Z? Appunti Q. CALCOLO DELLE AREE: calcolare aree quando i lati sono irregolari: es: un terreno limitato dal corso di un torrente (una curva). Per misurare cerchiamo di fare tante approssimazioni. Riduciamo a tante piccole figure piane regolari (es: rettangoli) e più sono piccole meno errori facciamo, al limite ne facciamo tantissime. APPUNTI SUL Q. MISURARE LE VARIAZIONI: come varia nel tempo(covid), serie storiche il concetto matematico che gli esprime è la DERIVATA: esprime una variazione di una funzione nel tempo. La derivata (velocità) in un punto corrisponde alla pendenza della tangente in quel punto. Maggiore è la pendenza (coefficiente angolare della retta) maggiore è la derivata (velocità) in quel punto. Se la derivata è positiva la curva sta crescendo se invece è negativa la curva sta calando. Il calcolo della derivata di una funzione si ottiene anche nel caso andando al limite. Appunti sul q Notazione decimale e scientifica: modo di rappresentare i numeri con le potenze di 10, quando un numero ha tanti zeri sia nella parte intera che in quella decimale è conveniente utilizzare la notazione scientifica, la quale utilizza le potenze di 10. 10 alla seconda= 10x10 6,7x 10 alla quarta= 6,7 x 10 x10 x10 x 10=67000, si scrive anche 6,7E (e4 significa ‘esponente 4). È più usato per esprimere nr piccoli con tanti zero dopo la virgola prima di una cifra significativa. 10 alla -2= 1/(10x10) = 1/100 = 0,01; 10 alla -4 = 1/ (10 x 10 x 10 x 10) 0 1/10000 = 0,0001; 6,7E-5 = 6,7 x 10 alla -5 = 6,7 *1/ 10000= 0,000067. SOMMATORIA: di avere due insieme numerici: x= (4,8,9,12,3,15,23,8) y= (7,15,34,28,2,0,12,4)
ognuno è costituito da 8 elementi quindi avremo x1=4, x2=8, x3= 9…e y1=7, y2=15…ecc. l’apice indica la posizione. Y1 indica il primo elemento della variabile Y. Il simbolo Σ (sigma) si legge sommatoria e significa che bisogna ‘sommare’ vari termini restituendo il totale della somma. Da solo non significa nulla. Bisogna anche specificare cosa sommare, da quale termine iniziare e fino a quale termine finire. Es: sommatoria: variabile xi che va da 3 a 5 dove i=3; x3 x4 x5 = 9+12+3=
essere dati che si possa essere associato una variabilità. Quanto varia, quanto cambia. Misura del grado. Es: se chiediamo a 5 persone quanti mattoni avete mangiato ieri risponderebbero tutti 0. Se alle stesse persone chiediamo quanti euro avete in tasca le risp possono essere: 22,67,3,145,35. Intuitivamente il primo gruppo è meno variabile del secondo. La statistica cerca di misurare questa variabilità, ossia di quantificare e associare un nr. La prima cosa da fare è avere chiaro: quali domande hanno un contenuto statistico. Sono domande per cui la risposta prevede di acquisire dati e misurarne la variabilità. Es; quanti pesa il gatto? Quanti denti ha mia nonna?. 2- DEFINIZIONE: è un insieme di metodi di tecniche per la conoscenza quantitativa, l’analisi e la comprensione di uno o più fenomeni, singolarmente o congiuntamente considerati, che si presentano nella realtà con un insieme di diverse manifestazioni, osservabili totalmente o parzialmente. È basata sulla matematica. Si va a studiare, indagare in conoscenza quantitativo in presenza di nr. Fenomeni di qualsiasi genere e qualsiasi ambito. Congiuntamente = insieme. Manifestazione= valore di quel fenomeno. Totale= di tutti invece parzialmente: ho 100 studenti studio il fenomeno su loro. Risultato parziale. Da dove arriva il nome statistica= stato e fa riferimento alla constatazione per cui le prime info su fenomeni sono state raccolte ed organizzate ad opera degli organismi totali statali che ne erano anche i principali utilizzatori. Prime esigenze di misurare le esigenze dello stato. Le prime tracce già dai sumeri. L’evento piu conosciuto con la nascita del cristo. La statistica moderna nasce con la fase metodologica. Quella scientifica. De finetti statistico italiano. 3- Definizioni e notazioni (simboli) di base: appunti sul q. (si riprende dalla 3 slide) Statistica è una conoscenza quantitativa quindi anche il flusso dell’analisi quantitativa ha una sua precisa articolazione. Si parte dalla raccolta dei dati e richiede una certa esperienza e modifica. Poi si passa all’elaborazione dei dati ed è la fase dove si applicano tutte le tecniche statistiche per trasformare i dati in qualcosa che può essere interpretato e poi trasformato in info. Un’altra chiave di lettura è definire i prerequisiti e obiettivi. Studiare e conoscere i fenomeni approfonditamente. Sono impo perché ci consente di trasformare l’analisi statistica in info. Individuare e saper utilizzare
le tecniche di elaborazione dati. Non bisogna applicare meccanicamente le tecniche. Infine, è importante saper selezionare e saper un dato e i suoi risultati. Per fare questo bisogna saper bine il fenomeno. DATO: un dato isolato è un nr (non serve a nulla) non da info a meno che venga messo in relazione con altri dati e inserito in un contesto. NOTAZIONE DI BASE: fenomeni o variabili vengono rappresentati con lettere maiuscole X, Y, Z. unità statistiche sono: tutti gli soggetti o gli oggetti che sottopongo a misura rispetto al fenomeno o le variabili. Ogni unità statistica assume un valore dalla variabile e vengono indicate con lettera minuscola x,y, z ecc. la popolazione statistica viene indicata con la lettera U. la numerosità o dimensione di U = N. N.B X è un fenomeno o un variabile, x è una modalità (una categoria, nr,) U è un insieme, N è un numero. Es: altezza degli studenti di psicologia nell’aula. Variabile X=altezza (cm) unità statistica: ogni studente presente in aula. Manifestazione del fenomeno sono i valori di ogni misura. X1=125cm, X2= 185cm X3=199 cm. X1 primo studente, X2 il secondo e così via. La popolazione è l’insieme di tutti gli studenti presenti in aula. La numerosità è il nr degli studenti che si trovano in aula. IL TUTTO O UNA PARTE? Una volta che viene definito il fenomeno e la popolazione: siamo in grado di misurare le manifestazione di tutti i valori della U=popolazione? Se rispondiamo SI: siamo nell’ambito della STATISTICA DESCRITTIVA (indagine censuaria). Se invece rispondiamo NO siamo nell’ambito: STATISTICA INFERENZIALE (indagine campionaria). sono distinti. STATISTICA DESCRITTIVA: è quella parte della statistica in cui abbiamo una rilevazione esaustiva (censuaria) della popolazione e disponiamo di tutti i dati degli N, dati osservati presso tutte le unità statistiche della popolazione U. descrive il comportamento del dato X della popolazione U. dipende anche dalla popolazione del riferimento non solo dalle unità statistiche
FENOMENI STATISTICI QUANTITATIVI : discreti : il voto degli studenti dell’esame di statistica. Possono essere enumerati da 18 tipo fino a 30. Non possono essere intermedi tipo 24,5, possono essere infinito. Continui: che richiede che il fenomeno può assumere un infinito nr di valori, con continuità può assumere tutti i valori all’interno di una determinata scala. Non possiamo più numerarli ma abbiamo una semplice continuità. Da un valore minimo fino ad un valore massimo. Utilizzano due tecniche diverse tra di loro. FENOMENI QUALITATIVI : le modalità sono attribuiti o categorie, qualità appunto es: genere, titolo di studio ecc. si classificano: sconnesse: non ordinabili ordinali: ordinabili. Mettere le categorie in ordine a secondo di un criterio. Le scale quantitative sono sempre ordinabili ma si distinguono per avere:
fenomeni discreti possono essere trattati come continui e viceversa. RILEVAZIONE DEI DATI: senza dati di partenza non abbiamo statistica. Parte da costruzione di un questionario: insieme dei fenomeni statistici, tipologie di variabile oppure delle scale di insieme di fenomeni statistici. Si reca fisicamente presso le unità statistiche oppure con i dispositivi si fanno compilare questionari via web. Quando costruiamo da scala di misurazione delle categorie devono rispettare due principi: Esaustività : tutte le opzioni della scala devono rappresentare tutte le possibili manifestazioni, tutti i possibili valori. (quando non siamo siguri di aver messo tutte le categorie mettiamo altro per far il modo di essere esaustiva). Mutua esclusività : nella scala non deve esserci un’ambiguità tra due scelte. Uno deve escludere l’altro. 5 SOMMATORIA: appunti sul q 6 DISTRIBUZIONI DI FREQUENZA, TABELLE E GRAFICI: DATI GREZZI. I dati si presentano come dati grezzi cioè qui dati così come vengono ottenuti dagli questionari, banca dati. Sono rappresentati come una sequenza di risposta o nr senza nessuna strutturazione, ordinamento ecc., come vengono ottenuti. Come risultato come rivelazione dati di un certo fenomeno x sulla popolazione U di numerosità N è un insieme di N osservazioni. Ciascuna osservazione coincide con una delle k modalità xi previste in una scala utilizzata. Es scala discreto quantitativa: comportamento sessuale degli studenti universitari. I dati vanno organizzati sintetizzandoli avendo delle info utili per descrivere il fenomeno. La prima operazione è quella di costruire la DISTRIBUZIONE DI FREQUENZA: rappresenta modalità per modalità e il nr di volte che questa modalità viene rappresentata. Es: nr di studenti che hanno avuto un partner. APPUNTI SUL Q. VARIABILE STATISTICA: Insieme k di tutte le coppie (xi fi). Le frequenze fi sono sempre nr interi non negativi. Abbiamo dato ordine e organizzato i dati e abbiamo perso l’ordine dei dati che sono stati dati. Ma dobbiamo tenere quello che è più rilevante. Per comfrontare a distribuzione di frequenza X su più popolazioni dobbiamo è più importante sapere la FREQUENZA RELATIVA: la porzione di soggetti che hanno dato una certa risposta sul totale. Questo da la % (frequenze relative moltiplicate per 100). Viene indicata con P. è pari al il rapporto tra la frequenza assoluta e
8 – VALORI MEDI…O MEGLIO VALORI DI TENDENZA CENTRALE O DI SINTESI: come passare dai dati a un singolo indicatore: moda, mediana, quartili e percentuali, box plot, media aritmetica. MODA: è la modalità a cui è associata la frequenza più alta tra le k più alte. È calcolabile per qualsiasi X qualitative ma anche quantitative, possono essere discrete, continue o ordinale. L’intervallo a cui viene associata la densità più alta si chiama intervallo modale. Se viene calcolato su fasce di popolazione bisogna calcolare la densità cioè es: su una popolazione da 16 da 1-5 anni 4 sono malati, da 5-25 anni sono 7 malati e da 25-100 3 sono malati bisogna fare??????? si può calcolare e misurare sempre. MEDIANA: tendenza centrale. per poter essere calcolata ha bisogno che i fenomeni siano ordinali, che seguano un ordinamento può essere sia quantitativo che qualitativo. Se si possono mettere in ordine si può calcolare senno non si può. Se il fenomeno ha come risposta il colore preferito non si può mettere in ordine. Quindi la mediana è la modalità che nella distribuzione della frequenza divide in due parti uguali la distribuzione stessa. 50% ha valore inferiore e 50% superiore. Spacca in due la distribuzione di frequenza.se il fenomeno è qualitativo continuo e le modalità sono dei intervalli si individua con lo stesso procedimento l’intervallo mediano. Se non si conosce la distribuzione delle frequenze all’interno dell’intervallo bisogna fare delle ipotesi. APPUNTI SUL Q BOX – PLOT= grafico a scatoletta. È la distribuzione in forma grafica dove si inseriscono tanta info utile. È costruito da una parte detta box, la quale ha due estremi. APPUNTI SUL Q MEDIA ARITMETICA: è la somma di tutte le osservazioni diviso per il nr delle divisioni. (appunti sul q) la media si può ottenere solo su dati quantitativi perché c’è bisogno di fare delle somme, delle divisioni. Oppure anche qualitativi ordinali ma rilevabili su una scala quantitativa espressi con un nr. Moda si può determinare sempre, la mediana solo se sono ordinali, la media solo se sono quantitative ordinati e ordinali. Se il fenomeno è continuo e ci sono intervalli la media viene calcolata con l’ipotesi del valore centrale.
Se ho una distribuzione di frequenze quali dei tre valori di pendenza centrale utilizzo, moda, mediana o media? si cerca di rispondere, rappresentare l’intera distribuzione con un unico valore. Sintetizzare la ricchezza della distribuzione utilizzando un unico valore su cui concentriamo tutte le info, perdiamo info ma guadagniamo in sintesi. 9 – QUALI VALORI DI TENDENZA CENTRALE POSSO USARE. TRE CRITERI: 1- Si sceglie il valore in base alle proprietà matematiche. 2- Scegliamo quel valore che ci permette di minimizzare la perdita di info rilevanti. 3- Invarianza: mantenere inalterata una particolare funzione dei dati che riassume delle info ritenute importanti. PROPRIETà FORMALI: I valori medi sono sempre in mezzo. Questa proprietà si chiama INTERNATALITà (appunti sul q). OMOGENEITà: Il valore è invariabile rispetto alla variazione di scala. Se prendo tutti i dati della distribuzione e li moltiplico per 5 anche la media si moltiplicherà per 5. (app sul q). LINEARITà: solo media aritmetica no le altre. Una trasformazione della scala solo un pochino rispetto alle altre. (app sul q) ASSOCIATIVITà: la media di una popolazione è uguale alla media delle medie sottogruppi (con pesi uguali alle loro numerosità). La media delle medie non è uguale alla media della tutta popolazione. Si possono associare dei sotto gruppi e li pesiamo. Sommiamo le medie ponderate, il nr dei sottogruppi. Media ponderata rispetto al nr dell’intera popolazione. ANNULLAMENTO DEGLI SCARTI: solo media aritmetica: i valori sopra e sotto la media compensano. La media è sempre uniforme. MANTENIMENTO EQUIDISTRIBUZIONE DEL TOTALE (solo media aritmetica) Media è quel valore attribuito a tutti i soggetti per mantenere lo stesso totale. MINIMIZZAZIONE DELLA FUNZIONE DI PERDITA: misurare quanto info va perso. Indicatore utilizzato è lo SCARTO che è la differenza tra il valore osservato e la media. (app sul q) 10 – VARIABILITà: posso costruire indicatori che possono dirmi quanto ho perso, che possono dirmi qual è il valore centrale di riferimento, quanti dati erano distribuiti sparsi intorno a questo valore. Quanto un certo fenomeno si manifesta con modalità tra loro diverse sulle N unità di U. non
NORMALIZZAZIONE: Le frequenze devono essere tali per cui la media osservata rimanga la stessa. (app sul q). la massima variabilità teorica, misurabile da o max, la deviazione standard calcolata sulla tabella con le frequenze teoriche. La normalizzazione avrebbe dato lo stesso esito se avessimo utilizzato i c.v invece di o (al numeratore e al denominatore si cancellano.) 11 – ACQUISIRE I DATI: MODALITà: costruire dei questionari oppure reperire i dati da fonti di dati (attendibili). QUESTIONARI: CARTACEI, on-line (google forms, surverymonkey), vantaggi e svantaggi (avere contatto diretto può comportare vantaggi oppure svantaggi), rappresentività del campione (il nr delle persone presentano l’intera popolazione?). Online può costare meno e può essere distribuito a scala e raggiungere un nr alto di soggetti. FONTI: attendibili con carattere istituzionali: eurostat, istat, istituti statistici territoriali ecc. dati amministrativi (avvengono dalla amministrazione, dati di tipo censuario, rappresentano una fotografia del fenomeno, censimenti (indagine da intera popolazione) e indagini campionarie (dati da un sottoinsieme ristretto di popolazione e se può diventare rappresentativa dell’intera popolazione (tipi di fonti). DESCRIZIONE GRAFICA DEI DATI: 5 lezioni 1 – rappresentazione grafica dei dati: descrive la rappresentazione dei dati in forma immediata, immediatamente leggibile. È una forma rilevante della condivisione degli esiti di un’analisi della statistica. È importante quando raccogliamo dei dati dai data base si chiamano RAW FORM: grezzi, non ci dicono nulla dal punto di vista della descrizione del fenomeno. Abbiamo tutti i dati ma non ci dà delle info, es: se abbiamo tutte le altezze misurate non ci dive qual è l’altezza media, se le ragazze sono più alte o più base, ci sono semplicemente dei dati. Si possono rappresentare sotto forma di un grafico oppure una tabella. Partiamo dai dati grezzi e li rappresentiamo nei grafici oppure tabelle. I tipi di tabella o grafico dipendono fortemente dalla variabile/i che noi stiamo studiando. Se ci sono variabili categoriali (qualitative)abbiamo tante tecniche per descriverli in modo grafico tra cui le tabelle: 1- costruire delle distribuzioni delle frequenze, 2- costruire cross table (tabelle incociate, che permettono di rappresentare due variabili congiuntamente), poi ci sono i grafici: 1- bar chart (grafico a barre) 2- pie chart (grafico a torta)3- pareto diagram Nelle variabili quantitative: ci sono: 1- la distribuzione delle frequenze, 2- line chart i dati sono rappresentati dalle linee spezzati che congiungono punti che individuano dei valori delle funzioni delle variabili 3- istogrammi e ogive: quello che viene chiamato bar chart e istogrammi sembrano uguali in quanto i dati vengono rappresentati in barre con la differenza della variabile di che tipo è. Se è qualitativo si chiama bar chart invece quantitativo si chiama istogramma. 4 – poi c’è grafico visuale a foglie (stem- and-leaf display) 5- scartter plot ci consente di rappresentare i dati congiuntamente di due variabili.
Tabella di distribuzione delle frequenze: variabili qualitative. (App sul q) Cross tables= tabelle a doppia entrata. Rappresentazione congiunta di due variabili categoriali oppure ordinali. App sul q Time series plot: LINE CHART: variabile quantitative, fenomeni che dipendono dal tempo, ben rappresentati sul piano cartesiano con diagrammi di linea ecc. il tempo si chiama sull’asse orizzontale X, il valore invece si rappresenta sull’asse verticale delle Y. Serie temporanei sono importanti perché vediamo come variano i dati in base ai tempi. MEDIA MOBILE: ci consente di smussare l’andamento dei fenomeni fortemente variabili. Si parla di media mobile in N periodi (vari periodi). È sempre riferito al giorno ma è mediato rispetto agli altri giorni. 5 – DATI NUMERICI, quantitativi: si possono rappresentare attraverso la distribuzione delle frequenze e la distribuzione cumulativa attraverso istogramma e Ogive. E in più Stem and Leaf display. Quando abbiamo una distribuzione di frequenza nella variabile quantitativa la distribuzione è un elenco o una tabella raggruppata per classi cosa che non succede nelle variabili qualitativi. Li trasformiamo in categorie, range per rappresentarli poi in grafico o tabelle e andiamo a verificare per ciascuna categoria o intervallo quante volte i valori della nostra variabile cadono in ciascuna categoria o intervallo e questa è la sequenza logica delle tabelle. La costruzione della distribuzione della frequenza ci permette di leggere e visionare i dati in modo più semplice. Come li possiamo costruire i vari intervalli? Ogni gruppo abbia la stessa ampiezza (supponiamo) andiamo a creare l’ampiezza dell’intervallo come il rapporto tra il nr più alto e quello più basso e diviso il nr degli intervalli che noi desideriamo. (app sul q) utilizziamo almeno 5 ma non più di 20. Non si devono mai sovrapporre gli intervalli perché sennò non sappiamo distribuire i valori. Arrotondare le dimensioni degli intervalli in modo che siano leggibili e che mantengano i punti di inizio e della fine. (app sul q). li raggruppiamo in gruppi di appartenenza e poi li rappresentiamo sull’istogramma. Nella quale rappresentiamo sull’asse x gli estremi dei singoli intervalli e sulle Y la frequenza relativa oppure la percentuale. (App sul q). La differenza tra bar chart e istogramma è le quest’ultimi devono essere di continue attaccati uno con l’altro perché presentato dei valori continui con il minimo e il massimo. Non ci devono essere dei buchi. Per farlo su exel bisogna andare su DATI, selezionare DATA analysis a destra, e da lì si sceglie il tipo di grafico che si vuole fare tra cui c’è anche l’istogramma. Gli intervalli non devono avere una distribuzione ne troppo estesa ne troppo raggruppata. Bisogna avere una rappresentazione che descriva bene una distribuzione visivamente chiara e corretta. Si può presentare anche la frequenza cumulata e la percentuale cumulata. Frequenza cumulata come anche la percentuale si ottiene sommando passo a passo tutti i dati. Se ho 3,6,5 ecc la frequenza cumulata viene espressa 3,9(3+6), 14(3+6+5). Tabella completa con anche frequenza e percentuale cumulata. OGIVE: rappresenta la frequenza cumulata (app sul q) STEM-AND-LEAF DIAGRAM: metà via tra tabella e grafico c’è questo grafico a foglia. Viene utilizzato per serie di cui i dati possono essere ordinati e si distinguono i rami (i diget principali: decine, centinaia ecc.) e le foglie (valori numerici secondarie). APP SUL Q.