









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Questa seconda lezione parla del tipo di variabile qualitativa e quantitativa, degli errori dei dati statistici.
Tipologia: Sbobinature
1 / 15
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










La volta scorsa avevamo iniziato a fare le scale di misura delle variabili vi avevo detto che è una classificazione, io odio le classificazioni, però diventa importante perché poi durante il corso a seconda del tipo di variabile che può essere qualitativa o quantitativa scegliamo il test statistico e l'analisi statistica corretta. E allora dicevamo, le variabili, quindi le scale di misura, possono essere o di tipo qualitativo, sto ripetendo, se esprime una qualità, quindi non c'è uno strumento vero e proprio di misura ci sono delle scale e a loro volta, se ricordate, potevano essere nominali oppure ordinali. Le nominali qual erano? Erano scale qualitative in cui non posso fare una gradazione. Avevo portato l'esempio maschio o femmina. Possiamo essere noi due, possiamo essere uguali o diversi? Siamo diversi, ma io non sono maggiore o minore di lei. Questi esempi, altri esempi oltre al sesso sono fumatore, non fumatore, malato e sano e sono dicotomici le modalità con cui si manifesta una variabile sono solo due , ma ci sono anche quelli politomici, cioè una variabile si manifesta con più di due modalità esempio gruppo sanguino A B AB 0, non è che quello zero è più frequente, non è che lo posso mettere prima dell'altro, quindi non esprimono un ordine. Quello che mi può dire una scala di tipo nominale è se è uguale o diverso. Successivamente abbiamo parlato delle scale sempre qualitative ma di tipo ordinali. Quindi non solo io posso dire se sono uguali o diverse, ma posso dire se una è maggiore dell'altra. Stadiazione di una neoplasia. Stadio 1, stadio 2, stadio 3, stadio 4. Lo stadio 4 è più grave dello stadio 2, del 3, dell'uno. Ma non posso dire che il 4 è quattro volte più grave dell'uno perché non posso fare la differenza. Quindi attenzione, la differenza tra uno e l'altro non la posso fare. Cosa avevamo fatto come esempio? Come esempio avevamo fatto il symptom score 0 1 2 3 4 un qualsiasi sintomo. Avevamo uno e poi li avevamo codificati 1 2 3 4 e non vuol dire che sono quantitative perché c'è un numero perché debbono esprimere intrinsecamente una qualità e come esempio avevamo portato l'Apgar, ve lo ricordate? Quello dei bambini che non è un solo sintomo, è carino quello, ma lo fanno sempre in modo da valutare contemporaneamente cinque sintomi, perché significa definire se il bambino sta bene, sta poco bene. I quantitativi , abbiamo detto sono i dati, le variabili che esprimono una quantità, quindi hanno uno strumento di misura, per esempio la temperatura perché ha il termometro, il calendario perché ha gli anni, la pressione arteriosa, la glicemia che voi avete la determinazione in un laboratorio perché ha uno strumento di misura. Allora le quantitative si dividono in intervallo e a rapporto, le misure queste quantitative contengono tutte le caratteristiche di quelle di prima cioè ordinali e cosa posso dire in più? Maggiore o minore? Uguale o di tipo diverso, maggiore o minore, posso fare la differenza. Posso fare la differenza tra 36° e 37°. Quanti gradi ci sono? Non è precisa. Posso fare la differenza, ma non posso fare il rapporto. Infatti gli altri si chiameranno razionali o a rapporto. Quindi c'è una scala in più che mi dà più informazione ancora. Scale ad intervalli o intervallare , come faccio a distinguere? La temperatura è ad intervallo, la glicemia è al rapporto o l'altezza è al rapporto, il peso è al rapporto e perché la temperatura non è al rapporto? Cioè, non posso fare la il rapporto fra due misure. Pensiamo alla temperatura. Noi italiani come misuriamo la temperatura? In gradi Celsius. Gli inglesi come la misurano? In gradi Fahrenheit. Lo zero della nostra scala a che cosa corrisponde? Al passaggio dallo stato solido dell'acqua allo stato liquido. Non è questo lo zero? E invece nei gradi Fahrenheit zero quant'è? È sotto zero. Sapete quant'è lo zero del Fahrenheit? È 32. Quindi le due scale hanno lo stesso zero? Hanno uno zero relativo, non hanno uno zero assoluto, le scale che non hanno uno zero uguale nelle varie misure sono soltanto ad intervallo e ora capiremo poi il perché. Mentre se io prendo l'altezza, altezza in pollici zero quant'è? Zero, altezza in centimetri quant'è lo zero? Zero. Allora lì posso fare il rapporto. Allora la scala ad intervalli si possono disporre in ordine di grandezza, quindi già sono ordinate, ma posso misurare la distanza fra due osservazioni. Tra 36 e 37 c'è un grado, tra 36 e 38 ci sono due. La differenza la possiamo fare. Il rapporto abbiamo detto che non lo facciamo, è indipendente dall'unità di misura e dalla posizione del valore zero della scala che sono definite in modo arbitrario e l'esempio è la temperatura in gradi fahrenheit o in gradi
celsius. Allora, sapete che cosa succede? Che se io prendo due misure, e li misuro in gradi centigradi e faccio la differenza al numeratore, prendo altre due misure in gradi centigradi e faccio la differenza al denominatore, le due differenze o li faccio in scale Fahrenheit o in scale da Celsius, è la stessa cosa. Però se io faccio il rapporto fra le due misure in gradi Fahrenheit, le due misure in gradi Celsius, appena faccio la divisione non funziona più. E sapete perché non funziona? Perché guardate come si fa la trasformazione. Da Celsius a Fahrenheit °𝐹 = (°𝐶 × 9 5 ) + 32 cioè per fare la trasformazione c'è quella divisione e quindi è valida la differenza ma non è valido il rapporto. E questo penso che tutto sommato a noi basta. L'altro esempio sapete qual era? È quello del calendario. Noi in che anno siamo? Non degli anni. Perché gli anni sono al rapporto, l'età. Parlo del calendario. Perché siamo nel 2025? Perché sono passati 2025 anni dalla nascita di Gesù. E i maomettani? È diverso. E i cinesi? I cinesi ancora c'hanno lo stesso zero, no? Sono ad intervallo. Quindi gli intervalli li posso confrontare, il rapporto non li posso fare più, confrontare fra due scale diverse. Le scale razionali o di rapporto mi danno la massima informazione. Posso dire se sono uguali o diversi, posso dire chi è maggiore, minore, posso dire la differenza, posso fare tutte queste cose più il rapporto. Esiste un punto zero come nell’origine, pressione del sangue, glicemia, statura, peso, ma questi lo zero è uguale per tutti, cioè età zero oppure come avevamo detto il peso, l'altezza o la misura in pollici o la misura in centimetri, lo zero è sempre quello, 0 è zero, l'altezza 0 è zero, il peso zero è zero, sia per la loro scala sia per la nostra scala. Numeri discreti e numeri continui. Che differenza c'è? Non lo sa mai nessuno perché al liceo, anche se non lo fate mai. Ma numeri interi e numeri decimali non li fate? È perché loro vi parlano di numeri interi e decimali. Invece noi in statistica poi parliamo di distribuzione di probabilità discrete e distribuzione di probabilità continue. E quindi dobbiamo capire bene sono quasi sinonimi, cioè nel senso discreti sono numeri interi, ok? Quindi per esempio morti uno, due morti, tre morti, mezzo morto c’è? No. E continue? Sono numeri che si esprimono anche con i decimali. Tu sei alto 1,70, lui è 4,5, dipende dal sistema di misure. Quindi ricordiamo anzi che in statistica ci interesseranno di più qualitative e quantitative senza dubbio. Nelle qualitative ci interesseranno i nominali e gli ordinali. Qui rapporto o intervallo ce ne frega poco. Quello che ci interessa sono questi delle discrete e continue. Scale di misura pure le chiedo. Le scale di misura le chiedo solo se vedo che c'è confusione. Conoscete l'indice di massa corporea? E ora, ragazzi, ora c'è Natale, quindi potremmo fare anche un esercizio di statistica, misurare il proprio indice di massa corporea prima delle feste e poi dopo le feste. Questi dati poi li mettiamo tutti insieme in modo che facciamo un campione rappresentativo, vi ricordate? Anzi, facciamo la popolazione degli studenti del corso di laurea di tecnici di laboratorio e vediamo se la differenza tra prima e dopo c'è quell'incremento, perché potremmo vedere per esempio un incremento dell'indice di massa corporea medio, ormai sapete cos'è la media, da 23 a 25, però noi studieremo, ma questo incremento è stato dovuto al caso oppure è dovuto proprio all'alimentazione? E poi lo vedremo, in verità dovremmo fare due gruppi, cioè per fare il confronto. Comunque ci sono dei test statistici che ci permetteranno di dire se quell'incremento dell'indice di massa corporea è stato dovuto realmente ai panettoni. Stiamo parlando di scale di misura, giusto? Però guardate, se io volessi calcolare l'indice di massa corporeo non lo chiederò mai è il peso diviso l’altezza in centimetri al quadrato. Quindi io che sono 60 kg e
Quindi il passo successivo abbiamo stabilito il disegno sperimentale, abbiamo stabilito le variabili, le modalità con cui li dobbiamo rilevare e questo può essere utile anche per la vostra tesi quando dovete poi rilevare gli altri. Allora, come raccogliamo l'informazione? Può essere un' osservazione , può essere per esempio visiva vado a vedere nella sclera che è gialla, vuol dire che ha la bilirubina, vado a vedere se è pallido, se è roseo. Quindi già l’osservazione è un modo, noi rileviamo tutto, sarà qualitativa. Se è giallo ha l’ittero c'ha il fegato che non funziona, può essere clinica , faccio la palpazione del fegato per vedere se è aumentato. Quindi vedete strumentale , misuro la pressione arteriosa, uno strumento l'elettrocardiogramma, l'eco può essere anche biochimica che farete voi in laboratorio, cioè la glicemia, l'interleuchina, faccio i dosaggi, quindi raccogliere le informazioni ha voglia che ne abbiamo. Poi, oltre a queste, ora magari in alcune entreremo più a fondo, ci può essere anche l'intervista, cioè nel senso che io chiedo come ti chiami, quanti anni hai, il sesso, la professione, se c'è familiarità per l'allergia, se c'è familiarità quale malattia, appunto, capita sempre, no? Allora, interviste e questionari , ora vediamo un pò la differenza. Generalmente l’intervista è quella in cui si chiede che lavoro fai, se hai avuto malattie, informazioni. Il questionario invece è qualcosa di strutturato. C'è il questionario sulla depressione, sull'ansia, sono degli strumenti veri e propri. Non avendo uno strumento fisico di misura dell'ansia, della depressione, cosa utilizziamo? Ci sono dei questionari a livello internazionale, sono validati che misurano, danno un valore da uno a 100. Quindi se per esempio quello ha 80- 90 non è depresso, sotto 70 comincia a essere depresso, sotto 50 è depresso grave. Quindi i psicologi hanno questi questionari che permettono di valutare e quindi uno strumento poi quasi quasi abbiamo uno strumento che ci dà un valore di tipo quantitativo addirittura. E poi ci sono l'uso di fonti di documentazione secondaria e cioè per esempio l'Istat quando io voglio sapere, voglio fare uno studio su Catania, devo fare un campionamento maschi e femmine. C'è bisogno che vado all'anagrafe, andare a vedere quanti maschi e quante femmine o quante famiglie ci sono? Vado ai dati dell'Istat sono pubblicati. Allora, vedete la tipologia delle fonti, ma questa è diciamo che è uguale. Ora li vediamo a uno a uno. Vedete, vi ho detto il questionario strutturato, l'intervista generalmente è libera, poi ci sono anche delle scale che ora vedremo, che sono delle scale particolari. Ora li vediamo. Praticamente noi cerchiamo di creare o di scegliere uno strumento per raccogliere i dati. Questi strumenti, vedete, quelli più importanti sono quello che noi chiamiamo CRF. Vi dicevo, per esempio, c'era il comitato etico, vi ricordate? Addirittura chi deve fare la sperimentazione è obbligato a presentare questa CRF. Che cos'è? È un elenco su Excel, di tutte le variabili che io voglio rilevare, età, sesso, stato sociale, pressione arteriosa e si chiama proprio CRF perché ci sono tutte le nostre variabili e poi questionario e scale, ora lo vediamo; la CRF (Case Report Form) è una scheda di raccolta dati che viene costruita per ogni singolo studio in cui ogni soggetto viene inserito e in cui vengono trascritti tutti i risultati, tutti questionario, sesso, età, se ha fatto la glicemia a un mese, a due mesi, a tre mesi. Quindi diciamo che è la scheda di raccolta dati che raccoglie tutti i dati del nostro soggetto in studio. Viene costruita assieme ai
professionisti che la devono compilare. Le scale, allora questo è un piccolo trucco, prima di fare l'esame non devi fare una valutazione del docente. Nella valutazione del docente non c'è scritto più che no che sì, più no che no che sì, più sì che no più sì, non è così. Quelle si chiamano scale likert , cioè sono delle scale, sono delle variabili qualitative ordinali. A proposito, visto che ne abbiamo parlato, in cui, guardate, generalmente si produce un grado di accordo, dice sei d'accordo, non sei d'accordo, sei lievemente d'accordo? È una scala generalmente da 1 a 4, da 1 a 5, oppure per esempio una valutazione forte, leggero, debole oppure ancora una frequenza, sì, mi capita spesso, non mi capita mai, si chiamano scale likert. Queste invece sono i questionari, quindi le scale sono generalmente queste sono da una a 5, anche a 10 certe volte. I questionari, per esempio, qua questi ve l'avevo detto, depressione e ansia questi sono validati a livello internazionale. Quindi se io uso una scala Hamilton per la depressione e tu americano hai usato la stessa scala per la stessa patologia, li possiamo confrontare perché abbiamo usato lo stesso questionario validato a livello internazionale. Questo questionario SF-36 è la valutazione della qualità della vita. Questo lo usano, si usa sempre in ogni in ogni rapporto anche farmacologico, cioè se io vado a fare uno studio su un farmaco antitumorale a me interessa che mi prolunga la vita, giusto? E quindi mi aumenti il tempo della mortalità, cioè che invece di avvenire, per esempio, a un anno dal tumore me la prolunga a un anno e mezzo. Non è granché, ma siamo andati avanti così, a mezzo anno, a tre mesi per volta, ma mi interessa anche che la qualità di vita non se ne vada a scendere, perché voi sapete che le terapie antitumorali si vanno a rallentare l'evoluzione del tumore, ma spesso e volentieri creano degli effetti collaterali devastanti. Quindi a me interessa che aumenta il tempo della mortalità, ma che nello stesso tempo avviene dopo, ma nello stesso tempo non vada a far diventare una qualità di vita pessima. Per quanto riguarda invece andare a rilevare i dati del paziente, generalmente vedete che le domande, queste non sono questionari, noi prepariamo delle schede di rilevazione. Quante volte al liceo avete risposto a questionari, a schede di rilevazione. Allora, sono sempre da scartare le domande aperte perché da un punto di vista statistico, dove sei nato? E poi c'è il mio paesino Bronte, Adrano, Cesarò, Randazzo, Pachino, Palagonia. E come faccio ad elaborarli? Se io poi c'ho 100 studenti, allora un momento conviene farle chiuse, cioè nel senso provincia di Catania oppure se sto lavorando nella provincia di Catania ci posso mettere il comune. Comunque aperte è brutto, non si possono elaborare assolutamente. Poi ancora ancora le domande semiaperte l'importante se riusciamo a fare delle domande chiuse è meglio. L'importante qual è? Che ci siano le risposte che siano esaustive della domanda perché se io nella domanda poi me ne manca qualcuna, chi ci scrivo? L'unica cosa è, guardate quello di scrivere altro. Quindi se tutte le modalità io non le ho scritte, il carattere, la variabile non ha modalità con cui si manifesta? Sì. E se io scrivo tutte le modalità è a posto. Se io ne scrivo alcune debbo usare altro. Ok? Allora, come costruiamo un set? Questo vi può essere utile perché e ora vi dico anche il modo di farlo su Excel, anche se non lo sapete usare Excel, non ha importanza perché qui è raccogliere dei dati e noi abbiamo un grosso vantaggio che se scriviamo i dati in Excel in un certo modo tutti i programmi di statistica possono leggere Excel e quindi lavorare. Ora vedrete che è molto semplice fare una raccolta, potrà capitare negli ambulatori dove andate che fanno raccolte, quindi può essere qualcosa anche di utile per costruire un set di dati. Quindi noi stiamo rilevando, vogliamo metterli o in un quaderno o in un foglio elettronico, non ha importanza, quindi o un foglio cartaceo o elettronico non cambia. Vabbè, quindi è consigliabile una volta che lo strutturiamo, farlo su un computer oppure fare il cartaceo e fare contemporaneamente il computer. Come si costruisce un set di dati:
vedere se queste malattie, che sono malattie endocrine peggioravano lavorando in turno, per esempio, per chi faceva la notte, per chi era più stressato, aveva questo interesse, poi l'abbiamo pubblicato su una rivista che si chiama Medicina del lavoro. Bene, allora lui mi chiese mi aiuti a fare l'analisi statistica? Dico aspetta prima che tu mi raccogli i dati in un modo scorretto, aspetta che ti preparo un foglio elettronico per la raccolta. Naturalmente che cosa gli ho preparato? Solo il primo rigo e tutti questi non c'erano questi valori e gli ho detto dico, senti, tu prendi il primo paziente che arriva numero uno, nel questionario ci scrive numero uno e incomincia età 36, vedete classe di età perché si lavora da 18 a 65 anni. Allora, no, l'abbiamo divisi in tre classi, quelle più giovani. Vi ricordate il perché? Perché così poi io posso dire, ma quelli più anziani, più anziani, quelli che hanno un'attività lavorativa tre hanno più disendocrinopatie di quelli due più giovane, di uno più giovane. Vedi come le scale di misura stanno funzionando? Quindi classe età è un range di età? È un range che abbiamo stabilito noi dalla letteratura, cioè siamo andati a vedere altri lavori simili e nel caso di lavoratori si fa sempre a livello internazionale si fanno tre range di età. Ora non mi ricordo esattamente uno sarà forse da 18 a 30, poi l'altro sarà da 30 a 50, però ti direi una fesseria e l'altro da 50 a
volta la glicemia la facevamo manualmente. Allora, e poi però ve ne parlerò quando faremo questo parametro statistico, ma se io ti dico di ripetere 10 volte l'esame sullo stesso campione, se tu sei brava, ma questo te lo posso dire, cosa succede? Che tutte le tue misure sono tutte una vicina all'altra, no? Se lo faccio io che sono scarso, perché non sono abituato. E cosa succede? Che una volta la glicemia mi viene 80, una volta mi viene 120, una volta mi viene 60. Io sono scarso a pipettare. Allora, se io ripeto la stessa misura sullo stesso oggetto, è chiaro che più è la dispersione , vi ricordate e riguardate le cose, deviazione standard, maggiore, più scarso sono. Quindi l'osservatore deve essere anche addestrato, quindi corso di studi, anche se oggi, ripeto, lo vedrete non è che si usano molto le pipette, non si fa niente a mano ci sono gli strumenti, però ci sono delle cose, altrimenti non facevate il corso di laurea. Errori campionari ora vediamo se c'è qualche esempio, e sono quelli che faccio nel campionamento, ma lì devo stare attento, non posso prendere solo quelli gravi o solo quelli lievi. Come si elimina? Con la randomizzazione, con la scelta a caso, quindi non dimenticate questo. Errori grossolani. Sapete qual è l'errore grossolano? che oggi non si fa più, lo può fare l'infermiere o il tecnico lo faceva, ma anche l'infermiere oggi non lo fa più nemmeno o il tecnico di laboratorio, per esempio, entra in una stanza e ci sono due malati ha due provette, il sangue dell'uno di Caio lo mette a Sempronio e il sangue di Sempronio lo mette a Caio e ve lo manda poi in laboratorio. Ma quello non è un errore grossolano? Sapete come si evita con una buona organizzazione le cose a barre, addirittura ricordo di essere stato a Verona in un ospedale l’infermiera passava col computer portatile nel carrello e il lettore di codice a barre. Il paziente aveva il bracciale col codice a barre, sparava sul codice a barra, sparava anche per la terapia e quindi lì l'errore non ci poteva essere nel laboratorio qual era l'altro errore grossolano? Che ti arrivava la provetta col sangue, lo centrifugavi, formavi il siero o il plasma. Sapete la differenza del siero il plasma? Il siero è quando tu fai coagulare il sangue senza mettere anticoagulante. Quindi si forma il grumo, cioè il sangue coagula e il liquido generalmente giallo che resta è siero. Però tutti i fattori della coagulazione se ne sono andati tutti nel sangue. Invece il plasma cos'è? Tu metti l'anticoagulante, quindi non si formano il fenomeno della coagulazione non avviene. Lo centrifughi, ma tutti i fattori della coagulazione sono ancora del plasma. Quindi se tu devi fare un dosaggio di glicemia utilizzi il siero, ma se devi fare il dosaggio del PPT, poi vedrete che cos'è, devi usare il plasma che ancora ci sono e quindi centrifughi, i globuli rossi e i globuli bianchi se ne vanno giù, non si forma nessun coagulo, la glicemia si fa sul siero, quindi il siero centrifughi, poi che cosa fai? L'infermiera te l'aveva fatto giusto, ma tu sbagliavi. Ora la macchina non lo fa più perché c'è il codice a barre, prendevi il siero di Sempronio che doveva andare nella provetta numero uno e la mettevi nella provetta numero due, cioè sbagliavi provetta. Oggi non succede perché ci sono il codice a barre, la macchina. Va bene? Quindi una buona organizzazione del laboratorio, dell'ambulatorio, del reparto evita gli errori grossolani. A questo punto ci mancano soltanto gli errori casuali o accidentali. Vedete il nome, dovuti al caso e lì è dovuto al caso, non ci possiamo fare niente? Ora vediamo come li possiamo correggere e gli errori sistematici o costanti , quelli che ci sono sempre. Vediamo la differenza e vedremo ora una cosa che io nelle mie lezioni inserisco sempre per farvi capire una curva particolare. Però prima vi volevo fare vedere questo velocemente perché noi non facciamo metodologia della ricerca come vi ricordate che io dal campione debbo risalire alla popolazione? Ora qui vedete che ci sono due popolazioni. Qual è l'esempio che vi voglio fare? È questo. E se io voglio studiare tutti i malati di brucellosi e la febbre di malta quella che si prende bevendo il latte non bollito e c'è la brucella o la ricotta. La ricotta presa dal pastore ha la brucella anche alcune volte e vi dà questa malattia che è bruttina perché ci vogliono poi antibiotici. Allora voglio studiare tutti i malati affetti da brucellosi, una terapia che è quella verde, tutti quelli siciliani. Però un momento, siccome io nel mio istituto sono in un istituto, in una clinica universitaria, chi sono i malati di brucellosi che vengono nel rosso, cioè nel mio ambulatorio, soltanto quelli gravi che non sono stati curati o dal medico curante o dall'ospedale da noi venivano quelli più gravi che non si erano curati bene, non erano stati curati e avevano problemi seri. Allora io dove campiono? Campiono soltanto sulla popolazione di studio. Vi ricordate che vi avevo detto che noi
fanno capire poi alla fine che cosa vuol dire. Allora, qui io porto sempre l'esempio che debbo regalare per un battesimo una medaglietta d'oro e oggi l'oro credo che sia a €100 al grammo quasi, 10 g sono € 1000 allora, cosa faccio? Siccome c'ho un amico orefice, vado da lui, no? Vado e gli dico, "Senti, devo andare a una festa di battesimo, voglio regalare, dice quanto?" 10 g. Lui cosa fa? Dice, "Guarda, ce l'ho una di 10 g". E lui stava preparando il pacchettino già pronto. Dico, "Aspetta, io faccio lo statistico perché 10 g tu me la devi pesare." Ma come non hai fiducia? Tu dico intanto pesamela. E poi lui e vabbè è statistico me la misura e ad esempio invece di 10 g misura 10,5. Ora mi devi pagare il mezzo grammo in più. Io te lo stavo dando per 10 g. Ora tu mi paghi il mezzo grammo in più. Dico io non ti pago niente, tu me la devi pesare almeno 20 - 25 volte. E qua è il trucchetto, perché secondo voi ogni volta che misura che dà sempre la stessa misura? No, non è un problema di bilancia, è un problema che se c'è un piccolo tremore la bilancia pesa di più. Se il tremore è al contrario pesa meno. Se c'è una porta aperta arriva un po' di vento. Quindi ogni volta sono le misurazioni che noi facciamo, tecnici di laboratorio futuri. Ma voi pensate che ripetendo una misura tante volte avete sempre la stessa misura? Assolutamente. Vediamo cosa è successo. Gliela faccio misurare tante volte. Vabbè, qua esagerato, e l'ha dovuto fare e poi allora a questo punto ancora e io gli dico "Ma vediamo un'altra volta, poi forse basta". No, no, dico basta, aspetta, aspetta, dammi le misure. Facciamo una media, con la media cosa è successo? Lo media è 10 g. Ma attenzione, se voi guardate attentamente, notate qualcosa in quelle barrette? Cosa notate? Quelle vicino alla media sono più numerose, è raro che mi viene un valore di 9 g e uno di 11 g. È rarissimo. E più sono vicini alla media più è maggiore la frequenza, non solo. Metà sono a sinistra e metà sono a destra, ma questo ve lo dico io perché è una e poi è una caratteristica della media. Vedete dove voglio arrivare poi? Farvi capire la media. Quindi metà a sinistra, metà a destra. E se per esempio qui tra 9,5 e 9,8 ci sono state quattro pesate, tra 10,5 e 10,8 ci saranno le stesse pesate. Per questo quella la media è il baricentro della distribuzione perché si è andata a mettere nel mezzo perché ce ne sono uguali a destra e uguali a sinistra. Ma se per caso ce n'è qualcuna in più a destra e qualcuna in meno a sinistra, la media si sposta perché io gli ho detto di farlo già 25 volte è poco, no? Perché bisogna fare un numero e quando studiate matematica non c'è infinito perché in verità metà da un lato, metà dall'altro è perfetto e n infinito, cosa che non faremo le pesate all’infinito. E questi a che cosa erano dovuti? Errori di stima nella lettura, condizioni ambientali, la temperatura, disturbi meccanici, sono casuali. È lo stesso che io che ho e rispondo a te, un arco olimpionico, quindi perfetto, tarato, però io sono scarso, quindi quando tiro sapete che non si respira, bisogna non tremare. Guardate che cosa succede col tiro all'arco. Uno a sinistra, uno a destra, uno in alto, uno più basso. Ma il mirino e l'arco sono olimpionici, cioè sono perfetti. Ma se io sono scarso, se voi compensate alto con basso, sinistro con destro, non faccio centro. Quelli sono tutti errori casuali. E più scarso sono, più questa rosa verrà più ampia. Più bravo sono, più stretti verranno. Ci siamo con gli errori casuali? Quindi abbiamo detto che da un punto di vista statistico con la media provvediamo a correggerli. Chi conosce la curva di Gauss e chi ha fatto statistica la dovrebbe conoscere. Guardate, se io invece di quella specie di misure non posso fare una cosa, metto questa, gliel'ho messa, metto nell'asse delle ascisse le pesate, no? Cioè l'asse dei pesi da nove e nell'asse delle ordinate che non c'è. Ogni volta a lezione dico che gliela debbo fare la frequenza con cui si presentano. Quindi significa, per esempio, se qui voi avete una scala per esempio da 1 a 10, va bene? O da
1 a 100 se volete, dove c'è la media, questa non è la frequenza maggiore, quella che si è presentata più volte, tanto è vero che qua erano più fitti. 9 è una volta sola, 11 è una volta sola il 9, sarà un paio di volte. Ma anche il 10,9 sarà un paio di volte. Vi ricordate che vi ho detto misure distanti dalla media hanno la stessa frequenza. Ma se misure hanno la stessa frequenza, non viene fuori una campana simmetrica? Avete capito perché viene simmetrica? No, perché al 9,5 ho avuto sei misure, a 10,5 ho avuto sei misure. La simmetria significa che se voi stampate quella curva in un foglio e la piegate, coincidono perfettamente. Bene. Questa storia non è una storia che mi sono inventato io, ma è stato uno statistico matematico che si chiamava Gauss, il quale cosa fece? Trovò una funzione, cioè un calcolo, una formula che va a formare questa curva. Come ci arrivò? Facendo delle misure ripetute sullo stesso oggetto. Praticamente quello che ho fatto io, se noi prendiamo la distanza di questo tavolo, e ripetiamo la misura infinite volte e andiamo a posizionare la frequenza delle misure, quanto è lungo? 2 m, saranno molto frequenti quelli vicini alla media. La funzione lui l'ha trovata f(x) e noi la vedremo ve la farò vedere, ma non ve la darò da ricordare per gli esami perché è complessa, magari altri sì, ma questa di Gauss no. Quindi lui ripetendo la misura ha trovato che portandolo su un asse delle ordinate spuntò questa curva di Gauss. Quindi già noi gli stiamo portando a casa un risultato. La curva di Gauss è una curva simmetrica , ma poi vedremo che ci sono anche altre caratteristiche ancora subito dopo altri matematici fisici dice "Ma sta curva di Gauss noi la troviamo anche in natura". Cioè non era un fenomeno soltanto quando ripetiamo la misura sullo stesso soggetto, ma anche su soggetti diversi. Per esempio l'altezza. Se io prendo l'altezza dei siciliani, guardate qua sotto cosa andrò a scrivere 1,40, 2, media 170 è distribuita secondo una distribuzione gaussiana e gli diedero il nome di curva normale. Perché questo nome normale? Perché tutti i caratteri biochimici biologici, la maggior parte non tutti, sono distribuiti normalmente. Cosa significa distribuiti normalmente? Secondo una gaussiana è raro avere il 1,40, come è raro avere il 2,20 m. È molto frequente avere 1,70 m e uno che è 1,60 m ha la stessa probabilità di presentarsi di quello di 1,80 m. Curva gaussiana o curva normale , ragazzi, è fondamentale in statistica, l'approfondiremo, però l'importante è che avete capito che una curva viene chiamata anche curva degli errori perché sono gli errori di misura. Quindi se agli esami poi vi chiederò, per ora la risposta non è completa, quando una distribuzione di dati è gaussiana o normale, l'unica risposta che potete dare in questo momento è che è simmetrica , perché se non è simmetrica ma se c'è una distribuzione così, cioè che i numeri bassi sono molto frequenti e quelli alti sono meno frequenti o viceversa, non è più gaussiana, non è più normale. Il picco della curva corrisponde perfettamente alla media perché i dati sono distribuiti normalmente e quindi tanto a sinistra quanto a destra. Vedete a 160 ci sono 60 individui, ma anche a 180 ce ne sono 60, quindi non è solo metà e metà, a un determinata distanza, o da un lato o dall'altro il valore della frequenza è uguale, e questa è una funzione f(x), poi lo vedremo, chi determina poi sarà la media e la deviazione standard che determina la forma della curva. Possiamo passare ai sistematici I sistematici qual erano? Gli altri errori? Sistematico che cosa vuol dire? Dopo una settimana torno dal mio orefice, quello mi vede arrivare porca miseria di nuovo Filippo, mamma mia. E allora fa un trucchetto. Ora vediamo qual è. Dico, "Senti, 10 g. Va bene, eh?" Dice, "No, no, non ti preoccupare, la vuoi pesata 25 volte."
quello che è peggiore di tutti è questo dove c'ho tutti e due gli errori. Quindi vado da quello proprio con i due errori, nessun errore o l'uno o l'altro. Va bene? E questo ci siamo. Allora, noi abbiamo detto che per eliminare questo dobbiamo tarare gli strumenti. Qui dovremmo fare la determinazione tante volte, ma non la facciamo. Ci mettiamo a fare determinazioni che non finiscono. Questo è un esempio, se vedete questo è un errore casuale è la misura della pressione arteriosa e vabbè, metto il braccio il che si gonfia e una volta mi dà uno, una volta mi dà l'altro e infatti nelle pressioni arteriose si fa la media. Misuro tre volte e faccio la media perché so che ci sono gli errori casuali. Questa invece è una pressione arteriosa che viene misurata intrarteriosa, cioè direttamente nell'arteria, ma siccome è starato mi dà sempre 90, ma lui poverino, dà sempre 90 perché è strumento, ma è starato. Mi dà sempre 80, però non è vero, è 90. Questa è della glicemia è carino pure e questo per voi. Qui per esempio ho una glicemia, la ripeto tante volte come si faceva fare tecnici dice, lo ripeti tante volte, ma se vi dà questa curva che va, lui ha fatto una volta 120, una volta 180, tante volte 150, 130, è chiaro che questo è personale inesperto. Sto ripetendo l'esame, ma capite che una volta gli viene 120 mi può venire 180 che fa la glicemia si fa così. Invece guardate il personale esperto questo, e vedete che la curva è molto stretta, quindi queste curve gaussiane o normali quando o degli errori se sono stretti, impariamo questo, cosa vuol dire? Noi diciamo che sono poco disperse, hanno una deviazione standard molto piccola. Se invece sono larghe hanno una deviazione molto grande. Questo per esempio questo il personale è bravo, ripete sempre la stessa misura, ma c'ha lo strumento starato. Vedete che pressione a sinistra? Vabbè, poi la variabilità dovuta al soggetto misurare la pressione ora e tra un'ora non è detto che è lo stesso un elettrocardiogramma a seconda quando si fa. Allora, dobbiamo iniziare a fare calcoli statistici, no? E se i dati sono qualitativi possiamo fare le medie? No, stiamo entrando nel centro del nostro corso. Allora, per esempio, voglio valutare il numero di morti perché questa è una variabile morto sì, morto no. Allora, potrei dire che io ho avuto nove morti. Numero di decessi no, ma nove che non vuol dire niente. Ma su quanto? 9 su 90, 9 su 18. Avete capito che non basta quella che noi chiamiamo frequenza di morte, conteggio dei morti, ma dobbiamo rapportarlo e per esempio viene chiamata proporzione perché ci sono 9 decessi su 18, 9 su 18 fa 0,5 moltiplico per 100, il 50% sono morte. Cosa volevo produrre che il calcolo più semplice sui dati di tipo qualitativo o sui dati anche quantitativi distribuiti nelle classi, vi ricordate? Sottopeso, normopeso. Allora, in quel caso lo posso fare. Sono quelle che noi chiamiamo frequenze. Frequenze è il numero di volte che una data modalità si manifesta. Di frequenze ne abbiamo tante. (La moda è il valore che si presenta con maggiore frequenza, però per ora lasciala stare.) Frequenze assolute, frequenze relative, frequenze percentuali e frequenze cumulate. Li vediamo a uno a uno con un esempio. Come avete visto il mio corso è sempre con esempi che non mi
numero delle volte con cui una modalità di un carattere si presenta nel nostro insieme di misure , guardate l'esempio, così è più semplice forse se vi scrivete l'esempio capite meglio ho una classe di 45 studenti, mi voglio calcolare la frequenza dei maschi e la frequenza o conteggio è la stessa cosa, li conto, sono 15 maschi e 30 femmine. Ho finito. Questa si chiama frequenza assoluta. La somma delle frequenze assolute mi dà la dimensione del campione 45. Ci siamo? Però abbiamo detto che il nostro cervello, ma anche il nostro il nostro calcolo, ma 45, scusate, sì, lo so che 15 sono su 45, però noi passiamo avanti e
𝒏𝒊 𝑵 è il rapporto tra la frequenza assoluta e il numero totale delle frequenze assolute. Perché li chiamiamo relative? Relative al nostro campione. Quindi, matematicamente, prendiamo il 15, lo dividiamo per 45= 0,33. Prendiamo il 30, lo dividiamo per 45=0, 66 7. Non è una frequenza relativa a tutto il campione? La somma quanto vi deve dare? 100 se non avete sbagliato il calcolo. Ma noi di frequenze relative 0,.. non ci piacciono le virgole, ma se moltiplicate per 100 non vi dà il 33%, non vi dà il 66%. Come la chiamate questa frequenza? Frequenza percentuale 𝒇𝒊 × 𝟏𝟎𝟎. Anche il nostro cervello stesso, vedete? 33,3% erano maschi, 66,7% erano donne. Sapete cosa? Noi
abbiamo capito, i nostri neuroni capiscono bene, la famosa torta, no? Capiscono bene che 66 e 33, ma in quanti pazienti? Quindi abbiamo perso l'informazione iniziale. Questa è migliore. Allora, che cosa facciamo nei lavori o nella tesi? Mettiamo o diciamo che sono su 45 soggetti, 33 erano maschi e 66 erano donne, oppure mettiamo il conteggio assoluto, cioè mettiamo quanti erano? Non me lo ricordo. 15 pari a 33 e 30 pari a 66. Quindi il modo giusto di presentarli è proprio questo. E qui vedete in una tabella che voi poi dovete imparare anche dei lavori a conoscere. Vedete che per quanto riguarda il genere, ma anche per quanto riguarda la terapia antibiotica, nel gruppo dei neonati erano 18 su 52, pari al 34% i maschi e i bambini. I bambini erano 28 pari a 54 gli adulti 11 pari al 26. Per quanto riguarda la terapia antibiotica qui l'avevano fatta 11 pari al 21 avete visto come la nostra statistica descrittiva parte dai dati qualitativi, in questo caso sono nominali, maschio, femmina, terapia sì, terapia no. Ed è la forma più semplice, frequenza assoluta, frequenza relativa, frequenza percentuale. Frequenza cumulata si ottiene sommando alla frequenza della classe le frequenze delle modalità che la precedono. Le frequenze cumulate indicano quante unità statistiche si presentano fino a quella modalità. Ha senso calcolare le frequenze cumulate solamente per le variabili quantitative o qualitative ordinabili. Vediamo di capire. Prendete un salvadanaio. Voi ogni giorno la sera non mettete i soldi. Io non c'ho il salvadanaio. C'ho una ciotola. Prendo una ciotola e ci metto sempre i soldi spicci perché mi secca. A parte che ormai con le carte di credito niente, ormai solo nel panificio forse a malapena e solo il panificio l'accetta. Solo la signora che mi viene a fare le pulizie gli do i contanti, poi non li uso mai. Allora nel porcellino voi ordinate i giorni, devono essere ordinabili i dati in classi, primo giorno, secondo, terzo, quarto giorno. Se al primo giorno mettete €1, quant'è la frequenza assoluta? 1. Quant'è quella accumulata? Quanto ci son dentro? Uno. La frequenza cumulata il primo giorno è uguale alla frequenza assoluta. Il secondo giorno mettete 50ent. Quant'è la frequenza della classe di quel giorno? 50. Quant'è quella cumulata?1,50. Come avete fatto? Avete preso la frequenza dell'altra classe e l'avete sommata a quella precedente. Se il terzo giorno mettete €1, quant'è la frequenza accumulata? €1 + 1, = €2,50. Abbiamo finito. Leggiamo. Si ottiene sommando alla frequenza della classe le frequenze della modalità che la precedono. Facciamo un esempio, li metto in ordine. Il primo giorno c'ho 78. Quant'è la frequenza accumulata? 78. Il secondo giorno 87. Quant'è la frequenza cumulata? 87 + 78 + 68 + 165. Che cos'è? Guardate a che cosa serve. Se per esempio questi sono i voti di statistica e io ho messo 18 21 22 e poi c'è, vedete, è quasi normale la distribuzione, insomma, quella la quella più frequente è C. Allora, io posso cumulare e per esempio voglio sapere ma quanti sono gli studenti in percentuale che hanno avuto fino a 25, perché la cumulata serve a fare i tagli, fino a 25 hanno avuto il 53,3%. Vedete? Ma perché? Altrimenti avrei dovuto fare questa uguale questa più questa, questa