






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione alla statistica, spiegando concetti come variabile, modalità, unità statistica, popolazione e campione. Vengono descritte le modalità di misurare variabili quantitative continue e discrete, il processo di discretizzazione e la rappresentazione grafica dei dati. Inoltre, vengono presentate le misure di centralità come moda, mediana e media aritmetica.
Tipologia: Appunti
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Variabile : domanda, quello che studio, ciò che vado a conoscere Modalità : gamma possibili risposte, uno dei possibili modi con cui darò la risposta Unità statistica : Singola entità su cui vado a misurare la statistica Dato : singola risposta Popolazione/collettivo statistico : insieme completo di tante unità --- l’intero gruppo Campione : una parte del collettivo statistico X: variabile N : numero unità popolazione n : numerosità i : unità statistica --- va da 1 a N (popolazione) oppure da 1 a n (campione) Singolo dato : X1, X2, X3…… Xn Serie di dati : successione delle risposte Tabella di dati : primo modo di aggregare i nostri dati. Rendere più leggibili e comprensibili, prima sintesi e descrizione dei dati Incrocio di dati : analisi dati incrociati Natura delle variabili: 1) di tipo qualitativo: qualità es. parola o quantità es. numeri Scala di misura delle variabili : -tipo nominali: posso affrontare la possibilità (uguale e diverso da zero) es. In un’azienda di 43 lavoratori, voglio studiare quante persone sono al loro primo impiego -tipo ordinale: l’ordine è oggettivo ( uguale, diverso da zero, maggiore, minore) Es. 2 in un’azienda di 43 lavoratori voglio studiare la anzianità -tipo intervallo: uguale; diverso da zero, maggiore, minore, differenza -tipo rapporto: lo zero è assoluto e riconosciuto da tutti (uguale, diverso da zero, maggiore, minore, differenza, divisione) IL RAPPORTO SI PUO’ FARE SOLO QUANDO N E’ PARI A ZERO Da ogni elaborazione risultano: 1. variabili numeriche discrete (+2, 0, -0,5) 2. variabili numeriche continue: si costituiscono fasce (es 3 in una classe di 25 unità, voglio rilevare e analizzare il voto dell’ultima verifica di matematica) Es. 4 al grest estivo, voglio organizzare le squadre di bambini, ma devo chiedere la fascia di età……………………………………. Tabelle frequenza : frequenza 1. assoluta: è un conteggio, dà ordine di grandezza ---- numeri naturali (con segno più) 2. Relativa (percentuale): dice le proporzioni --- numeri decimali o percentuali NOMINALI MAI COMULATE mentre ORDINALI SI’ Dopo aver rilevato i dati in serie, attraverso una successione disordinata dei dati, la ………….
N.B. Raggruppamento modalità in classi : non conviene tenere le modalità elementari, la classe soddisfa l’esigenza di sintesi, non avere fasce troppo ampie, non necessario che l’ampiezza sia uguale, le classi non devono avere modalità sovrapposte, la variabile deve essere ordinale, sennò non avrebbe senso GRAFICO Moda : la modalità a cui corrisponde la massima frequenza (variabile di tipo discreto) e densità (quando si hanno le classi.) E’ il numero che si ripete di più Il totale delle frequenze relative deve sempre corrispondere alle unità : 1 (100%) L’ultimo valore di Fi è sempre : 1 L’ultimo valore delle Ni è sempre N Le cumulate si ottengono : sommando La percentuale di frequenze relative (qualità) e frequenza assoluta (altri modi) Modalità : tutte le risposte che potremmo dare relativamente ad una variabile …………………………. In una serie di dati potrei avere tutti dati uguali tra loro? Sì Differenza costante e variabile? La variabile ha come modalità di espressione valori diversi Quando si ha una tabella di frequenza cosa vuol dire? -N4: Frequenza e numerosità della quarta riga -X
Quando si calcolano le densità della frequenza ?...................... Quando non ha significato calcolare le frequenze cumulate? Nominale Come si trova la densità massima? Ni:Ai oppure Fi:Ai -………………….. COS’E’ UNA SOMMATORIA? Operazione, somma di tutti i numeri presenti --- ∑ -Si indica con simbolo sigma ∑, sotto i=….. (numero della riga da cui parto a sommare) e sopra il numero della riga finale in cui arrivo a sommare. -Riassumendo: se sommo o moltiplico per una costante: …………………….. -Se devo sommare una costante: ………………..
Procedimento: -ordinare (mantenere la ripetizione) -cercare la posizione centrale -guardare il valore modalità Es. B) mai mai poco spesso mai spesso poco mai poco spesso La mediana Metto in ordine mai mai mai mai poco poco poco spesso spesso spesso (se fossero state diverse la mediana sarebbe stata rappresentata dalla coppia di modalità) Domanda pretest: se io cambio l’ultimo valore e invece di mettere spesso mettessi spessissimo cambierebbe il valore della mediana? No perché i dati troppo all’estremità rimarrebbero comunque tali e l’ordinamento idem. Quindi la mediana si concentra solo sul valore del dato che sta in mezzo in una scritta (????) ordinata (mediana è molto stabile). VIDEOLEZIONI (manuale statistica di base pdf) : 1. COS’E’ LA STATISTICA: i fenomeni possono essere classificati in a) collettivi e individuali. La statistica si preoccupa dei fenomeni collettivi analizzandoli attraverso un parametro es. voglio sapere quanti studenti hanno preso 18 a quell’esame. Il fenomeno collettivo è frutto della composizione di tanti fenomeni individuali. I fenomeni possono essere b) tipici (bravo studente prende bei voti) o atipici (studente che va male riesce a prendere un bel voto.) Fenomeni c) scientifici (misurabile es. livello distanza fisica) e non scientifici (non misurabile es. livello amicizia). Processo di conoscenza deduttivo: tipico della matematica e geometria ( es. dal teorema discendono tutti i casi, es. andamento nel tempo di una media, es l’uomo è un essere mortale quindi tutti gli uomini sono mortali) e induttivo: arriva alle leggi generali partendo dall’osservazione dei casi particolari ( es. per capire che luigi ha ucciso Antonio, bisogna raccogliere tutti gli indizi che chiudano il caso). Il processo induttivo fa parte della statistica La statistica non è una scienza perché non ha un oggetto, ma è un insieme di metodi che possono essere applicati a tutte le popolazioni per cui è possibile definire un meccanismo di misurazione. DEFINIZIONE: Insieme di metodi induttivi per studiare fenomeni scientifici collettivamente tipici per metterne in evidenza regolarità e favorirne la prevedibilità. (( Fenomeni collettivamente tipici es. media dei prezzi di alcuni prodotti e del loro andamento )) (( mettere in evidenza regolarità e favorirne la prevedibilità es. noto che quando piove a VI dopo poco piove anche a PD, e quindi prevedo che succeda sempre ))
Popolazione statistica/collettivo/universo: è composta dalle unità statistiche numerabili Unità statistiche: oggetti della popolazione statistica Variabili statistiche: fondamentali per la rilevazione dei dati, è un meccanismo che determina la partizione all’interno della popolazione statistica Campione: una parte della popolazione/popolazione in miniatura. Rappresenta in modo adeguato la popolazione legata al caso. L’unico modo per essere certi di avere un campione rappresentativo è che le unità campionarie (n) siano scelte a caso, in modo da ottenere un risultato sia equo. Il campione dovrà essere tanto più grande quanto la grandezza della popolazione. Rilevazione statistica: ha come obiettivo principale la misura. Quattro tipologie 1. Continue: intervallo di tempo minimo tra accadimento fenomeno che voglio rilevare e la sua registrazione ( es. nascite inserite in un documento inserito poi in anagrafe. Es. ricoveri ospedalieri) Big data: rilevazioni di tipo continuo che producono grandi quantità di dati ( es. dati di tipo meteorologico in cui il radar in modo continuo manda dati alla centrale) 2. Intervalli regolari: es. censimenti ogni 10 anni 3. Episodiche: per avere informazioni su un certo argomento si svolge una ricerca per dare risultati definitivi 4. Longitudinali: prendono un campione in un determinato istante di tempo e poi rilevano altre variabili o le stesse dopo alcuni mesi così da accrescere enormemente la quantità di info da raccogliere ( es. una persona viene intervistata due mesi dopo, metà anno dopo e 2 anni dopo) Prevalenza: …………………………………… Rilevazione statistica: ricerca di tipo episodico. All’interno di essa si può fare una serie di domande il cui esito porterà alla costruzione di una serie di variabili statistiche che vengono poi esaminate Pagina 10 manuale : esempio di come si fa a costruire una variabile statistica. Domanda “perché hai scelto questa scuola?” Risposte non corrette : Risposta b1 “perché la facevano i miei amici” --- troppo banale e b2 “me l’hanno suggerita gli insegnanti delle scuole medie” QUESTA DOMANDA NON CREA VARIABILI STATISTICHE Le altre domande sono corrette, la domanda C porta alla formazione di 4 variabili statistiche (si va a verificare se la proporzione delle persone che facevano la scuola per gli amici è maggiore o minore rispetto alle persone che lo facevano per il consiglio degli insegnanti. La domanda D invece porta alla formazione di una sola variabile statistica (studenti divisi in 4 blocchi). La domanda D rispetto alla C è più informativa perché dà una gerarchia fra e risposte però dall’altra parte è meno informativa perché non dice se è stata importante anche se le altre hanno avuto una qualche importanze. Se unisco C e D avremmo un’informazione maggiore La domanda E chiede una classifica, in cui al primo posto si metterà una risposta vera mentre agli altri c’è il rischio di no, quindi verrebbero diffuse false info. Cos’è l’operatore sommatoria (paragrafo 1.7) si prende tutto ciò a destra della sommatoria e sommarlo Tre principali proprietà: 1) la sommatoria del prodotto di una costante per una variabile è uguale al prodotto della costante per la sommatoria della variabile. Es. dato che C è costante lo posso portare fuori dalla sommatoria, faccio la somma degli Xi e poi moltiplico per C
Come si fa a rappresentare la distribuzione delle frequenze? 1. diagrammi a barre (ogni causa è scritta in ascissa, ogni barra è distanziata e le barre sono proporzionali alle frequenze (se sommo tutte le barre arrivo a 100) 2. diagrammi circolari (la frequenza relativa o assoluta la trasformo in gradi, alla fine moltiplico la frequenza relativa per 360, ogni causa di morte è rappresentata da uno spicchio, la cui ampiezza è proporzionale ai gradi appena calcolati) Diagrammi per variabili nominali (mi permette di dire solo se qualcosa è uguale o diverso) Settima lezione: rappresentazione grafica delle variabili quantitative paragrafo 3.4 ------ istogrammi queste frequenze a che tipo di modalità della variabile quantitativa fan riferimento (es. due classi di peso pagina 36 bisogna tenere conto della diversa ampiezza delle classi) Tabella 3.6 pagina 36 quanto alto dovrà essere ogni rettangolo? L’altezza si costruisce col rapporto fra la frequenza assoluta e la base Tabella 3.7 pagina 36 classi di uguale ampiezza (15 kg) le frequenze assolute sono costruibili confrontando la tabella 3.6 e 3.7, la base è data dal numero di kg in ogni classe. Gli istogrammi si possono costruire partendo dalle frequenze assolute solo quando le classi hanno medesima ampiezza. Determinare la rappresentazione dei dati è fondamentale, le classi vanno costruite in modo onesto rispetto al fenomeno che si vuole rappresentare. ESEMPIO 3.1 pagina 37 Ottava lezione: misure di centralità: la moda i dati statistici sono i dati elementari rilevati su unità statistiche es. peso di tot. Persone ---- poligono di frequenza/densità in cui vedo la distribuzione della mia popolazione secondo il peso corporeo (diviso in classi di peso). Costruire misure di centralità es. 4.3 pagina 43. L’esigenza conoscitiva sta nel sintetizzare in un solo valore le distribuzioni di frequenza, il valore permette di confrontare la distribuzione di frequenza di un gruppo di persone con quella del gruppo di altre persone Indicatori collegati in modo diretto al tipo di variabili che abbiamo: Moda, mediana, media aritmetica. Moda: costruita su qualsiasi tipo di distribuzione di frequenza incluse le variabili nominali. Se i dati sono espressi solo in modalità elementari (non raggruppati in classi), la moda è la modalità con la frequenza assoluta relativa più elevata es. 4.1 pagina 44 Moda per una variabile nominale: la moda cade nella classe in cui è più elevato il valore ni/ki La moda può essere calcolata senza alcuna modifica procedurale anche se la variabile è misurabile su scala ordinale Nel caso di variabile quantitativa si guarda modalità con frequenza più alta, se invece ho i dati raggruppati in classi si va a vedere qual è la classe con la densità più elevata (densità= rapporto tra frequenza ni e ampiezza della classe) Variabili continue: il valore dell’unità statistica è sempre unico (sta tra due valori). Il concetto di moda può effettuarsi quando si discretizza la variabile continua. Nona lezione: misure di centralità: la Mediana : rilevata su variabili misurate almeno su scala ordinale.
Calcolata per variabili almeno su scala ordinale (quindi non nominale). Posso ordinare le unità statistiche dalla più bassa alla più alta per poi andare a vedere l’individuo che sta in mezzo. Quando i dati sono raggruppati in classe oppure conosciamo già le frequenze relative cumulate la mediana si calcola diversamente es. 4.4 non è necessario ordinare i dati perché lo sono già. Si costruiscono le frequenze relative percentuali e poi le frequenze relative cumulate Per il calcolo della mediana si osserva la prima modalità per cui la frequenza relativa cumulata è maggiore del 50% Le scelte sul raggruppamento in classi non influenzano la determinazione della mediana, perché una volta ordinati l’ordine rimane quello. La mediana non dipende dai valori estremi, l’importante è vedere dove sta l’individuo di mezzo Decima lezione: misure di centralità: Media aritmetica (M) : solo su variabili quantitative (rilevate in scala rapporto o scala intervalli). Si può calcolare solo con variabili di tipo quantitativo (scala intervallo o scala ……). La media aritmetica permette di far interagire la scala misura delle variabili con la distribuzione di frequenza, mentre la moda e la media erano calcolati esclusivamente facendo riferimento alle distribuzioni di frequenza. Formula media aritmetica: ne libro a pagina 49 Media aritmetica partendo dai dati originali ----- le distribuzioni di frequenza non sono raggruppate in classi Se la variabile è discreta l’arbitrarietà è nulla, mentre se la variabile è continua l’unico margine di arbitrarietà possibile è lo strumento di misura Proprietà a pagina 52 Undicesima lezione: indice di Gini misura la variabilità delle variabili qualitative (non espresse secondo numeri ma con delle espressioni verbali es. titolo studio, causa morte). Possiamo dire solo se una cosa è uguale o diversa ad un'altra. Quindi tanto più uguali saranno le unità statistiche rispetto alla variabile, tanto minore sarà la variabilità; invece, tanto più diverse saranno, tanto maggiore sarà la variabilità. L’indicatore di Gini ha valore minimo e uguale a 0 se tutte le unità statistiche sono concentrate in una sola frequenza, che è anche la moda. Cioè se tutti hanno lo stesso titolo di studio la variabilità è 0, invece il valore è massimo se ogni modalità ha la stessa frequenza. La logica è basata sul confronto di tutte le unità statistiche ( es. tabella 5.2 pagina 61). L’indice assoluto di questa è CHI è dato dal numero di confronti in cui il risultato è uguale; diviso il numero di confronti possibili