Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modelli statistici unimore, Sbobinature di Metodi Statistici Per L'impresa

Modelli statistici sbobinature ed esempi

Tipologia: Sbobinature

2021/2022

Caricato il 28/10/2023

nicoletta-22
nicoletta-22 🇮🇹

6 documenti

1 / 54

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA DESCRITTIVA descrive e sintetizza le principali caratteristiche di un insieme di dati (si
hanno già i dati del fenomeno a disposizione e bisogna soltanto descriverlo)
STATISTICA INFERENZIALE estende le conclusioni tratte dall’osservazione di un campione all’intera
popolazione, con un certo grado di incertezza. Per poter dunque utilizzare metodi di statistica
inferenziale, bisogna conoscere la probabilità, ovvero la scienza che studia i fenomeni casuali o
aleatori (fenomeni che si verificano con un certo grado di probabilità), attraverso la valutazione della
possibilità che un dato evento possa accadere o meno, ovvero intuitivamente.
Perché studiare la statistica?
Per prendere decisioni
Per analizzare un fenomeno
Per fare previsioni su un evento futuro
Cos’è la statistica? Tradizionalmente si ritiene che il vocabolo statistica tragga origine dal termine
tedesco Staats (Stato), poiché nel 1660 il professore di diritto pubblico Ermanno Conring tenne un
corso universitario denominato Staats-Kunde con il significato di descrizione sistematica degli aspetti
più rilevanti di uno Stato. Nello stesso periodo, Charles Davenant la definiva come: l'arte di ragionare
per numeri su argomenti relativi alla cosa pubblica
La statistica è la scienza che si occupa di raccogliere dati e trarre da essi informazioni/conoscenza. La
statistica si occupa, a partire da una domanda su un fenomeno, di stabilire quali dati possano essere
usati per rispondere a quella domanda e, se i dati non sono già disponibili, come debbano essere
raccolti. Segue poi la fase in cui si analizzano i dati per estrarre le informazioni cercate.
Fasi di un'analisi statistica
definire gli obiettivi, tradurre un'esigenza conoscitiva in modo che sia suscettibile di una
risposta in termini statistici
individuare la popolazione, ovvero l'insieme di tutte le unità di studio
definire il piano di campionamento, ovvero una parte più piccola della popolazione
(altrimenti troppo dispendioso e troppo vasto), che va sotto il nome di disegno sperimentale
e campionamento
raccogliere i dati importante che siano raccolti correttamente)
organizzare e guardare i dati, ovvero dalla massa di dati bisogna estrarre le informazioni che
servono, che si possono però sintetizzare opportunamente e/o rappresentarli graficamente,
in funzione delle informazioni cercate
elaborare i dati, formulare un modello per spiegare i dati osservati. Il modello potrà essere
usato per confermare o smentire delle ipotesi fatte sul fenomeno e/o per previsioni su future
istanze
Terminologia:
popolazione (o collettivo statistico) insieme degli elementi che costituiscono l'oggetto di
studio. Può essere:
finita, cioè costituita da un numero finito di unità (la popolazione italiana, il numero
di aziende di servizi di Reggio Emilia)
infinita, cioè costituita da tutte le unità potenzialmente osservabili e non
necessariamente già esistenti fisicamente (tutte le persone elette da una patologia,
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36

Anteprima parziale del testo

Scarica Modelli statistici unimore e più Sbobinature in PDF di Metodi Statistici Per L'impresa solo su Docsity!

STATISTICA DESCRITTIVA → descrive e sintetizza le principali caratteristiche di un insieme di dati (si hanno già i dati del fenomeno a disposizione e bisogna soltanto descriverlo) STATISTICA INFERENZIALE → estende le conclusioni tratte dall’osservazione di un campione all’intera popolazione, con un certo grado di incertezza. Per poter dunque utilizzare metodi di statistica inferenziale, bisogna conoscere la probabilità, ovvero la scienza che studia i fenomeni casuali o aleatori (fenomeni che si verificano con un certo grado di probabilità), attraverso la valutazione della possibilità che un dato evento possa accadere o meno, ovvero intuitivamente. Perché studiare la statistica? ➢ Per prendere decisioni ➢ Per analizzare un fenomeno ➢ Per fare previsioni su un evento futuro Cos’è la statistica? Tradizionalmente si ritiene che il vocabolo statistica tragga origine dal termine tedesco Staats (Stato), poiché nel 1660 il professore di diritto pubblico Ermanno Conring tenne un corso universitario denominato Staats-Kunde con il significato di descrizione sistematica degli aspetti più rilevanti di uno Stato. Nello stesso periodo, Charles Davenant la definiva come: l'arte di ragionare per numeri su argomenti relativi alla cosa pubblica La statistica è la scienza che si occupa di raccogliere dati e trarre da essi informazioni/conoscenza. La statistica si occupa, a partire da una domanda su un fenomeno, di stabilire quali dati possano essere usati per rispondere a quella domanda e, se i dati non sono già disponibili, come debbano essere raccolti. Segue poi la fase in cui si analizzano i dati per estrarre le informazioni cercate. Fasi di un'analisi statistica ✔ definire gli obiettivi, tradurre un'esigenza conoscitiva in modo che sia suscettibile di una risposta in termini statistici ✔ individuare la popolazione, ovvero l'insieme di tutte le unità di studio ✔ definire il piano di campionamento, ovvero una parte più piccola della popolazione (altrimenti troppo dispendioso e troppo vasto), che va sotto il nome di disegno sperimentale e campionamento ✔ raccogliere i dati (è importante che siano raccolti correttamente) ✔ organizzare e guardare i dati, ovvero dalla massa di dati bisogna estrarre le informazioni che servono, che si possono però sintetizzare opportunamente e/o rappresentarli graficamente, in funzione delle informazioni cercate ✔ elaborare i dati, formulare un modello per spiegare i dati osservati. Il modello potrà essere usato per confermare o smentire delle ipotesi fatte sul fenomeno e/o per previsioni su future istanze Terminologia: ● popolazione (o collettivo statistico) → insieme degli elementi che costituiscono l'oggetto di studio. Può essere: ⋅ finita, cioè costituita da un numero finito di unità (la popolazione italiana, il numero di aziende di servizi di Reggio Emilia) ⋅ infinita, cioè costituita da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente (tutte le persone elette da una patologia,

oggi o in futuro, i futuri acquirenti di un certo prodotto, i pezzi difettosi che può produrre un macchinario) ● unità statistica → unità elementare su cui vengono osservati i caratteri oggetto di studio (i cittadini italiani, le aziende tessili, i clienti di un negozio). Per esempio: uno studente di un liceo scientico può far parte di diverse popolazioni, secondo il contesto in cui è osservato: è un elemento della popolazione di alunni della sua stessa scuola, appartiene alla popolazione dei cittadini residenti a una certa data in un dato comune, fa parte della popolazione dei giovani della sua stessa fascia di età. Attenzione! Se lo studente viene osservato nel contesto delle scuole secondarie italiane, dove la sua presenza concorre a determinare il numero di alunni iscritti in un dato anno al liceo scientifico, non può più essere considerato un'unità statistica. In questo caso, infatti, le unità statistiche sono le singole scuole (popolazione di scuole), dove si rileva una caratteristica comune, cioè il numero di alunni iscritti in un certo anno. ● carattere statistico (o variabile) → la caratteristica rilevata in corrispondenza di ciascuna unità statistica che si ritiene rilevante ai ni dell'indagine Una volta raccolti, i dati vengono organizzati in una matrice (tabella come questa): se io leggo la matrice per colonne, trovo la distribuzione di un carattere statistico (come si comporta quel dato carattere sul mio collettivo – modalità); se io leggo la matrice per riga, prendo ciascuna unità statistica e vedo quali modalità assume per tutti i caratteri che ho considerato in fase di raccolta dei dati ● modalità → le diverse manifestazioni che un carattere presenta sulle diverse unità statistiche. Devono essere: ・ esaustive, per cui le modalità elencate devono comprendere tutte le possibili manifestazioni del carattere ・ non sovrapposte, ovvero ad ogni unità si deve poter associare una sola modalità CARATTERI STATISTICI ➔ QUALITATIVI, esprimibili tramite sostantivi, avverbi, aggettivi..

  • sconnessi, le cui modalità del carattere non possono essere messe in ordine ed è possibile affermare soltanto se le modalità sono uguali o diverse Es1: Ti è piaciuta l'ultima edizione del Festival di Sanremo? I L'ho visto e mi è piaciuto; L'ho visto e non mi è piaciuto; Non l'ho visto Es2: Qual è il tuo genere letterario preferito? Comico/umoristico; Fantascienza.. Es3. numero di polizza
  • ordinali, le cui modalità del carattere possono essere messe in ordine, affermando che una precede l’altra Es1: Quanto frequentemente bevi birra? Mai; Una volta a settimana; Ogni giorno ➔ QUANTITATIVI , esprimibili tramite valori numerici
  • discreti, se l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri interi (significa che le modalità possono

È molto facile ottenere distribuzioni di frequenza assoluta per caratteri qualitativi e quantitativi discreti (con un numero non elevato di modalità). Riprendendo l'esempio precedente, per i caratteri Sesso la distribuzione di frequenza semplice è → Il passaggio da distribuzione disaggregata a distribuzione di frequenze comporta una perdita di info, in particolare alcuni dettagli (es. non sappiamo chi è maschio/femmina) Es2: distribuzione di frequenza del reddito, ma in questo caso il passaggio dalla distribuzione unitaria a quella di frequenze non opera una buona sintesi del fenomeno in esame. In generale, in presenza di caratteri quantitativi continui (o anche discreti, con un numero elevato di modalità) abbiamo bisogno di qualche operazione preliminare, ovvero la suddivisione in classi delle modalità. La scelta delle classi è arbitraria, ma è necessario: ⋅ nessuna classe deve essere vuota ⋅ le classi devono essere contigue (occupano tutti i punti nell’intervallo), disgiunte (non sovrapposte) ed esaustive ⋅ devono avere possibilmente la stessa ampiezza ⋅ il numero di classi deve essere tale da consentire un'adeguata sintesi dei dati senza comportare una eccessiva perdita di informazioni Es2: suddivisione in classi del reddito *parentesi quadra = estremo incluso; parentesi tonda = estremo escluso Nello stabilire gli estremi della classe occorre tenere presente che ognuna delle determinazione osservate del carattere deve essere compresa in una sola classe. Nel caso di caratteri continui si rende quindi necessario includere nella stessa classe uno solo dei due estremi dell'intervallo. AMPIEZZA = ESTREMO SUPERIORE CLASSE – ESTREMO INFERIORE CLASSE Può capitare, o per scelta (si vuole fornire informazioni più dettagliate su parte della distribuzione), o per necessità (i dati sono già stati raggruppati in classi da qualcuno), di costruire delle classi utilizzando intervalli di lunghezza differente. In questo caso è conveniente definire anche la DENSITÀ DI FREQUENZA. La densità è il rapporto tra la frequenza assoluta della classe e la lunghezza dell’intervallo. La densità ci dice il numero atteso di unità statistiche per ogni unità di misura della variabile Ritornando alle distribuzione di frequenze FREQUENZE RELATIVE (fj) = FREQUENZA ASSOLUTA / NUMERO TOTALE DI UNITÀ STATISTICHE (n), ovvero il rapporto tra ogni frequenza assoluta e il numero totale di osservazioni (ovvero dimensione del collettivo = sommiamo tutte le frequenze assolute) Perché passare dalle frequenze assolute a relative? Hanno il vantaggio, rispetto alle frequenze assolute, di permettere di confrontare le distribuzioni di due o più collettivi (con numerosità diversa) Es1: Numero di esami in un a.a. in due collettivi stesso tipo di carattere con stesse modalità osservato sui due collettivi. confrontiamo i 2 collettivi: abbiamo notato che nel B più studenti (23) hanno sostenuto un esame rispetto ad A (16), ma i 2 collettivi hanno numerosità diverse (60 e 110).

→È corretto affermare che coloro che hanno sostenuto 1 esami sono più numerosi nel collettivo A? (per le frequenze assolute, la risposta è no) →È corretto affermare che coloro che hanno sostenuto 3 esami sono più numerosi nel collettivo B? (per le frequenze assolute, la risposta è si) Le frequenze assolute in entrambi i casi subiscono l’effetto della dimensione del collettivo e quindi bisogna eliminare questa influenza e cioè passare dalle frequenze assolute alle relative, ovvero confrontare. Applichiamo la formula per il collettivo A e B. Si nota che la frequenza è più alta in A *per vedere se abbiamo agito correttamente, la somma di tutte le frequenze deve essere 1. Nel caso in cui sia 0,999 o 1,001 sono solo problemi di approssimazione, ma se risulta 0,90 o 1,2 i calcoli sono sbagliati. Quando il carattere è qualitativo ordinale o quantitativo, è possibile calcolare le FREQUENZE CUMULATE (Fj) → La frequenza assoluta (relativa) cumulata per la modalità/classe xj è la somma delle frequenze assolute (relative) per le modalità/classi ≤ xj Nj = n1 +... + nj (Fj = f1 +... + fj) Il carattere deve essere almeno ordinale per calcolare le frequenze cumulate. Se l’esame chiede di calcolare la frequenza cumulata di un carattere qualitativo sconnesso, la risposta esatta è: il carattere è qualitativo sconnesso, quindi non ordinabile e quindi non ha senso calcolare le frequenze cumulate. Es1: Si costruisca la distribuzione di frequenze cumulate per il carattere. Numero di libri letti nell'ultimo anno e se ne interpreti quella relativa alla modalità 3 Prima modalità (0), la frequenza cumulata = frequenza assoluta (1) Seconda modalità (1), la frequenza cumulata = FREQUENZA ASSOLUTA CORRISPONDENTE

  • QUELLA CHE LA PRECEDE Terza modalità (2), la frequenza cumulata = frequenza assoluta corrispondente + tutte quelle che la precedono Quarta modalità = 9 → è il numero di persone all’interno del collettivo che ha letto al massimo 3 libri *L’ultima modalità deve dare 1 perché sarebbe la somma di tutti Facciamo il commento in termini percentuali → frequenza relativa (semplice o cumulata) * 100 Es2: Si costruisca la distribuzione di frequenze cumulate relative per il carattere Durata di una lampadina (in giorni) e se ne interpreti quella relativa alla seconda classe. 0.253 * 100 = 25.3% lampadine che hanno una durata da 0 a 190 giorni/ al max pari a 190 giorni/al più 190 giorni Questo è il commento che serve all’esame (no mediana no coattivi) Possiamo cercare di visualizzare le distribuzioni di frequenza, rappresentando in qualche modo ciascuna modalità del carattere con la relativa frequenza. →GRAFICO → deve fornire un immagine o idea di come si comporta il carattere nel collettivo e deve essere di facile comprensione e comunicativi. La scelta del grafico non è arbitraria e dipende dalla natura del carattere. Per i caratteri qualitativi, si utilizza il GRAFICO A TORTA L’ampiezza di ciascuno spicchio sia proporzionale alle frequenze. Per poter disegnare il grafico, devo calcolare l’ampiezza dell’angolo di ciascuno spicchio: angolo = 360 · frequenza assoluta/n o 360 · frequenza relativa Faccio questo calcolo per ogni modalità.

Collettivi diversi: ogni collettivo avrà una numerosità diversa, per cui le differenze nelle frequenze assolute possono essere date dall’ordine di grandezza diverso di ciascuna popolazione, poiché a collettivi numericamente più grandi, corrispondono frequenze assolute più grandi. Quindi passiamo dalle frequenze assolute alle relative e quindi vuol dire che abbiamo fatto fa/col (stiamo eliminando l’influenza della dimensione sulle frequenze). Otteniamo frequenze relative, cioè confrontabili. Costruiamo il grafico, basandoci sulle frequenze relative (nel caso di confronto tra collettivi diversi con numerosità diversa, un grafico su cui misurare le frequenze assolute non ha senso). Per ciascun paese le barre hanno tutte la stessa ampiezza; l’altezza è proporzionale alle frequenze relative. Noto che la Svezia ha un’incidenza maggiore rispetto alla scuola secondaria superiore. Se la domanda è “in quali paesi si studia di più”, le frequenze assolute non consentono un confronto agevole perché le popolazioni di riferimento sono molto diverse. Si passa allora alle frequenze relative per ciascun paese. Il confronto può essere fatto affiancando dei diagrammi a barre, il modo in cui le si affianca mette in evidenza cose diverse. Le barre possono anche essere sovrapposte per mettere in luce le diverse composizioni delle popolazioni: per ciascun paese avremmo un’unica barra, all’interno della quale si sovrappongono tutti i titoli di studio. La barra viene colorata a seconda di quanto è importante quella data titolarità. ISTOGRAMMA → è l’unico grafico per il carattere quantitativo continuo e che quindi deve dare idea di continuità. Si costruiscono, l'uno adiacente all'altro, tanti rettangoli quante sono le classi in cui è suddiviso il collettivo, ponendo ⋅ (base rettangoli) = (ampiezza della classe) ⋅ (area rettangoli) ∝ (frequenze assolute (relative)). Il simbolo ∝ significa “proporzionale a”. Distinguiamo i casi:

  1. le classi hanno tutte la stessa ampiezza, per cui costruiremo un grafico con tanti rettangoli quante sono le classi e tutti sulla stessa base. Per garantire che l’area sia proporzionale alle frequenze, basterà prendere come h di ciascun rettangolo, le frequenze (assolute o relative). Essendo l'area dei rettangoli uguale a base×altezza, se le gli intervalli hanno uguale ampiezza, di fatto l'altezza coincide con (o è proporzionale a) la frequenza assoluta (relativa): (altezza rettangoli) = (frequenze assolute) oppure (altezza rettangoli) = (frequenze relative) Es1: altezze
  1. le classi hanno ampiezze diverse, per cui disegneremo tanti rettangoli quante sono le classi, le loro basi corrisponderanno all’ampiezza di ciascuna classe e l’ampiezza dei rettangoli è data dalle densità di frequenza assoluta o relativa (cioè f. ass. o rel. / ampiezza). Dobbiamo calcolare l'altezza del rettangolo in modo tale che la sua area coincida con (sia è proporzionale a) la frequenza assoluta (relativa) (base rettangoli) = (ampiezza della classe aj) ; (altezza rettangoli) = (densità di frequenza dj) Vogliamo che l'area dei rettangoli sia proporzionale alla frequenza (assoluta o relativa) della classe cui si riferisce. Sappiamo che: l'area del rettangolo si calcola con la formula base×altezza; la base di ciascun rettangolo è l'ampiezza della classe (ai); l'area dev'essere uguale alla frequenza (ni , oppure fi, a seconda se decidiamo di rappresentare le frequenze assolute o relative). Quindi, otteniamo: area {freq} = base {ai} × altezza {hi(?)} Con le frequenze assolute otteniamo: ni = ai × hi ⇒ hj = ni ai ← densità di frequenza assolute analogamente, con le frequenze relative fi = ai × hi ⇒ hj = fi ai ← densità di frequenza relative *nell’esame segnare sul grafico le classi (da 0 a 1, da 1 a 3, da 3 a 7) Ricapitolando → Le rappresentazioni grafiche di distribuzioni di frequenza - Per variabili categoriali (qualitative), la rappresentazione prende il nome di diagramma a torta o diagramma a barre - Per variabili discrete, la rappresentazione prende il nome di diagramma a barre - Per variabili continue, la rappresentazione prende il nome di istogramma - forniscono un'immagine della distribuzione dei dati: barre o scatole più alte rappresentano modalità più frequenti - aiutano a descrivere la forma della distribuzione dei dati - sono fortemente comunicative... ma devono essere ben costruite - Attenzione alla costruzione degli istogrammi Il processo di sintesi non si limita alle sole distribuzioni, ma si può arrivare a sintetizzare con un unico valore una particolare caratteristica della popolazione. Per fare questo utilizziamo gli INDICI SINTETICI. Possono essere impiegati per: ● Confrontare tra di loro situazioni diverse ⋅ stesso fenomeno rilevato su collettivi diversi ⋅ stesso fenomeno in tempi e/o luoghi diversi ⋅ fenomeni diversi tra di loro ● Valutare il dato ottenuto confrontandolo con un valore standard noto Quali indici calcolare? La scelta dipende dalle caratteristiche che descrivono sinteticamente la popolazione di studio, cioè dall’aspetto del fenomeno studiato che vogliamo mettere in evidenza.

La moda è 77, ma la sintesi non è molto buona perché ci sono altri valori (75 e 72) che gli si avvicinano molto. Osservazioni:

  • Se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha senso determinare la moda
  • Può ritenersi un buon criterio di sintesi quando si presenta con una frequenza “nettamente maggiore” di tutte le altre modalità (almeno il 50% delle osservazioni) ⇒ è ragionevole assumerla come quel valore più idoneo a rappresentare sinteticamente la distribuzione
  • La moda potrebbe non essere unica ⇒ distribuzioni plurimodali, ovvero più modalità con stessa frequenza
  • Valori anomali (outlier), ovvero valori che si collocano agli estremi della distribuzione e che non sono valori frequenti, ma delle eccezioni. La moda non è sensibile ai valori anomali, per cui la moda non ne risente Es Distribuzione del reddito e calcoliamo la moda Calcoliamo prima l’ampiezza delle classi (1-0=1; 2-1=1; 3-2=1; 4-3=1). Poichè le classi hanno la stessa ampiezza, determino la moda guardando la frequenza più elevata, ossia 8 e quindi la classe modale è [1;2). La moda è il centro di questa classe e la si calcola: (estremo inferiore + estremo superiore)/2 da cui Mo = (1+2)/2 = 1. Es Durata delle lampadine Calcoliamo l’ampiezza (75-0=75; 190-75=115..). Poichè le classi non hanno la stessa ampiezza, non possiamo calcolare la moda guardando le frequenze e dobbiamo calcolare le densità. Dopo aver calcolato l’ampiezza, divido le frequenze assolute per l’ampiezza di ciascuna classe, determino la densità di frequenza maggiore che mi dirà qual è la classe modale. Calcolo le densità (11/75; 32/115..). Prendo la densità maggiore (0.278), per cui la classe modale sarà [ 75;190) e la moda sarà il centro di questa classe Mo = (75+190)/2 = 132.5 → è un buon indice di sintesi? No, perché le altre densità sono molto vicine e non c’è nessuna classe che prevale. La moda nasce dalla necessità di rappresentare la distribuzione con un valore determinante. Possiamo vedere il centro della distribuzione in quanto tale, ovvero quella modalità che sta al centro, cioè che prima di essa avrà il 50% delle osservazioni e dopo di essa avrà il 50% delle osservazioni. Questa è la MEDIANA, il centro ordinale della distribuzione, ovvero il valore che bipartisce il collettivo in due parti di uguale numerosità. Per poter calcolare la mediana il carattere deve essere almeno ordinale ⇒ non è possibile calcolare la mediana per caratteri qualitativi sconnessi. Il procedimento per il calcolo della mediana cambia a seconda del tipo di distribuzione: ● distribuzioni unitarie → ordino in senso crescente tutte le modalità x(1) ,x(2) ,··· ,x(n) *con (1) si indica la modalità più piccola (non la prima) e via via crescendo Per individuare la posizione dell’unità centrale distinguiamo i 2 casi: ⋅ se il n di modalità è dispari, allora avremo un’unica posizione centrale, ovvero un unico valore al centro e a dx e sx avremo lo stesso n di osservazioni

⋅ se il n di modalità è pari, avremo due posizioni al centro e la mediana sarà rappresentata dalla semisomma di queste due modalità Es1: Consideriamo i valori: 10 -5 1 -2 3 2 5 → ordine crescente -5 -2 1 2 3 5 10 → Poichè n=7 (dispari), esiste un’unica posizione centrale: la posizione (7+1)/2 = 4 Pertanto Me = x(4) = 2 Es2: Consideriamo i valori: 10 -5 1 -2 3 2 5 6 → ordine crescente -5 -2 1 2 3 5 6 10 → Poichè n=8 (pari), non esiste una sola posizione centrale bensì due: le posizioni 8/2 = 4 e 8/2 + 1 = 5. Pertanto: Me = x(4) + x(5)/2 = (2 + 3)/2 = 2. Il valore mediano non coincide con nessun valore rilevato. Poiché le modalità di rango centrale sono diverse segue che esattamente il 50% dei valori è inferiore alla mediana, mentre il rimanente 50% è superiore alla mediana. Nel caso in cui si presenta la stessa situazione per caratteri qualitativi, la mediana risulta indeterminata. ● distribuzioni di frequenza → calcolo le frequenze relative e cumulate relative e cerchiamo la prima frequenza cumulata relativa, il cui valore o è esattamente uguale a 0.5 o è il primo valore più grande di 0.5. La modalità corrispondente sarà la mediana In altre parole, è la prima modalità per la quale la frequenza cumulata relativa è maggiore (o uguale) a 0.5. Es1: Distribuzione relativa al carattere Numero di Figli metto in ordine crescente e divido ciascuna frequenza assoluta per il totale delle osservazioni. Calcoliamo le frequenze cumulate: la prima è sempre uguale alla prima frequenza relativa, poi sommo la seconda con la prima (0.24+0.10) e così via. Vediamo se c’è ne una uguale a 0.5, ma non c’è e quindi prendiamo la prima frequenza cumulata che è più grande di 0.5, che è 0.72. Questa frequenza cumulata relativa individua la mediana, che è la modalità corrispondente, ovvero 2. ● distribuzioni in classi → calcolo le frequenze relative e le cumulate, individuo la prima frequenza cumulata > o = a 0.5. In questo modo determiniamo la classe che contiene la mediana e poi bisogna capire il valore all’interno di quella classe che corrisponde alla mediana, che in questo caso non è il valore centrale, ma lo si individua tramite una formula: Im → estremo inferiore della classe mediana Fm-1 → frequenza cumulativa relativa della classe che precede la classe mediana Fm → frequenza cumulata relativa alla classe mediana Questo procedimento mi consente di ottenere il valore della mediana all’interno della classe. Es1: Consideriamo la seguente distribuzione relativa al carattere Altezza Dopo aver calcolato le frequenze relative e cumulate, individuiamo la frequenza cumulata > o = a 0.5, ovvero 0.55. Si considera la classe corrispondente, ovvero (140;170] e si applica la formula della Me: 140 + [(0.5 – 0.225) / (0.55 – 0.225)] 30 = 165. Per affermare che i calcoli siano corretti, è verificare che il valore che otteniamo come mediana sia realmente contenuto all’interno della classe individuata come classe mediana. In questo caso, il valore deve essere compreso nella classe mediana tra 140 e 170, ma se ottengo un valore minore di

● distribuzioni in classi → calcolo le frequenze cumulate relative e individuo la classe che contiene il Q1 o il Q3 e applico una delle formule: (stesso procedimento della mediana) Q1 = 140 + [(0.25 – 0.225) / (0.55 – 0.225)] 30 = 142. Q3 = 180+ [(0.75 – 0.655) / (0.88 – 0.655)] 20= 180. Cerco dunque due modalità che, all’interno della distribuzione, occupino una determinata posizione (che lasci il 25% delle osservazioni o il 75%) MEDIE ANALITICHE : faccio operazioni algebriche sulle modalità del carattere e mi serve che il carattere sia quantitativo. L’unica media analitica che vedremo è la MEDIA ARITMETICA , ovvero la somma di tutti i valori diviso in n di osservazioni → Dato un insieme di n valori osservati x1,x2,...,xn si definisce media aritmetica del carattere quantitativo X la somma dei valori osservati divisa per il numero n di osservazioni Es1: Su un gruppo di 5 dipendenti di un’azienda è stato rilevato il carattere Retribuzione mensile,

registrando i seguenti importi (in €): x1 = 1500, x2 = 2400, x3 = 1250, x4 = 1430, x5 = 2120

Non è necessario mettere in ordine i valori Qual è la retribuzione mensile media? Sommiamo i valori e li dividiamo per 5.

M = (1500 + 2400 + 1250 + 1430 + 2120) / 5 = 1740€ → Indica quella parte del totale che

spetterebbe a ciascuna unità qualora l’ammontare stesso fosse diviso in parti uguali. In altri termini, la media aritmetica coincide con quella modalità del carattere che dovrebbe possedere ogni unità statistica se l’ammontare complessivo del carattere fosse ripartito in eguale misura tra tutte le unità. Se invece ci chiedessimo: se l’azienda decidesse di dare a ciascun dipendente la stessa retribuzione mensile, quanto dovrebbe ricevere ogni dipendente? Sappiamo che la somma a disposizione

dell’azienda per la retribuzione mensile dei 5 dipendenti è di 8700€, quindi banalmente: 8700 / 5 =

1740 € che non è altro che la media di prima!

*Quando all’esame ci chiede il commento, dopo tutti i calcoli, esso deve essere sempre in riferimento alla variabile che stiamo considerando (non devo scrivere solo la definizione) La media aritmetica va bene nelle distribuzione unitarie, ma nelle distribuzioni di frequenza dobbiamo tenere conto delle frequenze per calcolare la MEDIA ARITMETICA PONDERATA, perché pesiamo ciascuna modalità per il n di volte che questa si presenta nel nostro collettivo. Il risultato che otteniamo è sempre lo stesso, il ragionamento, l’interpretazione e la media aritmetica sono sempre gli stessi, ma cambia il procedimento. Dobbiamo utilizzare le frequenze. Bisogna moltiplicare le modalità per le rispettive frequenze e dopo tutti i prodotti, li sommo tra di loro e ottengo il totale che divido per in n osservazioni. Quindi, dato il carattere quantitativo X, se conosciamo la relativa distribuzione di frequenze, definiamo media aritmetica ponderata, dove K è il numero di modalità assunte dal carattere X. Questo vale per le frequenze assolute. Es1: ( → modalità x frequenza) Facciamo la somma dei prodotti (ultima colonna) e dividiamo per il n osservazioni (0 + 12 + 38 + 27 + 16 + 5) / 50 = 98 / 50 = 1.96 → n figli medio del collettivo. Questa è l’applicazione della formula. Se tutte le famiglie avessero lo stesso n di figli, allora sarebbero 1.96.

Se ho le frequenze relative, moltiplico le modalità per le frequenze relative, ottengo tutti i prodotti, li sommo e il risultato è la media ponderata (non divido per il n osservazioni perché le frequenze relative le ottengo facendo f. ass / n, quindi la divisione è già avvenuta). Es ( → modalità x frequenze relative) 0 + 0,24 + 0,76 + 0,54 + 0,32 + 0,10 = 1. Cosa accade quando passiamo a una distribuzione di frequenze, ma le modalità sono espresse in classi? Significa che una modalità non assumerà solo un valore, ma può essere compresa in una classe di valori → media aritmetica per distribuzione in classi. Se voglio calcolare la media aritmetica, devo poter decidere all’interno di quella classe di valori, quale valore è quello rappresentativo di tutta la classe. L’ipotesi è che all’interno della classe, le osservazioni si distribuiscano in maniera uniforme e allora io posso scegliere come valore rappresentativo il suo valore centrale. Il calcolo è analogo a quello per le distribuzioni di frequenza e la differenza è che al posto della modalità avrò il centro della classe. Il centro = (estremo inferiore classe + estremo superiore classe) / 2. Una volta che avrò tutti i centri, li moltiplico per tutte le frequenze assolute, sommo i risultati e poi divido per il n osservazioni. Se ho le frequenze relative, stesso procedimento, ma senza divisione per osservazioni. Es1: Calcolare l’altezza media. Calcolo i centri delle classi (cj): 70+100/2=85; 100+120/2=110… Il primo controllo è che il centro della classe che ho trovato si trovi effettivamente all’interno della classe! Moltiplico ciascun centro per la corrispondente frequenza assoluta: 20x85; 7x110.. =cjnj. Sommo tutti i risultati e divido per il n osservazioni: (1700 + 770 + 2340 + 10075 + 3675 + 8550 + 5040) / 200 = 160.75. Interpretazione: se tutte le unità nel nostro collettivo avessero tutti la stessa altezza, sarebbe 160. Per la media aritmetica, l’ampiezza della classe non è un problema (conta solo per la moda) Es2: Altezza con frequenze relative. Calcolo i centri e li moltiplico per la corrispondente frequenza relativa, sommo i prodotti e il risultato è la media aritmetica (non divido per n osservazioni): = 8,5+3,85+11,7+50,375+18,375+42,75+25,2 = 160, Pregi della media aritmetica → presenta un ambito applicativo molto ampio poichè: ➢ è molto facile da calcolare ➢ è semplice da interpretare ➢ tende a correggere, annullandoli, gli errori di misurazione ➢ gode di apprezzabili proprietà:

  • proprietà di internalità, per cui la media è sempre compresa tra il più piccolo e il più grande dei valori osservati: x(1) ≤ M ≤ x(n)

Le misure di centralità non bastano: Può accadere che due o più popolazioni presentino lo stesso centro, ma che il livello di sintesi sia completamente differente. Occorrono altre misure che consentano di valutare il grado di dispersione delle modalità e la bontà della sintesi della distribuzione operata tramite gli indici di centralità, ovvero le MISURE DI VARIABILITÀ. Es1: Due gruppi di individui, la variabile è il peso (in kg) ● 1 gruppo: 66, 76, 79, 85, 94 M = 80 ● 2 gruppo: 44, 49, 65, 112, 130 M = 80 Notiamo che il primo gruppo è molto più omogeneo quanto al peso dei singoli (nel 2 gruppo c’è più variabilità al centro rispetto al 1) Ci interessa avere anche un’idea di quanto diversi siano i valori assunti dalla variabile, ossia ci interessa avere un'idea della variabilità del carattere. Per farlo, possiamo vedere come si muovono le osservazioni intorno al centro della distribuzione. Perché studiare la variabilità? Se non ci fosse variabilità nei dati, allora non avrebbe senso fare analisi statistica, perché vuol dire che il carattere assume sempre la stessa variabilità su tutte le unità del collettivo e vuol dire che se conosciamo un’unità, le conosciamo tutte → Valore Intrinseco. Inoltre, l’impiego delle medie non è sufficiente a sintetizzare le informazioni rilevate sulla popolazione oggetto di studio, specialmente quando occorre confrontare tra di loro popolazioni diverse (come nell’esempio, nel quale il centro è lo stesso in entrambi i gruppi, ma il comportamento dei gruppi è diverso) → Accuratezze della Sintesi dei Dati Servono degli indici di variabilità, i cui requisiti: ● Se almeno due osservazioni sono diverse tra di loro, allora dev’essere > 0 ● Se tutte le osservazioni sono uguali tra di loro ( carattere degenere ), allora deve assumere il suo valore minimo ● Se il carattere X è più variabile del carattere Y, allora l’indice di variabilità di X dev’essere maggiore dell’indice di variabilità di Y Indici di variabilità

  1. CAMPO DI VARIAZIONE → Dato un insieme di n valori osservati x1,x2,...,xn si definisce campo di variazione (range) la differenza tra il valore più grande e il valore più piccolo: R = xn − x Mi da l’intervallo di valori entro cui varia il carattere di interesse. - Pregi: è semplice da calcolare ed è di immediata interpretazione (rappresenta l’ampiezza dell’intervallo in cui si è manifestato il fenomeno).
  • Difetti: dipende solo da due osservazioni (quella più grande e quella più piccola) e non tiene conto delle altre e, di conseguenza, è poco stabile in quanto estremamente sensibile agli outliers Per questi motivi non viene molto impiegato, solo nel controllo statistico della produzione. Es1 (distribuzione unitaria): valori → 3.1 6.5 1.3 4.1 1.8 2.0 1.3 1. Innanzitutto ordiniamo i valori → 1.2 1.3 1.3 1.8 2.0 3.1 4.1 6. Calcolare il campo di variazione → valore più grande = 6.5; valore più piccolo = 1. R = 6.5 − 1.2 = 5. Es2 (distribuzione di frequenza): distribuzione del numero medio di figli Calcolare il campo di variazione → R = 5 − 0 = 5
  • guardare le modalità e non le frequenze assolute Es3 (distribuzione in classi) Calcolare il campo di variazione → R = 220 − 70 = 150
  1. DIFFERENZA QUARTILE → Rappresenta l’ampiezza dell’intervallo centrale (intorno alla mediana) nel quale si collocano il 50% dei valori. Tanto più è piccola tanto più la metà delle osservazioni risulterà addensata intorno alla mediana. Dato un insieme di n valori osservati x1,x2,...,xn si definisce differenza interquartile la differenza tra il terzo e il primo quartile DI = Q3 − Q
  • Pregi: è più stabile del campo di variazione perché non si basa sulle osservazioni estreme
  • Difetti: potrebbe essere nulla senza che il carattere sia degenere Es1 (distribuzioni unitarie): valori (ordinati) → 1.1 1.3 1.3 1.8 2.0 3.1 4.1 5. Q1 = i = p x n = 0.25 x 8 = 2 (intero) → Q1 = semisomma di valore in posizione 2 e uno in 3 → Q1 = (1.3 + 1.3) / 2 = 1. Q3 = i = p x n = 0.75 x 8 = 6 (intero) → Q3 = semisomma di valore in posizione 6 e uno in 7 → Q3 = (3.1 + 4.1) / 2 = 3. DI = Q3 − Q1 = 3.6 - 1.3 = 2.3 → è l’ampiezza dell’intervallo che si colloca al centro della distribuzione e che contiene il 50% delle osservazioni Ese (distribuzioni di frequenza): scommesse effettuate nell’ultima settimana di un gruppo di scommettitori. Calcola DI Calcolare frequenze → Q1 = Fi > o = 0.25 → 0.28 → 2 relative e cumulate Q3 = Fi > o = 0.75 → 1 → 4

4.9, che si colloca dopo 4.1 e tra tutte le osservazioni più piccole di 4.9 e tra quelle più piccole, prendiamo l’osservazione più grande, ovvero 4.1 (che ci indica dov’è il baffo superiore) ▸ prendiamo da 1.1 a 4.1 e l’osservazione che rimane fuori è 5.6, che rappresenta un outliers e quindi disegneremo un pallino affianco a 5. Es2 Costruzione box plot con distribuzione di frequenze Dopo aver calcolato le fi e le Fi, calcoliamo: · Q1 = 10 · Me = 20 · Q3 = 30 · DI = 20 · 1.5DI = 1.5×20 = 30 ▸ scatola: da 10 a 30 con la mediana indicata da una linea a 20 ▸ baffo inferiore: fino all’osservazione più piccola tra quelle maggiori di Q1 − 30 = −20, che si trova prima di 1 e tra tutte le osservazioni più grandi di -20, prendiamo la più piccola, ovvero 1 ▸ baffo superiore: fino all’osservazione più grande tra quelle minori di Q3 + 30 = 60, che si trova tra 50 e 70, prendiamo tutte le modalità più piccole di 60 e prendiamo la più grande, ovvero 50. ▸ restano fuori 70, 90, 100 → outliers (pallino) Es3 Costruzione box plot con distribuzione in classi ▸ scatola: da 6,54 a 12,8 con la mediana indicata da una linea a 9, ▸ baffo inferiore: fino all’osservazione più piccola tra quelle maggiori di Q1 − 9,81 = −3,55, ovvero fino a 0 ▸ baffo superiore: fino all’osservazione più grande tra quelle minori di Q3 + 9,81 = 22,61, ovvero fino a 20; 4 ▸ non ci sono outliers. Il box plot viene anche utilizzato per confronti tra distribuzioni diverse. Es4 Nella tabella sono riportate le distribuzioni di frequenze del carattere “Numero di figli” per due collettivi di famiglie

▸ baffo inferiore A e B coincidono ▸ no outlier in A e B ▸ Q1 in A = Q1 in B; Me in A = Me in B; Q3 sono diversi in A e B ▸ L’intervallo centrale in A è molto più concentrato attorno alla mediana (scatola non ampia), mentre in B i valori sono un sparsi (scatola ampia) VARIANZA → Abbiamo detto che per misurare la variabilità, possiamo utilizzare la “distanza” delle osservazioni dal centro della distribuzione. Proviamo a utilizzare la media per caratterizzare il centro della distribuzione. Possiamo costruire delle distanze tra le osservazioni e il centro della distribuzione rappresentata dalla media aritmetica. La distanza che possiamo prendere ci può essere data dallo scarto al quadrato , ovvero la differenza tra le osservazioni e la media aritmetica. Calcoliamo tutti gli scarti e poi li eleviamo al quadrato → (xi − M)^2. Perché prendiamo il quadrato? Perché ha la caratteristica di enfatizzare le distanze grandi e minimizzare le distanze piccole: se questa differenza è grande, elevandola al quadrato sarà ancora più grande; se al contrario sarà piccolo, al quadrato sarà ancora più piccolo ( 10^2 = 100 ; 0.1^2 = 0.01.). (distribuzioni unitarie) → Dobbiamo calcolare la media aritmetica di tutti gli scarti e l’indice che ne viene fuori è la VARIANZA , ovvero la media dei quadrati degli scarti di ogni osservazione dalla media aritmetica. Calcoliamo lo scarto al quadrato e una volta fatti tutti li sommiamo e il risultato lo dividiamo per il numero di osservazioni. Es1 (distribuzioni unitarie) varianza per 5 osservazioni, la media aritmetica è M = 2.8: 𝜎^2 = 36.8 / 5 = 7.36 → VARIANZA Il fatto che la media si collochi al centro indica che, quando calcolo gli scarti, avrò degli scarti negativi e positivi. Quando calcolo lo scarto tra le osservazioni più piccole della media e la media stessa, otterrò un valore negativo e, al contrario con osservazioni più grandi, otterrò valori positivi. Per calcolare la varianza, ho bisogno degli scarti al quadrato e questo comporta che se ho gli scarti negativi, al quadrato li avrò in positivo e se positivi, rimangono positivi. Per definizione, la varianza è sempre non negativa, ovvero 0 o >0. *Se è negativa, ho sbagliato. (distribuzione di frequenza) → La varianza è la media dei quadrati degli scarti di ogni osservazione dalla media aritmetica per la frequenza. Calcolo gli scarti al quadrato e moltiplico ogni scarto al quadrato per la frequenza assoluta, sommo i prodotti e il totale lo divido per il numero di osservazioni. Stesso procedimento, ma ho le frequenze e devo moltiplicarle. In primis devo sempre calcolare la media aritmetica Es2 ore di sonno per notte, le osservazioni sono n = 80, la media aritmetica è M = 7. 𝜎^2 = 57.2 / 80 = 0.715 → VARIANZA