



































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Esercizi e prove esame statistica
Tipologia: Prove d'esame
1 / 43
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




































STATISTICA DESCRITTIVA
La distribuzione dell’ammontare in euro speso da 100 individui che hanno trascorso fuori casa le feste di fine anno può essere descritta dalle seguenti misure di sintesi:
Ammontare speso Valore Indice Minimo 359 1° Quartile 406 Mediana 421 3° Quartile 450 Massimo 610
Rispondere alle seguenti domande utilizzando le informazioni fornite.
a) Rappresentare graficamente la variabile Ammontare speso. b) La media è più piccola o più grande della mediana? Commentare il risultato. c) Valutare se sono presenti dati anomali (outlier) motivando la risposta.
Soluzione a) La rappresentazione grafica della distribuzione di Ammontare speso possibile con i dati assegnati è il box plot, che viene riportato di seguito:
b) La distribuzione dell’ammontare speso è obliqua a destra (asimmetria positiva), di conseguenza la media è maggiore della mediana. c) La differenza interquartile è pari a DI = 450 – 406 = 44. Indicati con T 1 = Q 1 – 1.5 DI = 406 – 66 = 359 e con T 2 = Q 3 + 1.5 DI = 450 + 66 = 516 le due soglie inferiore e superiore, sono considerati valori anomali le osservazioni il cui valore è più piccolo di T 1 o più grande di T 2. In questo caso abbiamo almeno un valore anomalo nella coda destra, poiché il massimo (610) è più grande di T 2_._
(^1) Si ringraziano Alberto Biffi, Emilio Gregori, Alessandro Recla e Emiliano Sironi per la preziosa collaborazione.
È stata effettuata un’indagine in tre città della Grecia riguardante la compagnia di telefono cellulare utilizzata ottenendo i risultati riportati nella tabella seguente:
Città Fornitore Atene Salonicco Patrasso Wind 0.4 0. Vodafone 0.10 0.
a) Completare la tabella sapendo che il numero di clienti Wind è del 50% più alto di quelli Vodafone e che i clienti Wind intervistati sono stati 600. b) Considerando unicamente la città di Patrasso, calcolare quanti sono i clienti Wind e Vodafone intervistati.
Soluzione a) Indichiamo con W il numero di clienti Wind intervistati e con V il numero di clienti Vodafone intervistati. Dal testo sappiamo che W = 1.5 × V , quindi 600 = 1.5 × V ottenendo V = 400 per un totale di 1000 individui intervistati.
Possiamo quindi ricostruire la tabella congiunta ottenendo:
Città Fornitore Atene Salonicco Patrasso Marginali di riga Wind 0.4 0.17 0.03 0. Vodafone 0.25 0.10 0.05 0. Marginali di colonna 0.65 0.27 0.08 1
b) 0.03·1000 = 30 intervistati di Patrasso sono clienti Wind, mentre 0.05·1000 = 50 sono clienti Vodafone.
I dati rappresentati nella seguente tabella sono stati raccolti durante un’indagine sull’uso del telefono cellulare su un campione di 12 utenti.
Età
Telefoni posseduti
Ore di chiamata
Spesa settimanale in euro Sesso Età × Spesa 19 1 3 24 M 456 16 1 8 30 F 480 60 1 2 10 M 600 24 2 5 31 M 744 49 3 25 115 F 5635 12 1 20 25 M 300 28 2 10 96 F 2688 47 1 9 30 F 1410 21 2 5 19 M 399 21 1 10 108 F 2268 57 1 4 16 F 912 17 1 6 20 M 340 Totali 371 17 107 524 16232
a) Mediamente spendono di più i maschi o le femmine? Motivare in modo opportuno la risposta. b) Rappresentare graficamente la variabile Età attraverso un box plot. c) Calcolare la covarianza tra Età e Spesa. Commentare il risultato ottenuto.
18 30 40 50 100
0
Densità
Ammontare speso
ISTOGRAMMA 2
La classe modale è pertanto [40,50), poichè tale classe possiede la densità di frequenza più elevata.
Una catena di fast-food seleziona un campione di 9 dei suoi punti vendita per valutare la necessità e le caratteristiche di nuove aperture. Per ciascun punto vendita del campione, vengono analizzate le seguenti variabili:
POSTI numero di posti a sedere INC incasso registrato nel giorno di rilevazione (Euro) PERIF il punto vendita è collocato in periferia? (SI =1 / NO = 0)
Totali 720 25.65 65550 99.9607 2482.
a) Si costruisca il box plot della variabile POSTI. b) Si determini la covarianza tra l’incasso giornaliero (INC) e il numero di posti a sedere (POSTI).
Soluzione a) Il box plot relativo alla variabile POSTI è riportato qui sotto insieme ai numeri di sintesi usati per la sua costruzione:
Variabile X Posizione indice nella serie ordinata Valore Indice Minimo 1 50 1° Quartile (9+1)/4 = 2.5 (50+55)/2 = 52. Mediana (9+1)/2 = 5 75 3° Quartile 3·(9+1)/4 = 7.5 (90+100)/2 = 95 Massimo 9 150
b) Indicando con
covarianza campionaria è calcolata come segue (usando la formula ridotta):
=
n POSTIINC i i i
Al fine di monitorare la qualità del servizio offerto, una catena di fast-food seleziona un campione di 150 transazioni effettuate e rileva il tempo (minuti) per il quale il cliente ha dovuto attendere prima di essere servito:
tempo d’attesa n. transazioni [0, 1) 15 [1, 3) 45 [3, 5) 60 [5, 10) 30
a) Si calcoli la mediana del tempo d’attesa. b) Si calcoli la media aritmetica del tempo d’attesa c) Si calcoli lo scarto quadratico medio del tempo d’attesa.
Soluzione a) La mediana è l’osservazione centrale della serie ordinata dei dati. Preventivamente è necessario individuare la classe mediana, intesa come la prima classe che raggiunge il 50% della frequenza cumulata:
tempo d’attesa ( X )
n. transazioni Punto medio classe
Ampiezza classe
Freq. relativa
Freq. cumulata
Densità relativa [0, 1) 15 0.5 1 0.1 0.1 0. [1, 3) 45 2 2 0.3 0.4 0. [3, 5) 60 4 2 0.4 0.8 0. [5, 10) 30 7.5 5 0.2 1 0.
La classe mediana risulta essere pertanto [3, 5). Assumendo che le osservazioni siano distribuite uniformemente all’interno della classe, il calcolo della mediana è dato da:
BOX-WHISKER PLOT 1
0
20
40
60
80
100
120
140
160
Variabile X
Massimo 3° Quartile Mediana 1° Quartile Minimo
b) Qual è la percentuale di clienti che sono adulti e hanno acquistato almeno 3 articoli? Qual è la percentuale di giovani tra i clienti che hanno acquistato 4 articoli?
Soluzione a) Partendo dalla tabella delle frequenze assolute, si ricavano le marginali:
Tabella freq. Congiunte e marginali 1 2 3 4 Frequenze marginali numero articoli giovane 7 2 8 3 20 adulto 3 9 6 12 30 anziano 28 20 12 20 80 Frequenze marginali età 38 31 26 35 130
Le frequenze marginali sono utili per il calcolo delle subordinate degli articoli venduti condizionatamente all’età, come segue:
Tabella freq. Subordinate (ARTICOLI | ETA’) 1 2 3 4 giovane 35.00% 10.00% 40.00% 15.00% adulto (^) 10.00% 30.00% 20.00% 40.00% anziano 35.00% 25.00% 15.00% 25.00%
Dalla tabella delle frequenze subordinate emerge come, condizionando per l’età, i giovani prevalentemente acquistino 3 articoli, mentre gli adulti in prevalenza 4. Gli anziani soltanto 1.
b) Percentuale di clienti che sono adulti e hanno acquistato almeno 3 articoli:
Percentuale di giovani tra i clienti che hanno acquistato 4 articoli:
Per valutare il gradimento di un nuovo tipo di panino, una catena di fast-food ha commissionato un’indagine campionaria ad una società di ricerche. Ad ogni intervistato è stato chiesto di esprimere un giudizio sul nuovo tipo di panino; la società di ricerche ha prodotto il seguente grafico:
35.00%
10.00%
40.00%
15.00%
10.00%
30.00%
20.00%
40.00%
35.00%
25.00%
15.00%
25.00%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
giovane adulto anziano
Serie Serie Serie Serie
a) Si indichino la tipologia e la scala di misurazione della variabile “gradimento”. b) Il grafico è adeguato a rappresentare il fenomeno rilevato? Si risponda motivando brevemente la risposta.
Soluzione a) Tipologia: variabile categorica. Scala di misurazione: dato qualitativo ordinale. b) No, perché il grafico più adeguato per illustrare la variabile è un diagramma a barre con ordinamento delle categorie in senso crescente o decrescente.
A seguito del diffondersi di voci di irregolarità nell’amministrazione di una società, è stato deciso di farne esaminare la contabilità per valutare la reale situazione. La revisione è stata commissionata ad una società che ha diviso i revisori in due gruppi, affidando ad uno la gestione operativa e all’altro la gestione finanziaria. È stato valutato che il 75% delle operazioni contabili riguarda la gestione operativa, mentre la rimanente percentuale riguarda le operazioni di natura finanziaria. Al termine del controllo, ciascun gruppo redige un rapporto contenente un prospetto che riassume i risultati della propria attività d’ispezione. Indicato con A l’ammontare dichiarato (in milioni di euro), P indica la percentuale rispetto ad A identificata come irregolare.
Prospetto del gruppo GESTIONE OPERATIVA P [0, 10) [10, 20) [20, 30) [30, 50) > Freq. rel. 0.19 0.25 0.274 0.24 0.
Prospetto del gruppo GESTIONE FINANZIARIA P [0, 10) [10, 20) [20, 30) [30, 50) > Freq. rel. 0.4 0.35 0.15 0.1 0
a) Si calcolino la media e la varianza di P nell’ambito della gestione finanziaria. b) Si ricavi la percentuale di operazioni, tra quelle di natura operativa, per le quali P è maggiore o eguale al 10%. c) Con i dati a disposizione, si costruisca la tabella delle frequenze relative congiunte per i caratteri P e T = Tipo di gestione con modalità “Gestione operativa” e “Gestione finanziaria”.
Soluzione a) Essendo la variabile P in classi di intervallo, occorre considerare i punti medi delle classi:
5
1
i i
5
1
∑ i =
Totale; buono; 18; 18%
Totale; insufficie nte; 7; Totale; 7% molto buono; 50; 50%
Totale; sufficien te; 25; 25%
GRADIMENTO
Occhiali Fr(N.Occhiali|Maschi) Fr(N.Occhiali|Femmine) 0 19.20%^ 6.00% 1 34.40% 25.00% 2 23.20% 45.00% 3 12.00% 20.00% 4 11.20% 4.00%
b) La percentuale di maschi tra coloro che non possiedono occhiali è pari a
Nell’intero campione la percentuale è pari a
c) Il numero medio di occhiali posseduti dagli individui di sesso femminile è calcolata nel seguente modo:
La tabella seguente riporta i dati relativi a 10 regioni della Cina:
Regione W Z X Y 1 1 A 300 50 2 2 C 1500 250 3 1 A 450 70 4 2 B 600 75 5 1 C 1200 200 6 2 B 500 65 7 3 D 1050 190 8 1 B 350 60 9 1 A 700 80 10 2 B 900 90
19.20%
34.40%
23.20%
12.00%
11.20%
6.00%
25.00%
45.00%
20.00%
4.00%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Maschi Femmine
4 3 2 1 0
4
0
. =^ ∑ ⋅ = ⋅ + ⋅ + ⋅ + ⋅ + ⋅ = =
i
Femm i i
dove: W tipologia della zona geografica (1 = “settentrionale”, 2 = “costiera” e 3 = “meridionale”) Z economia prevalente (A = “grande industria”, B = “piccola industria”, C = “agricoltura”, D = “servizi”) X superficie in chilometri quadrati Y tonnellate di riso prodotte annualmente
a) Si specifichi la tipologia delle variabili considerate. b) Si costruisca la tabella a doppia entrata per le variabili W e Z. c) Si determinino i 5 numeri di sintesi per la variabile Y e si costruisca il box plot. Cosa si può dire in merito alla forma della distribuzione? Esistono delle osservazioni outlier?
Soluzione a) W e Z sono variabili qualitative nominali, mentre X e Y sono variabili numeriche continue. b) La tabella a doppia entrata per le variabili W e Z è data da
Z W A B C D Totale 1 3 1 1 0 5 2 0 3 1 0 4 3 0 0 0 1 1 Totale 3 4 2 1 10
c) min = 50 Posizione Q 1 = 0.25( n +1) = 0.25⋅11 = 2.75 3 Q 1 = 65 Posizione Q 2 = 0. 5( n +1) = 0.5⋅11 = 5.5 Q 2 = 77. Posizione Q 3 = 0.75( n +1) = 0.25⋅11 = 8.25 8 Q 3 = 190 MAX = 250
0
50
100
150
200
250
300
Y
Minimo 1° Quartile Mediana 3° Quartile Massimo
Poiché Q 3 – Q 2 > Q 2 – Q 1 e MAX - Q 3 > Q 1 – min la distribuzione è obliqua a destra. Poiché MAX – Q 3 = 60 e Q 1 – min = 15 sono inferiori a 1.5( Q 3 – Q 1 ) = 187.5 non ci sono outlier.
Secondo una ricerca condotta su un campione di 300 studenti della facoltà di Economia si sa che il 30% degli studenti legge il Sole 24 Ore. Il 70% degli studenti che leggono il Sole 24 Ore è di sesso maschile mentre tale percentuale scende al 40% fra gli studenti che non leggono il Sole 24 Ore. Si organizzino le informazioni fornite in una tabella di contingenza.
In una cittadina, vengono intervistate 100 persone selezionate casualmente. La seguente tabella a doppia entrata è relativa alle due domande “Intende partecipare alla sfilata in maschera il prossimo carnevale?” e “Sesso dell’intervistato”.
“Intende partecipare…” Sì No Sesso M^^12 F 13 47
a) Fornire un’opportuna rappresentazione grafica per evidenziare la possibile dipendenza della risposta alla domanda posta dal sesso dell’intervistato e commentarla. b) Qual è la percentuale di persone che intende partecipare alla sfilata? E la percentuale di coloro che intendono partecipare alla sfilata tra tutte le donne intervistate?
Soluzione a) Le due variabili oggetto d’esame sono entrambe categoriche, qualitative nominali. Un’opportuna rappresentazione grafica per evidenziare la possibile associazione tra le due variabili è costituita dal diagramma a barre sovrapposte ottenuto a partire dalle frequenze condizionate (dove il sesso svolge il ruolo di variabile condizionante, cioè di denominatore):
“Intende partecipare…” Sì No
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
M F
No Sì
Si sa che le famiglie italiane con un figlio spendono in media per il carnevale 110 euro, con una varianza di 25 euro^2. a) E’ corretto affermare che la percentuale di famiglie con un figlio che spende per il carnevale tra 100 e 120 euro sia maggiore dell’80%? Giustificare la risposta. b) Assumendo che la spesa per il carnevale abbia una forma campanulare e simmetrica, si dia una valutazione della percentuale di famiglie con un figlio che spende per il carnevale tra 100 e 120 euro.
Soluzione a) Non avendo alcuna indicazione sulla distribuzione della spesa per il carnevale delle famiglie italiane con un figlio ma conoscendo, tuttavia, la media e la varianza di tale variabile, è possibile ricorrere alla disuguaglianza di Chebyshev per rispondere alla domanda. Possiamo rappresentare l’intervallo richiesto [100;120] come m ± k σ ossia come 100 ±^ k^ ⋅^25 ,
La disuguaglianza di Chebyshev afferma che nell’intervallo considerato cadrà almeno il %
1 (^1 2)
− k delle osservazioni.
delle osservazioni, ma non possiamo sostenere con certezza che la percentuale di famiglie con un figlio che spende per il carnevale tra 100 e 120 sarà maggiore dell’80% senza ulteriori informazioni sulla distribuzione della variabile spesa. b) Sapendo che la distribuzione della variabile assume forma campanulare e simmetrica è possibile applicare la regola empirica partendo dalle medesime considerazioni del punto prededente. In questo caso la regola empirica afferma che nell’intervallo [100;120] pari a m ± 2 σ ricadrà circa il 95% delle osservazioni. È perciò possibile affermare che, utilizzando l’informazione aggiuntiva sulla distribuzione della spesa, la percentuale di famiglie con un figlio che spende per il carnevale tra 100 e 120 sarà circa il 95% del totale.
Selezionando un campione casuale di 8 studenti, si è rilevato, all’inizio del 2009, il numero di contatti presenti nella rubrica del cellulare e, per tutto il 2009, i minuti passati al telefono. I risultati sono riportati in tabella.
Numero di contatti in rubrica Minuti al telefono nell'ultimo anno 327 3787 210 2922 589 10892 333 6902 435 6897 234 5645 604 7234 390 5678 Somma 3122 49957 Somma dei quadrati 1369736 353157795
a) Quale delle due variabili riportate ha una variabilità maggiore? Giustificare la risposta calcolando un opportuno indice. b) Costruire l’istogramma della variabile “numero di contatti in rubrica”, riclassificando i dati nelle tre classi: [200;300), [300;500) e [500;650). c) Calcolare la media della variabile “numero di contatti in rubrica” sui dati originari e sui dati riclassificati secondo le indicazioni del punto b). Come può essere giustificata la differenza tra i due indici?
K
i
i i
La differenza con la media precedentemente calcolata è dovuta al fatto che, a differenza della media sui dati grezzi, quella calcolata sui dati raggruppati costituisce un approssimazione del valore reale.
ESERCIZIO D Un’azienda che produce pc netbook realizza una ricerca selezionando casualmente alcuni consumatori, ai quali viene chiesto se possiedono un cellulare o uno smartphone e se sono interessati all’acquisto di un netbook nei prossimi 12 mesi. Il grafico riportato qui sotto mostra i risultati di tali rilevazioni.
Commentare brevemente la seguente affermazione: “Le due variabili considerate (interesse all’acquisto e possesso) sono tra loro indipendenti”.
Soluzione L’affermazione è vera. Dal grafico, infatti, è possibile osservare che la percentuale di non interessati, indifferenti e interessati è esattamente la stessa tra i possessori di smartphone e i possessori di cellulare. In maniera qualitativa, è semplice vedere come le barre, tra i possessori di smartphone e quelli di cellulare, aumentino in maniera perfettamente proporzionale.
ESERCIZIO D La tabella che segue riporta i valori dell’attivo di bilancio, del fatturato e del debito finanziario (in migliaia di euro) per un campione di società quotate e non quotate iscritte nel Registro delle imprese.
Nome Impresa Tipo di società^ Attivo di bilancio^ Fatturato^ Debito Finanziario Valerio Marziale Quotata 250 480 15 Tullio Cicerone Non Quotata 175 235 100 Plinio il Giovane Quotata 480 100 200 Appio Claudio Quotata 235 300 165 Cornelio Nepote Quotata 180 210 205 Severino Boezio Non Quotata 133 120 85 Lucio Seneca Non Quotata 95 100 25 Giulio Cesare Non Quotata 235 200 45
a) Si determinino le medie del debito finanziario per le società quotate e non quotate. Quale tipologia di società risulta maggiormente indebitata? b) Si considerino le variabili “fatturato” e “attivo di bilancio” per l’intero campione. Quale carattere presenta la maggiore variabilità? c) Si determini la deviazione standard della variabile “fatturato” nelle seguenti due ipotesi: Ogni fatturato aumenta di 10 migliaia di Euro. Ogni fatturato aumenta del 10%.
Soluzione
Risultano maggiormente indebitate le società quotate.
b) Per valutare la variabilità dei due caratteri calcoliamo e confrontiamo i relativi coefficienti di variazione:
o in alternativa
o in alternativa
Possiamo quindi concludere che il carattere “Fatturato” presenta maggior variabilità CV(fatturato) > CV(attivo).
c) Sia X la variabile fatturato:
L’altezza media delle ragazze del comune di Rivendello è pari a 165 cm con deviazione standard uguale a 10 cm. Sapendo che nel comune risiedono 1000 ragazze, quale è il numero minimo di ragazze alte tra 140 e 190 cm, compatibilmente con le informazioni fornite dal problema?
Soluzione a)
75.00% 63.01%
82.35%
25.00%
36.99%
17.65%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Licenza media Diploma di maturità
Laurea
Possiede un mezzo inquinante Non possiede un mezzo inquinante
b) Possessori di licenza media = 60/150 = 40% Possessori mezzo inquinante con licenza media = 45/150 = 30%
ESERCIZIO D Su un campione di 11 clienti di una palestra sono state rilevate le seguenti quantità Abbonamento (A = Annuale, M = Mensile, S = Semestrale) Presenza (Numero di giorni alla settimana in cui frequenta la palestra) Sesso (M = Maschio, F = Femmina):
Abbonamento Età Presenza Sesso Età × Presenza M 18 1 F 18 M 23 2 M 46 A 23 3 M 69 S 28 4 F 112 M 30 2 F 60 A 19 4 M 76 A 23 2 F 46 S 22 2 M 44 S 18 4 M 72 A 22 2 F 44 M 25 1 M 25 TOTALE 251 27 612
a) Confrontare l’età media dei maschi che frequentano la palestra e quella delle femmine. b) Dopo aver classificato la variabile età nelle classi [18,21), [21,24), [24,27) e [27,31) calcolare la distribuzione congiunta di età e presenza. c) Calcolare la covarianza tra Età e Presenza, commentare il risultato ottenuto.
Soluzione a) Indichiamo l’età del cliente con X ed isoliamo le osservazioni sui maschi e sulle femmine; otteniamo:
Dall’analisi delle medie condizionate emerge come il genere influenzi l’età del cliente. b) Otteniamo la seguente tabella a doppia entrata:
Presenza Età
1 2 3 4 Totale
[18,21) 1 0 0 2 3 [21,24)^0 4 1 0 [24,27) 1 0 0 0 1 [27,31) 0 1 0 1 2 Totale 2 5 1 3 11
c) Indichiamo l’età del cliente con X e la presenza con Y. Utilizzando le somme fornite dal testo, si ottiene:
Il valore negativo della covarianza informa che esiste un’associazione negativa tra le due variabili. Per valutarne l’intensità occorrerebbe calcolare il coefficiente di correlazione.
La seguente tabella riporta le votazioni ottenute da 100 studenti della facoltà di Chimica nell’esame di Matematica generale:
Classi [18,21) [21,24) [24,27) [27,30) Frequenza 20 60 15 5
a) Rappresentare graficamente la variabile voto. b) Calcolare la percentuale di studenti che hanno ottenuto un voto inferiore a 27.
Soluzione a) Costruiamo un istogramma; di sotto la tabella delle frequenze e delle densità di frequenza relative utili per costruire le altezze dei rettangoli che costituiscono l’istogramma. Poiché le classi sono di uguale ampiezza è accettabile anche la soluzione che pone le frequenze come altezze.
Estremi inferiori delle classi
Estremi superiori delle classi
Frequenze assolute
Frequenze relative Densità
18 21 20 0.2 0. 21 24 60 0.6 0. 24 27 15 0.15 0. 27 30 5 0.05 0.