Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Dispense e appunti statistica, Dispense di Statistica

Università telematica Universitas Mercatorum (UNIMERCATORUM)Statistica

Prof. Alessandro Melchionna

Ottimo file per studiare statistica senza seguire le video lezione e prendere un ottimo risultato

Tipologia: Dispense

2020/2021

In vendita dal 03/11/2022

meli9341 🇮🇹

4.2

(99)

22 documenti

1 / 154

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Statistica

Melissa Galfo

Scopri Dispense di Statistica Università telematica Universitas Mercatorum (UNIMERCATORUM)

Documenti correlati

RIASSUNTO COMPLETO STATISTICA

(1)

Riassunto statistica prof. Alessandro Melchionna, Annamaria Porreca

(1)

Paniere di Statistica L-18 Mercatorum

(1)

Domande esame Statistica per Economia e Impresa

(4)

Appunti corso statistica

Elaborato Statistica 2022/2023

Elaborato di Statistica

ELABORATO CAR , STATISTICA 1 ANNO UNIMERCATORUM

Elaborato di Statistica sulla Regressione (2023)

Riassunto di Statistica L-18 Mercatorum

(3)

Introduzione alla Statistica: Esercizi e Domande - Prof. Melchionna

(1)

Introduzione alla Statistica: Media, Varianza e Variabilità - Prof. Melchionna

Anteprima parziale del testo

Scarica Dispense e appunti statistica e più Dispense in PDF di Statistica solo su Docsity!

Statistica

Melissa Galfo

Statistica

OBIETTIVI E PROGRAMMA DEL CORSO DI STATISTICA

Parte 1: elementi di statistica Descrittiva – Esplicativa

Si descrivono e sintetizzati popolazioni. Verranno forniti i concetti basi per costruire grafici, indici di locazione e indici di variabilità.

Vengono pure spiegati pure gli indici di orma, indici di omogeneità e concentrazione, la concentrazione dei redditi.

Vengono analizzati anche le rilevazioni doppie, le tabelle a doppia entrata, i grafici per le rilevazioni doppie, la misura della connessione fra due caratteri e il concetto di indipendenza.

Studiamo pure l’interpolazione lineare: y=A+bx , il calcolo dei coefficienti (a,b) e la proprietà dei coefficienti.

Tratteremo pure le fonti statistiche nazionali e internazionale, le rilevazione dell’ISTAT e le fonti territoriali e locali.

Parte 2: elementi di calcolo della probabilità

Studiamo gli eventi casuali ed algebra degli eventi; le variabili causale discrete e continue e i momenti delle variabili casuali.

Analizziamo pure alcune particolari variabili casuali come quella di Bernouilli, la binomiale, la normale o di Gauss e altre cariabili derivate dalla normale

Parte 3: elementi di inferenza statistica

Analizziamo cosa si intende per popolazione, per campioni e per campioni casuali.

Anche le stime come quelli della media, di una percentuale, della varianza e della correlazione lineare.

L’ultima parte riguarda la stima di ipotesi, test su una o più medie o percentuali o sulla correlazione, e anche gli intervalli di confidenza delle medie e delle percentuali.

Analizziamo anche l’interpolazione e regressione lineare, la stima dei parametri, test sui parametri, analisi dei residui del modello di regressione e la validazione del modello e bontà di adattamento.

Si selezione solo un insieme di unità statistiche all’interno della popolazione di riferimento.

La teoria dei campioni definisce i criteri di selezione di tali unità della popolazione al fine della formazione del campione.

L’indagine basata su campione viene detta indagine campionaria.

Dei vantaggi che possono derivare dal compiere un’analisi sulla popolazione sono: Esaustività, ricchezza di informazioni, maggior dettaglio (copertura). Invece, per quanto riguarda i svantaggi sono: costi elevati, lunghi tempi di elaborazione, difficoltà raggiungere tutti, qualità di informazioni(?).

I vantaggi che riguardano l’utilizzo del campione sono: economicità, possibilità ripetizione indagine, indagine mirate, tempestività. Gli svantaggi sono: errore campionari, minor livello di copertura, selezione campione.

Il dettaglio informativo è sicuramente maggiore nel caso delle indagini censuarie, con una copertura territoriale molto dettagliata. D’altro canto però, la costruzione di un campione rappresentativo con una corretta copertura, permette di ricavare più informazioni differenziate, per via dei costi e dei tempi ridotti.

Statistica descrittiva e inferenza

La statistica descrittiva si occupa di descrivere e sintetizzare (con tabelle, grafici, indici sintetici, ecc) le informazioni (qualitative e quantitative) relative ad un certo gruppo di “soggetti” al fine di far emerge caratteristiche, andamenti ed eventuali relazioni che si verificano all’interno del fenomeno analizzato. Fanno parte della statistica descrittiva: la costruzione delle tabelle e dei grafici, il calcolo delle medie, l’analisi della variabilità, le tabelle doppie di contingenza e la retta di regressione.

La statistica inferenziale utilizza le informazioni raccolte da un’indagine campionaria e la “manipola” (grazie all’utilizzo di opportuni “modelli”) in modo da poter generalizzare le indicazioni tratte dal gruppo (analisi parziale) investigato a tutta la popolazione dalla quale tale gruppo è stato estratto. Argomenti tipici dell’inferenza sono: il calcolo della probabilità, le variabili casuali, il teorema del limite centrale, gli stimatori, la stima per intervallo e i test.

Gli strumenti della statistica descrittiva permettono di sintetizzare e rappresentare i dati osservati. L’inferenza è un processo induttivo che permette di passare dal particolare (l’indagine campionaria) al generale (la popolazione da cui è stato estratto il campione). Il passaggio dal campione alla popolazione avviene in condizioni di incertezza. L’inferenza usa strumenti probabilistici per estendere le informazioni campionarie alla popolazione.

CLASSIFICAZIONE DEI FENOMENI STATISTICI

Tipologia di fenomeni e modalità

I dati a disposizione dello statistico non hanno tutti la stessa natura, poiché i fenomeni statistici rilevati possono essere di diverso tipo. Spesso tale differenza è dovuta alla maniera in cui i dati sono stati raccolti.

Esiste un ordine nella tipologia dei caratteri rilevati, definito in base all’informazione che se ne può estrarre con il metodo statistico. Nell’ordine più basso sarà possibile effettuare poche operazioni sui dati rilevati e ricavare indicazioni di basso livello informativo, nella parte alta della graduatoria d’ordine ritroviamo invece caratteri a forte contenuto informativo che possono essere gestiti in diversi modi.

Il carattere è la caratteristica oggetto di studio rilevata e/o misurata sulle unità statistiche.

Il carattere osservato sull’unità statistica si può esprimere attraverso un attributo ( carattere qualitativo ) o attraverso un numero ( carattere quantitativo ).

ES. con l’unità statistica 27, chiediamo quanti esami ha sostenuto? 2 esami (carattere quantitativo); successivamente il voto (28), carattere quantitativo. Invece nella terza colonna viene indicato il grado di soddisfazione (ottimo) ed è un carattere qualitativo. Nella quarta colonna, viene indicato se è frequentante o meno…

I caratteri qualitativi sono divisi in:

Carattere qualitativi sconnessi (non ordinabili, ad esempio: sesso, stato civile…)
Carattere qualitativo ordinabile (ad esempio: livello nella professione, grado militare).

I caratteri quantitativi sono divisi in:

Caratteri quantitativi discreti, cioè in grado di assumere sol un numero discreto (finito o infinito) di modalità (ad esempio: numero di figli di una coppia, voto esame universitario=);
Caratteri quantitativi continui, cioè in grado di assumere qualunque valore all’interno di un intervallo definito (ad esempio: peso, reddito).

Il modo in cui il carattere si manifesta sulla singola unità statistica è detto “modalità”.

Operazioni sulle modalità

A ciascun tipologia di carattere corrispondono diverse operazioni applicabili.

Abbiamo sempre un attributo e quindi un carattere qualitativo, la differenza è che si può notare un ordine, (carattere qualitativo ordinabile).

La 4a unità ha il titolo più alto >;
La 5° unità ha il titolo più basso <;
La 1° e la 3° hanno lo stesso titolo =;
La2a e la 5° hanno titolo diverso ≠.

Esempio carattere quantitativo

Su 4 studenti viene chiesto il voto dell’esame di statistica.

Analizziamo:

Esso è un carattere quantitativo, in modo da quantificare la differenza.

Il voto di Lucia è diverso (≠) da quello di Marco;
Matteo ha preso un voto maggiore di Marco (>);
La differenza tra il voto di Marco e Luca è di 4 punti(-)

Le modalità del carattere è espressa con un numero intero: carattere quantitativo discreto. Possiamo utilizzare le operazioni: =; ≠; >; <; +; -; :

Su questi 4 studenti viene chiesto il peso.

È sempre un carattere quantitativo, ma continuo. In quanto i numeri sono decimali.

La differenza tra il peso di Marco e Luca è di 16.2 kg (-)
Matteo pesa di meno rispetto a Marco.

LE DISTRIBUZIONI DI FREQUENZA

1. Le frequenze semplici

Riportare informazioni con questo tipo di tabella è molto discorsivo e facile.

I caratteri osservati sono di diversa tipologia: - Sesso e Laurea sono qualitativi sconnessi - Età, Voto, Componenti sono quantitativi discreti - Reddito è quantitativo continuo.

Bisogna compiere alcune operazioni di sintesi: calcolo delle frequenze.

Le frequenze semplici rappresentano il numero di volte in cui una determinata modalità del carattere si presenta sul totale delle unità osservate. Le frequenze si ricavano direttamente dal conteggio. Essi sono indicate con ni, dove i esprime la i-esima modalità. Il totale delle frequenze deve ridare il totale delle unità statistiche osservate.

Es. quanti si sono laureati in economia. riprendendo la tabella per il carattere “Sesso”:

Due modalità: M e F. Sulle 10 unità statistiche abbiamo osservato 5M e 5F. Indichiamo con x 1 la prima modalità del carattere (M) e con x 2 la seconda modalità del carattere (F).

N 1 = 5 è la frequenza associata ai M

N 2 = 5 è la frequenza associata alle F

N1+n 2 =n ossia 5+5=10 (verifica).

Il simbolo di sommatoria Σ. Inoltre, si deve specificare costa si sta sommando: ni e da dove parte la sommatoria: i=1 e fino a dove arriva la sommatoria: k.

Alcune proprietà sono:

A volte può accadere di rilevare dati quantitativi continui, che vengono raggruppati in classi, per rendere più semplice la lettura dei dati.

Esempio “Reddito”:

REDDITO FREQUENZA 14.000-20.000 5 20.000-30.000 3 30.000-40.000 2

TOTALE 10

L’obiettivo della costruzione della tabella di frequenze è quello di avere una percezione più immediata di come si distribuisce il carattere. Inoltre tale tabella è un modo più sintetico di rappresentare i dati osservati, soprattutto se questi sono di elevata numerosità.

Esempio di distribuzione di frequenza

Su 15 lavoratori di un supermercato è stato rilevato il carattere “mezzo di trasporto utilizzato per andare a lavoro”.

Le modalità del carattere sono: Mezzi pubblici (MP), Auto privata (AP), Moto (M), a Piedi (P).

Di seguito i dati osservati, elencati in sequenza: MP,M,P,M,AP,AP,AP,MP,M,AP,MP,AP,M,M,P

Raccogliamo i dati e costruiamo la distribuzione di frequenze:

Il carattere è qualitativo sconnesso e l’ordine con cui sono riportate le modalità è arbitrario.

Sulle stesse 15 persone precedenti viene chiesto anche “il tempo che impiega per arrivare a lavoro”: 65, 27, 32, 44, 51, 47, 38, 72, 18, 75, 81, 56, 45, 36, 21

Il carattere in considerazione è quantitativo continuo. È utili raccogliere i valori in classi:

L’ultima classe, per comodità, è lasciata aperta.

XI NI

P 2

M 5

AP 5

MP 3

TOTALE 15

xi ni 0-30 3 30-60 8 >60 4 TOTALE 15

LE DIVERSE TIPOLOGIE DI FREQUENZA

1. Le frequenze relative e percentuali

Le frequenze semplici che portano alla costruzione della distribuzione di frequenza si determinano semplicemente facendo il “conteggio” delle unità che presentano una particolare modalità

Abbiamo rilevato su 350 studenti il numero di esami sostenuti nell’anno in corso. I dati unitari sono ripotati di seguito:

3, 1, 3, 1, 3, 1, 1, 3, 2, 2, 1, 3, 2, 1, 1, 2, 0, 2, 1, 1, 1, 3, 2, 1, 1, 1, 1, 1, 0, 2, 0, 0, 1, 3, 2, 2, 2, 2, ....

L’utilizzo della distribuzione di frequenza ci permette una rappresentazione sintetica dell’insieme di dati.

Innanzitutto, dobbiamo individuare il tipo, le modalità di carattere.

Prima tabella di frequenza (semplice).

45 su 350 non hanno fatto esami.

36 su 350 hanno fatto tre esami 45/350=0.13= frequenza relativa (relativa al totale)

45/350*100=13= frequenza percentuale.

La frequenza relativa viene calcolata tramite il rapporto fra la frequenza e il totale. Ai fini interpretativi è tuttavia più immediato trasformare tale frequenza in percentuale, semplicemente moltiplicando per 100% il valore ottenuto precedentemente. In questo caso abbiamo la frequenza percentuale.

Notiamo tuttavia che benchè le frequenze relative e percentuali permettano di cogliere meglio il modo di distribuirsi del carattere, tali frequenze perdono una informazione fondamentale: la numerosità delle osservazioni.

Xi Ni 0 45 1 136 2 133 3 36 Totale N=

Quanti sono, in assoluto e in percentuale, i lavoratori che hanno preso al massimo 2 giorni di malattie? 35+51+113=199 (Fr. Assoluta cumulata)

14+21+46=81% (Freq. Percentuale cumulata).

Quanti sono i lavoratori che hanno preso più di 1 giorno di malattia?

246-86=

100-35=65%

ESERCITAZIONI SULLE FREQUENZE

1. Esercizio 1 sulle frequenze

In 500 aziende agricole situate in una provincia pugliese è stata rilevata la tipologia di piantagione prevalente.

Il carattere è qualitativo sconnesso, non è possibile fare un ordine. Ni sono le frequenze semplici.

Notiamo che la piantagione meno diffusa è quella di alberi di frutto con 40, mentre quella maggior diffusa e con 210 con gli ulivi.

Noi dobbiamo calcolare le frequenze relative e percentuali per i dati riportati in tabella. Dobbiamo vedere, inoltre, se ha senso calcolare le frequenze cumulate per la distribuzione data e vedere anche la percentuale di copertura della piantagione più diffusa sul territorio.

Per calcolare le frequenze relativi e percentuali usiamo due formule:

XI ni fi pi Ulivi 210 210/500=0.42 0.42100= Vigneti 80 80/500=0.16 0.16100= Alberi da frutto

Grano 170 170/500=0.34 0.34*100= Totale 500 1 100

Si aggiusta la frequenza relativa più elevata, in caso di scompensi.

Alla domanda se può avere senso calcolare le frequenze cumulate per la distribuzione data, la risposta è no. Questo perché il carattere qualitativo sconnesso e quindi l’ordine delle modalità è arbitrario.

Invece alla domanda che percentuale di copertura ha la piantagione più diffusa sul territorio è 42€, cioè gli Ulivi

Esercizio 2 sulle frequenze

Distribuzione delle aziende ICT nel comune ABC rispetto al numero di addetti:

Xi ni Ulivi 210 Vigneti 80 Alberi da frutto 40 Grano 170 Totale 500

RAPPRESENTAZIONI GRAFICHE

Indicazioni di base per i grafici

Una volta raccolti questi dati, essi devono essere distribuiti.

Le distribuzioni di frequenza sono un ottimo strumento di sintesi di dati osservati, ma spesso la loro capacità “comunicativa” non è immediata.

Può essere anche utili presentare i dati anche in forma grafica. Il grafico esprime visivamente l’andamento dei dati, espressi con i valori della distribuzione di frequenza.

Non esistono regole fisse per la costruzione e perla scelta del grafico ma si possono dare semplici consigli, affinché la rappresentazione sia la più chiara ed intuitiva possibile. È buona regola che un grafico contenga:

Titolo , con l’esatto contenuto del grafico
Assi, con l’indicazione dei caratteri riportati in essi
Legenda, per la comprensione del grafico
Unità di misura, in cui sono espressi i caratteri
Fonte, dei dati.

Nel costruire i grafici si deve fare attenzione a non farsi abbandonare troppo dalla fantasia. Bisogna individuare il grafico adatto alla tipologia del carattere analizzato e cercare di evidenziare quanto più possibile le proprietà del fenomeno.

Grafici per caratteri qualitativi sconnessi

Un carattere qualitativo sconnesso può essere rappresentato graficamente in diversi modi:

Rappresentazione tramite rettangoli
Grafici a torta
Rappresentazione tramite figure

Rappresentazione tramite rettangoli: in corrispondenza di ciascuna modalità si disegnano rettangoli di stessa base e altezza proporzionale alle frequenze.

Dalla parte orizzontale mettiamo le modalità di come si manifesta l’evento. Non c’è in questo caso un obbligo per mettere in ordine le modalità. L’unica difficoltà che si potrà incontrare e definire l’altezza per le frequenze.

Questo grafico ci permette di individuare direttamente cosa dice il grafico.

Grafico a torta: si costruisce un cerchio, i cui settori circolari (a) anno ampiezza proporzionale alle frequenze (a=fi*360°)

Grafici con figure: si sceglie una figura per rappresentare l’unità di misura e si rappresentano le modalità riportando un numero di figure proporzionale alle frequenze osservate.

Grafici per caratteri qualitativi ordinali

Se il carattere è qualitativo ordinabile si possono usare comunque le rappresentazioni grafiche viste precedentemente, ma è necessario qualche accorgimento per evidenziare l’ordine.

Il grafico a torta è fuorviante, poiché non prevede la possibilità di ordinare le modalità. L’ordine delle modalità permette più correttamente di evidenziare l’andamento del fenomeno.

Y= livello di scolarità: si tratta di un carattere qualitativo misurabile su scala ordinale. Le modalità con cui si presenta il fenomeno sono k=4 (alfabeta, Obbligo, superiore, Laurea)

Grafici per caratteri quantitativi discreti

Il grafico più adatto a descrivere i caratteri quantitativi discreti è il “grafico a barre”. È simile al grafico a rettangoli, dove però le frequenze sono rappresentate soltanto da una barra lineare.

Il grafico è riportato su un piano cartesiano, dove sull’asse orizzontale si riportano le modalità – discrete – del carattere, e sull’asse verticale le rispettive frequenze.

Yi Ni A 2 O 6 S 8 L 4 Tot. 20

L’ISTOGRAMMA

L’ampiezza e la densità della classe

L’istogramma è un particolare grafico, che necessità di accortezze.

L’aspetto importante di tener in conto è l’ampiezza e la densità della classe.

L’istogramma è la rappresentazione grafica che si usa per i caratteri quantitativo continuo.

I caratteri quantitativi continui sono rappresentati tramite tabelle con modalità espresse in classi. Al fine della costruzione del grafico è fondamentale tener conto dell’ampiezza della classe (ai):

Dove con wi e wi+1 si sono indicati gli estremi dell’intervallo.

È prevedibile che se un intervallo ha ampiezza maggiore, avrà anche frequenza maggiore. Ossia le frequenze sono condizionate dalla diversa ampiezza degli intervalli. Per depurare le frequenze dalla diversa ampiezza si calcolano le densità di frequenza (li)

La frequenza maggiore è il 7, ma non si sa se è per l’ampiezza maggiore o se è per la caratteristica del settore.

Il grado di intensità è nell’ultima colonna.

Il significato della densità di frequenza è quello di dire quanto le mie osservazioni sono “addensate” all’interno della classe. E’ come si le osservazioni venissero distribuite equamente all’interno della classe.

Le densità di frequenza possono calcolarsi per qualsiasi tipologia di frequenza (semplice, relativa o percentuale). La densità di frequenza ci dice come si distribuiscono le frequenze all’interno dell’intervallo. L’ipotesi è quella di equi distribuzione.

Rappresentazione tramite istogramma

Nella costruzione dell’istogramma è fondamentale che le aree dei rettangoli rispettino le proporzioni tra le frequenze osservate.

Se un intervallo ha una frequenza doppia rispetto ad un altro, anche la rispettiva area deve essere doppia. Al fine di rispettare tali proporzionalità è necessario calcolare le densità di frequenze e costruire l’istogramma rispetto a queste.

L’istogramma è simile al diagramma a rettangoli visto per caratteri qualitativi, solo che la base corrisponde all’intervallo osservato. Ogni rettangolo associato al rispettivo intervallo, deve avere

l’area uguale alla frequenza osservata. L’area del rettangolo è data da base x altezza , dove la base è l’ampiezza dell’intervallo.

Rappresentazione tramite istogrammi : quando abbiamo un fenomeno quantitativo continuo con dati raggruppati in classi si costruisce un istogramma procedendo come segue:

Si dispongono i valori estremi degli intervalli delle classi sull’asse delle ascisse rispettando l’unità di misure dell’asse;
Si tracciano dei rettangoli avendo come base degli estremi dell’intervallo come base degli estremi dell’intervallo e come altezza la densità di frequenza li. Attenzione: utilizzare le frequenze ni, fi o pi può portare a grafici completamente sballati.

Se invece riportiamo sull’asse delle ordinate le frequenze direttamente osservate in corrispondenza delle classi, la rappresentazione sarebbe errata, come messo in evidenza dai seguenti due istogrammi, costruiti in corrispondenza dei dati riportati nella precedente tabella.

Il primo istogramma considera sulle ordinate le frequenze. Se prendiamo i primi due intervalli, abbiamo che il secondo presenta il doppio delle osservazioni del primo. Se andiamo a fare però il confronto in termini di rettangoli, il primo ha un’area pari a 30 (=10 × 3) e il secondo pari a 48 (=8 × 6).

Quando invece disegniamo l’istogramma in riferimento alle densità di frequenze, il primo rettangolo ha un’area pari a 3 (=10 × 0.3) e il secondo pari a 6 (=8 × 0.75). In questo secondo caso è rispettata la corrispondenza tra frequenze.