Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Dati, Frequenze e Misure di Tendenza Centrale - Prof. Cavicc, Appunti di Statistica

Elementi di economia e statistica unimi

Tipologia: Appunti

2020/2021

In vendita dal 22/07/2021

laraaamazzoo
laraaamazzoo 🇮🇹

4.5

(22)

19 documenti

1 / 74

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
SECONDO SEMTRE 2021
2 CFU+1 ERCITAZIONE- [email protected]
5/03/21
A cosa serve la statistica per un laureato in tecnologie alimentari?
Ogni scienza sperimentale (di base o applicata) si basa
sull’osservazione, quantificazione, sintesi e deduzioni, di un fenomeno
La useremo in altri corsi (come chimica analitica e chemiometria,
analisi sensoriale) e la troveremo in quasi tutti gli altri corsi
La dovremo usare nel tirocinio, sia sperimentale (esperimenti replicati,
raccolta e sintesi dei dati) che compilativi (per comprendere gli articoli
scientifici)
Nella professione servirà per il controllo qualità: ogni attività di
trasformazione di materia prima in alimenti ha un controllo qualità
all’ingresso, uno intermedio e uno finale prima di vendere il prodotto
attraverso campionamenti. Inoltre ci sarà un controllo di processo: il
concetto di qualità non è soggettivo, è oggettivo, un processo
dell’industria alimentare è di qualità se questa è contenuta entro certi
parametri, dati numerici che vanno analizzati.
Il linguaggio della statistica
Introduzione sul libro (statistica nella vita di tutti i giorni, capitolo 0)
La statistica nasce come un ramo della matematica che tratta l’analisi e
l’interpretazione di grandi quantità di dati. Prende i numeri dalla realtà
intorno a noi e li analizza
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Dati, Frequenze e Misure di Tendenza Centrale - Prof. Cavicc e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

SECONDO SEMTRE 2021

2 CFU+1 ERCITAZIONE- [email protected]

A cosa serve la statistica per un laureato in tecnologie alimentari?

○ Ogni scienza sperimentale (di base o applicata) si basa

sull’osservazione, quantificazione, sintesi e deduzioni, di un fenomeno

○ La useremo in altri corsi (come chimica analitica e chemiometria,

analisi sensoriale) e la troveremo in quasi tutti gli altri corsi

○ La dovremo usare nel tirocinio, sia sperimentale (esperimenti replicati,

raccolta e sintesi dei dati) che compilativi (per comprendere gli articoli

scientifici)

○ Nella professione servirà per il controllo qualità: ogni attività di

trasformazione di materia prima in alimenti ha un controllo qualità

all’ingresso, uno intermedio e uno finale prima di vendere il prodotto

attraverso campionamenti. Inoltre ci sarà un controllo di processo: il

concetto di qualità non è soggettivo, è oggettivo, un processo

dell’industria alimentare è di qualità se questa è contenuta entro certi

parametri, dati numerici che vanno analizzati.

Il linguaggio della statistica

○ Introduzione sul libro (statistica nella vita di tutti i giorni, capitolo 0)

○ La statistica nasce come un ramo della matematica che tratta l’analisi e

l’interpretazione di grandi quantità di dati. Prende i numeri dalla realtà

intorno a noi e li analizza

○ Per decidere bisogna conoscere i fatti che sottendono ai fenomeni, se

non li conosciamo non possiamo prendere delle decisioni e la

statistica fa proprio questo, analizza i dati

Calcolo delle probabilità

○ La statistica è nata con il calcolo della probabilità, con Blaise Pascal e

Pierre de Fermat, scienziati francesi del seicento, che attraverso il

calcolo della probabilità (giochi d’azzardo) consentono di passare dalla

statistica descrittiva ( analizza una popolazione) a quella inferenziale

(analizza un campione estratto)

○ È importante conoscere il linguaggio della statistica per saper analizzare i dati.

Differenza popolazione-campione

○ La popolazione (o universo di riferimento) è l’insieme di individui o oggetti che si vogliono studiare. Questi individui o oggetti vengono denominati unità statistiche. Non è necessariamente costituita da individui fisici. ○ Un fenomeno statistico (o variabile statistica) è l’oggetto dell’indagine: è una caratteristica di ogni unità statistica appartenente alla popolazione. Il fenomeno statistico è tale nel momento in cui ha una variabilità interna. ○ La popolazione viene definita da un censimento, (dal latino censere: giudicare, valutate) uno studio effettuato su tutta la popolazione. es. ISTAT: censimento generale dell'agricoltura, censimenti generale della popolazione e delle abitazioni. ○ I censimenti vengono svolti a cadenza decennale perché almeno c’è una variabilità della popolazione e perché sono costose in termini di risorse

estratto dalla popolazione, quella è una statistica, cioè un valore numerico che descrive una caratteristica di un campione (es. lotto di frumento destinato alla produzione di pasta, è un parametro perché è legato al lotto, alla popolazione. Invece il contenuto medio di glutine ottenuto da un campione estratto dalla popolazione per stimare il tenore in glutine della popolazione, è una statistica. Entrambi sono valori medi, ma uno è riferito alla popolazione, l’altro al campione estratto da questa popolazione) ○ Parametro e statistica sono speculari, ma il primo è riferito alla popolazione stessa e il secondo al campione estratto da tale popolazione

Quali fattori influenzano la dimensione del campione?

○ I fattori che possono influenzare la dimensione del campione sono la variabilità della popolazione, maggiori sono le dimensioni del campione e maggiore è la variabilità. ■ Come facciamo a sapere la variabilità della popolazione? Solo attraverso il campione, allora è un problema ricorsivo—> usiamo il campione per stimare parametri come la variabili di popolazione—> ci sarà sempre un certo margine di errore. ■ L’altro elemento che influenza la dimensione del campione è che errore di campionamento siamo disposti a tollerare, se vogliamo minimizzare l’errore di campionamento il fatto di voler essere più precisi fa si che aumentino i costi, infatti per avere una buona qualità del prodotto in entrata e in uscita i costi aumentano. ○ Inoltre ci sono le risorse disponibili: se ne ho poche avrò un campione più piccolo, ma un errore nettamente maggiore. C’è anche la dimensione della popolazione: entro certi limiti all'aumentare della dimensione della popolazione devo aumentare la dimensione del campione per poter contenere l’errore di campionamento.

○ La dimensione della popolazione è il numero delle unità statistiche della popolazione ed è indicato con “N”, mentre la dimensione del campione si indica con “n”

Selezionare un campione

○ Come selezionare un campione? È importante che quello che estraiamo dalla popolazione rispecchi le stesse caratteristiche della popolazione da cui viene estratto. Quando un campione non è rappresentativo della popolazione diciamo che è distorto ed è ciò che non vogliamo ogni volta che dobbiamo fare campionamento ○ Un campione casuale semplice è un campione scelto in modo tale che tutti i membri della popolazione abbiamo a priori la stessa possibilità di essere scelti. Inoltre ogni campione della stessa dimensione ha la stessa probabilità di essere estratto. Se eseguiamo correttamente un campionamento casuale semplice dovremmo minimizzare gli errori di campionamento (Es. gioco del lotto. Campione casuale semplice (con o senza reimmissione))

○ Il campione potrebbe essere distorto perché c’è una selezione nella distribuzione di quelli seduti in aula che tende ad indicare un interesse a partecipare di più che di solito sta in prima fila essendo quindi più interessato di chi sta nelle file più indietro. Quindi se intervisto chi sta più avanti induco una distorsione perché vado a selezionare i ragazzi più interessanti. Se voglio avere un’immagine veritiera per ottenere un campione casuale semplice andrei a campionare tra tutti i presenti in classe pescandone almeno uno per ogni fila dell’aula garantendo casualità e dovrei ridurre l’errore di campionamento ————————————————————————————————————- ○ Un’indagine statistica può riguardare l’intera popolazione (si fa censimento con cadenza temporale specifica). Da queste informazione deriviamo le statistiche descrittive, che descrivono il fenomeno nella sua interezza, cioè sull’intera popolazione. Se invece per motivi economici, di tempo, energia e risorse facciamo un’indagine campionaria anche qui avremo una statistica descrittiva che descrive il fenomeno che andiamo a esaminare solo sul campione e da queste informazioni potremo fare un’ inferenza statistica, cioè estraiamo informazioni dal campione che vorremmo che siano valide anche per la popolazione. Quindi l’inferenza statistica è estrarre delle indicazioni sulla popolazione a partire dal campione estratto da quella popolazione.

○ Quando parliamo di statistica descrittiva, le statistiche descrittive sono delle indicazioni che sono la media, la varianza, che sono indicazioni o di tendenza centrale o di dispersione attorno alla media, che si applicano sia al campione che alla popolazione. Pretendiamo per esempio la media di popolazione, che è un parametro, la media del campione è una statistica; Entrambi però, l’insieme degli indicatori di tendenza centrale come media, mediana e moda e di dispersione attorno alla media, come scarto quadratico medio e mediazione standard, si chiamano statistiche descrittive, sia che siano riferite alla popolazione, sia che siano riferite al campione. La media insieme agli indici di variabilità della media sono chiamate statistiche descrittive.

Tipi di dati

○ Il tipo di analisi che applichiamo dipende dal tipo di dati raccolti. È importante identificare i dati prima di analizzarli e ci sono due tipi di dati: qualitativi e quantitativi. I primi ci descrivono una qualità, ovvero un valore non intrinsecamente numerico e tali valori vengono detti categorie o modalità; questi dati prendono valori che non possono essere ordinati e sono detti dati nominali definiti anche categoriali (es: genere, stato civile, colore occhi). Se i dati qualitativi possono essere ordinati abbiamo i dati ordinali (es: livello di gradimento, livello di accordo) e spesso sono ottenuti utilizzando le scale di likert per i questionari. (Un esempio possono essere le recensioni su siti internet, i questionari di valutazione della didattica ) ○ Le scale di Likert sono utilizzate per raccogliere informazioni su atteggiamenti e opinioni, incluso il grado di consenso di un’affermazione. Frequenza di uso, importanza di un argomento, qualità e gradimento. Di solito quando le scale Likert sono usate in numero pari si vuole evitare che i rispondenti si concentrino sulla risposta centrale e far si che prendano una decisione in parte a favore o in parte contro a ciò per cui stanno votando. ○ I dati quantitativi invece sono numerici, possono essere discreti, quelli che si rilevano mediante conteggio (0,1,2..) (es: numero pezzi difettosi, numero fratelli) oppure possono essere dati continui, risultato di misurazioni e

Statistica descrittiva: Rappresentazione dei dati mediante grafici e tabelle La sommatoria ● Il simbolo sigma è una notazione sintetica, utilizzata per scrivere formule statistiche. Deriva dalla lettera dell’alfabeto greco, maiuscola. n=indica il campione Dati grezzi Quando i dati sono stati raccolti, il risultato iniziale di solito è una lista (database) di quanto osservato su ogni unità statistica (rappresentata da una riga) e per ogni variabile ( rappresentate nelle colonne). La prima colonna riporta un codice identificativo di ogni unità statistica.

Quante volte ogni valore o ogni categoria ricorre nei dati? Per riassumere le informazioni grezze del campione bisogna costruire una tabella. La tabella di frequenza, o di distribuzione di frequenza; registra ogni: -categoria, valore o classe di valori che una variabile può assumere (prima colonna)

  • il corrispondente numero di volte con cui essa ricorre nei dati, detto frequenza assoluta Tabelle di frequenza Una tabella di frequenza semplice consta di due colonne: -nella prima colonna, ogni riga riporta uno dei valori della variabile di interesse -nella seconda colonna ogni riga riporta il corrispondente numero di volte che tale valore ricorre nel campione

N qua è 28, la somma totale ● Per dati grezzi quantitativi discreti derivati da un conteggio

Campione di 28 corrispondenti. Rappresentazione grafica non va bene perché non rappresenta il valore 0.

Arrotondiamo a 5 classi. Dimensione di ogni classe è la differenza diviso 5. Costruiamo il nostro campione per ogni classe Per garantire non ci sia sovrapposizione di ogni classe metto il segno minore e uguale. Vado a contare quante sono le osservazioni in ogni classe. 8,10,8.. per un totale di 30

Per migliorare la leggibilità della tabella vado a usare valori interi. Frequenza assoluta. Quante osservazioni ricadono in ogni categoria La frequenza relativa La frequenza relativa rfi è il rapporto tra la frequenza assoluta e il numero totale delle osservazioni dimensione campione n La frequenza relativa può essere espressa come una frazione, un numero decimale o una percentuale. La frequenza quale è la relativa? È la frequenza assoluta diviso il numero di matricole.

Come facciamo a rappresentare? Prendo 3 e divido per 30 e ottengo 0.1 che è il 10%. Possiamo aggiungere una terza variabile: la frequenza cumulata. Frequenza prima classe sommata alla seconda e così via La frequenza relativa cumulata di una classe ● è la somma delle frequenze relative di ogni classe e di tutte le classi precedenti. ● Indica la frazione (o percentuale) di unità del campione rappresentano una classe uguale più piccola di quella in esame. ● si può calcolare per variabili almeno ordinabili (quindi non per variabili qualitative nominali)!

La tabella di frequenza è la rappresentazione grafica delle frequenze. Di solito le modalità più frequenti sono diagrammi (a torta) oppure di diagrammi a barre (nominali no istogrammi ma diagramma a barre!!) ● Per dati qualitativi ordinali L’altezza delle barre rappresenta la frequenza assoluta o relativa. ● Per dati quantitativi discreti:istogramma