Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Descrizione e Concetti Base, Appunti di Statica

Una introduzione alla statistica descrivendo le modalità discreta e continua, la statistica descriptiva e inferenziale, le scale di misura e i grafici utilizzati per rappresentare i dati. Vengono inoltre introdotti concetti come frequenza assoluta, relativa, percentuale, cumulata, media, media ponderata, mediana, range, varianza, scarto quadratico medio, coefficiente di variazione, z-score, primo, secondo e terzo quartili, differenza interquartili, range, rho, residuo e coefficiente di determinazione.

Tipologia: Appunti

2020/2021

Caricato il 21/01/2021

aboutannina98
aboutannina98 🇮🇹

4 documenti

1 / 7

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
FONDAMENTI DI STATISTICA
CAP. 1 - RACCOLTA DELLE INFORMAZIONI
STATISTICA = scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le info
per arrivare ad 1 o più conclusioni. Info codificata fornisce dati o modalità. La statistica fornisce
risposte a specifiche domande di ricerca.
POPOLAZIONE = intero gruppo di individui studiato.
COLLETTIVITà = sottoinsieme della popolazione che sta per essere studiato.
Una statistica è un descrittore del campione, un parametro è un descrittore della popolazione.
STATISTICA DESCRITTIVA = si basa sull’osservazione e studio della popolazione, consiste
nell’organizzare e riassumere dati
STATISTICA INFERENZIALE = si basa sui campioni, si concentra sui risultati ottenuti da un
campione e li estende a tutta la popolazione.
PROCESSO STATISTICO:
- identificare obiettivo ricerca
- raccogliere dati necessari
- descrivere i dati
- fare inferenza
Le caratteristiche di un individuo si chiamano variabili e possono essere:
- VARIABILI QUALITATIVE = classificazione unità statistiche in base ad attributi,
caratteristiche o qualità (genere, codice postale)
- VARIABILI QUANTITATIVE = forniscono caratteristica numerica delle unità statistiche
(temperatura)
DISCRETA = modalità delle variabili assumono un numero finito di valori (es. numero di
automobili che arrivano al McDrive)
CONTINUA = modalità delle variabili assumono un numero infinito di valori come 0,1 o 0,345 (es.
la distanza che una macchina può percorrere con un pieno)
SCALE DI MISURA:
- NOMINALE = se le sue modalità sono nomi, etichette o categorie e non è possibile istituire
nessun ordinamento (genere)
- ORDINALE = stesse proprietà della nominale, ma è possibile istituire un ordine (titolo di
studio)
- A INTERVALLI = stesse proprietà della ordinale e le differenze delle sue modalità hanno
significato. Lo 0 non significa assenza di quantità (temperatura)
- A RAPPORTI = stesse proprietà di quella a intervalli e i rapporti dei suoi valori hanno un
significato logico. Lo 0 significa assenza di quantità (numero di volte che uno studente è
andato al cinema)
CAMPIONAMENTO = è la procedura per la selezione di un campione.
Utilizzo di un campione risponde a 3 esigenze:
- risparmio di tempo
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Statistica: Descrizione e Concetti Base e più Appunti in PDF di Statica solo su Docsity!

FONDAMENTI DI STATISTICA

CAP. 1 - RACCOLTA DELLE INFORMAZIONI

STATISTICA = scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le info per arrivare ad 1 o più conclusioni. Info codificata fornisce dati o modalità. La statistica fornisce risposte a specifiche domande di ricerca. POPOLAZIONE = intero gruppo di individui studiato. COLLETTIVITà = sottoinsieme della popolazione che sta per essere studiato. Una statistica è un descrittore del campione, un parametro è un descrittore della popolazione. STATISTICA DESCRITTIVA = si basa sull’osservazione e studio della popolazione, consiste nell’organizzare e riassumere dati STATISTICA INFERENZIALE = si basa sui campioni, si concentra sui risultati ottenuti da un campione e li estende a tutta la popolazione. PROCESSO STATISTICO:

  • identificare obiettivo ricerca
  • raccogliere dati necessari
  • descrivere i dati
  • fare inferenza Le caratteristiche di un individuo si chiamano variabili e possono essere:
  • VARIABILI QUALITATIVE = classificazione unità statistiche in base ad attributi, caratteristiche o qualità (genere, codice postale)
  • VARIABILI QUANTITATIVE = forniscono caratteristica numerica delle unità statistiche (temperatura) DISCRETA = modalità delle variabili assumono un numero finito di valori (es. numero di automobili che arrivano al McDrive) CONTINUA = modalità delle variabili assumono un numero infinito di valori come 0,1 o 0,345 (es. la distanza che una macchina può percorrere con un pieno) SCALE DI MISURA:
  • NOMINALE = se le sue modalità sono nomi, etichette o categorie e non è possibile istituire nessun ordinamento (genere)
  • ORDINALE = stesse proprietà della nominale, ma è possibile istituire un ordine (titolo di studio)
  • A INTERVALLI = stesse proprietà della ordinale e le differenze delle sue modalità hanno significato. Lo 0 non significa assenza di quantità (temperatura)
  • A RAPPORTI = stesse proprietà di quella a intervalli e i rapporti dei suoi valori hanno un significato logico. Lo 0 significa assenza di quantità (numero di volte che uno studente è andato al cinema) CAMPIONAMENTO = è la procedura per la selezione di un campione. Utilizzo di un campione risponde a 3 esigenze:
  • risparmio di tempo
  • risparmio di costi
  • praticità nella gestione Si distinguono 2 campionamenti: probabilistico e non probabilistico. PROBABILISTICO:
  • CASUALE SEMPLICE = utilizza il caso per selezionare gli individui di un campione, si assegna ad ogni individuo un numero, si procede con l’estrazione dei numeri e i numeri estratti rientrano in una lista detta “lista di campionamento” (frame). Un campione è rappresentativo solo se la scelta degli individui si basa sulla casualità piuttosto che sulla comodità.
  • STRATIFICATO = popolazione si suddivide in gruppi non sovrapposti chiamati “strati” e in seguito si ottiene un campione casuale semplice da ogni strato, richiede un frame.
  • SISTEMATICO = tecnica che non richiede un frame, si ottiene selezionando ogni k-esimo individuo della popolazione.
  • A GRAPPOLI = si selezionano tutti gli individui all’interno di un gruppo (cluster) individuato casualmente. Stratificato e a grappoli sono diversi. Nel primo si divide la popolazione in 2 o più gruppi omogenei e poi si ottiene un campionamento casuale semplice da ognuno. Nel secondo si divide la popolazione in gruppi ottenendo un campionamento casuale semplice dagli stessi. NON PROBABILISTICO (ragionato, quote): si ha quando gli individui inclusi nell’indagine sono individuati in maniera non casuale. ERRORE DI CAMPIONAMENTO = tecniche usate per selezionare gli individui tendono a favorire una parte della popolazione piuttosto che un’altra (campione non rappresentativo). ERRORE LEGATO AI NON RISPONDENTI = individui appartenenti al campione, che non hanno risposto all’indagine, hanno opinioni differenti da coloro che vi hanno partecipato. ERRORE LEGATO AI RISPONDENTI = risposte sull’indagine non riflettono i veri sentimenti degli intervistati. ERRORI NON LEGATI AL CAMPIONAMENTO = derivano da sottocopertura, risposte mancanti, risposte errate.

CAP. 2 – ORGANIZZARE E SINTETIZZARE I DATI

FREQUENZA ASSOLUTA = corrisponde al numero di osservazioni appartenenti a ciascuna modalità, elenca tutte le tipologie di modalità FREQUENZA RELATIVA = corrisponde alla proporzione o percentuale di osservazioni appartenenti a una determinata categoria rispetto al totale delle osservazioni FREQUENZA PERCENTUALE = prodotto delle frequenze relative per 100 FREQUENZA CUMULATA = somma consecutiva delle frequenze, indica il numero di unità statistiche con la modalità del carattere x non superiore ad un determinato valore GRAFICI:

  • A BARRE = uno dei sistemi più comuni per rappresentare i dati qualitativi, con cui possiamo rappresentare sia quelli nominali che ordinali. Sull’asse orizzontale indico le modalità, sull’asse verticale la frequenza assoluta o relativa. Per ciascuna modalità si disegna un rettangolo con altezza pari alla frequenza assoluta o relativa e con ampiezza costante per tutte le barre. Il grafico a barre affiancate si usa per confrontare due insiemi di dati (es. le modalità di due anni diversi). I rettangoli sono distanti tra di loro.
  • A TORTA = utilizzato per presentare le frequenze relative di un carattere qualitativo, nominale o ordinale. Mostrano tutti i possibili valori di una variabile attraverso la rappresentazione delle sue parti, quindi offre una panoramica.

DEVIAZIONE STANDARD O SCARTO QUADRATICO MEDIO = quanto maggiore è la deviazione standard, tanto maggiore è la dispersione di una distribuzione Z-SCORE = distanza di ciascun valore dalla media, in unità di deviazione standard, si ottiene sottraendo la media dal valore della variabile dividendo per la deviazione standard (scarto q.m.). Se un valore è maggiore della media lo z-score sarà positivo, altrimenti sarà negativo. PERCENTILE = è quel valore tale per cui k per cento delle osservazioni cadono al di sotto di esso. QUARTILI:

  • PRIMO QUARTILE (Q1) = divide la distribuzione ordinata dei dati lasciando alla sua sx ¼ dei termini e alla sua dx i restanti ¾. Esprime la modalità presentata dal primo 25% del collettivo statistico.
  • SECONDO QUARTILE (Q2) O MEDIANA = bipartisce la distribuzione ordinata dei dati lasciando alla sua sx la metà dei termini. Esprime la modalità espressa dal primo 50% del collettivo statistico.
  • TERZO QUARTILE (Q3) = divide la distribuzione ordinata dei dati lasciando alla sua sx ¾ dei termini e alla sua dx ¼. Esprime la modalità presentata dal primo 75% del collettivo statistico. DIFFERENZA INTERQUARTILE = indica l’ampiezza dell’intervallo centrale nel quale è compreso il 50% del collettivo statistico (Q3-Q1) Ogni volta che si conducono analisi statistiche è necessario controllare la presenza o meno di valori molto distanti da quelli che caratterizzano la distribuzione. I valori estremi sono noti come “outliers” e influenzano la media e la deviazione standard, perché nessuna di queste misure è robusta.

CAP. 4 - DESCRIVERE LA RELAZIONE FRA 2 VARIABILI

VARIABILE RISPOSTA = i valori di questa variabile possono essere spiegati attraverso i valori della variabile esplicativa o indipendente. RELAZIONE TRA 2 VARIABILI:

  1. primo step = rappresentazione grafica attraverso il diagramma a dispersione (scatterplot)
  2. secondo step = calcolo e interpretazione del coefficiente di correlazione lineare
  3. terzo step = stima dell’equazione della retta ai minimi quadrati che esprime la relazione lineare tra le 2 variabili
  4. quarto step = calcolo e interpretazione del coefficiente di determinazione R DIAGRAMMA A DISPERSIONE (SCATTERPLOT) = grafico che mostra la relazione tra due variabili quantitative misurate sul medesimo individuo. Ciascun soggetto è rappresentato da un punto nel diagramma a dispersione. Nel diagramma non si collegano mai i punti. Due variabili si dicono concordanti se si muovono nella stessa direzione, discordanti se aumentando il valore di una, il valore dell’altra diminuisce. COEFFICIENTE DI CORRELAZIONE LINEARE = è la misura dell’intensità e della relazione lineare tra le 2 variabili quantitative. Si usa rho per la popolazione e r per il campione. Rho = +1 = perfetta relazione lineare positiva (concordanza) Rho = -1 = perfetta relazione lineare negativa (discordanza) Rho = 0 = non implica un’assenza di relazione, ma un’assenza di relazione lineare

RESIDUO = y osservato – y previsto. Quella prevista è quella calcolata con formule. RETTA AI MINIMI QUADRATI = è la retta che minimizza la somma degli errori (residui) al quadrato. COEFFICIENTE DI DETERMINAZIONE = misura la quota di variabilità della variabile dipendente spiegata dalla retta dei minimi quadrati. Più il suo valore si avvicina ad 1, più la retta descrive l’influenza che i cambiamenti nella variabile esplicativa hanno sul valore della variabile risposta. Questo coefficiente assume valori compresi nell’intervallo 0-1, ossia:

  • se è uguale a 0 vuol dire che il modello lineare non può spiegare il fenomeno
  • se è uguale a 1 vuol dire che il modello lineare spiega molto bene il fenomeno Può essere calcolato in 3 modi:
  • quadrato del coefficiente di correlazione
  • rapporto tra devianza spiegata e devianza totale
  • rapporto tra devianza dell’errore e devianza totale

CAP. 5 - INTRODUZIONE ALLA PROBABILITà

PROBABILITà = è una misura della possibilità che un fenomeno casuale possa verificarsi. Descrive l’incertezza nel breve periodo di un risultato certo nel lungo periodo. Si ottiene una valutazione probabilistica dividendo la quota di volte rispetto al totale in cui un evento è accaduto in un lungo periodo di tempo. Quindi la proporzione di lungo periodo con cui uno specifico risultato è osservabile rappresenta la probabilità di ottenere quel risultato. EVENTO = è il risultato di un esperimento probabilistico. Un evento si dice certo se la probabilità è uguale a 1 e si dice impossibile se è uguale a 0. SPAZIO CAMPIONARIO (di un esperimento probabilistico) = è l’insieme di tutti i possibili risultati. REGOLE DELLA PROBABILITà:

  1. la probabilità (P) che un evento E accada deve essere > o = 0 oppure < o = 1
  2. la somma delle probabilità di tutti i risultati di un evento deve essere pari a 1 MODELLO PROBABILISTICO = indica tutti i possibili risultati e la probabilità associata a ognuno di essi. METODO EMPIRICO (O FREQUENTISTA) = è un metodo che serve per determinare la probabilità e si basa sulla frequenza relativa con cui un evento accade. EVIDENZA EMPIRICA = evidenza basata sui risultati di un esperimento probabilistico. La probabilità di un evento E è pari circa al numero di volte in cui l’evento stesso è stato osservato, rapportato al numero di ripetizioni dell’esperimento. METODO CLASSICO = questo metodo non richiede che sia condotto un esperimento probabilistico, ma che ci siano risultati probabilistici equiprobabili, ovvero quando ogni possibile risultato ha la stessa probabilità di verificarsi (es. probabilità che esca all’estrazione il numero 6 ha la stessa probabilità che esca il numero 3). Se S è lo spazio campionario di questo esperimento, N(E) è il numero di risultati possibili in E e N(S) è il numero di risultati possibili in S.

ISTOGRAMMA DI PROBABILITà = normalmente le distribuzioni di probabilità discrete si rappresentano con l’istogramma, dove l’asse orizzontale corrisponde ai valori della variabile casuale e l’asse verticale rappresenta la probabilità associata a ogni variabile. ESPERIMENTO BINOMIALE = la distribuzione di probabilità binomiale è una distribuzione di probabilità discreta, che descrive la probabilità di esperimenti in cui esistono solo 2 eventi mutualmente esclusivi (disgiunti). Un esperimento si dice binomiale se:

  • è ripetuto un numero finito di volte; ogni ripetizione è detta prova
  • le prove sono indipendenti, quindi non si influenzano
  • in ogni prova ci sono solo 2 eventi esclusivi, successo o fallimento
  • la probabilità di successo è la stessa in ogni esperimento
  • sia p la probabilità di successo e 1-p la probabilità di fallimento

CAP. 7 – LA DISTRIBUZIONE DI PROBABILITà NORMALE

DENSITà = una funzione di densità di probabilità è un’equazione usata per calcolare le probabilità per variabili casuali continue. Deve soddisfare almeno le 2 proprietà seguenti:

  • l’area totale sottesa dal grafico dell’equazione su tutti i possibili valori assunti dalla variabile casuale deve essere pari a 1
  • l’altezza del grafico dell’equazione deve essere maggiore o uguale a 0 per tutti i possibili valori assunti dalla variabile casuale; in altri termini, il grafico dell’equazione deve essere al di sopra dell’asse orizzontale per ogni possibile valore assunto dalla variabile casuale CURVA NORMALE = una variabile casuale continua è normalmente distribuita o ha una distribuzione di probabilità normale se l’istogramma della frequenza relativa della variabile casuale ha la forma della curva normale. Se varia la media, la curva si sposta. Se varia lo scarto, la curva si alza o si appiattisce. Proprietà della curva normale:
  • è simmetrica rispetto alla media
  • media=mediana=moda
  • l’area sottesa alla curva è uguale a 1
  • all’aumentare del valore sull’asse x il grafico si avvicina sempre di più all’asse orizzontale PUNTI DI FLESSO = quei punti sulla curva normale in cui vi è cambio di curvatura. All’aumentare della media la curva si sposta, ma non cambia forma. L’aumento della devianza provoca un appiattimento della curva. CURVA NORMALE STANDARDIZZATA = deriva dalla curva normale; utilizzando i dati della curva normale si ottiene quella standardizzata, ossia una nuova distribuzione con media pari a 0 e varianza pari a 1 e si scriverà N(0,1). I punti di flesso corrispondono a -1 e 1.