






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti di statistica utili per esame
Tipologia: Appunti
1 / 11
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Probabilità
In teoria della probabilità la probabilità condizionata di un evento A rispetto a un evento B è la probabilità che si verifichi A , sapendo che B è verificato. Questa probabilità, esprime una
"correzione" delle aspettative per A , dettata dall'osservazione di B.
Il fatto che la frequenza, all'aumentare del numero delle prove fatte, tenda al valore della probabilita' classica ci fa pensare che in fenomeni in cui la probabilita classica non e' applicabile sia possibile considerare la frequenza di eventi gia' accaduti e considerarla come probabilita' di eventi futuri Cioe' in eventi in cui non si puo' applicare la probabilita' classica, ma si possano fare numerose prove possiamo considerare la frequenza degli eventi gia' accaduti come probabilita' per gli eventi dello stesso tipo che potranno accadere. In tale caso parleremo di probabilita' statistica
definizione: La probabilita' statistica di un evento casuale (aleatorio) e' un numero che esprime la frequenza relativa dell'evento in un gran numero di prove precedenti tutte fatte nelle stesse condizioni
Stimatori e stima
In statistica uno stimatore (puntuale) è una funzione che associa ad ogni possibile campione un valore del parametro da stimare. È una funzione di un campione di dati estratti casualmente da una popolazione.
Il valore assunto dallo stimatore in corrispondenza a un particolare campione è detto stima.
Uno stimatore puntuale è dunque una variabile casuale funzione del campione, a valori nello spazio parametrico (ossia nell'insieme dei possibili valori del parametro).
La stima è una valutazione effettuata dal valutatore finalizzata a stabilire il valore economico e monetario di un bene.
Talora il termine è anche riferito all’opinione ovvero la considerazione che si ha di una persona. La stima, per sua natura, è soggettiva ed a volte potrebbe non esprime un concetto finito se non accompagnato da altre parole
Varianza distorto
In statistica, i termini bias (etimologia incerta [1]^ ), distorsione o scostamento [2]^ sono usati con riferimento a due concetti. Un campione distorto è un campione statistico in cui la probabilità di inclusione nel campione di individui appartenenti alla popolazione dipende dalle caratteristiche della popolazione oggetto di studio. Uno stimatore distorto è uno stimatore che per qualche ragione ha valore atteso diverso dalla quantità che stima; uno stimatore non distorto è detto stimatore corretto. Se da un lato il termine distorsione può avere una connotazione negativa, ciò non è necessariamente vero nel contesto della statistica. Un campione distorto è in generale non desiderabile; d'altra parte, uno stimatore distorto può essere desiderabile a seconda delle applicazioni.
Regressione lineare
La regressione formalizza e risolve il problema di una relazione funzionale tra variabili misurate sulla base di dati campionari estratti da un'ipotetica popolazione infinita. Originariamente Galton utilizzava il termine come sinonimo di correlazione, tuttavia oggi in statistica l'analisi della regressione è associata alla risoluzione del modello lineare. Per la loro versatilità, le tecniche della regressione lineare trovano impiego nel campo delle scienze applicate: chimica, geologia, biologia, fisica, ingegneria, medicina, nonché nelle scienze sociali: economia, linguistica, psicologia e sociologia. Più formalmente, in statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente , o endogena , , dati i valori di altre variabili indipendenti , o esogene , L'uso dei termini endogeno / esogeno è talvolta criticato, in quanto implicherebbe una nozione di causalità che l'esistenza di una regressione non prevede; in determinati contesti, provocherebbe inoltre confusione, essendo ad esempio il concetto di esogeneità in econometria formalmente definito tramite l'ipotesi di ortogonalità alla base delle proprietà statistiche della regressione lineare col metodo dei minimi quadrati.
Intervalli di confidenza
n statistica, quando si stima un parametro, la semplice individuazione di un singolo valore è spesso non sufficiente. È opportuno allora accompagnare la stima di un parametro con un intervallo di valori plausibili per quel parametro, che viene definito intervallo di confidenza (o intervallo di fiducia ). [1]
Se e sono variabili casuali con distribuzioni di probabilità che dipendono da qualche parametro e (dove è un numero tra 0 e 1), allora l'intervallo casuale è un intervallo di confidenza al "[(1-β)*100 ]% per θ". I valori estremi dell'intervallo di confidenza si chiamano limiti di confidenza.
Ad esso si associa quindi un valore di probabilità cumulativa che caratterizza, indirettamente in termini di probabilità, la sua ampiezza rispetto ai valori massimi assumibili dalla variabile aleatoria misurando cioè la probabilità che l'evento casuale descritto dalla variabile aleatoria in oggetto cada all'interno di tale intervallo, graficamente pari all'area sottesa dalla curva di distribuzione di probabilità della variabile aleatoria nell'intervallo considerato.
È bene non confondere l'intervallo di confidenza con la probabilità. Data l'espressione "vi è un livello di confidenza del 95% che sia nell'intervallo", nulla si può dire sulla probabilità che l'intervallo ottenuto contenga [2]
Variabile aleatoria
In matematica, e in particolare nella teoria della probabilità, una variabile casuale (detta anche variabile aleatoria o variabile stocastica ) è una variabile che può assumere valori diversi in dipendenza da qualche fenomeno aleatorio. Ad esempio, il risultato del lancio di un dado bilanciato a sei facce può essere matematicamente modellato come una variabile casuale che può assumere uno dei sei possibili valori e ogni valore ha probabilità di presentarsi.
Il termine aleatorio deriva dal latino alea ( gioco di dadi [1], ricorda il famoso alea iacta est ) ed esprime il concetto di rischio calcolato. La denominazione alternativa stocastico è stata introdotta da Bruno De Finetti [2]^. Il termine casuale deriva dal latino casuali
Non bernouliani
In statistica si definiscono campioni bernoulliani quei campioni che si ottengono, in un'indagine campionaria, quando le unità della popolazione sono estratte a caso, una per volta, e senza escludere le unità già precedentemente estratte.
Questo schema di campionamento prende il nome di campionamento casuale con ripetizione (o bernoulliano). La dizione con ripetizione deriva dal fatto che una stessa unità della popolazione può presentarsi ripetutamente nel campione (può essere estratto più volte lo stesso elemento). Ciò equivale a dire che in ogni estrazione, la probabilità che si verifichi un evento è costante. La dimensione dello
Con tale distribuzione di probabilità, l'errore di tipo 2 si calcola sommando le probabilità relative ai valori di X della zona di accettazione, ciò supponendo H 1 vera. Si trova quindi che la probabilità cercata è pari a circa 0,20. Tale probabilità quantifica il rischio di incorrere nell'errore di tipo 2. e si indica convenzionalmente con β. La quantità 1-β si chiama potenza del test ed esprime quindi la capacità di un test statistico di riconoscere la falsità di H 0 quando questa è effettivamente falsa. La potenza del test trova applicazione nella pratica statistica in fase di pianificazione di un esperimento.
Falso positivo e falso negativo
In statistica il falso positivo , analogo all' errore di primo tipo , è il risultato di un test che porta erroneamente a accettare l'ipotesi sulla quale esso è stato condotto. Da notare che può indurre in confusione l'utilizzo dell'ipotesi nulla ( H 0 ); l'ipotesi nulla è opposta alla tesi. Come si vede dalla tabella, ipotesi nulla ( H (^) 0 ) vera significa che il test è negativo.
Più in generale, in qualunque ambito in cui si presenti una decisione predittiva binaria (vero o falso), un falso positivo indica che è stato erroneamente segnalato come vero (positivo al test) qualcosa che in realtà non lo è. Un esempio in informatica è un antivirus che considera erroneamente dannoso un programma innocuo, generando un falso allarme [1]^.
L'altro possibile errore è quello di secondo tipo, che genera un falso negativo.
Formula di Bayes
Il teorema di Bayes (conosciuto anche come formula di Bayes o teorema della probabilità delle cause ), proposto da Thomas Bayes, deriva da due teoremi fondamentali delle probabilità: il teorema della probabilità composta e il teorema della probabilità assoluta. Viene impiegato per calcolare la probabilità di una causa che ha scatenato l'evento verificato. Per esempio si può calcolare la probabilità che una certa persona soffra della malattia per cui ha eseguito il test diagnostico (nel caso in cui questo sia risultato negativo) o viceversa non sia affetta da tale malattia (nel caso in cui il test sia risultato positivo), conoscendo la frequenza con cui si presenta la malattia e la percentuale di efficacia del test diagnostico. Formalmente il teorema di Bayes è valido in tutte le interpretazioni della probabilità. In ogni caso, l'importanza di questo teorema per la statistica è tale che la divisione tra le due scuole (statistica bayesiana e statistica frequentista) nasce dall'interpretazione che si dà al teorema stesso.
Test anova
L' analisi della varianza ( ANOVA , dall'inglese Analysis of Variance ) è un insieme di tecniche statistiche facenti parte della statistica inferenziale che permettono di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra i gruppi.
L'ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso.
Si usano queste tecniche quando le variabili esplicative sono di tipo nominale (discreto). Nulla impedisce di usare queste tecniche anche in presenza di variabili esplicative di tipo ordinale o continuo, ma in tal caso sono meno efficienti delle tecniche alternative (ad esempio: regressione lineare).
Si usa distinguere i caratteri statistici in qualitativi - quando le modalità del carattere sono espresse mediante attributi - e quantitativi - quando le modalità sono espresse mediante valori numerici, rappresentativi di una misurazione o di un conteggio [1]^.
Un carattere quantitativo può essere misurato su scala di intervallo - quando lo 0 ha valore convenzionale e i confronti fra valori possono essere eseguiti mediante differenze - o su scala di rapporto - quando lo 0 sta ad indicare l'assenza del carattere medesimo e i confronti possono essere eseguiti anche mediante rapporti fra valori [2]^. Alcuni caratteri quantitativi sono propri di una data unità statistica e non sono cedibili o trasferibili da questa ad altre unità, come per esempio la statura, il peso, l'età o il numero di figli partoriti da una donna. Esistono altri caratteri quantitativi, invece, che possono essere ceduti parzialmente o totalmente da un'unità ad un'altra. Ne sono un esempio il patrimonio o il reddito, nonché il numero di dipendenti di un'azienda o il numero di autovetture di una famiglia. Il carattere che un'unità statistica può cedere, anche parzialmente, ad un'altra è detto carattere trasferibile. I caratteri trasferibili sono misurati, naturalmente, su scala di rapporto[3]
Mediana
In statistica, in particolare in statistica descrittiva, data una distribuzione di un carattere quantitativo oppure qualitativo ordinabile (ovvero le cui modalità possano essere ordinate in base a qualche criterio), si definisce la mediana (o valore mediano ) come il valore/modalità (o l'insieme di valori/ modalità) assunto dalle unità statistiche che si trovano nel mezzo della distribuzione.
La mediana è un indice di posizione[1]^ e rientra nell'insieme delle statistiche d'ordine.
Media e media aritmetica
in statistica, la media è un singolo valore numerico che descrive sinteticamente un insieme di dati. Esistono varie tipologie di media che possono essere scelte per descrivere un fenomeno: quelle più comunemente impiegate sono le tre cosiddette medie pitagoriche (aritmetica, geometrica e armonica).
Nel linguaggio ordinario, con il termine media si intende comunemente la media aritmetica.
È l'indice di posizione più utilizzato
La media aritmetica è il tipo di media impiegato più comunemente e quello al quale, con il termine "media", si fa in genere riferimento nel parlare comune. Viene usata per riassumere con un solo numero un insieme di dati su un fenomeno misurabile (per esempio, l'altezza media di una popolazione). Viene calcolata sommando tutti i valori a disposizione e dividendo il risultato per il numero complessivo dei dati
Chi quadro
In t eoria delle probabilità la distribuzione ( chi quadrato o chi-quadro [1]) è l distribuzione di probabilità della somma dei quadrati di variabili aleatorie normali indipendenti.
In statistica viene particolarmente utilizzata per l'omonimo test di verifica d'ipotesi (test χ 2 ).
Indice di correlazione di persona
In statistica, l' indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare [1] o coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson ) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1]
La statistica e l’insieme degli strumenti metodologici e delle procedure operative utile per raccogliere ed
elaborare i dati che riguardano il fenomeno di interesse.
Ci sono diversi modi per raccogliere i dati in particolare si parla di: indagine statistica
scostamento medi
lo scostamento in questo caso lovediamo in base alla media m che scegliamo e secondo il tipo di media che facciamo sugli scarti
Moda
E la frequenza piu alta
Media quadratica
e la radice quadrata della media delle osservazioni cioe della xi, elevate al quadrato
media geometrica
la media geometrica si usa solo nel caso ho un insieme di n osservazioni, quando ho un fenomeno che varia nel tempo
variabile quantitativa
nel caso di una variabile quantitativa deve sempre valere quella che si chiama condizione di internalità
la proprieta di linearità della media dice che se non abbiamo n osservazioni riferite a una variabile quantitativa e le trasformiamo tutte linearmente in quel modo, u di questa trasformazione lineare e la trasformazione lineare della media. Ci dic che la media e un operatore lineare.
Ci sono due proprieta caratteristiche della media aritmetica perche valgono solo per la media aritmetica.
1 proprieta: dice che giustifica l’uso della media aritmetica per riassumere n osservazioni quando la variabile
x e misurata con errore, si chiama variabile misurable tutte le volte cche io per ottenere il valore di x devo fare il confronto con uno strumento di misura, tutte le volte che il valore di x viene determinato tramite l’utilizzo di uno strumento di misura. Si chiama errore la differenza che ce tra xi e l’errore di misura, gli errori di misura possono essere per eccesso o per difetto, gli errori di misura si distinguono in due categorie: errori di natura sistematica e errori di natura casuale o accidentale, i primi possono dipendere da come e
tarato lo strumento e gli errori sono sempre o per difetto o per ecceso e sono della stessa intensita o grandezza si possono correggere. Il problema e legato agli errori di natura accidetali, questi errori sono contemporaneamente o per eccesso o per difetto variano, e hanno diversa intensita, secondo la teoria degli errori accidentali, facendo un gran numero di misurazioni la somma
Si puo dimostrare che la somma degli scarti e la media aritmetica soddisfa questa proprieta, si rivela
adeguata a determinare/stimare il valore vero della grandezza quando faccio in misurazione errore di misura.
2 proprietà: ci dice che la media aritmetica e un operatore, la media aritmetica e il baricentro della distribuzione, cioe dell’insieme delle n osservazioni, si puo usare anche quando la variabile non e trasferibile, non e misurata con errore, puo usare misura di sintesi dlle n osservazioni, la media aritmetica perche si puo dimostrae che la media aritmetica e il centro di ordine 2 della distribuzione.
Proprieta della linearità
La linearita della media e quella proprieta che fa trasformare la media in una certa unita di misura nella media in una nuova unita di misura.
Medie analitiche fondamentali:
-minimo: il minimo di una distribuzione e il piu piccolo tra le n osservazioni
-massimo: data una distribuzione secondo una variabile quantitativa si definisce massimo, la modalità piu grande tra le n osservazioni
-valore centrale della distribuzione: e la semisomma del minimo e del massimo, sta al centro rispetto ai due estremi.
Indici di posizione sono: moda, mediana, percettili
Le medie analitiche sono una funzione analitica dei valori osservati. Si chiamano medie analitiche quelle medie che si ottengono tenendo conto dei valori numeri osservati.
Percentile di ordine 9
Il percentile di ordine 9, e quel valore delle osservazioni che lascia alla sua sinistra il 9 percento delle osservazioni, ed e quella modalita che quindi divide la distribuzione ordinata in due parti 1 parte comprende
il 9 percento e la seconda tra il 1 e 9 percento.
Indici di posizione
Nel caso di variabile quantitativa sconnessa l’unico indice di posizione che si puo indviduare e la moda, la moda di una distribuzione e la modalita prevalente, piu importante, se ce una sola moda la distribuzione si chiamera unimodale, se ci sono 2 modalita che hanno la stessa frequenza assoluta piu alta si parla di
distribuzione bimodale, se ci sono 3 o piu si parla di distribuzione plurimodale.
Statistica descrittiva
Nella statistica descrittiva non mi interessa se si tratta di una parte o dell’intera popolazione, possiamo trovare la distribuzione per unità che corrisponde all’insieme dei dati raccolti sulle singole unità, che consiste quindi nel’estendere i risultati che abbiamo osservato su un particolare campione all’intera popolazione, solo
quando il campione e astratto secondo un procedimento di natura casuale.
Indice di diversità
Permettono di misurare la diversità che ce tra le modalita osservate
Indici di forma
Riguardano lo studio della forma di una unita di distribuzione di frequenze dopo aver preso i dati della distribuzione per unità ed essere passati alla distribuzione di frequenza, vogliamo vedere qual’e la forma della distribuzione di frequenze in particolare vedere se ci sono caratteristiche di regolarità, serve quindi a vedere se possiamo approssimare la distribuzione osservata con una distribuzione teorica di riferimento, per
poi fare degli studi successivi.
Il tipo di inidici di posizione che posso usare dipende dalla natura della variabile, quindi il tipo di elaborazione che posso fare dipende dalla natura della variabile. Esiste una gerarchia/ graduatoria fra le variabili a questi fini divido le variabili in tre gruppi: variabili quantitative (continue o discrete) piu alto, variabili quantitative ordinate e intermedio, variabili quantitative sconnesse e il piu basso, il fatto di stare o in
alto o in basso della graduatoria dipende da quanto possiamo giocare con le modalita delle variabili.
Le variabili quantitative sono piu importanti perche tra le loro modalità si possono fare delle operazioni aritmetiche che non si possono fare per gli altri due tipi di variabili.
Frequenza assoluta
Si chiama frequenza assoluta di una modalita che e il numero di unita statistiche che presentano quella
modalità, la distribuzione di frequenze assolute e una tabella in cui in colonna madre abbiamo carattere, con l’elenco delle sue modalità, e in corrispondenza di ogni riga abbiamo dei numero interi la cui somma e uguale ad N. questa tabella mostra la corrispondenza che tra ciascuna modalita e la sua frequenza assoluta.
Distribuzione semplice di quantita
Popolazione teorica: risultato di una astrazione e l’insieme di tutte le possibili misure, valori di una variabile
misurata con errore.
La numerosità di una popolazione e il numero di unita statistiche che compongono quella popolazione e viene rappresentata con il simbolo N
Indagine statistica
Indagine statistica totale: riguarda tutte le unità della popolazione, ha il vantaggio di essere esaustiva
Indagine statistica parziale: riguarda soltanto una parte delle unita della popolazione e ha il vantaggio di richiedere meno costi e meno tempo, e consente di ridurre il fenomeno delle mancate risposte.
Variabili
Le variabili possono essere classificate in base alla loro natura:
Unita statistica
E l’entità o soggetto su cui presenta questo vuol dire a chi sto rivolgendo le domande, quindi l’unità statistica puo cambiare a seconda del tipo di scopo dell’indagine.
Variabile
E la caratteristica che si puo osservare sulla singola unita statistica, la variabile e un aspetto che io posso osservare, in un questonario, e l’argomento di una specifica domanda per capire chi e la variabile bisogna chiedersi che costa sta chiedendo l’individuo.
Modalità
E un particolare valore di una variabile che sarebbe la risposta che viene data alla domanda
Etimologia
La parola statistica deriva dalla parola stato perche la statistica e nata proprio in termini di applicazione, di utilità, di qualcosa che e rivolto all’amministrazione di uno stato, La statistica puo essere definita come l’insieme delle procedure operative e delle metodologie quantitative che sono necsessarie per raccogliere ed elaborare i dati sul fenomeno di interesse, risultato di questo processo e quella che si chiama informazione
statistica.
Statista
E colui che si occupa delle faccende dello stato facendo delle statistiche
Indice di concentrazione di gini
In una distribuzione il grado di concentrazione aumenta al crescere della quota di ammontare totale e posseduta dalle unita piu ricche
La curva di concentrazione
E la linea spezzata che si ottiene congiungendo i punti consecutivi, congiungiamo anche il primo punto con l’origine e come se avesse un punto di cordinate fittizie
-minima concentrazione: la concentrazione coincide con il segmento di equidistribuzione
-massima concentrazione i primi 4 valori si trovano sull’ascisse
Piu mi allontano dalla situazione di equidistribuzione e passo a quello di massima concentrazione e la curva si allontana dal segmento di equidistribuzione, al crescere del grado di concentrazione la curva si allontana dal segmento di equidistribuzione, la parte del piano compresa tra il segmento di equidistribuzione e la
curva di concentrazione si chiama superficie di concentrazione.