



























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti di statistica per l'esame integrativo del prof.Tonini per poter accedere alla magistrale
Tipologia: Appunti
1 / 35
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




























La Statistica descrittiva è volta alla rappresentazione , attraverso mezzi matematici, di uno o più fenomeni reali conducendo lo studio sull’intera popolazione in cui si palesa il fenomeno o i fenomeni oggetto di studio.
La Statistica inferenziale , o Inferenza statistica , servendosi della teoria del calcolo della probabilità, è volta all’ induzione probabilistica. Si occupa di risolvere il problema inverso sulla base di osservazioni su un perviene a soluzioni valide, anche per la popolazione stessa.
Ci sono varie specializzazioni di Statistica applicata.
Evoluzione storica della statistica , 4 fasi:
Fasi dell’analisi statistica , 5 fasi:
La popolazione e le unità statistiche Elementi popolazione = unità statistiche, che si distinguono in: — unità semplici come una singola persona, una singola abitazione etc.;
— unità composte se sono insiemi di unità semplici simili — unità complesse se sono insiemi di unità semplici diverse
Il carattere statistico Oggetto dell’analisi statistica è il carattere e rappresenta l’elemento che consente di descrivere una popolazione. I valori che può assumere sono dette modalità. Può essere qualitativo o quantitativo. Un carattere qualitativo, o mutabile, si manifesta mediante modalità, dette attributi, e può essere indicato solo con espressioni verbali. Un carattere quantitativo, o variabile, è indicato mediante espressioni numeriche, una misurazione espressa in cifre.
Una variabile può essere: — continua quando può assumere un numero reale qualsiasi, come la tempera- tura di una stanza, la statura, l’età, il peso di un individuo etc.;
— discreta quando può assumere solo numeri interi, come il numero dei componenti di una famiglia
Frequenze e intensità La frequenza assoluta è il numero di volte in cui si verifica un evento di un'indagine statistica; indicando con n (^) i il singolo evento, la frequenza assoluta si indica con f(n (^) i).
Il numero di volte in cui una data modalità del carattere si presenta nel collettivo è denominato frequenza assoluta, indicata con ni. Essa è il risultato di una enumerazione.
La frequenza relativa è il rapporto tra il numero di volte in cui si verifica un evento di un'indagine statistica e il numero totale di eventi. Il rapporto tra la frequenza assoluta e il numero totale di unità statistiche del collettivo esprime la frequenza relativa, indicata con fi. la frequenza relativa è il rapporto tra la frequenza assoluta e il numero totale di unità statistiche. L’intensità è l’ammontare o la misura posseduto dalle unità statistiche.
La classe di modalità La classe, o classe di modalità, è ciascuno degli intervalli in cui risulta suddiviso l’insieme. Una classe di modalità può essere: — aperta sia a sinistra che a destra, in tal caso i limiti inferiore e superiore sono esclusi dalla classe — aperta a sinistra e chiusa a destra, in tal caso il limite inferiore è escluso dalla classe; — chiusa a sinistra e aperta a destra, in tal caso il limite superiore è escluso dalla classe Quando l’insieme dei valori non è specificabile, si tende a non precisare il limite inferiore e il limite superiore.
l valore centrale di una classe è dato dalla semisomma dei limiti superiore e inferiore.
I confini di una classe sono gli estremi della classe: — l’ estremo superiore — l’ estremo inferiore
L’ampiezza di una classe è la differenza tra il confine superiore e il confine inferiore; è detta anche modulo e può essere uguale o diversa per tutte le classi.
Scale di misurazione dei caratteri — Caratteri con scala nominale : date due osservazioni si può stabilire se esse sono uguali o diverse. Rientrano in questa tipologia la professione, la nazionalità, il sesso, la religione, il partito politico etc.
— Caratteri con scala ordinale : date due si può stabilire una relazione d’ordine, se esse sono uguali o l’una maggiore o minore dell’altra. Rientrano in questa tipologia i giudizi scolastici, i gradi militari etc.
— Caratteri con scala intervallare : a ogni coppia di elementi adiacenti, disposti in scala ordinale, è possibile assegnare un numero atto a caratterizzare la loro distanza. Rientrano in questa tipologia la misurazione degli anni, in cui si è convenuto di fissare l’anno zero come l’anno di nascita di Cristo, oppure la misurazione della temperatura in gradi Celsius la cui origine arbitraria, 0°, coincide con il punto di congelamento dell’acqua. La scala proporzionale è un caso della scala intervallare.
. errore casuale : provocato da fattori esterni o intrinseci ed è controllabile con metodi statistici, ma non eliminabile.
STATISTICA DESCRITTIVA
DISTRIBUZIONI DI FREQUENZA
Distribuzioni semplici La distribuzione di frequenza è una rappresentazione dei dati statistici. è necessario costruire una tabella statistica ed è tale che a ogni modalità di uno o più caratteri corrisponde la rispettiva frequenza. La tabella può essere semplice o multipla a seconda che figurino le modalità relative a un solo carattere o a più caratteri. Nel caso si consideri un carattere qualitativo, nella tabella, invece delle modalità, figurano gli attributi.
Distribuzioni doppie La distribuzione doppia è la distribuzione congiunta di due caratteri X e Y , i quali si suppone possano essere legati da una relazione Una tabella a doppia entrata, o tabella tetracorica, è una tabella in cui figurano le frequenze riguardanti le diverse combinazioni di modalità di due caratteri X e Y ; la prima riga è detta riga madre; la prima colonna è la colonna madre; Nell’ultima riga, la riga marginale, ci sono le frequenze marginali, che rappresentano i totali delle colonne; l’ultima colonna è la colonna marginale.
Distribuzioni parziali Da una tabella a doppia entrata si desumono distribuzioni parziali:
Misure sintetiche di distribuzioni statistiche L’analisi statistica fornisce misure sintetiche per valutare aspetti mediante un solo numero reale costruito in modo da disperdere al minimo le informazioni sui dati. In rapporto alle caratteristiche che si misurano si parla di rapporti statistici, indici di posizione, indici di variabilità, indici di forma. In rapporto alla natura, gli indici si distinguono in: — indici assoluti : espressi nella stessa unità di misura del fenomeno — indici relativi : non dipendono dall’unità di misura del fenomeno; gli indici normalizzati sono indici relativi che assumono valori in un intervallo finito
Le rappresentazioni grafiche consentono di cogliere con evidenza visiva la struttura e l’andamento di uno o più fenomeni, il confronto tra più distribuzioni. attraverso un grafico si riescono ad evidenziare misure di tendenza centrale, variabilità (o mutabilità) e forma, eventuali outliers (o valori anomali). Metodo grafico e metodo numerico sono tra loro complementari, devono essere usati congiuntamente per consentire al lettore di interpretare correttamente i dati statistici.
Diagrammi in coordinate cartesiane
Istogrammi
Gli istogrammi sono rappresentazioni grafiche di caratteri quantitativi continui con modalità raggruppate in classi. Sono costituiti da una serie di rettangoli contigui che si sviluppano da un’asse orizzontale, e che hanno: — base coincidente con l’ampiezza delle classi in cui si suddividono — altezza uguale o proporzionale alle frequenze — area sempre uguale alle frequenze di classe.
Dalla lettura di un istogramma è possibile desumerne il suo valore centrale; la dispersione dei dati attorno al centro; il suo valore o i suoi valori modali; la sua simmetria o la sua asimmetria. In caso di istogrammi con diversa ampiezza l’area dei rettangoli deve essere pari alla frequenza.
Diagrammi circolari Il diagramma circolare mostra le proporzioni delle parti rispetto all’insieme. — areogrammi per cerchi : si assume un cerchio-base che indica l’intensità o la frequenza più bassa, per rappresentare una intensità o frequenza doppia — areogrammi per settori circolari (o grafici a torta) in cui l’area del cerchio esprime l’intensità o la frequenza totale, invece i settori circolari esprimono le intensità o le frequenze
Diagrammi a barre Il diagramma a barre, o ortogramma, è un grafico utilizzato per rappresentare caratteri spesso qualitativi; può essere a colonne o a nastri consiste in una successione di rettangoli (colonne o nastri) equidistanti, tanti quanti sono gli attributi del carattere, la cui altezza (o lunghezza) è proporzionale alla frequenza Il diagramma a canne d’organo è un particolare ortogramma a colonne ottenuto accostando i rettangoli.
Cartogrammi I cartogrammi si avvalgono di carte geografiche o topografiche sulle quali è raffigurato per mezzo
Numeri indice Sono particolari rapporti statistici che misurano la variazione di un fenomeno rilevato in tempi e circostanze diverse. Assumono un valore sempre positivo e non dipendono dall’unità di misura. Costituiscono uno strumento per la misura delle oscillazioni dei prezzi. Le categorie principali sono quelle dei prezzi, delle quantità e dei valori.
I numeri indice si costruiscono ponendo al denominatore un’intensità (detta base) della stessa natura del numeratore. Essi si distinguono in due classi: — numeri indice temporali se consentono di esaminare la dinamica temporale — numeri indice spaziali (o territoriali) se consentono di confrontare fenomeni in situazioni spaziali differenti.
Distinzione rispetto alla quantità dei fenomeni investigati: — numeri indice semplici (o elementari) :è il rapporto tra due numeri riferiti alle intensità di un fenomeno in tempi e luoghi diversi; A seconda della base si hanno: — numeri indice semplici a base fissa un’unica intensità che resta costante; - numeri indice semplici a base mobile se ciascuna intensità è rapportata a quella del termine precedente; proprietà: reversibilità delle basi (possibile passare da indici a base fissa a quelli a base mobile), reversibilità dei fattori (noti due dei tre indici, si è determinato il terzo), transitività delle basi (possibile passare da indici a base mobile a quelli di base fissa)
— numeri indice complessi (o ponderati) : misurano le variazioni sulle basi di più intensità; sono dati dal rapporto tra due o più fenomeni eterogenei e, a loro volta, si distinguono in: — numeri indice sintetici che si ottengono combinando diversi indici semplici, la variazione relativa del prezzo di una categoria di prodotti; — numeri indice composti che si ottengono combinando diversi indici sintetici.
Indici di posizione o medie sintetizzano la posizione mediante un valore rappresentativo. Le medie possono essere
Media secondo Cauchy. La media xM di una variabile X è un qualsiasi valore compreso tra il minimo e il massimo
Media secondo Chisini. = quel valore che se sostituito dalle osservazioni di una distribuzione non ne muta il valore della funzione. La media di una variabile X è un valore compreso tra il minimo e
il massimo tale che ne lascia invariato il valore
Media aritmetica μ
= quel valore che sostituito alle N osservazioni della distribuzione, non ne muta gli elementi = il valore che si ottiene addizionando i valori tra loro e dividendo la somma ottenuta per il numero di dati raccolti; esprime la posizione globale di una distribuzione di frequenza Proprietà: -traslativa = addizionando o sottraendo ai valori della variabile X uno stesso numero a , si ottiene una nuova variabile avente per media aritmetica la stessa media aumentata o diminuita -omogenea = moltiplicando o dividendo i valori della variabile X per uno stesso numero b si ottiene una nuova variabile avente per media aritmetica la stessa media moltiplicata o divisa per il numero b ; -associativa = suddividendo in due o più gruppi i valori della variabile X , la media aritmetica della variabile è uguale alla media aritmetica delle medie parziali dei diversi gruppi Difetto: scarsa resistenza a valori eccezionali; un solo valore atipico può far variare la media aritmetica in misura molto elevata
Proprietà degli scarti della media aritmetica:
Media armonica H
= un indice di posizione dato dal reciproco della media aritmetica. Per definirla si usa la somma degli inversi; è utile quando occorre sintetizzare un rapporto tra variabili quando la somma dei termini al denominatore è una costante Proprietà:
Media geometrica G
= la radice del prodotto dei valori della distribuzione. = la quantità che, sostituita a ciascuna modalità, non ne altera il prodotto; per definirla si utilizza il prodotto Proprietà:
sen n = pari, la mediana è la semisomma dei due posti centrali
INDICI DI VARIABILITà
La sintesi di una distribuzione operata attraverso gli indici di posizione fa perdere informazioni rilevanti sulla stessa; gli indici di variabilità tendono a colmare queste perdita. La variabilità è l’attitudine di un fenomeno di presentarsi in modo diverso. La variabilità è presente o assente, quindi se l’indice è positivo il fenomeno di variabilità è presente, se vale zero non c’è. Si distinguono due aspetti della variabilità: — la dispersione : evidenzia il maggiore o minore addensamento delle osservazioni intorno ad una media prestabilita; — la disuguaglianza : evidenzia la diversità delle varie osservazioni
Misurano la variabilità di una distribuzione di frequenza: — rispetto ad un centro rappresentativo (dispersione) e sono detti scostamenti medi e si ottengono determinando gli scarti e una sua media — tra le unità statistiche a due a due (disuguaglianza) e sono detti differenze medie e si ottengono determinando le differenze in valore assoluto prese a due a due, e sintetizzandole con opportuna media.
Si distinguono in: — indici assoluti di variabilità, unità di misura che dipende dall’unità di misura del fenomeno — indici relativi di variabilità, che prescindono dall’unità di misura, adatti per effettuare confronti tra fenomeni diversi. Si considerano gli indici normalizzati come il rapporto di concentrazione.
Campo di variazione
= dato dalla differenza tra il valore massimo e il valore minimo. è poco utilizzato in quanto prende in considerazione solo la dispersione esistente tra i valori estremi della distribuzione
La differenza interquartile
= data dalla differenza tra il terzo e il primo quartile, ovvero l’ampiezza della fascia di valori che contiene la metà centrale dei valori osservati; è una misura di variabilità della parte centrale di una distribuzione in quanto nell’intervallo è compreso il 50% delle osservazioni
Lo scostamento medio della media aritmetica = dato dalla media aritmetica dei valori assoluti degli scarti della media aritmetica.
Se si dispone della distribuzione di frequenza invece:
Il campo di variazione e la differenza interquartile non tengono conto di tutte le informazioni su una variabile statistica. Lo scostamento medio della media aritmetica coinvolge nel suo calcolo, tutte le determinazioni della variabile considerata. L’indice è calcolato considerando i valori assoluti degli scarti.
Scostamento medio della mediana = dato dalla media aritmetica dei valori assoluti degli scarti dalla mediana
Se si dispone delle distribuzione di frequenza:
Dalla proprietà delle mediana:
La varianza
Se si dispone della distribuzione di frequenza invece:
= una misura di dispersione che si ottiene come media dei quadrati degli scarti dalla media artimetica Il primo termine a secondo membro è il quadrato della media quadratica, mentre il secondo termine
è il quadrato della media aritmetica, per cui:. Il suo segno è sempre positivo.
di Sheppard:
Scarto quadratico medio = la radice quadrata della varianza; si usa per ovviare il problema del quadrato
generalmente espresso in termini %
La concentrazione = concerne esclusivamente un carattere additivo e quindi trasferibile, come il reddito Un carattere si dice concentrato se l’ammontare complessivo dello stesso è posseduto da un numero ridotto di unità. Si parla di: — concentrazione nulla (o equidistribuzione) quando tutte le unità possiedono il carattere nella stessa misura; — concentrazione massima quando una sola unità possiede l’intero ammontare del carattere.
Si definiscono frazioni cumulate delle n unità osservate:
Si definiscono frazioni cumulate del carattere:
Una rappresentazione grafica di tali frazioni è la curva di Lorenz, o curva di concentrazione, che si ricava ponendo sulle ascisse i valori pi e sulle ordinate i valori qi , ottenendo una serie di punti che, uniti, formano la curva di concentrazione. La retta di equidistribuzione è la retta che congiunge l’origine (0, 0) con il punto (1, 1). L’area compresa tra la curva di equidistribuzione e quella di concentrazione è denominata area di concentrazione. L’area di concentrazione assume valore 0 in caso di equidistribuzione. La curva di concentrazione è pari a 0 in caso di massima concentrazione. Dall’andamento della curva è possibile desumere la minore o maggiore concentrazione del fenomeno, più la curva si avvicina alla retta più si riduce la concentrazione del fenomeno e viceversa.
Lo statistico Gini si occupò delle differenze e constatò che al crescere di tali differenze cresceva la disuguaglianza del reddito. Operò una media aritmetica di queste differenze, attribuendo
a ciascuna un peso, ottenendo il rapporto di concentrazione di Gini: = un indice variabile tra 0 e 1, che fornisce la misura della concentrazione di un carattere
Un indice alternativo a quello di Gini è l’indice di Bonferroni: dove μ è la media progressiva del carattere.
Il rapporto di concentrazione può essere espresso anche con il metodo dei trapezi:
Una rilevazione statistica consente di evincere una corrispondenza tra le modalità di un carattere quantitativo X e le rispettive modalità del carattere quantitativo Y. La corrispondenza tra X e Y rappresenta una funzione statistica. Una funzione statistica è definita dalle n coppie di valori: ( x 1, y 1), ( x 2, y 2), ..., ( xn , yn ). Scopo della rappresentazione analitica di una variabile X è quello di
specificare la forma funzionale del fenomeno. Per evidenziare il tipo di legame tra le variabili è utile il diagramma a dispersione (o scatter plot), costituito dalle n coppie di osservazioni ( x 1, y 1), ( x 2, y 2), ..., ( xn , yn ) rappresentate da una nuova di punti.
Interpolazione Con interpolazione si intende l’individuazione di una funzione matematica, che passi per un insieme dato di punti ( x , y ) o attraverso di esso. La funzione individuata dovrà rappresentare l’andamento espresso dai punti. Si parla di interpolazione per punti o matematica se le variabili X e Y non son o affette da errori; corrisponde ad una curva che passi per tutti i punti disp onibili.
Si parla di interpolazione fra punti o statistica se una delle due variab ili X e Y o entrambe sono affette da errori; consiste nel determinare valori
teorici e ad una curva che passa tra i punti.
Estrapolazione L’estrapolazione è il processo di determinazione di una successione di valori teorici esterni all’intervallo di osservazione. È basato sulla regolarità in passato, quindi poco attendibile.
Perequazione Alcuni dati possono essere affetti da errori accidentali. La tecnica statistica che consente di eliminare tali errori è la perequazione. Il metodo più semplice è la media mobile che consiste nel sostituire a ciascun termine il valore medio aritmetico di un gruppo di termini, di cui il termine dubbio è quello centrale. La funzione che consente di adattare ai dati osservati dati teorici è detta funzione perequatrice.
La rappresentazione analitica in un procedimento di interpolazione Per realizzare una corretta rappresentazione analitica lo statistico deve: — mutuare dalla matematica una funzione teorica in grado di rappresentare — determinare numericamente i parametri — verificare il grado di accostamento tra valori empirici (o osservati) e valori teorici
moltiplicano, inoltre, tra loro i tre elementi sulla diagonale secondaria e quelli che stanno su ciascuna delle diagonali a essa parallele. Ai prodotti ottenuti si fa competere segno –.
Verifica del grado di accostamento tramite indici assoluti In un procedimento di interpolazione fra punti, una volta scelta la funzione da adattare alla distribuzione empirica e i relativi parametri, è compito dello statistico verificare il grado di accostamento tra funzione teorica e funzione statistica - misurare la dispersione dei dati osservati.
Verifica del grado di accostamento tramite indici relativi = sono ottenuti rapportando gli indici assoluti alla media aritmetica dei valori osservati
Verifica del grado di accostamento tramite indici normalizzati
Entrambi gli indici assumono: — valore minimo 0 quando p1 , o p 2 , sono infinitamente grandi, per cui la funzione teorica non è in grado assolutamente di rappresentare la distribuzione reale; — valore massimo 1 quando p1 , p2 , sono prossimi allo zero
La teoria delle relazioni statistiche evidenzia l’esistenza di eventuali influenze e dipendenze tra due o più caratteri congiuntamente considerati. Essa studia le relazioni di: — dipendenza (o indipendenza) assoluta attraverso l’analisi delle sole frequenze, ed è particolarmente utile quando la distribuzione fa riferimento alle combinazioni di frequenze associate a due mutabili; — dipendenza (o indipendenza) in media attraverso l’analisi sia delle medie delle distribuzioni parziali sia della media generale. Tale studio è possibile solo quando almeno uno dei due caratteri investigati è di tipo quantitativo; — dipendenza (o indipendenza) interpolativa attraverso l’esplicitazione di una funzione analitica esprimente la relazione esistente tra due variabili, allo scopo di prevedere i valori di una variabile al
variare della variabile — interdipendenza, ossia il legame reciproco tra due variabili, che viene chiamato correlazione
Indipendenza assoluta e indici di connessione Una variabile Y si dice indipendente da una variabile X se la prima rimane costante al variare dei valori assunti dalla seconda. In caso contrario si dice che Y è funzione di X. L’assenza di una qualsiasi relazione tra due caratteri X e Y desumibili da una distribuzione doppia di frequenza è detta indipendenza assoluta. Le distribuzioni condizionate invece derivano dalla distribuzione doppia. Il concetto di indipendenza è simmetrico per cui, se Y è indipendente da X , allora anche X è indipendente da Y.
Affinché esista indipendenza tra i due caratteri è necessario che le frequenze relative delle distribuzioni condizionate siano uguali tra loro e uguali alle frequenze marginali relative ; ovvero:
Le frequenze teoriche saranno quindi:
Quando l’indipendenza si definisce, invece che con le frequenze assolute n (^) ij F 02 C con quelle relative
f (^) ij , l’espressione da usare sarà:
La differenza tra la frequenza osservata n e la frequenza teorica n * è denominata contingenza:
. La somma di contingenze per ciascuna riga e ciascuna colonna è nulla.
Gli indici statistici in grado di evidenziare l’indipendenza di un carattere statistico sono basati sulle frequenze osservate e teoriche, e sono denominati indici di connessione. Assumono valori tanto più piccoli quanto più esiste indipendenza tra i caratteri investigati. -> L’indice chi-quadrato, o X2 , elaborato da Karl Pearson valuta la differenza esistente tra
frequenze teoriche e frequenze osservate: È un indice assoluto, ammette valore minimo 0 se n F 03 DF 02 0 n * , ossia se esiste indipendenza tra i caratteri, ma non ammette valore massimo. -> L’indice di Pearson dipende dalla numerosità della popolazione, per ovviare ad un simile inconveniente si ricorre ad indici che costituiscono delle trasformazioni:
Analisi della regressione e indice di determinazione lineare La regressione è volta alla ricerca di un modello atto a descrivere la relazione esistente tra una
Utilizzando i residui si può scrivere la retta di regressione come: , dove e è il residuo.
La devianza del carattere Y sarà quindi: ,
F 0 dove il primo termine (^) 2 8 yi – y F 0 2 9F 0 3 2rappresenta la devianza totale il secondo la devianza di regressione e il terzo viene chiamato la devianza residua o dei residui -> L’indice di determinazione lineare è dato dal rapporto tra devianza di regressione e devianza totale
Covarianza
= la media dei prodotti degli scarti di X e Y dalle rispettive medie F 06 D x e F 06 D y analizza congiuntamente due caratteri X e Y e fornisce una misura della loro contemporanea variazione; oltre a descrivere la dispersione delle variabili, esprime anche la relazione tra loro; è utile per misurare la correlazione tra due varabili;
Il suo segno può essere positivo o negativo, a seconda che la relazione tra le due variabili sia diretta o inversa. Il numeratore della covarianza, indicato con Cod è denominato la codevianza.
Cod =
Correlazione tra due caratteri: coefficiente di correlazione lineare di Bravais – Pearson =misura del grado di dipendenza lineare tra due variabili Per misurare la correlazione tra due variabili è necessario fare riferimento alla covarianza. La covarianza costituisce il numeratore del coefficiente di correlazione lineare di Bravais - Pearson. Si parla di concordanza quando scarti positivi o negativi della variabile X tendono ad associarsi a scarti positivi o negativi della variabile Y , allora i loro prodotti saranno positivi, dunque la covarianza risulterà positiva. Si parla di discordanza, quando scarti positivi della variabile X tendono ad associarsi a scarti negativi della variabile Y o viceversa, allora i loro prodotti saranno negativi e la covarianza risulterà negativa.
, dove F 07 3x e F 07 3y sono lo scarto quadratico medio di X e Y
Proprietà:
Può essere espresso anche come:
Il coefficiente di correlazione lineare è pari alla radice quadrata dell’indice di determinazione
lineare:
PROBABILITà E STATISTICA INFERENZIALE
ELEMENTI DI CALCOLO DELLE PROBABILITà La probabilità dà un preciso significato al concetto di incertezza, fa delle supposizioni su quello che sarà il risultato di qualche evento. La teoria della probabilità è la scienza che quantifica l’ignoranza umana relativamente ai risultati di eventi. Nasce qualche secolo fa ed è fatta risalire al gioco d’azzardo. Attualmente la si usa relativamente alla sopravvivenza o mortalità di individui, la meteorologia relativamente alle temperature di un’area geografica, le estrazioni del lotto in relazione all’uscita su una data ruota di uno o più numeri, la politica relativamente alle preferenze esprimibili da un dato gruppo di elettori. Questi ed altri fenomeni, per interessare la teoria della probabilità, devono essere incerti nei risultati e ripetibili.
Eventi e algebra di Boole L’algebra degli eventi studia le relazioni tra gli eventi e le loro proprietà. -> Per prova si intende un esperimento soggetto a incertezza e per poter calcolare la probabilità deve soddisfare le seguenti condizioni: — tutti i possibili risultati devono essere noti a priori; — il risultato di una particolare prova deve essere incognito; — l’esperimento deve poter essere ripetuto sotto date condizioni. L’esperimento può suddividersi in sottoprove. Siccome è praticamente circoscrivere a date categorie tutte le prove possibili, si ricorre a una schematizzazione che riesce a comprendere gran parte degli esperimenti. In generale, l’estrazione