




























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Riassunto di statistica di base, argomenti principali formulati come domande e risposte. Le domande sono state date dalla docente.
Tipologia: Dispense
1 / 36
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























Definire e discutere i 4 elementi base: popolazione, fenomeno, modalità, numerosità Popolazione (U): insieme delle unità statistiche; le unità statistiche sono i supporti fisici/teorici delle diverse manifestazioni del fenomeno statistico; presso le unità statistiche si può osservare/registrare le manifestazioni del fenomeno. Es popolazione novara Fenomeno: si presentano con una molteplicità di manifestazioni che determinano la necessità di metodi statistici per il trattamento quantitativo dei fenomeni. Le scienze sociali studiano fenomeni di popolazioni umane e società, come il genere delle persone o il reddito mensile percepito dagli individui appartenenti ad un certo gruppo. Es residenti laureati a Novara) Numerosità: numero di unità statistiche che compongono la popolazione; nelle scienze sociali i fenomeni si manifestano su popolazioni umane e finite in cui N è un numero intero positivo. Si possono studiare anche popolazioni infinite con numeri infiniti di unità statistiche. (numero di persone laureate) Modalità: è l’insieme dei possibili valori che può assumere una variabile. (laureata o non laureta) Dare una classificazione dei fenomeni statistici , esempio per ciascun tipo Fenomeni qualitativi: si manifestano attraverso attributi o categorie: qualità. (genere) Ordinali: si possono ordinare secondo un criterio oggettivo (titolo di studio) Categoriali: no criterio oggettivo, ma personale/variabile per ordinare (città di residenza) Fenomeni quantitativi: si manifestano attraverso numeri: quantità (temperatura a massima giornaliera a Milano il 29 gennaio 2021)
Discreti: si possono contare/enumerare (numero di esami sul libretto a fine del primo anno) Continui: si possono misurare scegliendo le unità di misura e lo strumento di misurazione (peso corporeo alle 9 a digiuno) Definire le scale di modalità e classificarle precisando il livello di analisi statistica consentito Scale di modalità def: è l’insieme di tutte le diverse manifestazioni di X (fenomeno) osservabili su U (popolazione). Hanno due principi generali: 1) esaustività, deve prevedere tutte le possibili manifestazioni che si possono osserva; 2) mutua esclusività: deve prevedere solo possibilità che si escludono a vicenda per evitare ambiguità. Infine la natura/tipologia di scala di modalità utilizzata per la rilevazione è legata alla natura del fenomeno studiato e determina sia il livello di analisi/strumentazione. Classificazione: A) scala qualitativa, le modalità sono attributi/categorie.
L’ampiezza dell’intervallo influenza le frequenze associate; quanto più un intervallo è ampio tanto più è facile che contenga più casi di un intervallo meno ampio. A parità di frequenze, un intervallo più ampio sarà meno denso di uno più stretto. La densità di frequenza di un intervallo: è la frequenza dell’intervallo depurata dall’influenza dell’ampiezza. Istogramma: è un diagramma a rettangoli accostati in cui le frequenze sono rappresentate come aree; è l’unica rappresentazione grafica possibile quando la varabile statistica si presenta con intervalli di ampiezza diversa. Per rappresentare la distribuzione di frequenza bisogna mettere gli intervalli sulle ascisse e sulle ordinate bisogna mettere la densità di frequenza. Discutere e interpretare la distribuzione di frequenza cumulate per un fenomeno quantitativo continuo anche in relazione all’istogramma Sull’istogramma sono automaticamente rappresentate come aree anche le frequenze cumulate; l’istogramma permette il calcolo delle frequenze cumulate per qualunque valore del fenomeno quantitativo continuo X, interni ed esterni agli intervalli osservati. Definire la moda, discuterne il calcolo e l’informazione descrittiva nel caso di fenomeni qualitativi e quantitativi. Discutere gli adattamenti necessari per il caso di modalità intervallari Def moda: è la modalità a cui è associata la frequenza più elevata fra le k osservata. La moda è un valore medio di sintesi calcolabile per X qualunque; è individuabile immediatamente. Quando la v.s. è sotto forma di tabella basta individuare la frequenza più elevata; quando è rappresentata graficamente la frequenza più elevata si individua ad occhio nudo. Se X è continuo bisogna fare accorgimenti: se gli intervalli sono di ampiezza differente la frequenza perde la sua carica informativa per individuazione della moda; quindi è necessario usare la densità di frequenza, chiamiamo intervallo modale quello a cui è associata la densità più elevata tra le k osservate. (invece di prendere il numero più elevato, si prende l’intervallo che ha la densità più elevata).
Definire la mediana e discuterne interpretazione e calcolo nel caso di modalità intervallari. Def mediana: è la modalità che, nell’ordinamento, occupa la posizione centrale. La mediana ha senso ed è calcolabile solo se le modalità possono essere ordinate, cioè se X è ordinale. La mediana divide U in due gruppi ugualmente numerosi: in un gruppo ci sono le unità che manifestano le modalità non superiori; nell’altro quelle non inferiori. Con X quantitativo continuo le modalità xi sono intervalli; scorrendo le frequenze cumulate, raggiungendo o superando lo 0,5, si individua l’intervallo mediano. Nell’intervallo mediano la distribuzione all’interno di essi è ignota, quindi si possono utilizzare le ipotesi di valore centrale o di distribuzione uniforme. Nel caso del valore centrale si identifica la mediana con il valore centrale dell’intervallo medio; nel caso della distribuzione uniforme. Discutere criticamente la media aritmetica quale sintesi di una variabile statistica quantitativa evidenziandone pregi/difetti Nei fenomeni quantitativi, anche le modalità oltre le frequenze sono numeri e quindi possiamo manipolare algebricamente l’intera v.s. attraverso la media aritmetica. Essa è espressa nella stessa misura con cui X si manifesta in U; ci da un’informazione sintetica dell’ordine di grandezza di X su U. Per calcolare la media aritmetica si moltiplica ciascuna delle modalità osservate per il numero di volte in cui sono state osservate in U (loro frequenza), sommare il tutto e dividere per il numero di unità statistiche osservate. A volte il risultato ottenuto da queste formule non è neanche uno dei possibili valori di X previsti dalla scala di rilevazione; ma ciò non intacca la portata informativa della media. (es virgola in libretto esami). Se X è quantitativo continuo e le sue modalità sono intervalli, la media è calcolata con l’ipotesi del valore centrale. Definire moda, mediana e media aritmetica, discuterne comparativamente il potenziale informativo e la scelta. Moda: è la modalità a cui è associata la frequenza più elevata tra quelle osservate, cioè la modalità più osservata. È un valore medio calcolabile per X qualunque. Nei grafici per osservarla è sempre la linea più lunga, la colonna più elevata o la fetta più grande. A volte la v.s. non ha la moda e quindi non è un buon valore medio.
Proprietà di mantenimento del totale inalterato: se ai valori osservati sostituiamo la media aritmetica che li sintetizza tutti. Proprietà di equidistribuzione del totale: se il totale di X fosse diviso in parti uguali fra le unità di U, a ciascuna unità toccherebbe una quota di totale pari a x; allora la media aritmetica equidistribuisce il totale di X sulle unità di U. Discutere il concetto di variabilità di un fenomeno quantitativo, descriverne la metodologia di misura basata sugli scarti quadratici della media aritmetica Variabilità: attitudine di un fenomeno quantitativo a manifestarsi, sulle unità di U, con modalità fra loro diverse/distanti. La variabilità è ciò che rende necessario il ricorso alla strumentazione statistica per l’analisi e la comprensione del comportamento del fenomeno su U; è ciò che si cerca per descrivere e spiegare statisticamente. Una misura della variabilità di X su U è un indice sintetico calcolabile sulla v.s. con: 1) assume valore 0 in assenza di variabilità, cioè nella situazione limite in cui X si manifesta sulle unità di U con un’unica modalità, generando un v.s. costante; 2) assume valori positivi quando X si manifesta su U con modalità molteplici e differenti, cioè in caso di variabilità; 3) assume valori positivi e più grandi all’aumentare della variabilità. Una misura della variabilità meno sensibile agli eventuali valori anomali e che utilizza tutta la v.s. è la deviazione standard di X (scarto quadrico medio). Essa confronta ciascuna delle modalità osservate con un unico valore fisso scelto come polo di confronto. Si calcola: A) ogni modalità osservata è confrontata con la media aritmetica che, essendo un valore medio di sintesi dell’intera v.s., funziona come polo di confronto; B) la differenza può risultare positiva/negativa a seconda che la modalità sia una modalità sopra/sotto la media. Ci interessa la distanza dalla media; per eliminare l’influenza del segno, si considerano gli scarti quadratici, cioè elevati al quadrato. Il quadrato è preferibile al valore assoluto ogni volta che si rende necessario eliminare l’influenza dei segni. C) gli scarti quadratici vengono poi ponderati con le frequenze; se si sommano tutti gli scarti ponderati con il loro segno si ottiene sempre 0 qualunque sia la variabilità di X. D) poiché di scarti quadratici ne abbiamo tanti quante sono le modalità osservate, li sintetizziamo tutti in una media sommando e dividendo poi per N. E) si ristabilisce l’ordine di grandezza e l’unità di misura prendendo la radice quadrata.
Concludendo: La deviazione standard misura la variabilità di X considerando la dispersione dei suoi valori intorno al suo valore medio; è espressa nella stessa unità di misura con cui è rilevato X e in cui è espressa la media. Definire deviazione standard, varianza, devianza di un fenomeno quantitativo commentandone l’informazione descrittiva Deviazione standard: vedi sopra Varianza: è la deviazione standard elevata al quadrato. Essa è una misura di variabilità: vale 0 in caso di assenza di variabilità e assume valori positivi e crescenti all’aumentare della variabilità di X in U. La varianza non è una buona misura di variabilità: l’ordine di grandezza e l’unità di misura sono alterati dal quadrato. La varianza gode di parecchie proprietà statistiche di cui non gode la deviazione standard e ha potenzialità descrittive maggiori. Devianza: è la varianza moltiplicata per N. essa è una misura di variabilità: vale 0 in assenza di variabilità e assume valori positivi o crescenti al crescere della variabilità. Essa come la varianza non è una buona misura di variabilità perché è una quantità al quadrato e ha gli stessi problemi della varianza. Inoltre è un totale anziché una media perché non essendo divisa per N non è mediata su tutta U. Essa però rappresenta una semplificazione analitica della deviazione standard e della devianza perché oltre la radice quadrata è trascurato anche il denominatore di N. Perciò a volte è più conveniente da usare in linea teorica ma non per misurare la variabilità, è ottima per scopi descrittivi/interpretativi. Definire la relazione fra deviazione standard, varianza e devianza di un fenomeno quantitativo commentandone l’informazione descrittiva. Discutere il problema del confronto della variabilità fra diversi fenomeni osservati sulla medesima popolazione statistica ovvero del medesimo fenomeno osservato su due diverse popolazioni La deviazione standard e la varianza sono misure assolute di variabilità, cioè sono influenzate dall’ordine di grandezza e dall’unità di misura con cui X si manifesta su U; quindi non sono né valutabili, né confrontabili. Per confrontare e valutare la variabilità di X occorre costruire una misura di variabilità relativa, per fare ciò bisogna mettere a rapporto la misura assoluta con la quantità che disturba e impedisce il confronto. Nei confronti di variabilità gli elementi di disturbo sono
I due fenomeni X e Y sono osservati congiuntamente su ciascuna delle unità che compongono la popolazione di interesse U. Il risultato della rilevazione è un insieme di coppie (x,y) che prende il nome di matrice dei dati grezzi. Per partire con l’analisi statistica bivariata, il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata composta da righe e colonne; inoltre c’è bisogno di due indici. L’interno della tabella si compila contando il numero di unità statistiche o casi che, fra le N osservate, manifestano la medesima coppa di modalità. Ai margini della tabella si pongono le somme dei casi per riga/colonna; infine nell’incrocio in basso a destra si pone la somma dei conteggi dell’intera tabella. La tabella a doppia entrata struttura i dati grezzi bivariati, organizza i casi osservati e dà le prime indicazioni circa l’eventuale relazione fra i due fenomeni che è l’obiettivo ultimo dell’analisi statistica bivariata. Enunciare e interpretare le frequenze marginali e le frequenze condizionate descrivendone il ruolo nella definizione di indipendenza statistica Frequenze marginali: si ottengono sommando le frequenze congiunte che stanno sulla stessa riga o sulla stessa colonna; esse si trovano ai margini della tabella e riguardano i fenomeni X e Y considerati singolarmente e separatamente; infine hanno bisogno di un solo indice. Frequenze condizionate: sono frequenze relative ottenute dal rapporto fra le frequenze congiunte e la frequenza marginale della modalità con cui si condiziona. Esse danno informazioni sul comportamento di un fenomeno condizionatamente all’altro Se fra X e Y non esiste alcuna relazione statistica, allora X e Y sono statisticamente indipendenti. Il metodo per stabilire ciò è confrontare le frequenze condizionate, che informano sul comportamento di un fenomeno condizionatamente alle modalità dell’altro, con le frequenze marginali, che informano sul comportamento dei due fenomeno indipendentemente l’uno dall’altro. Il confronto è possibile solo fra frequenze relative; le frequenze condizionate sono già relative per costruzione. Le frequenze marginali relative si ottengono dalle frequenze marginali assolute dividendo per N. Se tutte le serie di frequenze condizionate sono uguali fra loro e uguali alla marginale relativa, significa che, sia condizionatamente alle modalità di X sia marginalmente, Y si comporta alla stessa maniera. Ne deduciamo che X e Y sono
statisticamente indipendenti, cioè non c’è nessuna relazione statisticamente rilevabile fra X e Y. Dopo aver esposto il concetto di indipendenza statistica, illustrare la metodologia di verifica dell’esistenza o meno in una tabella a doppia entrata Indipendenza statistica: è quando sia marginalmente sia condizionatamente per tutte le modalità il fenomeno Y si comporta alla stessa maniera; per concludere che X e Y sono statisticamente indipendenti, la condizione deve valere per tutti gli indici, cioè per tutte le celle della tabella dei dati. Il concetto di indipendenza è simmetrico: Y è indipendente da X e viceversa. A ogni tabella di dati rilevati nella realtà, tabella osservata, si accosta la corrispondente tabella teorica di indipendenza statistica. La tabella teorica di indipendenza si compila mantenendo fisse le marginali e sostituendo le frequenze congiunte osservate con le frequenze teoriche di indipendenza statistica. Quando la condizione di indipendenza statistica è verificata allora le due tabelle coincidono. Dopo aver esposto il concetto di connessione fra due fenomeni statistici descrivere e discutere la costruzione dell’indice di connessione x^2 e i suoi possibili valori Se X e Y non sono indipendenti allora esiste fra loro una relazione statistica e diremo che sono connessi; la connessione è una generica relazione statisticamente rilevabile in una coppia di fenomeni osservati nella U di interesse. Bisogna stabilire se la relazione fra X e Y è forte o debole, cioè misurare il grado di connessione. Il metodo più utilizzato è considerare le differenza tra le frequenze congiunte e quelle teoriche di indipendenza statistica, cioè quelle che avrebbero dovuto osservarsi se X e Y fossero statisticamente indipendenti. Se tra X e Y esiste indipendenza statistica tutte queste differenze sono nulle. Se queste differenze sono vicine a 0 la connessione è bassa e si influenzano poco; all’aumentare del valore di tali differenze la connessione è sempre più alta. In una tabella a doppia entrata con k righe e h colonne sono calcolabili (kXh) differenze ed esse possono essere positive/negative ma non ci interessa il segno quindi per risolvere il problema eleviamo al quadrato. Se tutte le differenze sono uguali a 0 l’indice di connessione risulta X^2=0 perché sommando tutti gli zero divisi per qualunque cosa si ottiene sempre 0. Quanto più grandi sono le differenze, tanto più elevato sarà il valore dell’indice X^2.
Indipendenza media: partiamo da X e Y connessi. Diciamo che Y dipende da X se tale relazione di connessione si riflette sulle medie condizionate che risultano diverse tra loro al variare di X e diverse dalla media marginale. Diremo che Y è indipendente in media da X se è sufficiente sintetizzare le distribuzioni condizionate nelle medie condizionate perché la relazione di connessione scompaia e le medie condizionate appaiono tutte uguali tra loro al variale di X e uguali alla media marginale. Condizioni di indipendenza in media di Y da X: è data in analogia alla condizione di indipendenza statistica ma utilizzando le medie condizionate. Y è indipendente in media da X se tutte le medie condizionate sono uguali tra loro e uguali alla media marginale. Le medie e le varianze condizionate servono per l’analisi della dipendenza statistica di un fenomeno dall’altro fenomeno. Dopo aver esposto il concetto di dipendenza di un fenomeno dall’altro, enunciare la costruzione e interpretare i possibili valori degli indici di dipendenza n^ Quando Y è i.m. da X, allora le differenze sono tutte uguali a 0; cioè quando Y è i.m. da X la varianza fra vale zero. All’aumentare dell’influenza di X su Y le medie condizionate sono diverse fra loro e diverse dalla media marginale. Le differenze sono sempre più grandi all’aumentare del grado di indipendenza di Y da X e anche la varianza fra diventa grande. È sulla varianza fra che si può basare la misura della dipendenza di Y da X. L’indice di dipendenza assume valori compresi tra 0 e 1; la varianza marginale è il valore massimo assumibile dalla varianza fra. Un rapporto vale 0 quando il numeratore vale zero, allora l’indice di dipendenza è uguale a 0 se la varianza fra è uguale a 0, cioè quando Y è indipendente in media da X. Un rapporto è uguale a 1 quando numeratore e denominatore coincidono, allora l’indice di dipendenza è uguale a 1 se la varianza fra è uguale alla varianza di Y; in questo caso tutta la variabilità di Y dipende da X. Tutti i valori dell’indice di dipendenza intermedi tra i due estremi, 0 e 1, sono interpretabili come percentuali di dipendenza di Y da X. Quando l’indice di dipendenza è uguale a 1 si dice che Y dipende perfettamente da X o anche che statisticamente X spiega totalmente il variare di Y.
Esporre la metodologia di costruzione di un diagramma a dispersione per una coppia di fenomeni quantitativi nel caso di serie doppia e nel caso di tabella a doppia entrata Il diagramma a dispersione è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due fenomeni quantitativi. È un diagramma cartesiano con gli assi intestati alle modalità dei due fenomeni. Le coppie di valori osservati sono viste come coordinate di punti sul diagramma e il risultato è una nuvola di punti. Quando k=h=N e le frequenze congiunte sono tutte unitarie si parla di serie doppia ed è sufficiente un unico indice. Il diagramma a dispersione ci mostra se c’è una relazione statistica tra X e Y e di quale tipologia. Se fra X e Y esiste una relazione statistica la nuvola di punti si presenta strutturata, cioè i punti si dispongono secondo una qualche struttura e appaiono più concentrati in particolari zone. La struttura da indicazioni sul tipo di relazione statistica esistente, cioè la sua formulazione matematica. Quando X e Y sono statisticamente indipendenti i punti si presentano sparpagliati sul diagramma senza una struttura evidente. In una tabella a doppia entrata sono presenti due fenomeni X e Y con diverse modalità. Un diagramma a dispersione incrocia queste modalità rappresentandole attraverso un diagramma a bolle con delle bolle grandi tanto quanto le statistiche condizionate. Esporre il concetto di correlazione in una coppia di fenomeni quantitativi, discutere il ruolo della covarianza e definire il coefficiente di correlazione lineare P interpretandone i valori La relazione statistica di tipo lineare tra X e Y è chiamata correlazione. Quando la covarianza è positiva, X e Y sono positivamente correlati, cioè al crescere dell’uno cresce anche l’altro. Quando la covarianza è negativa allora X e Y sono negativamente correlati, cioè al crescere dell’uno decresce l’altro. Quando la covarianza=0 allora X e Y sono incorrelati, cioè non esiste relazione lineare; allora tra X e Y può esistere una relazione di tipo diverso o non esiste nessuna relazione perché sono indipendenti. Una volta scoperto che X e Y sono correlati misuriamo il grado, cioè stabilire se la correlazione è forte o debole; la misura della correlazione è basata sulla covarianza.
Indipendenza in media: diciamo che Y è indipendente in media da X se è sufficiente sintetizzare le distribuzioni condizionate nelle medie condizionate perché la relazione di connessione scompaia; e le medie condizionate appaiono tutte uguali tra loro e uguali alla media marginale di Y. Indice di dipendenza (eta quadro)= quando c’è indipendenza in media. Esporre il concetto di modello statistico e discuterne l’utilità, esemplificando con il modello di regressione lineare semplice Un modello statistico è una formula che interpreta matematicamente il comportamento congiunto di X e Y; costruirlo significa utilizzare i dati per individuare questa formula che esprime Y in funzione di X. Il modello statistico è una curva matematica semplice/liscia/regolare in grado di ben approssimare la realtà osservata, cioè di cogliere l’andamento di fondo del comportamento congiunto di X e Y, smussando irregolarità e spigolosità tipiche dell’osservazione empirica. Un modello di regressione interpreta la dipendenza di Y da X: è una formula da applicare a X per approssimare Y. Il modello di regressione può essere utilizzato per prevedere/simulare valori di Y non osservati; per es. per prevedere valori di Y futuri o simulare vari scenari di comportamento di Y al variare di X. Esporre e interpretare i concetti di nuvola di punti su un diagramma a dispersione, spezzata di regressione e modello di regressione Modello di regressione: è un modello statistico, basato sui dati osservati presso le unità che compongono la U di riferimento. Nel modello il fenomeno condizionato Y ha il ruolo di variabile dipendente, detto variabile di risposta; il fenomeno condizionante ha il ruolo di variabile indipendente/esplicativa, detto regressore. Diagramma a dispersione: è costruito con le medie condizionate, dà informazioni sulla natura della relazione fra X e Y e quindi sulla forma matematica del modello che cerchiamo. Unendo i punti di coordinate otteniamo la spezzata di regressione che è una curva empirica, cioè basata sui dati osservati e si presenta irregolare/spigolosa. Con la regressione si va a individuare la curva matematica liscia/regolare che meglio approssima la spezzata di regressione. Se fra X e Y esiste una relazione statistica la nuvola di punti si presenta strutturata, cioè i punti si dispongono secondo una qualche struttura e appaiono più concentrati in particolari zone. Quando X e Y sono statisticamente indipendenti i punti si presentano sparpagliati sul diagramma senza una struttura evidente.
Esporre e discutere il criterio minimo dei quadrati per la determinazione della retta di regressione Il modello di regressione adatto a interpretare la correlazione, cioè la relazione lineare fra X e Y, è la retta di regressione. a e b sono parametri della retta: a intercetta il punto in cui la retta interseca l’asse verticale delle ordinate; b è il coefficiente angolare e determina l’inclinazione della retta. Valori elevati di b rendono la retta ripida, con tendenza ad allinearsi all’asse delle ordinate; valori piccoli di b rendono la retta piatta, tende ad allinearsi con l’asse delle ascisse. In linea teorica esistono infinite rette con cui interpolare una stessa spezzata di regressione poiché ai parametri a e b possiamo assegnare qualsiasi valore reale. Bisogna stabilire dunque un criterio con cui scegliere la retta che meglio approssima la spezzata di regressione; ciò consiste nel metodo dei minimi quadrati. Esso consiste nell’esprimere in una formula la distanza fra i dati osservati e la retta di regressione e nell’assegnare ai parametri del modello il valore che rende minima tale distanza. Esprimendo in questo modo la distanza totale tra i dati osservati e il modello teorico possiamo dare la condizione dei minimi quadrati. Definire i parametri della retta di regressione dei minimi quadrati, discuterne i valori e l’interpretazione statistico-descrittiva. Definire i concetti di devianza spiegata e devianza residua di un modello di regressione e discutere il loro ruolo nella misura della bontà del modello Sostituendo le soluzioni dei minimi quadrati nella retta di regressione si ottiene la retta dei minimi quadrati cioè la sola retta che rende minima la distanza totale fra i dati osservati e il modello. La soluzione dei minimi quadrati per il coefficiente angolare della retta: siccome al numeratore c’è la covarianza che può essere negativa/positiva e al denominatore c’è una varianza che è sempre positiva, allora b prende il segno della covarianza. A) correlazione positiva: b>0=retta dei minimi quadrati è crescente; B) correlazione negativa: b<0=retta dei minimi quadrati decrescente. Il valore di a ci dice quanto vale Y quando X=0; mentre il valore di b ci dice di quanto varia Y quando X aumenta di 1. Per rappresentare graficamente una retta è sufficiente individuare i due punti in cui la retta interseca gli assi; ciò si ottiene ponendo prima X=0 e poi Y=0; che sono i due punti delle coordinate. La retta può essere utilizzata per prevedere e simulare valori non osservati di y.
tanto più piccolo quanto più elevata è la correlazione, indifferentemente negativa/positiva. Si ha DR=0 se il coefficiente di correlazione lineare = più/meno 1, cioè solo nei casi di perfetta correlazione fra X e Y. Tutti i passaggi sono una serie di uguaglianze, quindi il punto di partenza è uguale al punto di arrivo.
Discutere i concetti/obiettivi dell’inferenza statistica e le specifiche problematiche rispetto alla statistica descrittiva Il termine inferenza indica il generico processo logico di passaggio dalla premessa alla conclusione. L’inferenza statistica è un’inferenza deduttiva che procede dal campione alla popolazione. Per fare una buona inferenza statistica è strategico che il campione abbia la caratteristica della rappresentatività, cioè sia un’immagine in scala ridotta ma possibilmente fedele dell’intera U. l’inferenza statistica classica si basa su campioni causali; un campione causale se è una parte di U scelta a caso da U stessa, cioè selezionata senza criteri/sistematicità/ragioni per privilegiare una parte piuttosto che un’altra. La casualità del campione è garanzia della sua rappresentatività. Il campione rappresenta tutte/sole le informazioni note circa il fenomeno X su U, cioè i dati; è parziale/casuale. Allora l’inferenza statistica, cioè l’estensione dell’analisi dei dati campionari all’intera U, avviene in condizioni di incertezza e sotto l’effetto del caso. Lo strumento scientifico per trattare il caso e i suoi effetti è la teoria delle probabilità. Esporre i concetti di esperimento causale, evento elementare, spazio campionario ed evento casuale Esperimento causale: è un esperimento condotto sotto l’effetto del caos, cioè quando è nota solo una parte delle circostanze che consentirebbero di prevederne il risultato con certezze a priori, cioè prima di effettuare fisicamente l’esperimento. È possibile solo elencare a priori l’insieme dei possibili casi. (es lancio del dado). Evento elementare: ciascuno dei possibili esiti di un esperimento sociale. (es faccia con n.3). Spazio campionario: è l’insieme di tutti i possibili esiti di un esperimento causale, elencabile a priori. Lo spazio campionario è l’insieme di tutti gli eventi elementari. (es. 1,2,3,4,5,6).
Evento casuale: è un sottoinsieme dello spazio campionario, cioè è un insieme di eventi elementari che può contenerne molti/alcuni/tutti/nessuno. (es. esce un numero pari). Esporre e discutere comparativamente le definizioni classica e frequentista di probabilità Definizione classica: nasce nel 600. La probabilità di un evento P(E) è il rapporto fra il numero dei casi favorevoli a E e il numero dei casi possibili, posto che possano ritenersi tutti ugualmente possibili. Essa presenta delle ambiguità logico- matematiche che ne limitano l’applicazione pratica: A) parte integrante della definizione classica di probabilità è la richiesta che i casi possibili siano tutti ugualmente possibili; ciò presuppone una circolarità delle definizioni. B) è necessario contare sia il numero dei casi favorevoli sia il numero dei casi possibili; se si cerca di calcolare la probabilità di eventi diversi e più complessi, la definizione classica non funziona. Nell’800 si forma una nuova definizione di probabilità basata sull’osservazione. Definizione frequentista: si basa sulla legge empirica del caso, cioè una regola che non si può dimostrare matematicamente ma che si osserva sistematicamente nella pratica. L’evento di cui si vuole calcolare la probabilità è pensato come il risultato di un esperimento casuale ripetibile un gran numero di volte sempre nelle stesse condizioni. La legge empirica del caso dice che la frequenza relativa del verificarsi di E tende a stabilizzarsi intorno a un certo valore man mano che aumenta il numero di ripetizioni dell’esperimento. La probabilità di E è proprio quel valore, intorno al quale tende a stabilizzarsi la frequenza relativa dopo un numero sufficientemente grande di prove. La definizione classica ha spazi campionari finiti mentre quella frequentista è applicabile a qualunque spazio campionario e a situazioni non simmetriche; inoltre permette di probabilizzare eventi più complessi. Essa ha però i suoi limiti: A) la ripetibilità delle prove effettuate tutte nelle stesse condizioni; B) la probabilità di un qualunque evento causale E è un numero compreso tra 0 e 1 calcolato secondo la definizione classica/frequentista che conducono in genere allo stesso risultato. Esporre il concetto di variabile causale, la sua utilità in relazione all’esperimento causale, e l’analogia con la variabile statistica inclusi i concetti di media e varianza