Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


stastistica san raffaele, Schemi e mappe concettuali di Statistica

riassunto esame statistica san raffaele

Tipologia: Schemi e mappe concettuali

2023/2024

Caricato il 02/07/2024

matteoartale
matteoartale 🇮🇹

4.6

(7)

2 documenti

1 / 29

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica
La statistica è uno strumento che ci permette di regolare, utilizzando strumenti di controllo (i dati),
nel mondo della preparazione, fisica, atletica, tattica e strategica delle squadre o dei singoli atleti.!
-La statistica è usata per Descrivere i dati, per determinare Relazioni tra variabili e per
stabilire Dierenze tra gruppi.
-Le tecniche di Campionamento permettono o limitano le possibili Inferenze, ovvero la
Generalizzazione dei risultati osservati nel Campione all’intera Popolazione di riferimento. !
IL CONCETTO DI MODELLO: In statistica si costruiscono dei modelli della realtà, che sono delle
semplificazioni della realtà. !
APPLICAZIONE STATISTICA NELLO SPORT!
Il mondo dello sport è conosciuto per la grande quantità di dati statistici che vengono raccolti per
ogni atleta, giocatore, squadra, gara, partita e campionato.!
(p.es. un giocatore di basket avrà dati per: i punti, rimbalzi, assist, blocchi, palle perse, ecc per
ogni partita). Ciò può provocare un sovraccarico di informazioni (overload informativo) per coloro
che cercano di trarre significato dalle statistiche, disperdendo così moltissime risorse. !
Lo sport può rappresentare uno scenario ideale per gli strumenti e le tecniche di analisi statistica,
in grado di produrre modelli descrittivi e inferenziali. La conoscenza di alcune tecniche statistiche
ci permette di avere delle info utili da utilizzare da spendere nel campo dell’allenamento e della
gestione, della preparazione e dell’ approssimarsi di una gara. !
!
Vi sono tantissimi strumenti statistici disponibili che permetto di elaborare velocemente, grazie al
dato statistico, una serie di previsioni dal punto di vista tattico e statistico. !
A questo proposito entriamo in merito a delle vere e proprie professioni: !
1. Gli scout -> osservatori che osservano lo sviluppo di certe competenze (tattiche e fisiche); !
2. Gli allenatori -> hanno la necessità di condurre delle ricerche sui propri atleti e soprattuto di
fluire della letteratura scientifica internazionale che ci racconta come certe metodiche di
allenamento possano essere utilizzate più ecacemente di altre. [Tutto basato sulla
comprensione di dati statistici].!
3. I dirigenti sportivi e manager -> alcuni indicatori di dati statistici aiutano i dirigenti a gestire
una società sportiva. !
Attualmente, la maggior parte delle organizzazioni sportive, di squadra e non, impiegano
STATISTI e ANALISTI per recuperare SIGNIFICATO e COMPRENSIONE dai dati raccolti per
permettere DECISIONI INFORMATE a:!
1. SCOUT!
2. TECNICI E ALLENATORI!
3. DIRIGENTI E MANAGER!
4. SPORT SCIENTISTS!
5. SPONSOR – ECONOMIA SPORTIVA!
6. MEDIA ED INFORMAZIONE!
Dunque, attorno alla figura dell’atleta ruotano una serie di figure che
hanno tutte a che fare con la raccolta e con lo studio del dato -> !
BIG DATA: raccolta di dati informatici così estesa in termini di
volume, velocità e varietà da richiedere tecnologie e metodi analitici
specifici per l'estrazione di valore o conoscenza. Andare a ricercare all’interno di questi
grandissimi raccoglitori di informazioni è un lavoro da specialisti. -> DATA MINING: comprende
quegli strumenti e tecniche mirate all’estrazione di dati dai big dati. Il data mining è uno degli
strumenti più importanti della statistica. !
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d

Anteprima parziale del testo

Scarica stastistica san raffaele e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

Statistica

La statistica è uno strumento che ci permette di regolare, utilizzando strumenti di controllo (i dati ), nel mondo della preparazione, fisica, atletica, tattica e strategica delle squadre o dei singoli atleti.

  • (^) La statistica è usata per Descrivere i dati, per determinare Relazioni tra variabili e per stabilire Differenze tra gruppi.
  • (^) Le tecniche di Campionamento permettono o limitano le possibili Inferenze , ovvero la Generalizzazione dei risultati osservati nel Campione all’intera Popolazione di riferimento. IL CONCETTO DI MODELLO: In statistica si costruiscono dei modelli della realtà, che sono delle semplificazioni della realtà. APPLICAZIONE STATISTICA NELLO SPORT Il mondo dello sport è conosciuto per la grande quantità di dati statistici che vengono raccolti per ogni atleta, giocatore, squadra, gara, partita e campionato. (p.es. un giocatore di basket avrà dati per: i punti, rimbalzi, assist, blocchi, palle perse, ecc per ogni partita). Ciò può provocare un sovraccarico di informazioni (overload informativo) per coloro che cercano di trarre significato dalle statistiche, disperdendo così moltissime risorse. Lo sport può rappresentare uno scenario ideale per gli strumenti e le tecniche di analisi statistica, in grado di produrre modelli descrittivi e inferenziali. La conoscenza di alcune tecniche statistiche ci permette di avere delle info utili da utilizzare da spendere nel campo dell’allenamento e della gestione, della preparazione e dell’ approssimarsi di una gara. Vi sono tantissimi strumenti statistici disponibili che permetto di elaborare velocemente, grazie al dato statistico, una serie di previsioni dal punto di vista tattico e statistico. A questo proposito entriamo in merito a delle vere e proprie professioni:
  1. Gli scout -> osservatori che osservano lo sviluppo di certe competenze (tattiche e fisiche);
  2. Gli allenatori -> hanno la necessità di condurre delle ricerche sui propri atleti e soprattuto di fluire della letteratura scientifica internazionale che ci racconta come certe metodiche di allenamento possano essere utilizzate più efficacemente di altre. [Tutto basato sulla comprensione di dati statistici].
  3. I dirigenti sportivi e manager -> alcuni indicatori di dati statistici aiutano i dirigenti a gestire una società sportiva. Attualmente, la maggior parte delle organizzazioni sportive, di squadra e non, impiegano STATISTI e ANALISTI per recuperare SIGNIFICATO e COMPRENSIONE dai dati raccolti per permettere DECISIONI INFORMATE a:
  4. SCOUT
  5. TECNICI E ALLENATORI
  6. DIRIGENTI E MANAGER
  7. SPORT SCIENTISTS
  8. SPONSOR – ECONOMIA SPORTIVA
  9. MEDIA ED INFORMAZIONE Dunque, attorno alla figura dell’atleta ruotano una serie di figure che hanno tutte a che fare con la raccolta e con lo studio del dato -> BIG DATA : raccolta di dati informatici così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore o conoscenza. Andare a ricercare all’interno di questi grandissimi raccoglitori di informazioni è un lavoro da specialisti. -> DATA MINING : comprende quegli strumenti e tecniche mirate all’estrazione di dati dai big dati. Il data mining è uno degli strumenti più importanti della statistica.

Lo studio approfondito dei dati statistici può anche tradursi in fattori predittivi di risultati futuri. Ma la statistica si occupa anche di studiare gli errori per tentare di comprendere le evenienze e dove e quando accadono. Lo scopo della statistica è, dunque, quello di raccogliere dati che poi ci permettono, per esempio, di comprendere la natura di alcuni fenomeni, di confrontarli In modo da poter guidare, attraverso un’analisi attenta, il processo di allenamento o di una gara di una squadra o un individuo. In genere si raccolgono dati numerici. Quando raccogliamo dati bisogna tenere conto di alcuni criteri e precauzioni x la completezza delle informazioni raccolte:

  • Quali e Quanti dati raccogliere?
  • Rilevazione completa sull’intera «popolazione» (censimento, etc.)
  • Campione «rappresentativo» di tutta la popolazione.
  • Mettere a fuoco l’obiettivo ultimo
  • Recuperare le informazioni
  • Identificare con chiarezza i termini, i concetti e le definizioni usate
  • Decidere il formato dei dati Lo statistico utilizza 2 formati di presentazione di dati: la tabella e la rappresentazione grafica.
  • La tabella è il punto di partenza per la rappresentazione, la lettura, l’interpretazione e l’elaborazione successiva. Essa contiene dati significativi (cioè ripetibili , consistenti). La tabella deve avere:
  • un titolo
  • Colonne e colonna madre (che è la prima colonna a sinistra)
  • Testata
  • Finestra di dialogo: rappresenta l’interfacciabilità della tabella con l’utente
  • Note: come la fonte
  • Finestra di dialogo
  • Un grafico è la visualizzazione della frequenza con cui si presentano le modalità di un carattere statistico. Caratteristiche:
  • Fedele ai dati numerici
  • Non ambiguo
  • Accurato nella rappresentazione di differenze e similarità
  • Completo di titoli e indicazioni dell’oggetto della rappresentazione STRUMENTI DI MISURAZIONE STATISTICA: moda , media e mediana. Media Aritmetica semplice
  • Indice di posizione che restituisce l’ordine di grandezza del fenomeno e nella maggior parte dei casi tende a cadere centralmente all’interno dell’insieme ordinato dei dati. Media Aritmetica ponderata
  • Quantità notevole di dati con una distribuzione di frequenze. Moda o norma
  • La moda o norma di una distribuzione di frequenza è la modalità di massima frequenza, ovvero è il valore che compare più frequentemente e viene indicato con v0. Mediana
  • In una distribuzione di n valori x ordinati in modo crescente o decrescente, la mediana è il valore che si colloca a metà della sequenza: se n è dispari, essa è il dato centrale di x; se n è pari, è la media dei due valori che separano gli n valori in due parti uguali. La mediana bipartisce la distribuzione in due sotto-distribuzioni. Scarto o deviazione
  • Lo scarto permette di valutare l’incertezza associata a tale stima. Questa differenza ci dà un’indicazione di quanto la i-esima misura differisca dalla media.

È anche la somma dell’errore sistematico e dell’errore casuale. Una misura si dice attendibile quando l’errore totale non è significativo. L’attendibilità è la somma tra l’errore sistematico e l’errore casuale. PRECISIONE ED ACCURATEZZA

  • Le stime di accuratezza sono basate sulla media aritmetica semplice.
  • Le stime di precisione sono basate sulla deviazione standard campionaria. TABELLE A 1 ENTRATA L’analisi monovariata ha i seguenti obiettivi:
  • Permette una buona visualizzazione della distribuzione dei dati per una loro eventuale riaggregazione.
  • Consente al lettore di analizzare direttamente i dati per una valutazione critica delle scelte delle tecniche multivariate usate dal ricercatore. TABELLE A DOPPIA ENTRATA
  • L’analisi statistica bivariata mette in relazione due variabili per studiarne la dipendenza/ indipendenza e il tipo ed il grado di relazione.
  • La tabella a doppia entrata permette l’analisi della distribuzione di frequenza congiunta tra due variabili ed è il modo di classificare una singola unità in modo congiunto rispetto a due distinte caratteristiche.
  • In una tabella a doppia entrata si collocano due variabili, una in riga X (variabile di riga) ed una in colonna Y (variabile di colonna) e nelle celle , definite dall’incrocio fra le righe e le colonne, il numero di casi che presentano le corrispondenti modalità delle due variabili (frequenze). DISTRIBUZIONI CONDIZIONATE Fissata una modalità della prima variabile ( carattere ), le distribuzioni condizionate sono le distribuzioni della seconda variabile. Le distribuzioni condizionate non possono essere confrontate tra loro perché si riferiscono a totali marginali diversi. DISTRIBUZIONI PERCENTUALI Sia K la generica modalità della variabile di riga e H la generica modalità della variabile di colonna, prende il nome di:
  1. Percentuale marginale di riga il valore che si ottiene moltiplicando 100 per il rapporto tra il valore presente nell’ultima colonna della riga K fratto la somma dei totali di riga con i valori di colonna (n): 100xnK/n
  2. Percentuali marginali di colonna: 100xnH/n
  3. Percentuali condizionate di riga: 100xnKH/nK
  4. Percentuali condizionate di colonna: 100xnKH/nH
  5. Percentuali di cella (sul totale): 100xnKH/n DISTRIBUZIONE DI FREQUENZA La distribuzione di frequenza è l’insieme dei valori (modalità o intervalli di classe) di una variabile e del numero di volte (frequenza) con cui ricorrono nel campione. È una rappresentazione sintetica di un insieme di osservazioni relative a una variabile. Come si costruisce una distribuzione di frequenza?
  6. Definire un criterio di classificazione delle osservazioni.
  7. Assegnare ad ogni valore una frequenza corrispondente. Nel caso in cui dobbiamo trovare un criterio di classificazione per una variabile qualitativa, dobbiamo definire le modalità di questa variabile; se invece abbiamo una variabile quantitativa, dobbiamo definire gli intervalli di classe. La classificazione prevede due caratteristiche fondamentali:
  8. Classificazione completa delle modalità o dei valori assunti dalla variabile -> nel senso che quando vado ad inserire i diversi valori della variabile devo avere tutte le classi descritte

all’interno della distribuzione; quindi, è fondamentale che nella classificazione si comprendano tutti i valori assunti della variabile, siano essi modalità o i valori assunti dalla classe.

  1. Classificazione priva di ambiguità : ogni unità statistica deve essere assegnata ad una unica modalità o intervallo di classe. -> ogni dato deve appartenere ad una sola classe della distribuzione e non può appartenere a più classi. ESEMPIO: FREQUENZA ASSOLUTA La frequenza assoluta ni è il numero di osservazioni che corrispondono ai diversi valori (modalità ->variabile qualitativa; intervalli di classe -> variabile quantitativa). Quindi calcolare la frequenza assoluta di una variabile significa andare a contare il num di volte in cui ricorrono i valori della variabile. Sia n il num delle osservazioni ( quindi n è il num di dati sul quale lavoriamo) e sia k il num di v alori assunti dalla variabile (quindi le modalità o gli intervalli di classe che consideriamo). Osserviamo che ni (frequenza assoluta) può variare da 0 al numero tot delle osservazioni. La somma di ni restituisce il num tot delle osservazioni o del num di dati sui quali stiamo lavorando. FREQUENZA RELATIVA La frequenza relativa (pi = ni/n) è il rapporto tra il numero di osservazioni che corrispondono ai diversi valori (modalità/intervalli di classe) della variabile e la dimensione del campione. PROPRIETÀ RELATIVE ALLA FREQUENZA RELATIVA
  2. La pi di un dato può variare da un minimo di 0 ad un massimo di p, dove p è dato dalla somma per i da 1 a k dei pi. Ovviamente pi=0 se il valore iesimo non ricorre mai all’interno del campione, pi=p se ricorre sempre all’interno del campione. FREQUENZA RELATIVA PERCENTUALE La *frequenza relativa percentuale (pi%= ni/n 100) indica quante volte un fenomeno si manifesta su una casistica di 100 osservazioni. Essa normalizza i dati rispetto al valore 100. Sia n il numero delle osservazioni o dei dati in nostro possesso e sia k il num dei valori della variabile:
  3. Pi% iesima è compresa da un min 0% ad un Max del 100% dei casi. -> se pi%=0% allora non ricorre mai all’interno del campione; se pi%=100% allora ricorre sempre nel campione.
  4. La somma dei valori percentuale restituisce pi%. Le frequenze relative consentono il confronto della distribuzione di una variabile in campioni di dimensioni diverse. FREQUENZA CUMULATA La frequenza assoluta cumulata Fi è il numero di osservazioni il cui valore è inferiore o uguale ad una data modalità o a un dato valore di xi. La frequenza relativa cumulata Pi e frequenza relativa cumulata percentuale Pi% sono definite come segue:

ciò che accade in poche migliaia di persone. Questa parte della demoscopia permette di fare dei ragionamenti generalizzabili a scenari probabili. L’obbiettivo tecnico del campionamento è quello di stimare alcuni parametri nella popolazione, che possiamo andare a trovare direttamente in un campione più piccolo, quindi rappresentativo, della popolazione stessa. Spesso, per esempio si utilizza la media : si va a stimare se la media campionaria è vicina alla media della popolazione stessa, cioè alla vera media che probabilmente appartiene a una popolazione superiore. La distinzione tra media campionaria e media espressa teoricamente dalla popolazione intera, sono rappresentate da una diversa notazione -> la media campionaria di indica con la lettera M, mentre quella della popolazione viene indicata con la lettera greca mi****. LA STIMA La stima è esattamente quello che ci aspettiamo da un buon modello, non corrisponde alla concretezza assoluta. Le tecniche di stima, sono basate su indici di stimatori , cioè quella categoria di osservazione che ci permette di identificare nella moltitudine delle variabilità quei concetti fortemente correlabili alla realtà stessa. Quindi, uno stimatore può essere corretto se il suo valore medio corrisponde al valore del parametro della popolazione, oppure distorto, se si discosta da esso. METODI X SELEZIONARE UN CAMPIONE Esistono principalmente due tipi di campionamento: **1) Campionamento probabilistico

  1. Campionamento non probabilistico** Quando è possibile è sempre meglio ricorrere ad un campionamento di tipo probabilistico, perché permette:
  • Alto grado di rappresentatività,
  • Stima ottimale delle caratteristiche della popolazione.
  • Il^ campionamento probabilistico^ prevede 4 forme, molto simili fra loro perché sono basate su un concetto di randomizzazione , cioè di estrazione casuale degli oggetti di osservazione e misura. Quindi abbiamo: **1) Campionamento casuale semplice (random)
  1. Campionamento stratificato
  2. Campionamento per clusters (aree o grappoli)
  3. Campionamento sistematico**
  • Il^ campionamento non probabilistico^ è quello meno potente dal punto di vista statistico, perché rappresenta una convenienza che gli statisti compiono in relazione alla popolazione di riferimento che si studia. Può essere utilizzato, per esempio, per motivi di estrema riduzione del numero della popolazione. Si può campionare per: **1) Campionamento per quote
  1. Campionamento per scelta ragionata
  2. Campionamento per testimoni privilegiati** CAMPIONAMENTO CASUALE SEMPLICE (random) Il campione dei partecipanti è selezionato a caso da un gruppo più grande, che in questo caso viene definito popolazione. Per esempio su una popolazione di 10.000 atleti vogliamo studiarne 200, che ne rappresentano un campione statistico (n=200). Assegnando ad ogni atleta un numero identificativo (da 0000 a 9999), il campione necessario sarebbe estratto a caso utilizzando una tabella di numeri casuali o random o un applicativo informatico che fornisca numeri casuali.

Questo metodo garantisce una forte rappresentatività del campione rispetto alla popolazione di studio e i risultati ottenuti nella elaborazione delle variabili raccolte possono essere applicati ( inferiti ) all’intera popolazione, con un alto grado di probabilità di corrispondenza tra i valori trovati nel campione e quelli della popolazione. Tale grado di corrispondenza dipende fortemente dalla numerosità campionaria e dalla variabilità del parametro studiato. Generazione di numeri casuali tramite excel : funzione CASUALE.TRA Scrivo sulla barra in alto denominata “fx” : =casuale.tra(intervallo di tempo min;intervallo di tempo maggiore) MISURE DI TENDENZA E DISPERSIONE Alcune delle formule statistiche e matematiche più semplici sono i calcoli della tendenza centrale e della dispersione dei dati raccolti che forniscono una serie di indici di sintesi in grado di rappresentare efficacemente una moltitudine di dati. Gli indici più usati per esprimere la misura della tendenza centrale sono:

**- La Media

  • La Mediana
  • La Moda** Ovviamente tali indici tendono a rappresentare un valore ipotetico intorno a cui si addensano i valori registrati, ma non danno una idea della variabilità (dispersione) interna al gruppo di misure prese in considerazione. Gli indici più usati per esprimere la misura della dispersione sono: **- La Varianza
  • La Deviazione Standard** MEDIA ARITMETICA SEMPLICE È un indice di posizione che restituisce l’ordine di grandezza del fenomeno e nella maggior parte dei casi tende a cadere centralmente all’interno dell’insieme ordinato di dati. La dispersione dei valori può essere rappresentata da un numero: la deviazione standard. MEDIA ARITMETICA PONDERATA È una sommatoria delle evenienze osservate, che vengono moltiplicate per la frequenza delle evenienze osservate stesse. LA MEDIANA In una distribuzione di n valori xi, ordinati in modo crescente o decrescente, la mediana è il valore che si colloca a metà della sequenza (indice di posizione):
  • se n è dispari, essa è il dato centrale di x;
  • se n è pari, è la media dei due valori che separano gli n valori in due parti uguali. Posizione mediana = La Mediana bipartisce la distribuzione in due sottodistribuzioni, ed è più stabile rispetto ai valori estremi di una distribuzione. MODA O NORMA La moda o norma di una distribuzione di frequenza è la modalità di massima frequenza, ovvero è il valore che compare più frequentemente nella distribuzione e viene indicato con v 0. La distribuzione si dice unimodale se ammette un solo valore modale, bimodale se ne ammette due, trimodale se ne ha tre, etc.

La devianza si calcola sottraendo ad ogni valore la media (di tutti i valori, che in questo caso è 4) ed elevando al quadrato; dopodiché si sommano tutti i risultati dei valori trovati. (Vedi immagine a sx). Se si raddoppia il numero di dati, anche la devianza raddoppia nonostante la variabilità dei dati si mantenga costante. Da qui viene la necessità di creare un altro indice di dispersione che sia indipendente dalla numerosità dei dati. Quindi un indice normalizzato rispetto alla numerosità del campione o della popolazione: la varianza. VARIANZA È un altro indice di dispersione, legato al concetto di devianza. In effetti la varianza è la devianza media rapportata al num delle osservazioni o del campione o della popolazione. La varianza ha due elementi critici:

  1. Essa tiene conto di tutte le osservazioni ed è dunque influenzata dalle osservazioni anomale.
  2. Essa non è direttamente confrontabile con la media o con altri indici di posizione, dato il valore al quadrato. VARIANZA PONDERATA Quando i dati sono raggruppati in classi. Quando ad un dato è associato un peso o una frequenza. SCARTO QUADRATICO MEDIO o deviazione standard La varianza campionaria o nella popolazione forniscono un valore che non è direttamente confrontabile con le misure di posizione, per questo motivo si introduce il concetto di scarto quadratico medio. Esso misura la dispersione della variabile intorno alla media. È direttamente confrontabile con le misure di posizione. Ha sempre valore positivo. È la radice quadrata della varianza. Viene indicati con sigma nella popolazione e con s nel campione. Lo scarto quadratico medio potrebbe non essere utile nel confronto della variabilità all’interno di due gruppi di dati. Lo scarto quadratico non è utile in due casi:
  3. Quando abbiamo due gruppi con valori medi diversi;
  4. Quando abbiamo due gruppi con unità di misura differenti.

A questo punto entra in gioco il COEFFICIENTE DI VARIAZIONE: è un indice di dispersione indipendente dall’unità di misura. Esso consente una misurazione della variabilità indipendentemente dalla grandezza e dalla scala di misura dei dati. È un indice di distribuzione percentuale ed è pari al rapporto tra la deviazione standard e la media moltiplicato per 100. RIASSUMENDO DISTRIBUZIONI DI FREQUENZA E PROBABILITÀ Una distribuzione di frequenza osservata è ricostruita a partire dai dati. Una distribuzione teorica di probabilità è definita da una funzione matematica di cui si conoscono le caratteristiche e che permette il calcolo della probabilità associata a ciascun valore o intervallo di valori. Distribuzione teorica discreta di probabilità -> La funzione è definita dalla probabilità che la variabile assuma un certo valore. Distribuzione uniforme discreta di probabilità -> se i possibili valori sono n, allora ognuno di questi ha la stessa probabilità di verificarsi e non dipende dal valore stesso. Distribuzione non uniforme discreta di probabilità -> se i possibili valori sono n, allora ognuno di questi non ha la stessa probabilità di verificarsi e dipende dal valore stesso. Distribuzione teorica continua di probabilità per variabili di tipo continuo -> La funzione è una distribuzione di densità di probabilità (una probabilità divisa per un intervallo). DISTRIBUZIONE NORMALE O GAUSSIANA È una delle distribuzioni continue più utilizzate. Essa è definita interamente tra 2 parametri, la media e la varianza. Sono valori veri, riscontrabili nella popolazione. La media ne definisce la posizione; mentre la varianza la forma. La caratteristica fondamentale è la simmetria (è una distribuzione simmetrica, ha infatti una tipica forma a Campana). Altre proprietà:

  • Distribuzione unimodale centrata sulla media (media=mediana=moda)
  • L’area sottesa dalla curva è pari a 1

indipendente (le due variabili sono trattate in modo simultaneo ma come due distribuzioni indipendenti);

  1. Si riportano tali modalità/classi nella testata per il primo carattere e nella colonna madre per il secondo carattere;
  2. Si riportano i valori dei caratteri nelle celle della tabella. TABELLA DOPPIA L’ultima riga e l’ultima colonna sono le distribuzioni univariate dei due caratteri di partenza ( età e frequenza cardiaca).
    • Le frequenza, riportate in una riga o colonna qualsiasi all’interno della colonna, sono dette distribuzioni parziali della distribuzione doppia.
    • Mentre nell’ultima riga e colonna abbiamo distribuzioni marginali della distribuzione doppia. I grafici di una distribuzione bivariata sono:
  3. Istogramma nel caso in cui le frequenze sono raggruppate in classi.
  4. Diagramma di dispersione (scatter plot) quando le singole coppie di misure osservate sono rappresentate come punti di un piano cartesiano. Utili per variabili continue i cui dati sono raggruppati in classi. ESEMPIO Quando le caselle sono eccessivamente numerose per essere riportate in una tabella come la seguente occorre raggruppare in classi almeno una delle due variabili. Se per esempio la frequenza cardiaca avesse un range pari a xmin- xmax=84-60=24 e l’età avesse un range pari a xmin-xmax=33-21=12, bisognerebbe costruire una tabella a doppia entrata con 24x12=288 caselle. In questi casi occorre raggruppare in classi. Quindi: Una tabella di questo tipo fornisce una serie di utilissime info, ad esempio la frequenza cardiaca è direttamente proporzionale all’età. ISTOGRAMMA DISTRIBUZIONE BIVARIATA che descrive questa tabella: Questo tipo di istogramma facilita la lettura dei dati rispetto alla loro forma tabellare ma non è univoca e spesso dei dati sono nascosti dietro i rettangoli più alti. Allora per la rappresentazione grafica di una distribuzione bivariata di solito la soluzione migliore è quella di utilizzare un diagramma di dispersione : Le coppie di dati indicate con un punto sono riportate in un grafico bidimensionale. Le coordinate di tale punto coincidono con la coppia di dati. Facilita la lettura dei dati sia nel loro andamento generale (atleti più giovani hanno frequenze cardiache più basse) sia nell’individuazione di casi particolari (la categoria dei 27-enni ha la frequenza cardiaca con maggiore variabilità).

Le distribuzione bivariate considerate finora sono di tipo assoluto ; ovviamente da esse è possibile costruire una tabella a doppia entrata con distribuzione relativa. Si dividono i valori per la dimensione del campione e si moltiplica per 100. In tal modo si ottiene la seguente tabella delle distribuzioni bivariate relative percentuali. DISTRIBUZIONE BIVARIATA CONDIZIONATA Si costruiscono fissando una variabile e studiando la distribuzione dell’altra variabile. Frequenze relative di tipo percentuale : si ottengono dalle frequenze assolute dividendo i valori presenti nelle singole celle per il tot che abbiamo indicato. RELAZIONE TRA 2 VARIABILI In una distribuzione bivariata (multipla), su un’unità statistica campionaria è possibile osservare due (o più variabili) simultaneamente. Per studiare la relazione tra due caratteri o variabili X e Y di un campione, occorre tenere presente: ➢ La natura delle variabili in gioco (qualitativa, quantitativa, etc.) ➢ Il tipo di relazione che si vuole rilevare tra le variabili stesse. Esistono due tipologie di dipendenza:

  • Logica -> se tra due caratteri esistono relazioni di causa ed effetto.
  • Statistica -> se tra due caratteri esistono delle regolarità nell’associazione tra le modalità dei caratteri (non un nesso di causalità). Un aspetto fondamentale è che l’indipendenza logica NON implica indipendenza statistica. Quando c’è l’indipendenza? -> Se la distribuzione condizionata X|Y non cambia al variare delle modalità di Y allora si dice che la variabile X è indipendente in distribuzione da Y. L’ Indipendenza è una relazione simmetrica, ovvero se x è indipendente da y, allora anche y è indipendente da x. Date due variabili indipendenti in una distribuzione, è possibile ricostruire la tabella doppia a partire dalle distribuzioni marginali. Se non si è in grado di costruire la frequenza congiunta di un elemento a partire da quelle marginali allora le variabili non sono indipendenti ma connesse. Esiste una dipendenza assoluta tra due caratteri. Esempio X è indipendente in distribuzione da Y perché le distribuzioni condizionate sono tutte uguali tra di loro. LE CONTINGENZE Sono uno strumenti che ci permettono di misurare il grado di dipendenza di due caratteri. Le contingenze cij , sono lo scarto tra la frequenza osservata in una cella e la frequenza teorica che si osserverebbe se le due variabili fossero completamente indipendenti. cij=0 i due caratteri sono indipendenti cij>0 tra i due caratteri c’è una connessione positiva (nella cella ij c’è un addensamento di frequenze) cij>0 tra i due caratteri c’è una connessione negativa (nella cella ij c’è un rarefazione di frequenze). Due caratteri sono connessi se e solo se esiste una cella per cui cij è diversa da zero.
  1. Possiamo costruire chi-quadro. CHI-QUADRO È DATO DALLA SOMMA DEI RAPPORTI TRA LE FREQUENZE OSSERVATE E LE FREQUENZE TEORICHE AL QUADRATO, TUTTO FRATTO LA FREQUENZA TEORICA. Il Chi-quadro dipende dalla dimensione della tabella: non è quindi possibile studiare il livello di connessione tra due variabili in un campione e quello delle stesse variabili in un altro insieme di dati o tra coppie diverse di variabili di uno stesso insieme di dati. La V di Cramer è l’indice Chi-quadro normalizzato. Gli indici studiati stabiliscono il grado di dipendenza assoluta di due caratteri. COVARIANZA E CORRELAZIONE: dipendenza parametrica e funzionale
  • L’indipendenza assoluta è una condizione forte: tutte le distribuzioni condizionate relative devono essere uguali.
  • Condizione meno forte: invarianza di un solo parametro (es. media) rispetto alle distribuzioni condizionate. DIPENDENZA PARAMETRICA Modello più diffuso: dipendenza in media. -> la dipendenza assoluta si può verificare tra variabili di tipo qualsiasi, mentre la dipendenza in media si può verificare esclusivamente tra variabili di tipo quantitativo. Due variabili sono indipendenti in media se M(Y|xi)=M(Y) per ogni xi allora Y è indipendente in media da X. [se la media di Y rispetto ad xi, per ogni xi è uguale ad M di Y, quindi la media è indipendente da xi]. E se M(X|yj)=M(X) per ogni yj allora X è indipendente in media da Y. M sta per media aritmetica. ESEMPIO Per verificare una dipendenza in media tra i 2 caratteri (frequenza cardiaca a riposo ed età) occorre andare a calcolare la media della frequenza x l’età uguale alla modalità 26-27-28 e 31. Quindi, x capire come si calcoli la media della frequenza rispetto all’età fissata (x es. 26 anni), si calcola 62 x il num della frequenza corrispondente e dividere per il num degli atleti corrispondenti dell’età di 26 anni. (Guarda immagine). In modo analogo si ottiene la media delle altre età (27-28-31 anni). Infine, dobbiamo calcolare la M(Y), cioè la media della frequenza -> si ottiene sommando questi valori e dividendoli per il tot. Dato che le xi (cioè l’età) non coincidono con la media della frequenza (M(Y)) c’è una dipendenza in media della frequenza con l’età.

La dipendenza in media, a differenza della dipendenza assoluta, non è una relazione simmetrica, nel senso che può esserci una dipendenza in media di un carattere rispetto all’altro ma non è detto il viceversa. Per misurare la dipendenza in media si ricorre al rapporto di correlazione o all’indice eta quadrato di Pearson. INDICE DI PEARSON -> Per definirlo abbiamo bisogno del concetto di devianza. La devianza di una variabile Y rispetto all’altra variabile X si può scomporre in devianza interna ed esterna. NB ni.=frequenza marginale. n.j =distribuzione marginale. CALCOLO DELL INDICE DI PEARSON Note le definizione di devianza interna, esterna e tot, possiamo definire l’indice di eta quadrato di Y (cioè l’indice di Pearson di Y) che è uguale al rapporto tra la devianza esterna e la devianza totale ( indice di Pearson =dev interna/ dev tot). Questa quantità è uguale ad 1 meno il rapporto tra la devianza interna e quella totale.

  • Se la devianza esterna di Y è nulla, esiste un’indipendenza in media di Y da X e l’indice di Pearson=
  • Se la devianza interna di Y è nulla, esiste una dipendenza in media massima di X da Y e l’indice di Pearson=1. DIPENDENZA FUNZIONALE Dipendenza lineare -> essa si può stabilire solo tra caratteri quantitativi. Prende il nome di codevianza tra X e Y, la somma dei prodotti xiyi e sintetizza la distribuzione dei punti nei quattro quadranti dell’asse cartesiano.
  • Codevianza > 0 prevalgono i punti del I e III quadrante caratteri concordanti;
  • Codevianza = 0 punti uniformemente distribuiti nei quattro quadranti dipendenza nulla;
  • Codevianza < 0 prevalgono i punti del II e IV quadrante caratteri discordanti. La Codevianza dipende dalla numerosità del campione e delle unità di misura , quindi bisogna renderlo indipendente da essi: Passo 1: Eliminazione della dipendenza dalla numerosità del campione -> Si divide la codevianza per la dimensione campionaria e si ottiene un indice che è detto covarianza. Passo 2: Eliminazione della dipendenza dalle unità di misura -> Si divide la covarianza per gli scostamenti quadratici medi delle due variabili e si ottiene il coefficiente di correlazione lineare di Bravais-Pearson.

DEFINIZIONI UTILI

INTERVALLO DI CONFIDENZA: è quella regione che conterrà il vero valore della media della popolazione. (z= valore critico). Qualsiasi test statistico è contraddistinto da un insieme di elementi comuni e da un analogo processo decisionale:

  1. IPOTESI NULLA (H0) : ipotesi che il ricercatore vuole sottoporre a verifica (sempre riferito al parametro della popolazione)-> lo sottopone a dimostrazione o negazione. Si ritiene essere lo status quo.
  2. IPOTESI ALTERNATIVA (H1) : ipotesi che sarà accettata in caso di rifiuto di HO (introdotta come nuova teoria).
  3. LIVELLO DI SIGNIFICATIVITA' (alfa) : probabilità di accettare H0 anche se non è vera-> Quanto il ricercatore è disposto a sopportare questa accettazione anche nel caso anche nel caso l'ipotesi H0 NON SIA VERA (solitamente pari a 0,05). IL CRITERIO DI DECISIONE Prima di effettuare un test statistico si seleziona un valore critico di significatività ( alfa , posto a 0,05), che determinerà i valori critici della statistica testa che verrà fatta e influenzerà i criteri di decisione che verranno adottati. I valori critici definiscono una distribuzione probabilistica nel caso sia vera l’ipotesi nulla. Si vengono a definire le regioni di accettazione e di rifiuto. Nel grafico a dx, la zona di accettazione dell’ipotesi nulla H0 è delimitata dalle linee verticali che tagliano la curva nelle regioni delle due code, dove iniziano le zone di rifiuto di H0 e di accettazione di H1; ovvero la regione critica della distribuzione ( dove sarà assai improbabile che H0 possa essere accettata).
  • Valori convenzionali di alfa (livello di significatività) sono: 0,05 (5%); 0,01 (1%), 0,001 (0,1%). TEST T La statistica test t è una funzione dei dati osservati: si distribuisce secondo un’appropriata funzione di probabilità. È caratterizzata da 2 valori:
  • (^) T-value : il valore assunto dalla statistica test sulla base dei dati osservati. Sarà tanto più grande quanto più i dati supporteranno il rifiuto dell’ipotesi nulla.
  • (^) p-value : il valore dell’area sottostante alla distribuzione di probabilità della statistica test che può assumere un valore maggiore o uguale al T-value. DECISIONE: il processo di decisione si articola in 4 fasi fondamentali
  1. Si definisce il criterio di decisione -> occorre definire H0 e H1.
  2. Si raccolgono i dati.
  3. Si calcolare la media.
  4. Si calcola z , definito come segue:

A questo punto si arriva alla decisione:

  1. Rifiutare H0, la media del campione si colloca nella regione critica, quindi esiste una forte differenza tra la media del campione e quella della popolazione.
  2. Non rifiutare H0 (la media del campione si colloca vicina alla media della popolazione). In base a cosa si accetta o si rifiuta H0? In base ai valori T-value e P-value. A partire dai dati osservati si calcola il T-value. Al T-value corrisponde un p-value sulla base della distribuzione di probabilità della statistica test. I casi possibili sono i seguenti:
  3. Se il p-value è minore di α (alfa) -> si rifiuta l’ipotesi nulla;
  4. Se il p-value è maggiore di α ma minore di 0.1 -> si accetta l’ipotesi nulla con riserva;
  5. Se il p-value è maggiore di 0.1 -> si accetta l’ipotesi nulla. TEST STATISTICO Teoria della probabilità La definizione di probabilità non è univoca; sono 3 gli approcci che hanno dato vita a tre possibili definizioni di probabilità:
  6. Approccio classico -> definisce probabilità di un evento E il rapporto tra il num dei casi favorevoli (m) e in num dei casi possibili (n), a condizione che siano ugualmente probabili. P(E)=m/n.
  7. Approccio statistico -> f(E)=k/n, con 0<f<1. La probabilità di un evento è associata alla frequenza relativa del verificarsi dell’evento stesso su elevato num di prove, ovvero su un num di prove che tende all’infinito.
  8. Approccio soggettivo -> si definisce probabilità il grado di fiducia del verificarsi dell’evento E in base alle info e alle opinioni soggettive. Approccio più utilizzato in ambito sportivo. La distribuzione normale o gaussiana di una variabile casuale continua x è rappresentata da un grafico a campana -> che dipende dai due valori mu (valore medio) e sigma (varianza). Per i valori bassi di sigma la campana si stringe e si rialza, per valori alti di sigma essa si allarga e si abbassa (alto indice di dispersione, la concentrazione dei valori non è concentrata attorno alla media ma si distribuisce su tutta la retta reale; per valori bassi di sigma, cioè valori bassi dell’indice di dispersione, i valori si concentrano attorno al valore mu ). La distribuzione t di student di una variabile casuale continua x è rappresentata da una funzione normale. La distribuzione F di Snedecor , con r1e r2 gradi di libertà, di una variabile casuale continua X è rappresentata da una funzione non normale, ma asimmetrica. Essa dipende dai valori r1 ed r associati alla variabile continua x. VERIFICA DELLE IPOTESI Altro tema della statistica inferienziale è la verifica delle ipotesi sui parametri per:
  • conoscere e ridurre l’incertezza nel processo decisionale
  • controllare il rischio della decisione sulla base delle statistiche campionarie È possibile, a partire dalle statistiche campionarie, avere un controllo del rischio della decisione quando le proprietà osservate sul campione si vogliono estendere al resto del campione ( processo della inferenza ). Sono due gli elementi chiave nel processo di verifica di ipotesi. L’ipotesi nulla H0:
  • si riferisce sempre a un parametro della popolazione e non a una statistica campionaria (come la media campionaria).
  • Contiene il segno di uguaglianza relativo al parametro della popolazione. L’ipotesi alternativaH1:
  • non contiene mai un segno di uguaglianza relativo al valore specificato del parametro della popolazione.