Scarica Dispensa completa Statistica psicometrica e più Dispense in PDF di Statistica Psicometrica solo su Docsity!
Statistic sicometric
Psicometria= si occupa di studiare i metodi per sviluppare per validare e costruire i strumenti di misura in psicometrica Statistica psicometrica→ parte della psicometria, quella dello sviluppo e dell’analisi Statistica= prevedere e descrivere fenomeni Si può utilizzare non solo per gli articoli scientifici ma anche come psicologi che utilizzano degli strumenti, dei quali ci sono una varietà immensa, alcuni migliori di altri.
Metod scientific
= è il metodo che determina la differenza fra la conoscenza scientifica e conoscenza non scientifica
- le sue caratteristiche sono condivise dalla comunità scientifica
- sono sottoposte a continue revisioni, soggette a cambiamenti nonostante alla base ci siano degli aspetti matematici, è scientifico perché si pone la possibilità di essere revisionato e criticato Alla base c’è tutt’ora la parte logica = noi accettiamo come scientifico un metodo o teorie che non ha degli errori logici al suo interno, ma la logica non è sufficiente è necessaria anche la misura empirica → basato su misura dell’esperienza: utilizza l’esperimento scientifico per valutare la veridicità delle affermazioni teoriche Incorriamo sempre nell’ errore = esperimento consente di misurare le fonti di variabilità dei fenomeno,m la statistica stima proprio gli errori, quanto di quello che stiamo studiando è dovuto a quello che sto studiando e quanto è dovuto proprio all’errore Alcune teorie alla base del metodo scientifico POPPER → r ionalism critic Alcuni aspetti alla base logica statistica
- scienza avanza per tentativi ed errori
- criterio della demarcazione = è scientifica una affermazione, teoria o metodo che è criticabile e confutabile, se c’è poca chiarezza e possibilità di controllo è poco scientifica. + nella sua formulazione logica permette la possibilità di essere falsificata + la sua confutabilità non solo dai legami logici ma anche dalla chiarezza
- ricerca scientifica non inizia dall'osservazione ma dai problemi che vengono risolti attraverso la dimostrazione empirica Teorie non scientifiche quando una teoria non prevede l’errore ma si propone come verità assoluta, non può essere confutabile ovvero falsificabile Accade quando:
- scarsa precisione nella definizione delle relazione e della natura delle parti che la compongono
- incompiutezza
- eccessiva complessità Es. Popper critica la teoria dell’inconscio e della psicoanalisi perché ha molti aspetti indeterminabili che la caratterizzano Misurare : associare alcune caratteristiche del fenomeno in studio ( sistema empirico ) a un sistema di unità di misura ( sistema numerico )
Attraverso i numeri misuriamo tutti gli ambiti della psicologia. Statistic psicometric : ● metodi statistici di controllo dell’errore di misura ● permettono di usare misure psicologiche conoscendone la validità e l’attendibilità ● permettono di studiare i fenomeni psicologici dal pov descrittivo e inferenziale Quando misuriamo dei fenomeni abbiamo bisogno di una teoria della misura: fenomeno studiato da diversi pov
- teoria classica della misura → interessati solo a misurare la prestazione del soggetto indipendentemente dalla difficoltà dell’item e caratteristiche del test
- item response theory → abilità viene valutata in relazione alla difficoltà del item e caratteristiche del test = in ogni caso non si evita l’ errore di misura Abbiamo però una serie di errori che se siamo bravi riusciamo in gran parte a controllare, altri lo sono meno ma in questo caso possiamo solo misurarli e non controllabili, possiamo valutarli con la statistica
- errori sistematici = direzionali (dati vanno in una direzione che non ci aspettavamo, eliminabile), teorici, strumentali (strumenti non sempre funzionano nel modo corretto, recuperabile l’esperimento cambiando strumento), personali (dovuti a chi raccoglie i dati) = in ogni caso si può riporre rimedio
- errori sistematici = aleatori, casualità = non eliminabili poiché non sistematici Due approcci paralleli: statistica descrittiva o statistica inferenziale = danno due visioni del fenomeno che non possono essere sovrapposte ma sono complementari ● descrittiva→ descrizione fenomeno
- serve a rappresentare sinteticamente il fenomeno raccolta dati senza ipotesi di partenza poiché la realtà empirica è complessa, solo dopo interpreteremo i dati creando una teoria= risultato più libero, scelta dell’interpretazione punto di forza: pur non avendo possibilità di provare un’ipotesi, è importante perché riesce a restituire delle migliori possibilità interpretative del fenomeno che può essere anche molto complesso
- può essere un punto di partenza per poi formulare un ipotesi punto di debolezza: non abbiamo stime su quando i risultati possono essere generalizzabili all’intera popolazione perché ci stiamo concentrando su una prospettiva differente ● inferenziale→ ha già in mente descrizione fenomeno ma vuole verificare se l'interpretazione può essere vera alla popolazione generale per quanto riguarda quel fenomeno
- si parte da una teoria e un’ipotesi e poi conduco l’esperimento con il quale raccoglierò dei dati che convalidano o meno l’ipotesi= risultato rigido o confermo o non confermo ipotesi → ci permette di capire con quanto errore si può generalizzare i risultati ottenuti fa riferimento a una logica falsificazionista = logica fisheriana o frequentistica
FISHER→ sostenitore più forte
= possiamo considerare scientifiche solo le idee falsificabile e confutabile
- quando formulo ipotesi devo farlo in modo tale che sia possibile falsificarla ● ipotesi sperimentale H1 = ipotesi che vogliamo dimostrare
- si stabilisce a priori quanto errore possiamo avere per considerare comunque vera la nostra ipotesi A lvl convenzionale si accetta un errore utile alla dimostrazione dell’ipotesi se inferiore al 5% o 1% e quindi 0.05 e 0. = errore non può essere 0 perché altrimenti non sarebbe scientifica, errore è sempre presente anche se può essere molto piccola p > 5% → non respingo H0 = possibilità di riprovare esperimento su un’altro campione della popolazione, rimango nel limbo nulla mi dice che H0 sia veramente vera
- altrimenti si capisce cosa è successo per farsi si che escano questi risultati→ magari campione non troppo ampio, sbagliato nella formulazione in modo corretto l’ipotesi
- quindi il fatto che non falsifichi l’ipotesi nulla non comporta che l’ipotesi nulla sia vera p < 5% → respingo H0 = vado avanti con la ricerca posso indagare ulteriormente fenomeno con questa tipologia di esperimento Per giudicare correttamente la non falsificazione dell’ipotesi nulla è utile considerare l’errore di II tipo = probabilità di non falsificare l’ipotesi nulla quando essa è realmente falsa Nella pratica al posto di fare riferimento a questo alla probabilità dell’errore di II tipo, si usa la Potenza = probabilità di falsificare l’ipotesi nulla quando è falsa
- procedura sperimentale corretta richiede una numerosità del campione tale che garantire una potenza sufficiente, cioè una buona probabilità di riuscire a falsificare l’ipotesi nulla nel caso questa sia falsa Significatività + potenza dei test statistici= vengono calcolare utilizzando la distribuzione di probabilità dell’ipotesi nulla
Approcci statistic Bayesian approcci statistic Fisherian
abbiamo tre approcci: ● Approccio frequentista → quello maggiormente usato, anche perchè nato prima ● Approccio bayesiano → si pone in contrapposizione con la logica falsificazionista , e cerca di superare il suo limite che è valuta la probabilità di un errore di I tipo, valutare le diverse idee che emergono non ne prende una di riferimento ma stime la probabilità di tutte le ipotesi e poi scegliere la migliore
- superamento del ragionamento dicotomico
- due scuole di pensiero di cui uno dice che un approccio questo tipo non ha più bisogno di avere delle soglie per dimostrare che una ipotesi è meglio di altre = sempre volontà di superare il limite della logica falsificazionista
- si avrà un grado di credibilità dell’ipotesi ● Approccio «alla cieca» → non pone importanza ai propri obiettivi, ma la maggiorparte delle ricerche usano due prima La maggior parte dei corsi statistici non affrontano la tematica di approcciare diversi approcci
Entrambi devono usare degli indici statistici che vanno a descrivere il campione e ci permettono di fare delle misure su quel campione Medi = permette di dare un'idea generale dell’andamento dei dati
- tante tipologie es. media matematica = somma tutti i punteggi e divisione per il loro numero ma se ci sono degli estremi sono più frequenti e la media è nel mezzo ma non rappresenta la maggiore distribuzione e non sarebbe rappresentativo = Valore atteso → somma punteggi moltiplicati ciascuno per la sua probabilità
- per prevedere andamento della distribuzione Ma ho bisogno anche di valutare l’oscillazione della mia stima→ per questo viene usata con altri parametri per vedere quanto sono in grado di prevedere quell’andamento nella popolazione Valore vero = thx media si vuole prevedere il valore vero e teorico della popolazione
- ovviamente si deve ammette che i dati siano distribuiti in modo simmetrico(es gaussiani)→ non lo sara mai nella realtà ma è giusto per avere un riferimento Sia approccio Bayesiano che Fisheriano si occupano di stimare il valore vero e l’oscillazione casuale attorno ad esso tramite i dati raccolti con l’esperimento e danno una interpretazione dei parametri in termini probabilistici ma con una logica e con calcoli totalmente diversi fra loro Nella logica falsificazionista e approccio bayesiano bisogna fare delle assunzioni Deviazione standard → stimata dell’oscillabilità
- Logica Bayesiana→ stima la Probabilità dei parametri sulla base dei dati sperimentali
- va a stimare le diverse probabilità delle diverse teorie e quindi il loro grado di credibilità
- si assume che i dati sperimentali siano rappresentativi della realtà, per questo sono il punto di partenza
- Frequentista o Fisheriana→ stima la Probabilità dei dati sulla base di parametri teorici assunti a priori + assunzioni di distribuzione dell’ipotesi nulla vera, vera perchè non posso assumere che non ci sia Logic frequentist Fisherian = si basa sulla assunzione di un valore ‘vero’ attorno cui oscillano le misure per errore casuale Sviluppo della originaria formulazione fatta da Ronald Fisher (1890-1962) basata sulla falsificazione dell’ipotesi nulla e integrata successivamente con apporti da altre teorie es. Sense of humor: esistono differenze fra uomini e donne
→La NHST non prende in considerazione la probabilità dell’ipotesi alternativa I due approcci possibili sono alternative che possono condurre a due risultati opposti tra loro
= Lindle ’ parad → è una situazione controintuitiva in statistica in
cui gli approcci bayesiano e frequentista a un problema di verifica di ipotesi danno risultati diversi per determinate scelte della distribuzione a priori
- ma nel maggior parte del caso danno risultati coerenti, torna che l'ipotesi più significativa ha un bayes factor più alto in alcuni casi ha più senso usare una o l'altra logica Logic Bayesian Non assume che esista un valore ‘vero’ del parametro, nemmeno di H0, ma considera ogni parametro come stimabile dai dati rispetto ai quali calcola la distribuzione di probabilità → utilizzando il teorema di Bayes, calcola la probabilità di H0 in base ai dati ottenuti e la ritiene falsa se ha una probabilità molto più bassa della p di H1 in base agli stessi dati = identifico diverse teorie e le pongo in confronto (H1,H2, H3…)
Teorem d Baye
= probabilità di H0, avendo ottenuto i risultati R (dati sperimentali), è proporzionale, non uguale, alla probabilità di ottenere R essendo vera H0 (significatività) = ci permette però di calcolare la probabilità di H0 dati i risultati R P(H0|R) = P(R|H0) · P(H0) / P(R) ● P(H0|R) = probabilità a posteriori di H0 in base ai risultati ottenuti ● P(H0) = probabilità a priori di H0 prima dell’esperimento→ il suo punto debole perchè dicono che probabilità partono da R, ma abbiamo bisogno di avere delle probabilità a priori Due scuole di pensiero
- soggettivisti→ probabilità a priori non possiamo assumere senza alcune conoscenze sul fenomeno= fare prima delle ricerche, e poi la devi giustificare
- oggettivisti→ è difficile sapere probabilità a priori anche se sappiamo che ne abbiamo bisogno, meglio dire che ci troviamo in una situazione di ignoranza in cui si dice che probabilità a priori e a posteriori sono vere al 50%, anche con + teorie il confronto è sempre tra due ipotesi anche se prendo in considerazione infinite ipotesi = in entrambi i casi ho bisogno di P(H0) La valutazione della probabilità a priori di H0 implica una certa arbitrarietà della sperimentatore Il problema viene risolto
- Assegnando la stessa probabilità ad H0 e H
- Calcolando il Bayes Factor = il rapporto probabilità H1 dati R fratto probabilità H0 dati R, che viene stimato utilizzando il teorema di Bayes = indice che ci dice se è più probabile 0 o 1 dati R
- se viene 1 allora pH1=pH
di 0= + probabile H1→ più grande è più è forte H
di 0= + probabile H Importante perché tenta superare i limiti della logica falsificazionista Non dobbiamo chiederci quale dei due migliori ma quale è più utile e accettabile dal pov scientifico in una determinata ricerca
- significatività valuta solo se sia credibile che i risultati siano dovuti semplicemente al caso = stima diretta dell'errore di misura
- Bayes Factor valuta quanto il modello ipotizzato interpreti i risultati meglio di un modello puramente casuale ma assumendo una probabilità a priori di H0 arbitraria + serve per confrontare ipotesi alternative Logica Bayesiana Logica Fisheriana Basi teoriche distribuzione della probabilità a posteriori Usa distribuzioni di probabilità date e parametri fissi probabilità grado di certezza condizionata definizione frequentista Stima dei parametri sì Anathema Richiede stima della apriori sì no Stima Intervallo Hp sì sì Dati si riferisce solo ai dati raccolti …+ estremi Considera disegni sperimentali complessi no sì Conclude con Distribuzione di probabilità a posteriori Valore dei parametri Che rappresentano I dati Richiede decisione da parte dello sperimentatore sì no Es. di articoli→ si differenziano tra descrittivo e dimostrativo per quanto riguarda l'impostazione dell'articolo stesso Nell’introduzione= la propria ipotesi e la giustificazione della propria ipotesi in base alla letteratura precedente, oppure critica modello precedente + ipotesi contrapposta, in ogni caso letteratura giustifica. Disegno di ricerca → identificazione delle misure che poi vengono utilizzate per dimostrare ipotesi + relazione che c’è fra le variabili
- variabile dipendente → abilità e frequenza nel mentire, studiata in funzione dell’età - variabile indipendente Se viene applicata statistica fisheriana non viene specificato che tipo di approccio viene usato
Scegliamo il punto d’origine della corda nell’apice del triangolo e arriviamo al lato opposto del vertice p=1/ ● 3a Soluzione: Ogni corda può essere vista come segmento perpendicolare a un raggio della circonferenza, sono più lunghe se si trovano tra il lato triangolo e centro circonferenza p=1/ Tre probabilità diverse, tutte giuste a seconda della prospettiva che utilizziamo Valutazione complessa perché ci sono infinite possibilità, può succedere anche in ambito scientifico Probabilità è definita come il grado di fiducia sul verificarsi di un evento.
- suo valore si modifica rispetto a una probabilità a priori in funzione dei risultati sperimentali
- coerenza è garantita dal rispetto degli assiomi della probabilità Abbiamo sempre la possibilità di incorrere alle info, o di trovare risultati differenti PROPRIETÀ DELLA PROBABILITÀ La probabilità di un evento impossibile è zero. Non vale la proposizione inversa. Se la probabilità è zero l'evento non è necessariamente impossibile. La probabilità di ottenere 7 nel lancio di un dado a sei facce è zero. La probabilità di avere su infiniti lanci di una moneta nemmeno un risultato 'testa' è zero ma l'evento non è impossibile. → volere espresso sempre fra 0 e 1→es. 0.5= 5% Significato solo dal pov teorico, nel pov empirico vanno interpretati
- La probabilità di un evento impossibile è zero. Non vale la proposizione inversa. Se la probabilità è zero l'evento non è necessariamente impossibile. La probabilità di ottenere 7 nel lancio di un dado a sei facce è zero. La probabilità di avere su infiniti lanci di una moneta nemmeno un risultato 'testa' è zero ma l'evento non è impossibile.
- probabilità di un evento certo è uno. Non vale la proposizione inversa. La probabilità di ottenere un numero compreso fra uno e sei nel lancio di un dado è uno. La probabilità di avere su infiniti lanci di una moneta almeno un risultato 'testa' è uno pur non essendo l'evento certo.
- Probabilità condizionata: alla base del teorema di Baye p(A|B) = probabilità che avvenga A essendo avvenuto B. es. probabilità di avere una patologia avendo un genitore che ha avuto in passato la stessa patologia
- Eventi indipendenti: A e B sono indipendenti quando l’avverarsi di uno non influenza l’avverarsi dell’altro. Cioè p(A|B) = p(A)
- Eventi disgiunti: A e B sono eventi disgiunti se il verificarsi dell'uno esclude il verificarsi dell'altro.
- Evento prodotto: evento in cui si verifica sia A che B p(A&B)= p(A) x p(A|B) Se A e B sono indipendenti: p(A&B)= p(A) p(B)
- Evento somma: evento in cui si verifica A o B o, se non sono disgiunti, entrambi: p(A+B) = p(A) + p(B) - p(A&B)
- Evento complementare: evento in cui non si verifica A: p(Ã)=1 - p(A).
Legg dell probabilità cond ionat da teorem d Baye
Il teorema di Bayes è una semplice formulazione matematica per il calcolo della probabilità condizionata che afferma che la probabilità di A dato B è proporzionale alla probabilità di B dato A → descrive meglio la probabilità condizionata di A dato B conoscendo la probabilità di B dato A
Variabili
è quella misura per cui noi supponiamo di avere una buona corrispondenza fra il fenomeno e il sistema numerico che viene utilizzato per misurare il fenomeno → tanto più lo sono tanto più lo strumento utilizzato e il costrutto utilizzato sono considerati efficienti Due modalità di misurazione una più analitica che cerca di catturare con più precisione le caratteristiche del fenomeno attraverso numeri (tanti dettagli più fatica ad avere una visione globale del fenomeno in sé= meno sicuri di quello che stiamo dicendo) e una misurazione più sintetica che vuole andare al cuore del fenomeno Dobbiamo decidere quale utilizzare, ognuna con i suoi pregi e i suoi difetti Classificazione in base al ruolo del disegno sperimentale
- studi correlazionali → ci dicono solo se ci sono delle relazioni fra le variabili, no causalità fra di esse
- relazione causale → variabile che determina un effetto su un’altra ● variabile dipendente → oggetto di studio, dipende dal comportamento del fattore ● fattore → agiscono con cambiando sulla variabile dipendente ● variabile confondente→ entra solo a posteriori dopo le analisi statistiche, altrimenti avrebbe un ruolo nella relazione causale (fattore/VD) e va inclusa nell’analisi Relazioni
- i casi di chiara relazione causale fra variabile dipendente e fattore sono dette relazioni genuine.
[[[TEST PARAMETRICI
Soluzione più sicura ma meno potente Si chiamano non parametrici perchè non usano media e varianza calcolati sui dati sperimentali I test non parametrici riescono a falsificare H0 quando falsa con meno probabilità in quanto valutano variabili più grezze, meno precise I test non parametrici sono meno potenti in quanto hanno minor capacità di rilevare differenze quando esse sussistono Sono test meno potente ma quando trovano differenze sono più sicuri —> sicché le differenze sono trovate, vuol dire che sono più grandi Riuscendo a ottenere un risultato significativo in un test non parametrico vuol dire che abbiamo trovato una differenza maggiore Li applichiamo quando la variabile dipendente non ha distribuzione gaussiana
- variabili qualitative
- Variabili quantitative a distribuzione non gaussiana Si applicano perchè queste tipologie di variabili non consentono di calcolare i parametri di media e varianza (ad. Es con le categorie malato-sano, non possiamo calcolare la media, al massimo la frequenza). Dunque ci permettono di fare previsioni su questi dati Test parametrici e corrispondenti test non parametrici Avendo il corrispettivo, possiamo provare le due tipologie di approcci, e nel dubbio è meglio non parametrico L’esempio più semplice lo abbiamo già visto: Rho di Spearman —> misura la variabilità fra variabili quantitative quando esse non sono a distribuzione gaussiana (trasforma i punteggi in ranghi) Test binomiale se la probabilità di uno dei due parametri qualitativi è diverso dall’altro. Valutare, avendo una variabile dicotomica, che uno dei due valori sia significativamente diverso dall’altro]]] - scala ordinale =I valori che può avere la nostra variabile oltre alla possibilità di categorizzare gli elementi possono anche ordinarle
- sono disposti in modo tale che l’ordine corrisponda anche un ordine a livello di significato, non è ancora possibile quantificare la distanza tra un valore e un’altro
- proprietà: ordinalità
- es. lvl severità patologia, gruppo età, prestazione - scala intervalli
=inventate perchè quando andiamo a misurare delle sensazioni rispetto a come un soggetto si sente in un determinato momento, va creata una scala in relazione a come lui dice di sentirsi non sto attribuendo un numero a una situa reale ma come il soggetto si sente in relazione a una cosa
- siamo in grado di ordinare gli elementi ma anche di misurare le distanze che sono equivalenti e il soggetto le attribuisce in modo coerente
- visto equivalenza distanze possono sommare tra loro o sottrarre tra loro le variabili es. ansia - benessere
- esiste soprattutto in psi
- in alcuni casi si può fare test parametrici→ 0 valore arbitrario non assoluto(non come numeri reali dove significa assenza) ci interessano sono ordinalità e distanza fra item
- es. risposte a un questionario in scala likert
- scala a rapporto = oltre somma e sottrazione si può anche fare moltiplicazione e divisioni, oltre costanza classi è anche definito lo 0 assoluto + sì test parametrici + es. test di reazione Critiche classificazioni→ scale intervalli e a rapporto non ha molto senso fare considerazioni molto fine su quelle tipologie di operazioni fare meglio classificare variabili quantitative
- nominale
- variabili ordinali
- scala → a distribuzione gaussiana/non gaussiana
- per gli stessi identici dati diversi psicologi possono utilizzare differenti tecniche statiche, che di solito producono però risultati poco diversi Statistic descrittiv = sono sintesi delle info, sono importanti per la comprensione preliminare dell’andamento dei dati, fatti sia prima della statistica inferenziale che dopo Si viene guidati dal grafico migliore per rappresentare le variabili con cui dobbiamo lavorare = i tipi di grafici o tabelle disponibili dipendono dalla distinzione tra variabili nominali e quelle quantitative→ i tip0i di tabelle e grafici disponibili dipendono essenzialmente da questa distinzione Procedimento per la scelta del tipo di tabella o del grafico ↓↓↓↓
- rappresenta differenti punteggi di una misurazione su scala numerica (diverse dalle tabelle dove nell'asse X posso avere anche delle parole) Non è un istogramma: (anche perche le barre sono distaccate) Sia i grafici che istogrammi servono a sottolineare i picchi di frequenza per capire quale valore è più probabile, i valori intorno servono per capire quanto gli altri si discostano dalla frequenza. Quanto meno il resto è coerente al picco tanto esso è più affidabile, quando più il resto è dispersivo quanto più il picco è poco affidabile Frequenze cumulative → sono le frequenze che competono una variabile ordinali ordinate in modo crescente a cui a ogni variabile viene attribuita una frequenza =somma della frequenza della modalità presa in considerazione, e delle frequenze precedenti.
- hanno senso solo se la variabile è al minimo ordinale, si può comunque farla ma non ha senso
- da una info aggiuntiva perché ci dice come cresce la frequenza dei casi al crescere della variabile, passando da una categoria all’altra
Parametri descrittivi
● Media = quella più conosciuta è quella matematica, quella che calcola il valore atteso ovvero quello che ci aspettiamo dalla popolazione→ somma tutti i valori per poi dividerli per il loro numero
- lo stesso risultato si ottiene calcolando il valore atteso = somma dei punteggi moltiplicati ciascuno per la sua probabilità Caso continuo→ calcolo comunque valore atteso ma nel calcolo definiscono l’intervallo entro cui calcolo la probabilità di quel valore non + infiniti valori Caso discreto→ calcolo con i valori posseduti in entrambi i casi la media ha sempre lo stesso significato
● Moda→ punteggio più frequente
- possibile calcolarla per ogni tipo di dato anche nominale non solo per i punteggi
- Se ci sono due valori che hanno la frequenza massima si parla di bimodale ● Mediana→ punteggio centrale di una serie di punteggi ordinati dal più piccolo al più grande
- separa i restanti punteggi in parti uguali tanti sopra il suo valore quanti sotto
- quando non si ha una distribuzione gaussiana è utilizzata. Possibile calcolare mediana anche quando il valore è gaussiano ma questa corrisponderà alla media (+ precisa).
- Data una variabile ordinata in modo gerarchico la mediana è quel valore che in base alle frequenze cumulative della variabile separa la frequenza della variabile.
- Mediana valore di posizione centrale che individua la metà dei casi in una distribuzione di valori dal più piccolo al più grande. ● Indici di Dispersione → se c’è una minore variabilità la media è più affidabile I primi tre sono indici di centralità. Media indice di centralità più potente: è in grado di prevedere con maggior precisione quello che succede nella popolazione generale. Inefficiente quando distribuzione non è simmetrica perché non rappresenta valore atteso. Media potente perché riesce anche se il campione ha un numero limitato riesce a darci valore vero anche per la popolazione generale non studiata. Variabilità valutabile dal grafico in base alla larghezza della curva o attraverso indici di dispersione. Range: quanto è ampio l’intervallo tra valore più piccolo e valore più grande. Si riferisce a tutti i dati. Risente degli estremi quindi poco utilizzato. Range interquartile: considera solo il range attorno alla mediana (si divide il campione di punteggi in quarti e si considerano i due quarti centrali). Il box rappresenta il range interquartile (i.e. 25°-75°percentile). La linea rappresenta la mediana; i baffi (INNER FENCE) rappresentano il range dei valori che non comprendono gli outliers; gli outliers (o) sono i casi che distano dal range interquartile piu’ di 1,5 volte lo scarto interquartile (distanza fra i valori indicanti il 25°o 75°centile). Gli estremi(e) sono i valori che distano piu’ di 3 volte la distanza interquartilica. Tanto + distanti sono primo e terzo quartile tanto più è difficile identificare la mediana. Scarti dalla media = Differenze tra punteggio e media (o deviazioni dalla media). Ogni punteggio è valutato in termini di quanto è lontano dalla media.
(media si può calcolare solo se la distribuzione è Gaussiana) Per effettuare una diagnosi del livello di sviluppo mentale, i punteggi grezzi sono trasformati in punti percentili (per fasce di età), parametri di riferimento per la valutazione della normalità o meno di una prestazione: Per capire se è Gaussiana→ se andamento simmetrico con un picco centrale e una forma a campana, ma ci sono anche dei test che dei indici che mi dicono che la distribuzione è Gaussiana o meno Distrib zion de puntegg
- Curva normale: forma a campana simmetrica, i valori si addensano attorno ad un valore centrale per poi scendere gradualmente, qui i valori di moda, media e mediana coincidono. È definita normale in quanto un tempo si pensava che le distribuzioni naturali apparissero in questo modo. Resta una distribuzione molto comune. - Curve distorte:
- Skewness (asimmetria) misura quanto la curva si discosta dall’andamento simmetrico, quindi l’asimmetria (più il valore si avvicina a zero, più la curva è normale). Con questa ci viene fornito anche l’errore standard nella stima della simmetria della curva e anche questo deve essere un valore basso. Il valore negativo ci indica che i punteggi sono più sbilanciati sulla sinistra e viceversa. Se, in valore assoluto, la skewness è maggiore di 2 allora mi devo preoccupare. La curva può essere usata in statistica, ma la media non è applicabile e neanche la varianza. Dovremo usare altri indici
- Kurtosis (ripidità) ci dice quanto i nostri valori sono addensati o meno rispetto al valore centrale. Le curve non devono essere né troppo ripide né troppo ampie. Il valore ottimale è quello di 0 e vuole dire che la curva ha una ripidità normale. Se, in valore assoluto, la kurtosis è maggiore di 2 allora mi devo preoccupare.
0→ ripida <0→ piana La curtosi viene usata per vedere quanto la nostra distribuzione dei dati assomiglia alla curva normale in termini di ripidità - Curve binomia o multimodali: curve con due o più picchi, con 2 sono bimodali, se no multimodali - Curve cumulative: accumula le frequenze Altri modi per valutare la normalità della distribuzione
- Vedere la distribuzione di frequenza dei nostri dati e se media, moda, mediana coincidono
- Usare Skewness e Kurtosis
- Usare test di Shapiro-Wilk e test di Kolmogorov-Smirnov Distribuzioni di probabilità
= insieme di valori di probabilità che competono a ciascun valore della variabile
- per rappresentarle si usa una rappresentazione grafica o analitica
- Quando la variabile è continua, che può assumere infiniti valori, non ha più senso parlare di probabilità di un valore. Avremo infiniti valori e non uno discreto, determinato. Al posto di usare la probabilità di un valore quando la probabilità è continua si va a calcolare un intervallo di valori. Ha le stesse proprietà dei valori discreti ma in più possiamo calcolare la ↓↓ Funzione di distribuzione = funzione che rappresenta per ogni X la probabilità di ottenere un valore minore o uguale a X
Le frequenze possono anche essere presentate in una distribuzione cumulativa
In una distribuzione cumulativa ogni barra rappresenta la frequenza del valore sull’asse orizzontale sommata, cumulata, alle frequenze di tutti i valori inferiori. Man mano che si accumulano vengono aggiunti. Nell’ultimo valore avremo compresi tutti i dati analizzati. Se lo trasferiamo in termini probabilistici andremo da una probabilità pari a 0 a una pari ad 1. L’andamento è necessariamente crescente, con un andamento che può essere più veloce o più lento in base all’aumento che si ha da un valore a quello successivo Se la variabile è discreta abbiamo una probabilità per ogni valore x discreto della variabile. = funzione di distribuzione si ottiene sommando le probabilità di tutti i casi aventi un valore inferiore ad X. Se la variabile è continua la probabilità di un singolo valore della variabile è nulla essendo la probabilità di un valore su infiniti valori possibili. La funzione di distribuzione viene allora definita da La funzione f(x) è la densità di probabilità e rappresenta la probabilità che il valore di x sia compreso in un intervallo infinitesimo, diviso per l’ampiezza dell’intervallo. Sono state teorizzate e studiate anche dal punto di vista delle funzioni che le rappresentano, diverse tipologie di distribuzione che non vedremo tutte. Quelle che faremo sono fondamentali: DISTRIBUZIONE UNIFORME Distribuzione relativa ad una variabile discreta o continua avente uguale probabilità per ciascun suo valore = tutti i valori della variabile hanno la stessa probabilità di accadere.
- variabile può essere sia discreta che continua. L’istogramma di presenterò come barre tutte uguali. DISTRIBUZIONE BINOMIALE Devo valutare il successo del soggetto nella probabilità delle volte che riesca a indovinare i valori usciti, sapendo ad esempio che testa e croce sono equiprobabili, quali usciranno? Se il risultato di una prova può essere il successo S o l'insuccesso I con uguale probabilità p=q=1/2, i risultati