Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Apuntes estadística I, Apuntes de Estadística

Apuntes para examen estadística primero criminología

Tipo: Apuntes

2018/2019

Subido el 02/10/2019

susii_mas01
susii_mas01 🇦🇩

3 documentos

1 / 22

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 1 Análisis exploratori de dades
PREGUNTES: Realitzar la descripció gràfica de les dades i calcular els estadístics resum de
la mostra, ¿Quina és la distribució dels decisors al llarg d’esta escala de motivació? ¿És
uniforme? Les posicions intermèdies, ¿són les més comuns?, Obtindre les representacions
gràfiques i els estadístics resum què ajuden a decidir si ACORN té raó, ¿Hi ha diferències en les
distribucions de les puntuacions dels dos grups?
Les dades poden ser:
Univariants: Mesures d’una única variable sobre un conjunt de individus
Bivariants: Mesures de 2 variables
Multivariants: Mesures de més de 2 variables
Tipus de variables
Qualitatives o categòriques
No ordinals (no existeix ordre entre les categories) Per exemple: Sexe, Estat
civil, Nacionalitat,…
Ordinals (existeix un ordre, però les distàncies no són quantificables) Per
exemple: Nivell educatiu, Estat de salut, Opinions en una escala…
Quantitatives o numèriques
Discretes (poden prendre un nombre finit de valors) Per exemple: Nombre de
delictes en un cap de setmana, Nombre de denúncies per maltractament en un
mes, nombre de fills…
Continues (poden prendre qualsevol valor en un interval) Per exemple: Alçària,
Pes, Taxa d’alcohol, Taxa de glucosa en la sang…
La descripció gràfica depèn del tipus de variable
Variables quantitatives (són les que solen ixir en l’examen)
COM SE FA?
Freqüències cumulatives
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16

Vista previa parcial del texto

¡Descarga Apuntes estadística I y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 1 Análisis exploratori de dades

PREGUNTES : Realitzar la descripció gràfica de les dades i calcular els estadístics resum de la mostra, ¿Quina és la distribució dels decisors al llarg d’esta escala de motivació? ¿És uniforme? Les posicions intermèdies, ¿són les més comuns?, Obtindre les representacions gràfiques i els estadístics resum què ajuden a decidir si ACORN té raó, ¿Hi ha diferències en les distribucions de les puntuacions dels dos grups?

Les dades poden ser:

  • Univariants: Mesures d’una única variable sobre un conjunt de individus
  • Bivariants: Mesures de 2 variables
  • Multivariants: Mesures de més de 2 variables

Tipus de variables

  • Qualitatives o categòriques
    • No ordinals (no existeix ordre entre les categories) Per exemple: Sexe, Estat civil, Nacionalitat,…
    • Ordinals (existeix un ordre, però les distàncies no són quantificables) Per exemple: Nivell educatiu, Estat de salut, Opinions en una escala…
  • Quantitatives o numèriques
    • Discretes (poden prendre un nombre finit de valors) Per exemple: Nombre de delictes en un cap de setmana, Nombre de denúncies per maltractament en un mes, nombre de fills…
    • Continues (poden prendre qualsevol valor en un interval) Per exemple: Alçària, Pes, Taxa d’alcohol, Taxa de glucosa en la sang…

La descripció gràfica depèn del tipus de variable

Variables quantitatives (són les que solen ixir en l’examen)

COM SE FA?

  • Freqüències cumulatives

Fórmula per a saber quin rang utilizar:

Per a saber els intervals fem l’arrel quadrada de n. Per a saber l’amplitud dels intervals (major- menor)/ l’arrel quadrada de n.

COM SE FA?

  1. Ficar les dades en vertical
  2. Crear una nova fila amb el nou rang (separat amb intervals)
  3. Anar a dades-> análisis de dades-> estadística discriptiva (llevar “rótulos a primera fila”). Ací subratllar mediana, media, moda, máximo y mínimo
  4. Crear l’histograma (ficar en rango de entrada les dades originals i en rango de clases les clases noves que hem creat en el pas 2)

COM SE FA L’histograma?

COM S’HABILITA LA

FERRAMENTA ANÁLISIS DE DATOS?

Archivo-> opciones-> complementos-> complementos de Excel-> ir-> herramienta para análisis

TEMA 2 Análisis de la relació entre dos variables

PREGUNTES: ¿Existeix relació entre l’índex d’exposició i la mortalitat per càncer? ¿La relació és positiva? ¿Per què? ¿Què significa que la relació siga positiva? ¿Quina mortalitat tindria un comptat amb un índex d’exposició de 1,5? Dibuixar el diagrama de dispersió i la recta de regressió. Calcular el coeficient de correlació lineal i el de determinació. ¿Quines conclusions es dedueixen de l’estudi?

COM SE FA quan hi han dos variables?

  1. Definir les dos variables x (Baix) i y (costat). La y depen de la x
  2. Fer la recta de regresió ajustada i dibuixar el diagrama de dispersió
  3. Resum (estadísticas de la regresión) i análisis de variança
  4. Subratllar el coeficient de determinación (dins d’estadística de regresión), i els coeficicents de la intercepció i de variable x 1. (canviar la variable x1 per el nom de la nostra variable)
  5. Una vegada fet el diagrama, Canviar la x i la y del diagrama per els noms de l’enunciat. Després afegir les equacions (agregar línea de tendencia->presentar ecuación en el gráfico y presentar el valor de R cuadrado en el gráfico). També canviar el títol del diagrama per recta de regresión ajustada i la llegenda per el nom de la y
  6. Analitzar els resultats. Per exemple: la relació entre l’índex d’exposició i l’índex de mortalitat és positiva ja que la recta ajustada es positiva. Es a dir, un augment de l’index d’exposicio significa un augment en la mortalitat. El coeficient de correlació de Pearson és r= 0,786. Un comptat amb una exposició x=1,5 tindria una mortalitat pronosticada de y=1,25 aproximadament. (aquesta explicación sols es fa en casos determinats) Altre exemple: La tendència de la taxa de suicidis és nega�va, és a dir a menor índex de mobilitat major nombre de suicidis.

Quan el coeficient de correlació és Baix s’ha de fer una comprovació ja que és aventurat realizar pronòs�cs. Aquesta comprovació es fa a par�r de análisis de los residuales (marcar l’opcio de residuos al fer el histograma). Després hem de mul�plicar la primera dada de la columna per el seu coeficient i finalment sumar açò amb la intercepció. Hem de fixar-nos si el resultat es el mateix que el que fica en la tabla de valores residuales.

Mul�plicar taques per coeficient de taques Sumar açò amb la intercepció

COM SE FA QUAN HI HAN MOLTES VARIABLES?

  1. Anar a dades-> análisis de dades-> coeficient de correlació-> agafar totes les dades
  2. Subratllar el que ens demanen. Per exemple:
  3. Si demana fer regresió mul�ple, s’ha de colocar en ver�cal les dades que ens demanen. Després entrem a regresió, i en rango de entrada x en lloc de ficar una columna fiquem les que ens demanen. (canviar en coeficientes la variable x1, x2, x3… per el nom de les nostres variables)

El coeficient de correlació (r) afirma el grau de relació entre dues variables. Quan més alt siga el valor més forta será la relació entre variables. Un valor proxim de 1 indica una relació lineal perfecta. Una correlació próxima a 0 indica que no existeix relació. Si ambdues variables tendeixen a augmentar o disminuir a la vegada, el coeficient és positiu i la línia que representa la correlació forma un pendent cap amunt. Si una variable tendeix a incrementar-se mentre l'altra disminueix, el coeficient és negatiu i la línia que representa la correlació forma un pendent cap avall.

R^2 ajustado: Un valor de 1 indica un modelo que predice perfectamente valores del campo objetivo. Un valor que es menor o igual que 0 indica un modelo que no tiene ningún valor predictivo. En el mundo real, R^2 ajustado se encuentra entre estos valores. Per exemple, la regressió múltiple ens dona un R^2 ajustat de 0,471 inclús menor que el R^2 associat a la regressió sobre Desp0, què és 0,4728. L'explicació és que Desp0 i Desp1 es comporten pràcticament igual que una única variable ja que estan molt correlacionades. Es dona el fet de la colinealitat, no haurien d'estar les dos variables en el mateix model. Altre exemple, el coeficient de determinació ajustat pràcticament no té variacions respecte de la regressió de Taxa sobre Desp0 per tant la variable Sud no es interesant al complicar el model

Si ens pregunta quelcom com Quin és el par que més s’allunya del seu pronòstic? I el que menys s’allunya? Ens hem de fixar en l’análisis de los residuales. En la columna residuos el nombre major será el que més s’allunye i el nombre més pròxim a 0 el que menys s’allunya.

Com se fa?

TEMA 3 Inferència en una población (contrast de dos hipòtesis)

  • Contrast d’hipotèsis

Preguntes: ¿Proporcionen les dades suficient evidència per a concloure que l’exposició a l’enzim Bacillus subtilis redueix el flux respiratori? ¿Convenceria a un jurat?

COM SE FA?

  1. Definir H0 (reflexa la situación anterior) i H1 (suposa un canvi).
  2. (^) Definir el tipus de contrast: unilateral (media(A) < media(B)o media(A) > media(B)) o bilateral (media(A) ≠ media(B)
  3. Datos-> análisis de datos-> estadística discriptiva-> agafar les dades en rango de entrada-> marcar la casella de resum estadístic
  4. Crear una nova tabla que incluisca la direccionalitat (hi ha direccionalitat si la media és inferior- en este cas- que la H0), la μ_0 (H0), t_s ((media-H0)/error

COM SE FA quan no ens donen dades?

  1. (^) Definir , s, n.
  2. Definir l’interval de confiança que ens demanen i ficar tx= DISTR.T.INV(0,01;100)
  3. Calcular els extrems inferior i superior. L’extrem inferior es calcula -t99s/ raíz(n). L’extrem superior es calcula més t99s/ raíz(n).

COM SE FA quan ens donen dades?

  1. A la vegada que fem la estadística discriptiva marquem la casella de Interval de confiança i si no ens diuen res la deixem en 95%, si ens diuen la canviem.
  2. Calcular l’extrem superior i inferior. L. inferior: media- Interval de confiança

L.superior: media més Interval de confiança

Què significa l’error típic?

Representa la variabilitat de la mitjana mostral.

TEMA 4 Análisis de dues mostres (analitza la relació entre varies

parelles de variables)

PREGUNTES: Un tema on ha hagut molta investigació i controvèrsia és la possible disparitat en les sentències depenent del gènere. Alguns investigadors afirmen tindre evidència de que les dones reben sentències menys dures que els homes pels mateixos delictes, mentre que altres informen que el seus estudis no contenen suficient evidència sobre esta possible disparitat. Suposem que tenim dades de dues mostres aleatòries d’homes i dones que varen ser condemnats per delictes de robatori. Les dades resumides de les mostres són:, Thomas Peete i els seus col·legues descobriren que la por de la gent a perdre la bona opinió que sobre ells tenien altres persones les frenava en el moment de cometre delictes. Suposem que tenim 2 mostres aleatòries independents, una de persones que pensen que els seus companys de treball desaprovarien que furtares material de l’oficina (grandària=33), i altra de persones que pensen que als seus companys no els importa, o fins i tot aproven, que es furte material de l’oficina (grandària=33). S’apuntà per a cada persona el nombre de vegades que havia furtat alguna cosa de l’oficina en els últims 12 mesos, obtenint els resultats:, - La coordinació de primer de Criminologia sosté la hipòtesi de que les diferències de nivell en Estadística entre els que han optat per la doble titulació de Dret+Criminologia i la titulació de Criminologia són degudes a les diferències en les notes obtingudes en les PAU. Per a intentar provar-ho s’agafen les notes de les PAU dels estudiants de primer amb el resultat descrit en el full de càlcul. Hi ha evidència de les sospites de la direcció? Calcula un interval de confiança al 95% per a la diferència de notes en les PAU.

0,01 en aquest cas perque 100-99= 1.

Diferència entre mostres emparellades i mostres independents

Un determinado estudio puede producir medidas relacionadas o totalmente independientes. Las pruebas estadísticas deben elegirse en consonancia. Por ejemplo, estamos interesados en estudiar el efecto de un tratamiento médico sobre la tasa de insulina. Aquí tenemos dos diseños experimentales posibles que podrían ayudar a responder a esta pregunta:

■ La tasa de insulina es medida en 30 pacientes antes y después del tratamiento médico. Los datos están, por tanto, organizados en pares (cada paciente está asociado con dos medidas). Una prueba apropiada en este caso sería la prueba de t para dos muestras relacionadas. ■ La tasa de insulina es medida en 30 pacientes que reciben un placebo, y en otros 30 pacientes que reciben tratamiento médico. En este caso, todas las medidas son independientes. Una prueba apropiada en este caso sería la prueba de t para dos muestras independientes.

COM SE FA SI LES MOSTRES SÓN EMPARELLADES?

  1. Especificar que les mostres són emparellades
  2. Definir μ1 i μ2.
  3. Definir H0 i H
  4. Definir el contrast unilateral o bilateral
  5. Datos-> análisis de datos-> prueba t para medias de muestras emparejadas
  6. Vore si hi ha direccionalitat (hi ha si H1 es compleix)
  7. Subratllar P(T<=t) una cola (fa la mateixa funció que el p-valor) i analizar el p- valor
  8. calcular l’interval de confiança.

COM SE FA L’INTERVAL DE CONFIANÇA SI LES MOSTRES SÓN

EMPARELLADES?

  1. Crear una nova columna on restem antes menys després
  2. Datos-> análisis de datos-> estadística discriptiva-> ficar en rango d’entrada la columna que hem fet en l’anterior pas-> marcar la casella Interval de confiança
  • Si no ens donen els dades originals utilitzem el mètode no combinat si hi ha diferencia notable de desviació típica. Al no haver dades hem de calcular-ho manualment sense ferramentes. SE_1= desv.típica mostral 1/raíz (grandaria mostral 1), SE_2= desv.típica mostral 2/raíz (grandaria mostral 2), SE=raíz (SE_1^2+SE_2^2), gl= (SE_1^2+SE_2^2)^2/(SE_1^4/(grandaria mostral 1-1)+ (SE_2^4/(grandaria mostral 2-1), t= (Mitjana mostral 2-mitjana mostral 1)/SE, p-valor= distr.t.2C (t;gl)/2.
  1. Datos-> análisis de datos-> prueba t para dos muestras suponiendo varianzas iguales (si és mètode combinat) sino prueba t para dos muestras suponiendo varianzas desiguales
  2. Subratllar P(T<=t) una cola (si es unilateral) dos colas (si es bilateral)
  3. Analitzar els resultats. P(T<=t) una cola fa la mateixa funció que p-valor i el resultat s’analitza igual que en l’anterior tema. Al ser p-valor >= 0,05 les dades no són significatives. No Rebutgem H_0. No hi ha evidència significativa de que els homes reben sentències més dures que les dones
  4. En alguns casos on hi ha poques mostres i no es pot validar el procediment podem calcular l’interval de confiança.

COM SE FA L’INTERVAL DE CONFIANÇA si les mostres són independents? (contrast unilateral)

  1. Definir dif. Mitjanes (media 1- media 2), SE= raíz(varianza agrupada*(1/ observaciones 1+1/observaciones 2)), gl= grados de libertad, t= distr.t.inv(0,05;gl)
  2. Calcular els limits. Limit inferior: dif. Mitjanes –t* SE

Limit superior: dif. Dif. Mitjanes +t*SE

  1. Analitzar el resultat

Si no hi ha dades, calculem els limits. Limit inferior= (Mitjana mostral 2- Mitjana mostral 1)- distr.t.inv(0,05;gl)*SE

Limit superior= (Mitjana mostral 2+ Mitjana mostral 1)- distr.t.inv(0,05;gl)*SE

COM SE FA L’INTERVAL DE CONFIANÇA si les mostres són independents? (contrast bilateral)

  1. Definir dif. Mitjanes (media 1- media 2), SE (raíz(varianza 1/observaciones 1+ varianza2/observaciones 2), t95 (distr.t.inv(0,05; grados de libertad)
  2. Calcular els limits. Limit inferior: dif.mitjanes-t95*SE

Limit superior: dif. Mitjanes+t95*SE

  1. Analitzar resultats

Si ens demana que comprovem, se fa així:

Definir SE1^2 (varianza 1/observaciones 1), SE2^2 (varianza 2/observaciones2), gl (SE1^2+ SE2^2)^2/( SE1^2^2/Grados de libertad 1+ SE2^2^2/Grados de libertad 2)

  1. Comprovar la validesa definint smax, smin i quocient. Smax (mirar en la tabla anterior), smin (mirar en la tabla anterior) Quocient (smax/smin)
  2. Analitzar el resultat del quocient. Si el quocient és menor que 2 ANOVA és vàlid. Si el quocient és major que 2 ANOVA no és vàlid.
  3. Fer la Caixa de bigots agafant les dades-> insertar->histograma-> caja de bigotes.
  4. Una vegada feta la Caixa, canviar el títol i afegir la llegenda (apretar + i marcar totes les caselles excepte etiqueta de datos)

Si ens demana que analitzem grups concrets, a banda d’aquestos pasos es fan mes:

  1. (^) Comparar les mitjanes dels grups que ens demanen
  2. Definir H0 i H1 (començarem el mateix procediment que utilitzavem en el tema anterior per a les mostres independents)
  3. Definir tipus de contrast
  1. Datos-> análisis de datos-> prueba f para varianza de dos muestras
  2. (^) Una vegada feta la tabla, dir si hi ha direccionalitat (hi ha si H1 es compleix)
  3. Subratllar P(F<=f)
  4. Hem d'elegir entre el mètodo combinat (igualtat de variàncies) i el no combinat (variàncies desiguals).
  • Si p-valor (P(F<=f)> 0,05 (mètode combinat)
  • Si p-valor (P(F<=f)<=0,05 (mètode no combinat)
  • Si no ens donen els dades originals utilitzem el mètode no combinat si hi ha diferencia notable de desviació típica. Al no haver dades hem de calcular-ho manualment sense ferramentes. SE_1= desv.típica mostral 1/raíz (grandaria mostral 1), SE_2= desv.típica mostral 2/raíz (grandaria mostral 2), SE=raíz (SE_1^2+SE_2^2), gl= (SE_1^2+SE_2^2)^2/(SE_1^4/(grandaria mostral 1-1)+ (SE_2^4/(grandaria mostral 2-1), t= (Mitjana mostral 2-mitjana mostral 1)/SE, p-valor= distr.t.2C (t;gl)/2.
  1. Datos-> análisis de datos-> prueba t para dos muestras suponiendo varianzas iguales (si és mètode combinat) sino prueba t para dos muestras suponiendo varianzas desiguales
  2. Subratllar P(T<=t) una cola (si es unilateral) o dos colas (si es bilateral).
  3. Analitzar els resultats. P(T<=t) fa la mateixa funció que p-valor i el resultat s’analitza igual que en l’anterior tema. Al ser p-valor >= 0,05 les dades no són significatives. No Rebutgem H_0. No hi ha evidència significativa de que els homes reben sentències més dures que les dones

TEMA 6 Análisis de dades categòriques

PREGUNTES:

Els valors de les variables categòriques no són numèrics, són categories • Opinió sobre un tema (a favor, en contra, indiferent) • Estat civil (casat, solter, viudo) • Nacionalitat (portuguès, espanyol, francès,...)

COM SE FA si el contrast és bilateral?

  1. Calcular chi- 2, p-valor i gl. Chi-2= suma de les caselles de calcul estadistic

p-valor= distr.chi (chi-2;gl)

gl= nombre de variables -

  1. Dir si hi ha validesa (hi ha validesa quan les freqüències esperades són major que 5)
  2. Analitzar el resultat de p-valor

COM SE FA SI LA PREGUNTA ÉS DIRECCIONAL?

Direccional és el mateix que unilateral. Aquests enunciats sols es poden resoldre amb una taula 2x2.

■.1.Transformar la taula original en una 2x2.

Per exemple, hem transformat aquesta taula en una 2x2 unint la variable li agradava amb la li era indiferent

■.2.Definir H0 i H1 i p-tilde 1 i p-tilde 2

■.3.Calcular la direccionalitat (hi ha direccionalitat si es compleix H1)

p-tilde1= p1_tilde/ total

p-tilde2= p-tilde2/ltotal

■.4.Tots els demés pasos es segueixen igual que en l’anterior cas. Excepte que ací el p-valor (que és bilateral) s’ha de transformar en unilateral. Per a fer-ho, es divideix el p-valor/2.

COM ES FA EL CONTRAST UNILATERAL SOBRE UNA PROPORCIÓ?

  1. Definir el valor de referencia i el H0 i H
  2. Fer aquesta taula