Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadistica descriptiva, Apuntes de Estadística

Asignatura: estadística, Profesor: , Carrera: Biología, Universidad: UCM

Tipo: Apuntes

2014/2015

Subido el 15/08/2015

silviagabriela8611
silviagabriela8611 🇪🇸

3.8

(5)

5 documentos

1 / 16

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
Estadística Descriptiva
Apuntes “adaptados” por Gloria Cabrera
para las asignaturas de Estadística en las
titulaciones de Grado en Química y
Grado en Ingeniería Química
a partir del documento de origen:
http:/matap.dmae.upm.es/bartolo.html 2
Imagen popular de la estadística:
"Existen medias mentiras,
mentiras y estadísticas".
Dos significados:
(1) Colección de datos numéricos
(una estadística).
(2) Ciencia: obtener regularidades
de fenómenos de masas (la
estadística).
Estadísitica
3
La estadística surgió como una necesidad del estado:
el censo y su descripción política, geográfica y
económica.
En el siglo XVII y XVIII nace la probabilidad
aplicada a los juegos de azar que ejerce una fuerte
influencia sobre la estadística.
En el XIX empieza a aplicarse a cuestiones sociales.
Y actualmente se aplica a la historia, psicología,
pedagogía, ingeniería, biología, economía,
periodismo, política, medicina...
4
Definición de Estadística
La Estadística es la ciencia de la
sistematización, recogida, ordenación y presentación
de los datos referentes a un fenómeno que presenta
variabilidad o incertidumbre para su estudio metódico,
con objeto de
deducir las leyes que rigen esos fenómenos
y poder hacer previsiones sobre los mismos, tomar
decisiones u obtener conclusiones.
Descriptiva
Probabilidad
Inferencia
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga estadistica descriptiva y más Apuntes en PDF de Estadística solo en Docsity!

1

http:/matap.dmae.upm.es/bartolo.htmla partir del documento de origen:Grado en Ingeniería Químicatitulaciones de Grado en Química ypara las asignaturas de Estadística en las Apuntes “adaptados” por Gloria Cabrera Estadística Descriptiva

estadística).de fenómenos de masas (la(2) Ciencia: obtener regularidades(una estadística).(1) Colección de datos numéricosDos significados:mentiras y estadísticas"."Existen medias mentiras, Imagen popular de la estadística:

Estadísitica

3

periodismo, política, medicina...pedagogía, ingeniería, biología, economía,Y actualmente se aplica a la historia, psicología,En el XIX empieza a aplicarse a cuestiones sociales.influencia sobre la estadística.aplicada a los juegos de azar que ejerce una fuerteEn el siglo XVII y XVIII nace la probabilidadeconómica.el censo y su descripción política, geográfica yLa estadística surgió como una necesidad del estado:

Definición de Estadística

  • La Estadística es la ciencia de la con objeto devariabilidad o incertidumbre para su estudio metódico, de los datos referentes a un fenómeno que presenta sistematización, recogida, ordenación y presentación

deducir las leyes

(^) que rigen esos fenómenos

  • y poder hacer previsiones sobre los mismos, tomar decisiones

(^) u obtener

(^) conclusiones

InferenciaProbabilidad^ Descriptiva

5

  • Pasos en un estudio estadístico

Plantear hipótesis sobre una

población:

Los fumadores tienen

(^) “más bajas”

(^) laborales que los

no fumadores.

  • ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
  • Qué individuos pertenecerán al estudio ( experimentos)Decidir qué datos recoger (diseño de

muestras

  • Criterios de exclusión: ¿Cómo se eligen?• Fumadores y no fumadores en edad laboral. ¿Descartamos los que padecen enfermedades crónicas?
  • Qué datos recoger de los mismos (

variables

  • ¿Sexo? ¿Sector laboral? ¿Otros factores?• Tiempo de duración de cada baja.• Número de bajas.

6

Pasos en un estudio estadístico (y 2)

Recoger los datos (

muestreo

¿Estratificado? ¿Sistemáticamente?

Describir (resumir) los datos obtenidos:

  • Tiempo medio de baja en fumadores y no fumadores (

estadísticos

)

  • % de bajas por fumadores y sexo (

frecuencias

), gráficos,...

Realizar una inferencia sobre la población:

  • Los fumadores están de baja al menos 10 días/año más

(^) de media

que los no fumadores.

  • Cuantificar la confianza en la inferencia: Nivel de confianza del 95%

Significación del contraste: p = 2%

7

Población y muestra

Población (‘

population’

es el conjunto sobre

  • Normalmente es demasiado grande paraconclusiones (hacer inferencia).el que estamos interesados en obtener poder abarcarlo.

Muestra

sample’

) es un subconjunto de la

  • Esta formado por miembros– Debería ser “representativo”(mediciones)realmente hacemos las observacionespoblación al que tenemos acceso y sobre el que (individuos, unidades experimentales).“seleccionados” de la población

8

Variables

Una

(^) variable

(^) es una característica observable

(^) que varía

entre los diferentes individuos

(^) de una población. La

eninformación que disponemos de cada individuo es resumida (^) variables

En los individuos de la

población

española, de uno a otro

es variable

  • El grupo sanguíneo
  • {A, B, AB, O}

(^) Å (^) Var.

(^) Cualitativa

  • Su nivel de felicidad “declarado”
  • {Deprimido, Ni fu ni fa, Muy Feliz}

(^) Å (^) Var.

Ordinal

  • El número de hijos
  • {0,1,2,3,...}

(^) Å (^) Var.

(^) Numérica discreta

  • La altura
  • {1,62 ; 1,74; ...}

(^) Å (^) Var.

(^) Numérica continua

60

65

65

70

70

70

75

75

75

80

80

80

85

85

85

85

90

90

90

90

90

95

95

95

95

100 100 110 110 120

La amplitud total^ Ordenamos los datos en forma creciente:

A = 120 – 60 =

cada clase.aproximadamente 6 clases de amplitud 10 unidades en En este caso , entonces, la tabla de frecuencias tendráNúmero de clases:

Aprox. 6 clases

K =

Extensión del intervalo :

H = A/ K = 60/6 = 10

13

[60 – 70)

x

i

n

i

fr

N

i

Fr

[90 – 100)[80 – 90) [70 – 80)
[110 – 120)[100 – 110)

total

[120 – 130)

Variable

Frecuencia absoluta

Frecuencia relativa

acumuladaAbsolutaFrecuencia

acumuladarelativaFrecuencia

15

0 2 4 6 8 10

60

70

80

90

100

110

120

130

mm de Hg

f

mm de Hg según las frecuencias absolutas: Histograma de la distribución de presión diastólica en

Gráficos para variables

cualitativas

  • Alturas proporcionales aDiagramas de barras las frecuencias (abs. o rel.)
  • Se pueden aplicar también a variables discretas
  • El área de cada sector es(tartas, polares)Diagramas de sectores frecuencia (abs. o rel.)proporcional a su

17

Gráficos para variables cualitativas

(^) (y 2)

  • Pictogramas
  • Fáciles de

entender.

  • Cada modalidad

pictogramas, De los dos frecuencia.proporcional a ladebe ser

¿cuál dirías que es incorrecto?

18

Gráficos diferenciales para

variables numéricas

Valen con frec. absolutas o relativas.variables sean discretas o continuas. Son diferentes en función de que las

discretas^ Diagramas barras para v.

  • Se deja un hueco entre barras para indicar los valores que no son posibles

(^) Histogramas para v. continuas

  • El área que hay bajo el histograma individuos en el intervalo.cantidad (porcentaje o frecuencia) deentre dos puntos cualesquiera indica la

(^0) (^1) (^2) (^3) (^4) (^5) (^6)

7 Ocho o más

Número de hijos

100^ Recuento 200 300 400 419 255 375 215 127 54 (^24) (^23)

(^20)

(^40)

(^60)

80

Edad del encuestado

50 100^ Recuento^150200250

19

Diagramas integrales

individuos que poseen un valor inferior o igual al mismo.Indican, para cada valor de la variable, la cantidad (frecuencia) dediagrama integral. Se realizan a partir de las frecuencias acumuladas.Cada uno de los anteriores diagramas tiene su correspondiente

20

Parámetros y estadísticos

  • La altura media de los individuos de uncalculada sobre una población.Parámetro: Es una cantidad numérica país.
  • La idea es resumir toda la información números (parámetros).que hay en la población en unos pocos

•Estadístico: Ídem (cambiar población por muestra).

–La altura media de los que estamos en este aula.

•Somos una muestra (¿representativa?) de la población.

se le suele llamar estimador.–Si un estadístico se usa para aproximar un parámetro también

25

Ejemplos:

El 5% de los recién nacidos tiene un peso

bajo”?demasiado bajo. ¿Qué peso se considera “demasiado

Percentil 5 o cuantil 0,05.

  • ¿Qué peso es superado sólo por el 25% de los

individuos?

Percentil 75.

  • El colesterol se distribuye simétricamente en la

valores se encuentran los individuos normales?El 90% de los individuos son normales. ¿Entre quépoblación. Se considera patológico los valores extremos.

Entre el percentil 5 y el 95.

  • ¿Entre qué valores se encuentran la mitad de los

individuos “más normales” de una población?

Entre 1º y 3º cuartil (Q

(^1) y Q

(^3) ).

26

Niveles de Hb en 60 adultos normales

Un resumen de esta serie en 5 valores

Min = 105 ; Max =179; Q

(^1) = 133.5 ; Q

3 = 159 ; Q

(^2) = Mn = 149. 179

IQR = Q

(^3) - Q

1

Recorrido intercuartílico

Min

Max

Mn

(Mediana de los datos superiores)

(^) Q (^1)

Q (^3) (Mediana de los datos superiores)

(“Box-and-Whisker” plot)

179

176

172

172

170

168

168

166

165

164

164

163

160

160

160

158

156

156

155

154

154

154

154

153

153

151

151

150

150

150

149

148

148

148

146

145

144

142

141

138

138

138

138

135

134

133

132

130

128

127

125

120

120

120

119

118

112

112

110

105

159 133.

27

Centralización

  • Añaden unos cuantos casos particulares a las

datos muestran tendencia a agruparse.posiciones (valores) con respecto a los que losmedidas de posición. Son medidas que buscan

  • Media (‘mean’) Es la media aritmética (promedio)
  • Conveniente cuando los datos se concentran– Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5valores dividido por el tamaño muestral.de los valores de una variable. Suma de los

sensible a valores extremos.simétricamente con respecto a ese valor. Muy

  • Centro de gravedad de los datos.

28

Centralización

  • Mediana (‘median’) Es un valor que divide a las
  • Mediana de 1, 2, 4,centrales.de datos es par, se elige la media de los dos datosnúmero de individuos (percentil 50). Si el númeroobservaciones en dos grupos con el mismo

, 6, 6, 8 es 5

  • Mediana de 1, 2, 4,

, 6, 8, 9 es (5+6)/2 = 5,

  • Es conveniente cuando los datos son

asimétricos. No es sensible a valores extremos.

  • Mediana de 1, 2, 4,

, 6, 6, 800 es 5. ¡La media es

  • Moda (‘mode’) Es el/los valor/es donde la

distribución de frecuencia alcanza un máximo.

29

Altura mediana

Asimetría o sesgo

derecha.la imagen especular de su mitadmitad izquierda de su distribución esUna distribución es simétrica si la

hay una moda también coincide.media y mediana coinciden. Si sóloEn las distribuciones simétricas

encuentra la cola de la distribución.en función de a qué lado seLa asimetría es positiva o negativa

las valores extremos (colas).La media tiende a desplazarse hacia

asimetría.de centralización son indicación deLas discrepancias entre las medidas

31

  • Amplitud o Rango de los datos, independientemente de su causa.•Miden el grado de dispersión (variabilidad)

(^) (‘range’):

observaciones extremas.La diferencia entre las

2, (^1) ,4,3,

(^8) ,4. El rango es 8-1=

extremos.Es muy sensible a los valores

  • Rango intercuartílico

(^) (‘interquartile range’):

  • Es la distancia entre el primer y tercer cuartil. Rango intercuartílico =

(^) P 75 (^) - P 25

inferiores y superiores.Parecida al rango, pero eliminando las observaciones más extremas

No es tan sensible a valores extremos.

Medidas de dispersión

25%

25%

25%

25%

x

Fr 1

P

25

P

50

P

75

Q

(^1)

Q

(^2)

Q

3

mediana

intercuartílico Recorrido o rango

37

Lo que nos permite tener

criterios

que determine si un

que están fuera demás de tres desviaciones típicas de la media, es decir a losEn general se consideran puntos atípicos los que están apunto está muy alejado del resto (punto atípico)

)

3

,

3

(

s

x

s

x

9 1

(^31) (^2) =

La frecuencia relativa de estos puntos es menor de

Estudio conjunto de dos variables

varios individuos de una muestra.obtenido observando dos variables o características X e Y enA la derecha tenemos una posible manera de recoger los datos

  • (X, Y) es una variable bidimesional En cada fila tenemos los datos de un individuo

aleatoria sobre los mismos.Cada columna representa los valores que toma una variable

Las individuos no se muestran en ningún orden particular.

Dichas

observaciones

pueden

ser

representadas

en un

diagrama de dispersión

(^) (‘ scatterplot

’) o (^) nube de puntos

. En

valores de las variables:ellos, cada individuo es un punto cuyas coordenadas son los

(^) (x (^1) ,y (^1) ), (x

(^2) ,y (^2) ),…. (x

n ,y n )

predecir el valor de una de ellas en función de la otra.hay relación entre las variables, de qué tipo, y si es posibleNuestro objetivo será intentar reconocer a partir del mismo si

en cm. Altura

en Kg.Peso

162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

30 40 50 60 70 80 90 100 140

150

160

170

180

190

200

Diagramas de dispersión o nube de puntos

Mide 187 cm.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

bidimensional (X, Y).diagrama de dispersión. Cada punto es un valor particular de la variableTenemos las alturas y los pesos de 30 individuos representados en un

39

30 40 50 60 70 80 90 100 140

150

160

170

180

190

200

Relación entre variables

diagrama de dispersión. Tenemos las alturas y los pesos de 30 individuos representados en un

Parece que el peso aumenta con la altura

40

30 40 50 60 70 80 90 100 140

150

160

170

180

190

200

Predicción de una variable en función de otra el peso aumenta en una unidad por cada unidad de altura. Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... O sea,

10 cm.

10 kg.

41

Incorrelación

14030 80 130180230280330

150

160

170

180

190

200

Cómo reconocer relación directa e inversa

Fuerte relación directa.

14030405060708090100

150

160

170

180

190

200

Cierta relación inversa

14001020304050607080

150

160

170

180

190

200

Incorrelación.debajo en proporciones similares.tenemos valores de Y por encima y por Para valores de X por encima de la media

decreciente.menores. Esto es relación inversa omedia le corresponden valores de YPara los valores de X mayores que la

creciente entre X e Y.Esto se llama relación directa ovalores de Y menores también.que la media le correspondenPara los valores de X menoresvalores de Y mayores también.que la media le correspondenPara los valores de X mayores

Cómo reconocer buena o mala relación

Poca relación

1403080130180230280330

150

160

170

180

190

200

Fuerte relación directa.

14030405060708090100

150

160

170

180

190

200

Cierta relación inversa

14001020304050607080

150

160

170

180

190

200

Independencia.gran cosa sobre Y. Mala relación. Dado un valor de X no podemos decir

cuando no se considera X.que tiene la variable Y por si sola,entenderlo con respecto a la dispersiónLo de “horquilla estrecha” hay querelación.por una horquilla estrecha. BuenaConocido X sabemos que Y se mueve

43

La covarianza entre dos variables distintas,

S

xy

, mide la

manera en que las dos variables varían juntas

Covarianza de dos variables X e Y

)

)(

(

1

y

y

x

x

n

S

i

i

i

xy

=

la suya, la covarianza es positiva.media, entonces es de esperar que la variable Y esté cercana a Por ejemplo, si cuando una variable aleatoria X se acerca a su

Si es de esperar que la

negativa.variable Y esté lejana a su media, entonces la covarianza es

Entrenando el ojo: casi perfectas y positivas

r=

14030405060708090100

150

160

170

180

190

200

r=0,

14030405060708090100

150

160

170

180

190

200

r=0,

14030405060708090100

150

160

170

180

190

49 200

Entrenando el ojo: correlaciones

negativas

r=-0,

1400102030405060708090

150

160

170

180

190

200

r=-0,

14001020304050607080

150

160

170

180

190

200

r=-0,

14001020304050607080

150

160

170

180

190

200

r=-0,

14001020304050607080

150

160

170

180

190

¿Si r = 0 eso quiere decir que

las variables son independientes?

cierto en todos los casos.sí, pero no tiene por qué serEn la práctica, casi siempre

incorrelación.Independencia implicaLo contrario si es cierto:

Me ha salido r = 1,2 ¿La relación es “superlineal”

(^) [ sic ]?

entre -1 y +1.¿Superqué? Eso es un error de cálculo. Siempre debe tomar un valor

  • ¿A partir de qué valores se considera que hay “buena relación lineal”? observaciones anómalas,...)hay cierta relación (por decir algo... la cosa es un poco más complicada:curso digamos que si |r| > 0,7 hay buena relación lineal y que si |r| > 0,4Es difícil dar un valor concreto (mirad los gráficos anteriores). Para este

51

Regresión lineal simple

  • Y =función de otra medida (o varias: regresión múltiple).El análisis de regresión sirve para predecir una medida en

(^) Variable dependiente

– X =

(^) Variable independiente

  • ¿Es posible descubrir una relación?

Y = f(X) + error

  • el error es aleatorio, pequeño, y no depende de X– f es una función de un tipo determinado

52

Regresión lineal simple

  • Pearson es del tipo que desarrollaremos en el resto del tema.El ejemplo del estudio de la altura en grupos familiares de Altura del hijo = 85cm +

(^) 0, (^) altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm ¿cuánto mide el hijo?

Se espera (predice) 85 + 0,5x200=185 cm. » Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm ¿cuánto mide el hijo?

Se espera (predice) 85 + 0,5x120=145 cm. » Bajo, pero no tanto como el padre. Regresa a la media.

simple.Es decir, nos interesaremos por modelos de regresión lineal

53

Modelo de regresión lineal simple

  • En el modelo de regresión lineal simple, dado dos variables Y (dependiente)

X (independiente, explicativa)

buscamos encontrar una función de X

(^) muy simple (lineal)

(^) que

  • nos permita aproximar Y mediante (^) Ŷ (^) = b

(^0)

  • b (^1) X

0 b (^) (ordenada en el origen, constante)

1 b (^) (pendiente de la recta)

Y e (^) Ŷ (^) rara vez coincidirán por muy bueno que sea el modelo

  • de regresión. A la cantidad e = Y-

(^) se le denomina residuo o error residual.

54

0 30 60 90

120150180

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220

  • En el ejemplo de Pearson y las alturas, él encontró:

= b

0

+ b

1 X

0 b (^) = 85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm

¡Extrapolación salvaje!)

1 b = 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.) 0 b =85 cm

b (^1) =0,

55

0 30 60 90

120150180

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210

  • preguntarse entonces:La relación entre las variables no es exacta. Es natural función de los de XCuál es la mejor recta que sirve para predecir los valores de Y en

Qué error cometemos con dicha aproximación (residual).

b (^0) =85 cm

b (^1) =0,

56

Interpretación de la variabilidad en Y

Y

eje Y = olvidar X.Proyección sobre elY.zona donde varían los valores deLa franja sombreada indica laes la variabilidad en el eje Y.existe la variable X. Veamos cuálEn primer lugar olvidemos que

61

Interpretación del residuo

Y

mejor será la bondad del ajuste.residuos,Cuanto menos dispersos sean losdispersos que la variable Y original.predicción, residuos, están menosSe observa que los errores deproyectamos sobre el eje Y.predicción (líneas verticales). Los Fijémonos ahora en los errores de

Resumiendo:

La dispersión del error residual será una

residual mejor será el ajuste de regresión.Cuanto menor sea la dispersión del errorfracción de la dispersión original de Y.

o coeficiente de determinación a:de bondad de un ajuste de regresión,Eso hace que definamos como medida

Bondad de un ajuste

2 2

(^2)

1

y e

S S

R

=

Y

2

2

Y

e

S

S

(^63) <