









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: estadística, Profesor: , Carrera: Biología, Universidad: UCM
Tipo: Apuntes
1 / 16
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










1
estadística).de fenómenos de masas (la(2) Ciencia: obtener regularidades(una estadística).(1) Colección de datos numéricosDos significados:mentiras y estadísticas"."Existen medias mentiras, Imagen popular de la estadística:
Estadísitica
3
deducir las leyes
(^) que rigen esos fenómenos
(^) u obtener
(^) conclusiones
InferenciaProbabilidad^ Descriptiva
5
Los fumadores tienen
(^) “más bajas”
(^) laborales que los
no fumadores.
muestras
variables
6
Pasos en un estudio estadístico (y 2)
Recoger los datos (
muestreo
¿Estratificado? ¿Sistemáticamente?
Describir (resumir) los datos obtenidos:
estadísticos
)
frecuencias
), gráficos,...
Realizar una inferencia sobre la población:
(^) de media
que los no fumadores.
Significación del contraste: p = 2%
7
Población y muestra
Población (‘
population’
es el conjunto sobre
Muestra
sample’
) es un subconjunto de la
8
Una
(^) variable
(^) es una característica observable
(^) que varía
entre los diferentes individuos
(^) de una población. La
eninformación que disponemos de cada individuo es resumida (^) variables
(^) Å (^) Var.
(^) Cualitativa
(^) Å (^) Var.
Ordinal
(^) Å (^) Var.
(^) Numérica discreta
(^) Å (^) Var.
(^) Numérica continua
60
65
65
70
70
70
75
75
75
80
80
80
85
85
85
85
90
90
90
90
90
95
95
95
95
100 100 110 110 120
La amplitud total^ Ordenamos los datos en forma creciente:
cada clase.aproximadamente 6 clases de amplitud 10 unidades en En este caso , entonces, la tabla de frecuencias tendráNúmero de clases:
Aprox. 6 clases
Extensión del intervalo :
13
i
i
i
total
Variable
Frecuencia absoluta
Frecuencia relativa
acumuladaAbsolutaFrecuencia
acumuladarelativaFrecuencia
15
0 2 4 6 8 10
60
70
80
90
100
110
120
130
mm de Hg
f
mm de Hg según las frecuencias absolutas: Histograma de la distribución de presión diastólica en
Gráficos para variables
cualitativas
17
Gráficos para variables cualitativas
(^) (y 2)
¿cuál dirías que es incorrecto?
18
Gráficos diferenciales para
variables numéricas
Valen con frec. absolutas o relativas.variables sean discretas o continuas. Son diferentes en función de que las
discretas^ Diagramas barras para v.
(^) Histogramas para v. continuas
(^0) (^1) (^2) (^3) (^4) (^5) (^6)
7 Ocho o más
Número de hijos
100^ Recuento 200 300 400 419 255 375 215 127 54 (^24) (^23)
(^20)
(^40)
(^60)
80
Edad del encuestado
50 100^ Recuento^150200250
19
Diagramas integrales
individuos que poseen un valor inferior o igual al mismo.Indican, para cada valor de la variable, la cantidad (frecuencia) dediagrama integral. Se realizan a partir de las frecuencias acumuladas.Cada uno de los anteriores diagramas tiene su correspondiente
20
–La altura media de los que estamos en este aula.
•Somos una muestra (¿representativa?) de la población.
se le suele llamar estimador.–Si un estadístico se usa para aproximar un parámetro también
25
Percentil 5 o cuantil 0,05.
Percentil 75.
Entre el percentil 5 y el 95.
Entre 1º y 3º cuartil (Q
(^1) y Q
(^3) ).
26
Niveles de Hb en 60 adultos normales
Un resumen de esta serie en 5 valores
Min = 105 ; Max =179; Q
(^1) = 133.5 ; Q
3 = 159 ; Q
(^2) = Mn = 149. 179
IQR = Q
(^3) - Q
1
Recorrido intercuartílico
Min
Max
Mn
(Mediana de los datos superiores)
(^) Q (^1)
Q (^3) (Mediana de los datos superiores)
(“Box-and-Whisker” plot)
179
176
172
172
170
168
168
166
165
164
164
163
160
160
160
158
156
156
155
154
154
154
154
153
153
151
151
150
150
150
149
148
148
148
146
145
144
142
141
138
138
138
138
135
134
133
132
130
128
127
125
120
120
120
119
118
112
112
110
105
159 133.
27
28
, 6, 6, 800 es 5. ¡La media es
29
Altura mediana
Asimetría o sesgo
asimetría.de centralización son indicación deLas discrepancias entre las medidas
31
(^) (‘range’):
observaciones extremas.La diferencia entre las
2, (^1) ,4,3,
(^8) ,4. El rango es 8-1=
extremos.Es muy sensible a los valores
(^) (‘interquartile range’):
(^) P 75 (^) - P 25
No es tan sensible a valores extremos.
Medidas de dispersión
25%
25%
25%
25%
Fr 1
25
50
75
(^1)
(^2)
3
mediana
intercuartílico Recorrido o rango
37
)
3
,
3
(
s
x
s
x
−
9 1
(^31) (^2) =
Estudio conjunto de dos variables
Dichas
observaciones
pueden
ser
representadas
en un
diagrama de dispersión
(^) (‘ scatterplot
’) o (^) nube de puntos
. En
valores de las variables:ellos, cada individuo es un punto cuyas coordenadas son los
(^) (x (^1) ,y (^1) ), (x
(^2) ,y (^2) ),…. (x
n ,y n )
predecir el valor de una de ellas en función de la otra.hay relación entre las variables, de qué tipo, y si es posibleNuestro objetivo será intentar reconocer a partir del mismo si
en cm. Altura
en Kg.Peso
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
30 40 50 60 70 80 90 100 140
150
160
170
180
190
200
Diagramas de dispersión o nube de puntos
Mide 187 cm.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
bidimensional (X, Y).diagrama de dispersión. Cada punto es un valor particular de la variableTenemos las alturas y los pesos de 30 individuos representados en un
39
30 40 50 60 70 80 90 100 140
150
160
170
180
190
200
Relación entre variables
diagrama de dispersión. Tenemos las alturas y los pesos de 30 individuos representados en un
Parece que el peso aumenta con la altura
40
30 40 50 60 70 80 90 100 140
150
160
170
180
190
200
Predicción de una variable en función de otra el peso aumenta en una unidad por cada unidad de altura. Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... O sea,
10 cm.
10 kg.
41
Incorrelación
14030 80 130180230280330
150
160
170
180
190
200
Cómo reconocer relación directa e inversa
Fuerte relación directa.
14030405060708090100
150
160
170
180
190
200
Cierta relación inversa
14001020304050607080
150
160
170
180
190
200
Incorrelación.debajo en proporciones similares.tenemos valores de Y por encima y por Para valores de X por encima de la media
decreciente.menores. Esto es relación inversa omedia le corresponden valores de YPara los valores de X mayores que la
creciente entre X e Y. • Esto se llama relación directa ovalores de Y menores también.que la media le corresponden • Para los valores de X menoresvalores de Y mayores también.que la media le corresponden • Para los valores de X mayores
Cómo reconocer buena o mala relación
Poca relación
1403080130180230280330
150
160
170
180
190
200
Fuerte relación directa.
14030405060708090100
150
160
170
180
190
200
Cierta relación inversa
14001020304050607080
150
160
170
180
190
200
Independencia.gran cosa sobre Y. Mala relación. Dado un valor de X no podemos decir
cuando no se considera X.que tiene la variable Y por si sola,entenderlo con respecto a la dispersión • Lo de “horquilla estrecha” hay querelación.por una horquilla estrecha. Buena • Conocido X sabemos que Y se mueve
43
xy
Covarianza de dos variables X e Y
)
)(
(
1
y
y
x
x
n
S
i
i
i
xy
−
−
=
∑
Entrenando el ojo: casi perfectas y positivas
r=
14030405060708090100
150
160
170
180
190
200
r=0,
14030405060708090100
150
160
170
180
190
200
r=0,
14030405060708090100
150
160
170
180
190
49 200
Entrenando el ojo: correlaciones
negativas
r=-0,
1400102030405060708090
150
160
170
180
190
200
r=-0,
14001020304050607080
150
160
170
180
190
200
r=-0,
14001020304050607080
150
160
170
180
190
200
r=-0,
14001020304050607080
150
160
170
180
190
¿Si r = 0 eso quiere decir que
las variables son independientes?
Me ha salido r = 1,2 ¿La relación es “superlineal”
(^) [ sic ]?
51
Regresión lineal simple
(^) Variable dependiente
(^) Variable independiente
Y = f(X) + error
52
Regresión lineal simple
(^) 0, (^) altura del padre (Y = 85 + 0,5 X)
Se espera (predice) 85 + 0,5x200=185 cm. » Alto, pero no tanto como el padre. Regresa a la media.
Se espera (predice) 85 + 0,5x120=145 cm. » Bajo, pero no tanto como el padre. Regresa a la media.
simple.Es decir, nos interesaremos por modelos de regresión lineal
53
Modelo de regresión lineal simple
X (independiente, explicativa)
buscamos encontrar una función de X
(^) muy simple (lineal)
(^) que
(^0)
0 b (^) (ordenada en el origen, constante)
1 b (^) (pendiente de la recta)
Y e (^) Ŷ (^) rara vez coincidirán por muy bueno que sea el modelo
(^) se le denomina residuo o error residual.
54
0 30 60 90
120150180
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220
0
0 b (^) = 85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm
¡Extrapolación salvaje!)
1 b = 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.) 0 b =85 cm
b (^1) =0,
55
0 30 60 90
120150180
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210
Qué error cometemos con dicha aproximación (residual).
b (^0) =85 cm
b (^1) =0,
56
Interpretación de la variabilidad en Y
Y
eje Y = olvidar X.Proyección sobre elY.zona donde varían los valores deLa franja sombreada indica laes la variabilidad en el eje Y.existe la variable X. Veamos cuálEn primer lugar olvidemos que
61
Interpretación del residuo
Y
mejor será la bondad del ajuste.residuos,Cuanto menos dispersos sean losdispersos que la variable Y original.predicción, residuos, están menosSe observa que los errores deproyectamos sobre el eje Y.predicción (líneas verticales). Los Fijémonos ahora en los errores de
Resumiendo:
La dispersión del error residual será una
residual mejor será el ajuste de regresión. • Cuanto menor sea la dispersión del errorfracción de la dispersión original de Y.
o coeficiente de determinación a:de bondad de un ajuste de regresión,Eso hace que definamos como medida
Bondad de un ajuste
2 2
(^2)
1
y e
S S
R
−
=
Y
2
2
Y
e
S
S
(^63) <