


























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: estadistica, Profesor: x x, Carrera: Relaciones Internacionales, Universidad: UCM
Tipo: Apuntes
1 / 34
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!



























Departamento de Investigación de Mercados
Mª Cristina Sanz Villegas
Curso académico 2013/
Mª Cristina Sanz Villegas 1
Curso académico 2013/
Mª Cristina Sanz Villegas 3
Discretas: sólo pueden tomar valores enteros como 1, 2, 8, -4, ….. (p.e. número de hermanos, puede ser 1, 2, 3...., pero nunca podrá ser 3,45).
Continuas : pueden tomar cualquier valor real dentro de un intervalo. (p.e. la altura de una persona puede ser 1,8 metros 1,85 metros, 1,854 metros...etc.
La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia.
(Valor) Simple Acumulada Simple Acumulada xi ni Ni fi Fi x 1 n 1 N 1 = ni f 1 = n 1 / N F 1 = f 1 x 2 n 2 N 2 = N 1 + n 2 f 2 = n 2 / N F 2 = N 2 /N ... ... ... ... ...
x(N-1) n(N-1)
n(N-1) f(N-1) = n(N-1) /N F(N-1) = N(N-1) /N
xN nN N f(N) = n(N) /N 1=100%
Siendo x los distintos valores que puede tomar la variable. Siendo n el número de veces que se repite cada valor. Siendo f el porcentaje que la repetición de cada valor supone sobre el total
Veamos un ejemplo:
Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (en metros):
Alumno Estatura Alumno Estatura Alumno Estatura x x x x x x Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1, Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1, Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1, Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1, Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1, Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1, Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,
Curso académico 2013/
Mª Cristina Sanz Villegas 4
Alumno 8 1,24 Alumno 18 1,25 Alumno 2 8 1, Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1, Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,
Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia :
Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada xi ni Ni fi Fi 1,20 1 1 3,3 3 % 3,3 3 % 1,21 4 5 13,3 3 % 16,6 7 % 1,22 4 9 13,3 3 % 30,0 0 % 1,23 2 11 6,6 7 % 36,6 7 % 1,24 1 12 3,3 3 % 40,0 0 % 1,25 2 14 6,6 7 % 46,6 7 % 1,26 3 17 10,0 0 % 56,6 7 % 1,27 3 20 10,0 0 % 66,6 7 % 1,28 4 24 13,3 3 % 80,0 0 % 1,29 3 27 10,0 0 % 90,0 0 % 1,30 3 30 10,0 0 % 100,0 0 %
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis.
De esta manera obtendremos una distribución de frecuencia agrupada , como en el ejemplo siguiente: Medimos la estatura de una muestra de los alumnos de un colegio y obtenemos los siguientes resultados (en metros):
Alumno Estatura Alumno Estatura Alumno Estatura x x x x x x Alumno 1 1,15 Alumno 11 1,53 Alumno 21 1, Alumno 2 1,48 Alumno 12 1,16 Alumno 22 1, Alumno 3 1,57 Alumno 13 1,60 Alumno 23 1, Alumno 4 1,71 Alumno 14 1,81 Alumno 24 1, Alumno 5 1,92 Alumno 15 1,98 Alumno 25 1, Alumno 6 1,39 Alumno 16 1,20 Alumno 26 1, Alumno 7 1,40 Alumno 17 1,42 Alumno 27 1, Alumno 8 1,64 Alumno 18 1,45 Alumno 28 1, Alumno 9 1,77 Alumno 19 1,20 Alumno 29 1, Alumno 10 1,49 Alumno 2 0 1,98 Alumno 3 0 1,
Curso académico 2013/
Mª Cristina Sanz Villegas 6
Representaciones gráficas
Hay diversos tipos de gráficos para representar los datos recogidos en una distribución de frecuencias.
Las alturas son proporcionales a las frecuencias (absolutas o relativas), por ejemplo
0 1 2 3 4 5 6 7 Ocho o má s Núme ro de hijos
10 0
20 0
30 0
40 0
Recuento
419
255
375
215
127
54 (^24 23 )
Curso académico 2013/
Mª Cristina Sanz Villegas 7
Se utilizan para representar las distribuciones de frecuencias agrupadas (absolutas o relativas)
20 40 60 80 Edad del e ncue stado
50
10 0
15 0
20 0
25 0
Recuento
Curso académico 2013/
Mª Cristina Sanz Villegas 9
Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos y estarán expresadas en las unidades de la variable de estudio.
Las medidas de posición son de dos tipos:
a) Medidas de posición central: informan sobre los valores medios de la serie de datos, son la media, la mediana y la moda.
b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie, son los cuartiles, deciles y percentiles.
Las principales medidas de posición central son las siguientes:
1.- MEDIA : es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas:
a) MEDIA ARITMÉTICA: se calcula determinando el cociente entre la suma de todas las variables y el número total de éstas. Si cada variable tiene una frecuencia asociada se calcula multiplicando cada valor por el número de veces que se repite y la suma de todos estos productos se divide por el total de datos de la muestra:
(^) i
i i i n
n x N
x · siendo
: el valor numérico de cada variable la frecuencia asociada a cada variable
b) MEDIA GEOMÉTRICA: se calcula multiplicando entre sí todas las variables y después se hace la raíz de grado total del número de éstas. Si cada variable tiene una frecuencia asociada se eleva cada variable al número de veces que se ha repetido, se multiplican todo estos resultados y al producto final se calcula la raíz "n" (siendo "n" el total de datos de la muestra).
n N
N n N n n n r N n n n N
N x x x x · x · x ···· xr^ x · x ······ x
1 2 1 2 3 1 2 1 2 3 1 2
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. La media aritmética es la medida de posición central más
Curso académico 2013/
Mª Cristina Sanz Villegas 10
utilizada. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.
2.- MEDIANA : es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido).
Me = x ( (^) 50 % N ) x N / 2
que determinaremos buscando en la tabla de frecuencias acumuladas.
Si tenemos una tabla de frecuencias agrupadas para determinar su valor se determina con la fórmula
Me =
i i
i N (^) n l
x L ·
( 50 % ) inf
aplicada al intervalo que contiene el valor medio ( x (^) 50 % N ), siendo
L inf : límite inferior del intervalo correspondiente a la mitad de la muestra.
N ( i 1 ) : frecuencia absoluta acumulada del intervalo anterior al que contiene la mediana
ni : frecuencia absoluta del intervalo que contiene la mediana
li : longitud del intervalo
También se puede calcular gráficamente con el histograma de frecuencias relativas acumuladas y el polígono de frecuencias asociado.
3.- MODA : es el valor que más se repite en la muestra, puede haber más de un valor de moda.
Mo = x n max
que determinaremos buscando en la tabla de frecuencias absolutas.
Si tenemos una tabla de frecuencias agrupadas, para determinar su valor se determina con una de estas dos fórmulas
Curso académico 2013/
Mª Cristina Sanz Villegas 12
CUARTILES : son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
Primer Cuartil , el valor de la variable que limita la cuarta parte de los valores más bajos de la distribución, o sea el 25% de los primeros valores
C (^) 1 x 25 % N que determinaremos buscando el percentil del 25%
i i
i N (^) n l
C x L ·
1 ( 25 %) ( 25 % ) inf( 25 %)
aplicada al intervalo que contiene el valor correspondiente al valor del 25% de la muestra x (^) 25 % N .
También se puede calcular gráficamente con el histograma de frecuencias relativas acumuladas y el polígono de frecuencias asociado.
Segundo Cuartil , el valor de la variable que limita la mitad de los valores de la distribución, o sea el 50% de los valores, que coincide con la mediana
C (^) 2 x 50 % N Me
Tercer Cuartil , el valor de la variable que limita la cuarta parte de los valores más altos de la distribución, o las tres cuartas partes de los valores, es decir el 75% de los primeros valores
C (^) 3 x 75 % N que determinaremos buscando el percentil del 75%.
i i
i N l n
C x L ·
3 ( 75 %) ( 75 % ) inf( 75 %)
aplicada al intervalo que contiene el valor correspondiente al valor del 75% de la muestra x (^) 75 % N .
También se puede calcular gráficamente con el histograma de frecuencias relativas acumuladas y el polígono de frecuencias asociado.
El intervalo comprendido entre el primer y tercer cuartil es el recorrido intercuartílico que contiene la mitad de los elementos de la muestra.
Curso académico 2013/
Mª Cristina Sanz Villegas 13
DECILES: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados, es decir son los valores de los percentiles correspondientes al 10%, 20%, 30%, etc, hasta el 90 %.
Se calculan mediante la fórmula de los percentiles y también se pueden calcular gráficamente con el histograma de frecuencias relativas acumuladas.
Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos.
Las medidas de dispersión pueden ser absolutas o relativas. Las medidas absolutas estarán expresadas en las unidades de la variable de estudio y las relativas son adimensionales o expresadas en porcentaje.
RANGO, RECORRIDO O AMPLITUD : mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo.
R xN x 1
DESVIACIÓN MEDIA : Es la media aritmética de los valores absolutos de las diferencias de cada variable con respecto a la media aritmética.
Dm =
(^)
(^)
i
i i i m (^) n
n x X N
x X D
VARIANZA : Es la media aritmética de los valores cuadráticos (es decir, al cuadrado) de las diferencias de cada variable con respecto a la media aritmética.
N
x X V (^) x^ ^ i
i
i i n
n x X
2 · ó
n x V (^) x i i
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.
DESVIACIÓN TÍPICA : Se calcula como raíz cuadrada de la varianza. Es el valor más representativo de la dispersión.
Curso académico 2013/
Mª Cristina Sanz Villegas 15
Las medidas de forma permiten conocer la forma que tiene la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes características de la curva:
a) Asimetría : mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares.
b) Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra.
Hemos comentado que el concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmética)
Para medir el nivel de asimetría se pueden utilizan varias fórmulas, siendo los más utilizados los siguientes:
3
1 ( )
x
i i F S
n x X
F S
X Mo G
Los resultados pueden ser los siguientes:
G 1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media)
G 1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda)
Curso académico 2013/
Mª Cristina Sanz Villegas 16
G 1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha)
El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución.
Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
Distribución leptocúrtica : presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
El Coeficiente de Curtosis viene definido por la siguiente fórmula:
4
4
2
x
i i
S
x X n G N
Los resultados pueden ser los siguientes:
G 2 = 0 ( distribución mesocúrtica).
G 2 > 0 (distribución leptocúrtica ).
G 2 < 0 (distribución platicúrtica).
Curso académico 2013/
Mª Cristina Sanz Villegas 18
e) Determinar la forma de la distribución.
f) ¿Qué grupo de edad presenta la mayor frecuencia relativa? ¿Y cual la menor?
4.- Se realizó un estudio midiendo el pulso de los 30 estudiantes de una clase después de la realización de una tabla de ejercicios. Los resultados, en pulsaciones por minuto, fueron los siguientes:
148 136 157 151 121 139 137 129 127 129 155 141 133 153 161 153 127 135 144 146 136 131 133 159 127 142 133 150 164 161
a) Construir una tabla de distribución de frecuencias, indicando las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas.
b) Realizar una representación gráfica de los datos.
c) Calcula las principales medidas de posición.
d) Calcula las principales medidas de dispersión.
e) Determinar la forma de la distribución.
0.110 0.110 0.126 0.112 0.117 0.113 0.135 0.107 0.122 0. 0.098 0.122 0.105 0.103 0.119 0.100 0.117 0.113 0.124 0. 0.132 0.108 0.115 0.120 0.107 0.123 0.109 0.117 0.111 0. 0.101 0.112 0.111 0.119 0.103 0.100 0.108 0.120 0.099 0. 0.129 0.115 0.121 0.130 0.134 0.118 0.106 0.128 0.094 0.
a) Construir una tabla de distribución de frecuencias, indicando las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas.
b) Realizar una representación gráfica de los datos.
c) Calcula las principales medidas de posición.
d) Calcula las principales medidas de dispersión.
e) Determinar la forma de la distribución.
6.- En una clase alumnos las notas en un examen de matemáticas fueron las siguientes:
6 1 8 4 2 5 3 2 4 8 2 7 6 2 1 8 7 6 9 7 3 7 9 8 8 7 3 6 5 9 3 7 1 5 9 8 5 7
Realizar un estudio estadístico completo de la distribución de las notas de esa clase.
7.- En un examen de historia se han obtenido las siguientes calificaciones:
6 1 8 4 2 5 3 2 4 8 2 7 6 2 1 8 7 6 9 3 7 3 7 9 8 8 7 3 6 5 9 3 7 1 5 9 8 5 7 5 4 5 6 3 5 3 4 3 8 5 2 6 8 2 6 9 7 4 5 9
Curso académico 2013/
Mª Cristina Sanz Villegas 19
Realizar un estudio estadístico completo de la distribución de las notas de esa clase y comparar con el problema anterior.
8.- En una muestra de población de 80 personas se determinaron los pesos en kilos de cada una de ellas obteniéndose la serie siguiente:
68 84 75 82 68 90 62 88 52 93 73 79 88 73 60 93 71 59 85 75 61 65 75 87 74 62 95 78 63 72 66 78 82 75 94 77 69 74 68 60 50 78 89 61 75 95 60 79 83 71 79 62 67 97 78 85 76 65 71 75 65 80 73 57 88 78 62 76 53 74 86 67 73 81 72 63 76 75 85 77
Realizar un estudio estadístico completo de la distribución del peso de esta población
9.- En una urbanización se ha estudiado el número de miembros que componen la unidad familiar, obteniéndose los resultados siguientes:
Nº personas: 2 3 4 5 6 7 Nº familias 3 10 16 15 9 7
Realizar un estudio estadístico completo del número de personas que componen la unidad familiar.
10.- En un barrio se ha realizado un estudio para determinar el número de miembros que componen la unidad familiar, los resultados se recogen en el cuadro adjunto.
Nº personas Nº familias 2 28 3 63 4 99 5 112 6 42
Realizar un estudio estadístico completo del número de personas que componen la unidad familiar y comparar con la urbanización anterior.
11.- En una discoteca se ha preguntado a los jóvenes que abandonaban el local cuantas copas de alcohol se habían tomado esa noche. Realizar un estudio estadístico completo del consumo de alcohol en la noche madrileña.
Nº copas frecuencia 0 6 1 12 2 24 3 28 4 9