Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadistica descriptiva, Ejercicios de Ciencias de la Educación

Asignatura: didactica, Profesor: , Carrera: Educación Primaria, Universidad: USPCEU

Tipo: Ejercicios

2017/2018

Subido el 18/02/2018

pedro_pablo_mesa_quintero
pedro_pablo_mesa_quintero 🇪🇸

4

(2)

1 documento

1 / 16

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
ESTADÍSTICA DESCRIPTIVA
Elaboró: Hector Hernández / Primitivo Reyes Aguilar
Septiembre de 2007
Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12
STADÍSTICA DESCRIPTIVA P. Reyes / Sep. 2007
Página 1 de 16
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga estadistica descriptiva y más Ejercicios en PDF de Ciencias de la Educación solo en Docsity!

ESTADÍSTICA DESCRIPTIVA

Elaboró: Hector Hernández / Primitivo Reyes Aguilar Septiembre de 2007

Mail: [email protected] Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12

CONTENIDO

1. Introducción

2. Medidas de tendencia central y dispersión para datos simples

3. Otras medidas de dispersión: Percentiles y quartiles

4. Distribución de frecuencias, histogramas, diagama de tallo y hojas

5. Medidas de tendencia central y de dispersión para datos agrupados

6. Usos frecuentes de la desviación estándar

7. Uso de Minitab y Excel

8. Ejercicios

Ejemplo 1: En un equipo de fútbol, una muestra de estaturas de sus integrantes son las siguientes:

1.70,1.79,1.73,1.67,1.60,1.65,1.79,1.84,1.67,1.82, 1.74. Calcule la media.

  • Mediana: () Los datos de "n" observaciones son ordenados del más pequeño al más grande, Si el tamaño de la muestra es "non" la mediana es el valor ordenado en la posición (n+1)/2, Cuando el tamaño de la muestra es "par" la mediana es el promedio de los dos valores que se encuentran al centro del conjunto de valores. Se puede calcular mediante:

Ejemplo 2: Para el ejemplo anterior ¿cuál es la mediana?

Ordenando los datos de mayor a menor se obtiene:

1.60,1.65,1.67,1.67,1.70,1.73,1.74,1.79,1.79,1.82,1.84;

Como tenemos 11 datos el número es non por lo que (n+1)/2 = 12/2 = 6, buscando el número que ocupa la sexta posición en los datos ordenados encontramos el valor de la mediana

  • Media acotada (Truncated Mean): Determinado porcentaje de los valores más altos y bajos de un conjunto dado de datos son eliminados (tomando números enteros), para los valores restantes se calcula la media.

Ejemplo 3: Para la siguiente serie de datos calcule la media acotada al 20%:

68.7,34.3,97.9,73.4,8.4,42.5,87.9,31.1,33.2,97.7,72.3,54.2,80.6,71.6,82.2,

Como tenemos 11 datos, el 20% de 11 es 2.2, por lo cual eliminamos 2 datos el más bajo y el más alto, ordenado los datos obtenemos:

8.4,31.1,33.2,34.3,42.5,54.2,68.7,71.6,72.3,73.4,80.6,82.2,87.9,97.7,97.9, los valores a eliminar son: 8.4 y 97.9; calculando la media de los datos restantes obtenemos

Medidas de dispersión

Para comprender el concepto de varianza, supóngase que tenemos los datos siguientes de los cuales queremos saber que tan dispersos están respecto a su media:

2, 3, 4, 5, 6 con media = 20/5 = 4

Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se tiene:

(-2) + (-1) + (0) + (1) +(2) = 0

Por lo que tomando diferencias simples no es posible determinar la dispersión de los datos.

Si ahora tomamos esas mismas diferencias al cuadrado y las sumamos se tiene:

4 + 1 + 0 + 1 + 4 = 10

Varianza de los datos

Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan distanciados están de la media

  • Poblacional (σ^2 ) Se obtiene dividiendo el valor anterior entre n = 5, o sea el promedio de la suma de las diferencias al cuadrado, tomando n datos.
  • Poblacional (s^2 ) Se obtiene dividiendo el valor anterior entre n - 1 = 4, o sea el promedio de la suma de las diferencias al cuadrado, tomando n -1 datos.
  • Desviación estándar: Es la raíz cuadrada de la varianza:

Para el caso de una población

Para el caso de una muestra

  • Rango ( R ): es la diferencia positiva entre el valor mayor y el valor menor de un conjunto de datos. Por ejemplo para el conjunto de datos siguiente: 2.0,2.1,2.4,2.5,2.6,2.8,2.9,2.9,3.0,3.1,3.6,3.8,4.0,4.

Su rango es R = 4.0 – 2.0 = 2.

  • Coeficiente de Variación (CV): Se utiliza para comparar la dispersión de dos conjuntos de datos que tienen unidades diferentes, ya que representa una medida relativa de dispersión.

Por ejemplo si la media de tiempos de respuesta es de 78.7 y su desviación estándar es 12.14, el CVt:

Por otra parte si la media de temperaturas es de 10 y su desviación estándar de 2, el CVs de las temperaturas es:

Por tanto la dispersión de las temperaturas es mayor que la de los tiempos de de respuesta, es posible comparar estas dispersiones con el CV aunque los dos conjuntos de datos sean completamente disímbolos.

Ejemplo 4: La resistencia al rompimiento de dos muestras de botellas es la siguiente:

Muestra 1: 230 250 245 258 265 240 Muest ra 2: 190 228 305 240 265 260

Calcule la desviación estándar para ambas muestras.

La localización del percentil 35 se halla en:

O sea que el percentil 35 está al 85% del trayecto comprendido entre la observación 17 que es 29 y la observación 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el 35% de las observaciones están por debajo de 30.7 y el 65% restante por encima de 30.7.

De la misma forma los percentiles 25, 50 y 75 proporcionan la localización de los cuartiles Q1, Q2 y Q3 respectivamente.

  • (^) Q1: es el número que representa al percentil 25 (hay 25% de los datos por debajo de este).
  • Q2 o Mediana: es el número que representa al percentil 50 (hay 50% de los datos por debajo de este).
  • Q3: es el número que representa al percentil 75 (hay 75% de los datos por debajo de este). - Rango o Recorrido intercuartílico: es la diferencia entre Q1 y Q3.

DIAGRAMA DE CAJA

Es la representación gráfica de los datos en forma de caja:

1 10 4

Q3 + 1.5 RIC

Q

Q2 Mediana

Q

Q1 – 1.5RIC

Rango Intercuartílico = RIC = Q3 – Q

Valores atípicos

Bigotes

Figura 1. Diagrama de caja con sus cuarteles y bigotes

4. DISTRIBUCIÓN DE FRECUENCIAS E HISTOGRAMAS

Cuando tenemos una cantidad grande de datos es difícil poder analizarlos, a menos que hagamos uso de herramientas que nos permitan hacerlo con mayor facilidad y claridad. El histograma es una de ellas, consiste en un diagrama de barras donde las bases corresponden a los intervalos y las alturas a las frecuencias. Para construir un histograma es necesario tener un mínimo de 50 a 100 datos. Se tienen las siguientes definiciones:

  • (^) Distribución de frecuencias: es un resumen tabular de un conjunto de datos que muestra el número o frecuencia de artículos en cada una de varias clases que no se traslapan.
  • Frecuencia relativa (f): Es la frecuencia de la clase dividida entre el total n de datos. Se puede representar en porcentaje.
  • Distribución de frecuencias porcentuales: es la representación de las frecuencias relativas porcentuales.
  • Frecuencia acumulada (F): es la acumulación secuencial de las frecuencias de cada clase.

Ejemplo 6

Construir un histograma con la siguiente serie de datos:

2.41 17.87 33.51 38.65 45.70 49.36 55.08 62.53 70.37 81. 3.34 18.03 33.76 39.02 45.91 49.95 55.23 62.78 71.05 82. 4.04 18.69 34.58 39.64 46.50 50.02 55.56 62.98 71.14 82. 4.46 19.94 35.58 40.41 47.09 50.10 55.87 63.03 72.46 83. 8.46 20.20 35.93 40.58 47.21 50.10 56.04 64.12 72.77 85. 9.15 20.31 36.08 40.64 47.56 50.72 56.29 64.29 74.03 88. 11.59 24.19 36.14 43.61 47.93 51.40 58.18 65.44 74.10 89. 12.73 28.75 36.80 44.06 48.02 51.41 59.03 66.18 76.26 89. 13.18 30.36 36.92 44.52 48.31 51.77 59.37 66.56 76.69 94. 15.47 30.63 37.23 45.01 48.55 52.43 59.61 67.45 77.91 94. 16.20 31.21 37.31 45.08 48.62 53.22 59.81 67.87 78.24 94. 16.49 32.44 37.64 45.10 48.98 54.28 60.27 69.09 79.35 94. 17.11 32.89 38.29 45.37 49.33 54.71 61.30 69.86 80.32 96.

Paso 1: Contar el número de datos n = 130

Paso 2: Calcular el rango R = Valor mayor – Valor menor, R = 96.78-2.41 = 94.37. Generalmente los datos no están ordenados por lo cual resulta conveniente ordenarlos de menor a mayor para tener una mejor visualización. En el ejemplo los datos ya han sido previamente ordenados.

Paso 3: Seleccionar el número de columnas, mediante =. Por lo cual el histograma se compone de 11 columnas

2 6 89 8 7 233566 16 8 01123456 (11) 9 12224556788 23 10 002466678 14 11 2355899 7 12 4678 3 13 24 1 14 1

5. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN PARA DATOS

AGRUPADOS.

  • La media con datos agrupados : se calcula así:

Donde

f es la frecuencia o número de observaciones en cada clase M es el punto medio de cada clase, se determina como el valor medio entre los límites de clase. n es el tamaño de la muestra o la suma de todas las frecuencias de las clases

Ejemplo:

Clase Frecuencia de clase Frecuencia acumulada (Presión) (días) M fM F

50-59 3 54.5 163.5 3 60-69 7 64.5 451.5 10 70-79 18 74.5 1341.0 28 80-89 12 84.5 1014.0 40 90-99 8 94.5 756.0 48 100-109 2 104.5 209.0 50 50 3935.

  • Mediana de datos agrupados:

Primero se identifica la clase donde se encuentra la mediana cuya F es >= n / 2, en este caso la clase de 70 a 79 con punto central de clase = 74.5.

Donde:

Lmd es el límite inferior de la clase de la mediana cuya F es >= n / 2 o sean (70) F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (10) Fmd es la frecuencia de la clase de la mediana (18) C es el intervalo de clase de la mediana que es la diferencia entre dos límites de clase (10)

  • Moda de datos agrupados:

Primero se halla la clase que tenga la frecuencia más alta, en este caso la clase 70 a 79.

Donde:

Lmo es el límite inferior de la clase modal con la frecuencia más alta (70). Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede (18 – 7 = 11) Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue (18 – 12 = 6) C es el intervalo de la clase modal ( 80 – 70 = 10 )

  • Varianza y desviación estándar de datos agrupados:

Para los datos anteriores se tiene:

Clase Frecuencia de clase (Presión) (días) M fM M^2 fM^2

50-59 3 54.5 163.5 2790.258910. 60-69 7 64.5 451.5 4160.2529121. 70-79 18 74.5 1341.0 5550.2599904. 80-89 12 84.5 1014.0 7140.2585683. 90-99 8 94.5 756.0 8930.2571442. 100-109 2 104.5 209.0 10920.25 21840 .

31690

Con esta información el personal puede tomar sus decisiones

6. USOS FRECUENTES DE LA DESVIACIÓN ESTÁNDAR

• EL TEOREMA DE TCHEBYSHEV

Establece que para todo conjunto de datos por lo menos de las observaciones se encuentran dentro de F 0B 1 K desviaciones estándar de la media, con K >= 1.

Por ejemplo si K = F 0B 1 3 desviaciones estándar respecto a la media, se tiene que por lo menos el:

De las observaciones estarán dentro de dicho intervalo.

CASO DE LA DISTRIBUCIÓN NORMAL

Ejemplo de una distribución con sesgo positivo o sesgada hacia la derecha con Sesgo = 1.

• CURTOSIS

En la distribución normal si no es acampanada y es más picuda o aplanada de lo normal se dice que tiene una Curtosis diferente de cero que es lo normal, si es mayor es más picuda o más plana al revés.

Coeficiente de Curtosis de Fisher

  • 3 o Para la distribución normal debe ser 0.

La distribución es mesocúrtica (plana normal) si , leptocúrtica si más puntiaguda que la normal o platicúrtica (más plana que la normal ) con.

Ejemplo de curva más plana que la normal Curtosis = -1.

Ejemplo de curva más picuda que la normal Curtosis = 0.

7. USO DE MINITAB y EXCEL

Para la obtención de las estadísticas descriptivas con Minitab las instrucciones son:

  • Stat > Basic statistics > Display descriptive statistics

Indicar las variables de las cuales se quieren obtener las estadísticas básicas y la variable categórica si se desean varios grupos.

Seleccionar las gráficas opcionales para los datos: Histograma, diagrama de caja y de puntos.

Seleccionar los estadísticos específicos que se desean obtener:

Los resultados son los siguientes:

Descriptive Statistics: Peso en gr

Variable Línea N N* Mean SE Mean StDev Minimum Q1 Median Peso en gr 1 250 0 3999.6 3.14 49.6 3877.0 3967.8 3999. 2 250 0 4085.6 3.32 52.5 3954.0 4048.8 4087.

Variable Línea Q3 Maximum Peso en gr 1 4040.0 4113. 2 4121.5 4202.

Diagramas de caja en Minitab:

  1. Capture datos en la hoja de trabajo: 7 8 9 9 11 12 12 13 14 15 16 17 18 19 20 22
  2. Seleccione la opción: Graph> Boxplot
  3. Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
  4. A continuación se muestra el diagrama de caja:

Histograma en Minitab:

.1 Capture los datos del ejemplo 6 en la hoja de trabajo: .2 Seleccione la opción: Graph> Histogram (simple) .3 Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok .4 En Options se puede cambiar el número de celdas con Number of intervals (6 – 8) .5 A continuación se muestra el Histograma:

Prueba de normalidad en Minitab:

  1. Capture los datos del ejemplo 6 en la hoja de trabajo:
  2. Seleccione la opción: Stat > Basic statistics
  3. Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
  4. Seleccione la prueba de Anderson Darling
  5. A continuación se muestra la grafica normal, si P value > 0.05 los datos son normales.

USO DE EXCEL

  1. En el menú Herramientas seleccione la opción Análisis de datos. Datos de ejemplo 6.
  2. Seleccione la opción Estadística descriptiva.
  3. Seleccione el rango de entrada, estos corresponden a los datos numéricos de la tabla.
  4. Seleccione Resumen de estadísticas.
  5. (^) En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que este en blanco (a partir de está celda serán insertados los resultados).

La hoja mostrará las siguientes medidas estadísticas de los datos presentados:

Columna

Media 50. Error típico 1. Mediana 49. Moda 50.

8. EJERCICIOS:

  1. Las empresas de generación de energía eléctrica están interesadas en los hábitos de consumo de los clientes para obtener pronósticos exactos de las demandas de energía. Una muestra de consumidores de 90 hogares con calefacción de gas arrojó lo siguiente (FURNACE.MTW):

BTU.In_ 2.97 7.73 9.60 11.12 13. 4.00 7.87 9.76 11.21 13. 5.20 7.93 9.82 11.29 13. 5.56 8.00 9.83 11.43 14. 5.94 8.26 9.83 11.62 14. 5.98 8.29 9.84 11.70 15. 6.35 8.37 9.96 11.70 15. 6.62 8.47 10.04 12.16 16. 6.72 8.54 10.21 12.19 16. 6.78 8.58 10.28 12.28 18. 6.80 8.61 10.28 12. 6.85 8.67 10.30 12. 6.94 8.69 10.35 12. 7.15 8.81 10.36 12. 7.16 9.07 10.40 12. 7.23 9.27 10.49 12. 7.29 9.37 10.50 13. 7.62 9.43 10.64 13. 7.62 9.52 10.95 13. 7.69 9.58 11.09 13.

a) Determinar los estadísticos de tendencia y dispersión

b) Construir un diagrama de caja e histograma

c) Realizar una prueba de normalidad de los datos

d) Establecer conclusiones