Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


CONCEPTOS BASICOS DE ESTADISTCIAS, Apuntes de Estadística

CONCEPTOS BASICOS DE ESTADISTICAS PARA PONER EN PRACTICA

Tipo: Apuntes

2019/2020

Subido el 24/05/2020

eliana-noemi-contreras-jordan-1
eliana-noemi-contreras-jordan-1 🇪🇨

5 documentos

1 / 24

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Oscar Hurtado
|
Estadísticos
Descriptivos
MINITAB
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18

Vista previa parcial del texto

¡Descarga CONCEPTOS BASICOS DE ESTADISTCIAS y más Apuntes en PDF de Estadística solo en Docsity!

Oscar Hurtado

|

Estadísticos

Descriptivos

MINITAB

Gráfica de caja Una gráfica de caja proporciona un resumen gráfico de la distribución de una muestra. La gráfica de caja muestra la forma, tendencia central y variabilidad de los datos.

Interpretación

Utilice una gráfica de caja para examinar la dispersión de los datos y para identificar cualquier posible valor atípico. Las gráficas de caja funcionan mejor cuando el tamaño de la muestra es mayor que 20. Datos asimétricos Examine la dispersión de los datos para determinar si los datos parecen ser asimétricos. Cuando los datos son asimétricos, la mayoría de los datos se ubican en la parte superior o inferior de la gráfica. Con frecuencia, es fácil detectar la asimetría con un histograma o una gráfica de caja. Asimétrico hacia la derecha Asimétrico hacia la izquierda La gráfica de caja con datos asimétricos hacia la derecha muestra tiempos de espera. La mayoría de los tiempos de espera son relativamente cortos y solo unos pocos son largos. La gráfica de caja con datos asimétricos hacia la izquierda muestra datos de tiempo de falla. Unos pocos elementos fallan inmediatamente y muchos otros fallan posteriormente. Valores atípicos Los valores atípicos, que son valores de datos que están muy distantes de otros valores de datos, pueden afectar considerablemente los resultados de un análisis. Con frecuencia, es fácil identificar los valores atípicos en una gráfica de caja.

Ajuste deficiente Valores atípicos Los valores atípicos, que son valores de datos que están muy distantes de otros valores de datos, pueden afectar considerablemente los resultados de un análisis. Con frecuencia, es fácil identificar los valores atípicos en una gráfica de caja. En un histograma, las barras aisladas en cualquiera de los extremos de la gráfica identifican posibles valores atípicos. Trate de identificar la causa de cualquier valor atípico. Corrija cualquier error de entrada de datos o de medición. Considere eliminar los valores de datos asociados con eventos anormales y únicos (también conocidos como causas especiales). Luego, repita el análisis. Para obtener más información, vaya a Identificar valores atípicos. Datos multimodales Los datos multimodales tienen múltiples picos, también denominados modas. Los datos multimodales suelen indicar que aún no se han considerado variables importantes. Simple

Con grupos Por ejemplo, un gerente de un banco recolecta datos de tiempos de espera y crea un histograma simple. El histograma parece tener dos picos. Después de una investigación más a fondo, el gerente determina que el tiempo de espera de los clientes que están cobrando un cheque es más corto que el tiempo de espera de los clientes que están solicitando una hipoteca. El gerente agrega una variable de grupo para la tarea que realizan los clientes y luego crea un histograma con grupos. Si usted tiene información adicional que le permita clasificar las observaciones en grupos, puede crear una variable de grupo con esta información. Luego, puede crear la gráfica con los grupos para determinar si la variable de grupo explica los picos en los datos. Gráfica de valores individuales Una gráfica de valores individuales muestra los valores individuales en la muestra. Cada círculo representa una observación. Una gráfica de valores individuales es especialmente útil cuando usted tiene relativamente pocas observaciones y cuando también necesita evaluar el efecto de cada observación.

Interpretación

Utilice una gráfica de valores individuales para examinar la dispersión de los datos y para identificar cualquier posible valor atípico. Las gráficas de valores individuales funcionan mejor cuando el tamaño de la muestra es menor que 50. Datos asimétricos Examine la dispersión de los datos para determinar si los datos parecen ser asimétricos. Cuando los datos son asimétricos, la mayoría de los datos se ubican en la parte superior o inferior de la gráfica. Con frecuencia, es fácil detectar la asimetría con un histograma o una gráfica de caja.

cuartil en 75% (Q3)– que dividen una muestra de datos ordenados en cuatro partes iguales. El primer cuartil es el percentil 25 e indica que 25% de los datos es menor que o igual a este valor. Para estos datos ordenados, el primer cuartil (Q1) es 9.5. Es decir, 25% de los datos es menor que o igual a 9.5. IQR El rango intercuartil (IQR) es la distancia entre el primer cuartil (Q1) y el tercer cuartil (Q3). El 50% de los datos está dentro de este rango. Para estos datos ordenados, el rango intercuartil es 8 (17.5–9.5 = 8). Es decir, el 50% intermedio de los datos está entre 9.5 and 17.5.

Interpretación

Utilice el rango intercuartil para describir la dispersión de los datos. A medida que aumenta la dispersión de los datos, el IQR se hace más grande. Máximo El máximo es el valor más grande de los datos. En estos datos, el máximo es 19. 13 17 18 1 9

Interpretación

Utilice el máximo para identificar un posible valor atípico o error de entrada de datos. Una de las maneras más sencillas de evaluar la dispersión de los datos consiste en comparar el mínimo y el máximo. Si el valor máximo es muy alto, incluso cuando considere el centro, la dispersión y la forma de los datos, investigue la causa del valor extremo. Mediana La mediana es el punto medio del conjunto de datos. El valor de este punto medio es el punto en el cual la mitad de las observaciones está por encima del valor y la otra mitad está por debajo del valor. La mediana se determina jerarquizando las observaciones y hallando la observación que ocupe el número [N + 1] / 2 en el orden jerarquizado. Si el número de observaciones es par, entonces la mediana es el valor promedio de las observaciones jerarquizadas en los números N / 2 y [N / 2] + 1. Para estos datos ordenados, la mediana es 13. Es decir, la mitad de los valores es menor que o igual a 13 y la otra mitad de los valores es mayor que o igual a 13. Si usted agrega otra observación igual a 20, la mediana es 13,5, que es el promedio entre la 5ta^ observación (13) y la 6ta^ observación (14).

Interpretación

Tanto la mediana como la media miden la tendencia central. Sin embargo, valores poco comunes, llamados valores atípicos, pueden afectar a la mediana menos de lo que afectan a la media. Si los datos son simétricos, la media y la mediana son similares.

El rango es la diferencia entre los valores más grande y más pequeño de los datos. El rango representa el intervalo que contiene todos los valores de los datos.

Interpretación

Utilice el rango para entender la cantidad de dispersión en los datos. Un valor de rango grande indica mayor dispesión en los datos. Un valor de rango pequeño indica que hay menos dispersión en los datos. Puesto que el rango se calcula usando solo dos valores de los datos, es más útil con conjuntos de datos pequeños. Q Los cuartiles son los tres valores –el primer cuartil en 25% (Q1), el segundo cuartil en 50% (Q2 o mediana) y el tercer cuartil en 75% (Q3)– que dividen una muestra de datos ordenados en cuatro partes iguales. El tercer cuartil es el percentil 75 e indica que 75% de los datos es menor que o igual a este valor. Para estos datos ordenados, el tercer cuartil (Q3) es 17.5. Es decir, 75% de los datos es menor que o igual a 17.5. Media La media es el promedio de los datos, que es la suma de todas las observaciones dividida entre el número de observaciones. Por ejemplo, los tiempos de espera (en minutos) de cinco clientes en un banco son: 3, 2, 4, 1 y 2. El tiempo medio de espera se calcula de la siguiente manera: En promedio, un cliente espera 2.4 minutos para ser atendido en el banco.

Interpretación

Utilice la media para describir la muestra con un solo valor que representa el centro de los datos. Muchos análisis estadísticos utilizan la media como una medida estándar del centro de la distribución de los datos. Tanto la mediana como la media miden la tendencia central. Sin embargo, valores poco comunes, llamados valores atípicos, pueden afectar a la mediana menos de lo que afectan a la media. Si los datos son simétricos, la media y la mediana son similares. Simétrica No simétrica En la distribución simétrica, la media (línea azul) y la mediana (línea naranja) son tan similares que no es fácil distinguir las dos líneas. En cambio, la distribución no simétrica es asimétrica hacia la derecha. EE de la media El error estándar de la media (EE de la media) estima la variabilidad entre las medias de las muestras que usted obtendría si tomara muestras repetidas de la misma población. Mientras que el error estándar de la media estima la variabilidad entre las muestras, la desviación

NAcum N acumulado es un total acumulado del número de observaciones en categorías sucesivas. Por ejemplo, una escuela primaria registra el número de estudiantes de primero a sexto grado. La columna NAcum contiene el conteo acumulado de la población estudiantil: Nivel de grado Conte o NAcu m Cálculo 1 49 49 49 2 58 107 49 + 58 3 52 159 49 + 58 + 52 4 60 219 49 + 58 + 52 + 60 5 48 267 49 + 58 + 52 + 60 + 48 6 55 322 49 + 58 + 52 + 60 + 48 + 55 N* El número de valores faltantes en la muestra. El número de valores faltantes se refiere a las celdas que contienen el símbolo de valor faltante *.

En este ejemplo, 8 errores ocurrieron durante la recolección de datos y se registraron como valores faltantes. Conteo total N N* 149 14 1

N El número de valores presentes en la muestra. En este ejemplo, hay 141 observaciones registradas. Conteo total N N* 149 14 1

Conteo total El número total de observaciones en la columna. Utilícese para representar la suma de N valores faltantes y N valores presentes. En este ejemplo, hay 141 observaciones válidas y 8 valores faltantes. El conteo total es 149. Conteo total N N 149* 14 8

Grupo (por variable) Porcentaj e Línea 1 16 Línea 2 20 Línea 3 36 Línea 4 28 Curtosis La curtosis indica la manera en que las colas de una distribución difieren de la distribución normal.

Interpretación

Utilice la curtosis para lograr entender inicialmente las características generales de la distribución de los datos. Línea de base: Valor de curtosis de 0 Los datos normalmente distribuidos establecen la línea de base para la curtosis. Un valor de curtosis de 0 indica que los datos siguen perfectamente la distribución normal. Un valor de curtosis que se desvía significativamente de 0 puede indicar que los datos no están distribuidos normalmente.

Curtosis positiva Una distribución que tiene un valor positivo de curtosis indica que la distribución tiene colas más pesadas que la distribución normal. Por ejemplo, los datos que siguen una distribución t tienen un valor positivo de curtosis. La línea continua indica la distribución normal y la línea de puntos indica una distribución que tiene un valor positivo de curtosis. Curtosis negativa Una distribución con un valor negativo de curtosis indica que la distribución tiene colas más livianas que la distribución normal. Por ejemplo, los datos que siguen una distribución beta con el primer y el segundo parámetro de forma iguales a 2 tienen un valor negativo de curtosis. La línea continua indica la distribución normal y la línea de puntos indica una distribución que tiene un valor negativo de curtosis. Asimetría La asimetría es el grado en que los datos no son simétricos.

Interpretación

Utilice la asimetría como ayuda para lograr entender inicialmente los datos.

izquierda y porque producen un valor de asimetría negativo. Los datos de tasas de fallas suelen ser asimétricos a la izquierda. Consideremos el caso de las bombillas: muy pocas se quemarán inmediatamente, la gran mayoría dura un tiempo considerablemente largo. CoefVar El coeficiente de variación (CoefVar) es una medida de dispersión que describe la variación en los datos en relación con la media. El coeficiente de variación se ajusta de manera que los valores estén en una escala sin unidades. Gracias a este ajuste, usted puede utilizar el coeficiente de variación en lugar de la desviación estándar para comparar la variación de los datos que tienen unidades diferentes o medias muy diferentes.

Interpretación

Mientras mayor sea el coeficiente de variación, mayor será la dispersión en los datos. Por ejemplo, usted es el inspector de control de calidad de una planta embotelladora de leche que embotella el producto en recipientes pequeños y grandes. Usted toma una muestra de cada producto y observa que el volumen medio de los recipientes pequeños es de una 1 taza, con una desviación estándar de 0.08 tazas, y el volumen medio de los recipientes grandes es de 1 galón (16 tazas) con una desviación estándar de 0.4 tazas. Aunque la desviación estándar del recipiente de un galón es cinco veces mayor que la desviación estándar del recipiente pequeño, los coeficientes de variación apoyan una conclusión diferente. Recipiente grande Recipiente pequeño CoefVar = 100 * 0.4 tazas / 16 tazas = 2. CoefVar = 100 * 0. tazas / 1 taza = 8

El coeficiente de variación del recipiente pequeño es más de tres veces mayor que el coeficiente de variación del recipiente grande. En otras palabras, aunque el recipiente grande tiene una mayor desviación estándar, el recipiente pequeño presenta una variabilidad mucho mayor con respecto a su media. Desv.Est. La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos alrededor de la media. El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como ruido. Debido a que la desviación estándar utiliza las mismas unidades que los datos, generalmente es más fácil de interpretar que la varianza.

Interpretación

Utilice la desviación estándar para determinar qué tan dispersos están los datos con respecto a la media. Un valor de desviación estándar más alto indica una mayor dispersión de los datos. Una buena regla empírica para una distribución normal es que aproximadamente 68% de los valores se ubican dentro de una desviación estándar de la media, 95% de los valores se ubican dentro de dos desviaciones estándar y 99.7% de los valores se ubican dentro de tres desviaciones estándar. La desviación estándar también se puede utilizar para establecer un valor de referencia para estimar la variación general de un proceso.