Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística Descriptiva: Métricas Numéricas, Esquemas y mapas conceptuales de Diseño de experimentos

Este capítulo presenta conceptos básicos de estadística descriptiva, incluyendo medidas numéricas de posición, dispersión, forma y asociación. Se distinguen estadísticas muestrales y poblacionales. Se explican conceptos como mediana, moda, percentiles, cuartiles, medidas de variabilidad, desviación estándar y coeficiente de variación.

Tipo: Esquemas y mapas conceptuales

2018/2019

Subido el 24/02/2022

fer-vazquez-2
fer-vazquez-2 🇲🇽

2 documentos

1 / 7

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
María Fernanda Vázquez Hernández
A01328939
Capítulo 3
Estadística descriptiva: Mediciones numericas
Se presentan las medidas numéricas de posición, dispersión, forma y asociación. Si las medidas
se calculan para los datos de una muestra, se les llama estadístico muestral. Si se calculan para
los datos de una población, se les llama parámetros poblacionales. En la inferencia estadística,
un estadístico muestral se conoce como estimador puntual del parámetro poblacional
correspondiente.
3.1 Medidas de posicion o localizacion
Media
Es la medida de ubicación mas importante para una variable, ya que proporciona una ubicación
central de los datos. Si los datos son para una muestra, la media se denota por x; si son para una
población, se denota por la letra griega μ.
Mediana
La mediana es otra medida de ubicación central; es el valor de en medio cuando los datos están
acomodados en orden ascendente (del valor menor al valor mayor). Con un número impar de
observaciones, la mediana es el valor de en medio. Con un número par, no hay valor de en
medio. En este caso se sigue la convención y la mediana se define como el promedio de los
valores de las dos observaciones de en medio. Por conveniencia, la definición de la mediana se
replantea como sigue.
Moda
Esta tercera medida va a ser aquella que se repetira con frecuencia, Para ilustrar cómo
identificar la moda, considere el tamaño de grupo de la muestra de cinco grupos de estudiantes
universitarios. El único valor que ocurre más de una vez es el 46. Debido a que se presenta con
una frecuencia de 2, que es la frecuencia más grande, se le considera la moda. Como otro
ejemplo, considere la muestra de sueldos iniciales de los licenciados en ad- ministración de
empresas. El único sueldo mensual inicial que ocurre más de una vez es $3 480. Dado que este
valor tiene la frecuencia mayor, es la moda.
Hay situaciones en que la frecuencia mayor ocurre en dos o más valores diferentes; cuando esto
sucede, existe más de una moda. Si los datos contienen exactamente dos modas, se dice que son
bimodales.
Percentiles
Es aquel que proporciona informacion sobre como se distribuyen los datos en el intervalo del
valor menor al mayor. Para datos que no contienen muchos valores repetidos, el percentil p-
ésimo los divide en dos partes.
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Estadística Descriptiva: Métricas Numéricas y más Esquemas y mapas conceptuales en PDF de Diseño de experimentos solo en Docsity!

A

Capítulo 3

Estadística descriptiva: Mediciones numericas

Se presentan las medidas numéricas de posición, dispersión, forma y asociación. Si las medidas se calculan para los datos de una muestra, se les llama estadístico muestral. Si se calculan para los datos de una población, se les llama parámetros poblacionales. En la inferencia estadística, un estadístico muestral se conoce como estimador puntual del parámetro poblacional correspondiente.

3.1 Medidas de posicion o localizacion

Media

Es la medida de ubicación mas importante para una variable, ya que proporciona una ubicación central de los datos. Si los datos son para una muestra, la media se denota por x; si son para una población, se denota por la letra griega μ.

Mediana

La mediana es otra medida de ubicación central; es el valor de en medio cuando los datos están acomodados en orden ascendente (del valor menor al valor mayor). Con un número impar de observaciones, la mediana es el valor de en medio. Con un número par, no hay valor de en medio. En este caso se sigue la convención y la mediana se define como el promedio de los valores de las dos observaciones de en medio. Por conveniencia, la definición de la mediana se replantea como sigue.

Moda

Esta tercera medida va a ser aquella que se repetira con frecuencia, Para ilustrar cómo identificar la moda, considere el tamaño de grupo de la muestra de cinco grupos de estudiantes universitarios. El único valor que ocurre más de una vez es el 46. Debido a que se presenta con una frecuencia de 2, que es la frecuencia más grande, se le considera la moda. Como otro ejemplo, considere la muestra de sueldos iniciales de los licenciados en ad- ministración de empresas. El único sueldo mensual inicial que ocurre más de una vez es $3 480. Dado que este valor tiene la frecuencia mayor, es la moda. Hay situaciones en que la frecuencia mayor ocurre en dos o más valores diferentes; cuando esto sucede, existe más de una moda. Si los datos contienen exactamente dos modas, se dice que son bimodales. Percentiles Es aquel que proporciona informacion sobre como se distribuyen los datos en el intervalo del valor menor al mayor. Para datos que no contienen muchos valores repetidos, el percentil p- ésimo los divide en dos partes.

A Cuartiles Se conocen como puntos de division y se definen de esta manera: Q 1 = primer cuartil, o percentil 25 Q 2 = segundo cuartil, o percentil 50 (también la mediana) Q 3 = tercer cuartil, o percentil 75

3.2 Medidas de variabilidad

Rango

Es la medida de variabilidad mas sencilla

Aun cuando el rango es la medida de variabilidad más fácil de calcular, pocas veces se usa como la única medida debido a que se basa sólo en dos de las observaciones y, por tanto, los valores extremos influyen mucho en él. Rango intercuartilico Una medida de la variabilidad que supera la dependencia sobre los valores extremos es el rango intercuartílico (RIC). Esta medida de la variabilidad es la diferencia entre el ter- cer cuartil, Q3, y el primer cuartil, Q1. En otras palabras, el rango intercuartílico es el rango de la media de 50% de los datos. Varianza La varianza es una medida de la variabilidad que utiliza todos los datos. Se basa en la diferen- cia entre el valor de cada observación (xi) y la media. La diferencia entre cada xi y la media (x para una muestra; μ para una población) se llama desviación respecto de la media. Para una muestra, una desviación respecto de la media se escribe (xi - x); para una población, se es- cribe (xi - μ). Si se desea calcular la varianza, las desviaciones respecto de la media se elevan al cuadrado. Si los datos pertenecen a una población, el promedio de las desviaciones elevadas al cua- drado se llama varianza poblacional, la cual se denota por medio del símbolo griego σ2. Para una población de N observaciones con una media poblacional μ, la definición de la varianza poblacional es la siguiente.

A El valor z se llama valor estandarizado. El valor z, zi, puede interpretarse como el número de desviaciones estándar que xi se encuentra de la media x. El valor z para cualquier observación puede interpretarse como una medida de la posición relativa de la observación en un conjunto de datos. Por tanto, se dice que las observaciones de dos conjuntos de datos diferentes con el mismo valor z tienen la misma posición relativa en términos de que presentan igual número de desviaciones estándar de la media. Teorema de Chebyshev El teorema de Chebyshev nos permite hacer afirmaciones de la proporcion de los valores de datos que deben estar adentro de un numero especifico de desviaciones estandar de la media. En el teorema de Chebyshev se requiere z >1; pero no es necesario que z sea un número entero. Regla empirica Una de las ventajas del teorema de Chebyshev estriba en que se aplica a cualquier conjunto de datos sin importar su forma de distribución. De hecho, podría usarse con cualquiera de las distribuciones de la figura 3.3. Sin embargo, en muchas aplicaciones prácticas los conjuntos de datos exhiben una distribución simétrica con forma de pila o de campana Cuando se piensa que los datos se aproximan a esta distribución, la regla empírica se usa para determinar el porcentaje de valores de datos que deben estar dentro de un número específico de desviaciones estándar de la media.

Deteccion de observaciones atipicas

Una observación atípica suele ser un valor de datos que se registró incorrectamente; si esto ocurre, el error se corrige antes de un análisis posterior. También puede ser una observación que se introdujo de forma incorrecta en el conjunto de da- tos; si este es el caso, se elimina. Por último, puede consistir en un valor de datos inusual que se registró correctamente y pertenece al conjunto de datos. En tal caso, debe conservarse.

3.4 Analisis exploratorio de datos

Dicho análisis permite usar operaciones aritméticas simples y re- presentaciones gráficas fáciles de dibujar para resumir los datos. En esta sección continúa el análisis exploratorio de datos considerando resúmenes de cinco números y diagramas de caja. Diagrama de caja Un diagrama de caja es un resumen gráfico de los datos basado en un resumen de cinco números. La clave para elaborar de un diagrama de caja es el cálculo de la mediana y los cuartiles Q1 y Q3. El rango intercuartílico, RIC =Q3 - Q1, también se utiliza.

3.5 Medidas de asociacion entre dos variables

En estas medidas se habla de la covarianza y la correlación como medidas descriptivas

de la relación entre dos variables.

A

Covarianza

La covarianza es una medida de la asociación lineal entre dos variables. Para una

muestra de tamaño n con las observaciones (x1, y1), (x2, y2), etc., la covarianza mues-

tral se define como sigue.

Esta fórmula empareja cada xi con una yi. Luego se suman los productos obtenidos al multi- plicar la desviación de cada xi de su media muestral x por la desviación de la yi correspondiente de su media muestral y; esta suma se divide entonces por n - 1. Interpretacion de la covariancia Las líneas dividen la gráfica en cuatro cuadrantes. Los puntos del cuadrante I corresponden a xi mayor que x y yi mayor que y; los puntos del cuadrante II co- rresponden a xi menor que x y yi menor que y, etc. Por tanto, el valor de (xi 􏰔 x)( yi 􏰔 y) debe ser positivo para los puntos del cuadrante i, negativo para los del cuadrante II, positivo para los del cuadrante III, y negativo para los puntos del cuadrante iv. Si el valor de sxy es positivo, los puntos con la mayor influencia en sxy deben estar en los cuadrantes I y III. Por ende, un valor positivo para sxy indica una asociación lineal positiva entre x y y; es decir, a medida que el valor de x aumenta, el valor de y también. Si el valor de sxy es negativo, no obstante, los puntos con la mayor influencia en sxy están en los cuadrantes II y IV. Por ende, un valor negativo para sxy indica una asociación lineal negativa entre x y y; es decir, a medida que el valor de x aumenta, el valor de y disminuye. Por último, si los puntos están distri- buidos de manera uniforme en los cuatro cuadrantes, el valor de sxy será cercano a cero, lo que indica que no existe una asociación lineal entre x y y. Coeficiente de correlacion Para los datos muestrales, el coeficiente de correlación del producto-momento de Pearson se define como se indica a continuación.

A

la varianza poblacional. De ahí que la fórmula siguiente se use con objeto de obtener la

varianza muestral para los datos agrupados.