Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Descriptivo de Datos: Calculo de Medidas Estadísticas, Resúmenes de Probabilidad

En este documento se presenta el análisis descriptivo de un conjunto de datos sobre el número de hijos por familia. Se calculan las medidas estadísticas básicas como el rango, la media aritmética, los cuartiles, la desviación estándar y las medidas de forma (coeficiente de curtosis y asimetría). Se determina si existen datos atípicos y se analiza la simetría de la distribución.

Tipo: Resúmenes

2020/2021

Subido el 12/03/2022

lenin-quillupangui
lenin-quillupangui 🇪🇨

1 documento

1 / 35

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Probabilidad y Estadística - 2021-B
Capitulo 1: Organización y Descripción de datos estadísticos
Preparado por:
la Cátedra de Probabilidad y Estadística - EPN
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23

Vista previa parcial del texto

¡Descarga Análisis Descriptivo de Datos: Calculo de Medidas Estadísticas y más Resúmenes en PDF de Probabilidad solo en Docsity!

Probabilidad y Estadística - 2021-B

Capitulo 1: Organización y Descripción de datos estadísticos

Preparado por:

la Cátedra de Probabilidad y Estadística - EPN

0. ÍNDICE GENERAL

  • 1 Organización y Descripción de datos estadísticos
    • 1.1 Definiciones
      • 1.1.1 Estadística
      • 1.1.2 Definiciones generales
      • 1.1.3 Variables y Atributos
    • 1.2 Análisis de datos
      • 1.2.1 Tablas de frecuencias
      • 1.2.2 Representaciones gráficas para variable cuantitativa de datos sin agrupar
      • 1.2.3 Representaciones gráficas para variable cuantitativa de datos agrupados
      • 1.2.4 Representaciones gráficas para variables cualitativas
      • 1.2.5 Medidas tendencia central
      • 1.2.6 Medidas de dispersión
      • 1.2.7 Medidas de forma

Probabilidad y Estadística CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA

y generación de gran parte de todo el conocimiento que ahora tenemos. En el presente, una de las características fundamentales de la estadística es su transversalidad a través de todas las áreas de la ciencia, ya que su metodología es aplicable al estudio de muchas disciplinas tales como la física, economía, sociología, etc. La estadística aplicada adecuadamente nos ayuda a obtener conclusiones relevantes para el estudio de todo tipo de fenómenos observables que pueden ser medidos. Así pues, la estadística aparece, a lo largo de la historia como un poderoso instrumento utilizado por gobiernos e instituciones o como elemento auxiliar de las distintas ciencias, ayudando a estas a desentrañar las grandes preguntas que la curiosidad del ser humano siempre ha perseguido; es decir: qué variables intervienen en un fenómeno, qué leyes rigen el comportamiento de las mismas y qué relación de dependencia hay entre ellas.

Definición de Estadística En la actualidad, podemos definir, en general, a la estadística como la ciencia que trata de la recopilación, organización, presentación, análisis e interpretación de datos que intervienen en un fenómeno, con el fin de realizar una adecuada descripción del mismo y así poder inferir, predecir resultados, comportamientos o tomar decisiones con respecto al fenómeno que se está investigando.

Ramas de la estadística Dentro de la estadística se distinguen dos ramas fundamentales:

Estadística Descriptiva: Es la parte de la estadística que incluye todos los métodos de recolec- ción, organización, resumen y presentación de un conjunto de datos. Se trata principalmente de describir las características fundamentales de los datos y para ellos se suelen utilizar indica- dores, gráficos y tablas; también se la conoce como el análisis exploratorio de datos. Estadística Inferencial: Es la parte de la estadística que incluye todos los métodos utilizados para poder hacer predicciones, generalizaciones y obtener conclusiones a partir de los datos obtenidos de la observación de algún fenómeno, usa como punto de partida el análisis descrip- tivo de las muestras con observaciones del fenómeno investigado y en base a los resultados de este análisis poder deducir aspectos generales del fenómeno en sí, mediante el uso de estos métodos.

Ejemplo de uso de la estadística La estadística es ampliamente utilizada en muchas áreas de la ciencia, por ejemplo, en el análisis económico algunos ejemplos de su uso son:

Elaboración de indicadores macroeconómicos. Predicciones acerca del comportamiento futuro de la demanda de productos o servicios. Organizar y presentar datos económicos como: la evolución de los precios, el PIB, etc. En la epidemiología, por ejemplo: para estudiar la distribución de las enfermedades y los posi- bles factores de riesgos asociados.

4 1.1. DEFINICIONES

CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Probabilidad y Estadística

En el área de la salud, por ejemplo: el uso de estadísticas sanitarias para saber la razón de la muerte de las personas o cuales son las causas de enfermedades y traumatismos. Para abordar de mejor manera los problemas de salud y priorizar el uso de recursos sanitarios muy valio- sos. Para conocer las problemáticas de salubridad presentes en una comunidad, los factores de riesgo o predisposición a ciertas patologías y en la búsqueda de las respuestas a las mismas.

1.1.2.- DEFINICIONES GENERALES

Población: Conjunto o colección de objetos al que está referido un estudio estadístico. Puede es- tar constituida por cualquier tipo de elemento, es decir, por personas, pero también por objetos de cualquier tipo de naturaleza. Muestra: Cualquier subconjunto de una población. Si los elementos que componen la muestra son elegidos aleatoriamente y todos los elementos tienen la misma probabilidad de ser elegidos, entonces se trata de una muestra aleatoria simple. Individuo: Cada uno de los elementos que forman parte de la población, pudiendo ser algo con existencia real, como una persona, un automóvil o una casa, o algo más abstracto como la temperatura, una opinión, un voto o un sentimiento. Variable: Cualquier característica o propiedad que pueda ser estudiada en todos los elementos de la población, tales como el sexo, la edad, estatura, peso, color de pelo, nivel de estudios, entre otras.

Ejemplo 1. En la siguiente tabla se observa algunos ejemplos de las definiciones planteadas.

Población Muestra Individuo Variable Los libros de 20 libros de Cada libro Costo de sustitución una biblioteca la biblioteca Área de estudio Frecuencia de salida Personas mayores de 2000 personas Cada persona que pertenece Estatura 18 años usadas en el estudio a la población adulta Peso Alumnos inscritos 3000 estudiantes Cada estudiante Promedio en la universidad usados en el estudio Número de créditos Facultad

1.1.3.- VARIABLES Y ATRIBUTOS

Variable estadística es toda característica medible objeto de nuestro estudio en los elementos de la muestra y que puede tomar un conjunto de valores.

Variables Cualitativas, Categóricas o Atributos: Son aquellas variables que no pueden ser des- critas numéricamente. Se utiliza la palabra, el sustantivo, adjetivo y adverbio fundamentalmente, se clasifican en:

1.1. DEFINICIONES 5

CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Probabilidad y Estadística

1.2. ANÁLISIS DE DATOS

En estadística descriptiva se tienen tres formas generales para presentar un conjunto de datos y estas son: en forma de datos individuales, en forma de datos agrupados y mediante representaciones gráficas.

Datos individuales: Cuando los datos se presentan explícitamente como una lista de valores. Datos agrupados: Cuando los datos están presentados mediante tablas, como en una tabla de frecuencias. Representaciones gráficas: Cuando un conjunto de datos se presentan gráficamente mediante histogramas, diagramas de barra, etc.

1.2.1.- TABLAS DE FRECUENCIAS

Una tabla de frecuencias o distribución de frecuencias es una herramienta que se emplea para resumir, mediante una tabla, numerosos datos de manera que se ponga de manifiesto la localización y la dispersión de las observaciones. Con una tabla de frecuencias se pueden resumir datos categóricos, nominales u ordinales. Si los datos son continuos se pueden resumir utilizando la misma técnica una vez que se los ha dividido mediante intervalos de clase.

Una tabla de frecuencias consta de dos columnas, en la primera se especifican los valores distintos en los datos (xi) de forma ascendente y en la segunda la frecuencia absoluta con la que aparecieron dichos valores ( fi).

A partir de la frecuencia absoluta, suelen construirse otras estadísticas, como:

La frecuencia relativa ( fr), que consiste simplemente en presentar la frecuencia absoluta en términos porcentuales. Considerando como el cien por ciento al tamaño de la muestra (N). La frecuencia absoluta acumulada (F), que consiste en ir realizando una suma acumulada de las frecuencias absolutas a través de las categorías, ya sea en forma ascendente o descendente. Y, de una forma similar se puede construir también la frecuencia relativa acumulada (Fr).

Ejemplo 2. Supongamos que el número de hijos de una muestra de 20 familias es el siguiente:

2 1 1 3 1 2 5 1 2 3 4 2 3 2 1 4 2 3 2 1

Realizar el análisis descriptivo.

Solución. Ahora vamos a proceder a realizar un análisis descriptivo del comportamiento del número de hijos por familia, tenemos que el tamaño de la muestra es N = 20, para resumir el conjunto de datos individuales utilizaremos una tabla de frecuencias, podemos ver que el menor número de hijos que se observó fue de 1 y el máximo 5; por lo tanto, el rango es 5 − 1 = 4, de aquí:

Probabilidad y Estadística CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA

xi fi fri = fi

N Fi Fri = Fi

N

Donde Fi =

i ∑ m= 1

fm y Fri =

i ∑ m= 1

frm.

Agrupamiento mediante intervalos de clase

Si el número de valores distintos que toma la variable estadística X es demasiado grande o la variable es continua, se realiza un agrupamiento de los datos en intervalos y se hace un recuento del número de observaciones que caen dentro de cada uno de ellos. Para agrupar los datos mediante intervalos de clase no existe un único procedimiento y la forma en como se construyen estos inter- valos depende básicamente de los objetivos de la investigación, sin embargo, aquí se especifica un procedimiento que se puede seguir para realizar este agrupamiento:

  1. Determinar el recorrido o rango, de los datos.
  2. Decidir el número k de intervalos de clase en que se van a agrupar los datos, 5 6 k 6 20. Una regla que a veces se suele seguir es elegir k =

N.

  1. Determinar la amplitud A (constante) de cada intervalo.

A = Rango k

En la práctica, la amplitud de los intervalos no necesariamente tiene que ser igual. Si un in- tervalo de clase carece de datos es recomendable reorganizar la amplitud de los intervalos de clase.

  1. Determinar los extremos de los intervalos de clase. Límite inferior: Li Límite superior: Li+ 1 = Li + A por convención los intervalos se definirán de la siguiente forma [Li − Li+ 1 ), se incluye el extre- mo inferior y el extremo superior no se incluye.
  2. Calcular las marcas o puntos medios de clase de cada intervalo: mi

mi = Li^ + 2 Li+^1

Probabilidad y Estadística CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA

  1. Número de intervalos: k =

21 = 4.53, luego, k = 5. Como se redondea por exceso, la am- plitud del intervalo multiplicada por el número de intervalos será mayor que el recorrido y no tendremos problemas en los extremos.

  1. Amplitud del intervalo: 3.33/5 = 0.666, en consecuencia, tomemos la amplitud igual a 0.7. Si tomamos L 1 = 7.47 entonces el último extremo será 7.47 + ( 5 × 0.7) = 10.97 que resulta ser mayor que 10.80 (máximo). Ahora ya podemos calcular los extremos para cada intervalo de clase y las marcas de clase correspondientes.
  2. Recuento y construcción de la tabla,

LiLi + 1 mi fi fri Fi Fri [7.47 − 8.17) 7.82 9 0.429 9 0. [8.17 − 8.87) 8.52 7 0.333 16 0. [8.87 − 9.57) 9.22 2 0.095 18 0. [9.57 − 10.27) 9.92 2 0.095 20 0. [10.27 − 10.97) 10.62 1 0.048 21 1 Total 21 1

donde, el primer intervalo [7.47 − 8.17) y su punto medio se determinan así: L 1 = xmín = 7. L 2 = 7.47 + 0.7 = 8. m 1 = 7.47^ + 2 8.17= 7. de la misma forma se determinan límites inferior, superior y punto medio para cada intervalo. Se cuenta el número de observaciones para cada intervalo y se ubica como frecuencia absoluta de cada intervalo.

1.2.2.- REPRESENTACIONES GRÁFICAS PARA VARIABLE CUANTITATIVA DE DATOS SIN AGRUPAR

Diagrama de puntos

Un diagrama de puntos es una gráfica utilizada para ilustrar un número reducido de datos, la cual permite identificar con facilidad dos características:

La localización de los datos. La dispersión o variabilidad de los datos.

Diagrama de barras

Se utiliza para representar datos de VARIABLES DISCRETAS. Se representan en el eje de abscisas los distintos valores de la variable.

CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Probabilidad y Estadística

Sobre cada uno de estos valores se levanta una barra de longitud igual a la frecuencia corres- pondiente. Se pueden representar tanto las frecuencias absolutas ni como las relativas fi.

Polígono de frecuencias

Se obtiene uniendo con rectas los extremos superiores de las barras del diagrama anterior.

Ejemplo 4. En el ejemplo 2 , del número de hijos por familia, la representación gráfica mediante un diagrama de puntos es la siguiente:

| | | | | | 0 1 2 3 4 5

bb

bb

bb bb

bb

bb

b

bb

bb bb b

Figura 1.1: Diagrama de puntos de la variable número de hijos por familia.

Se observa que 6 familias (30 %) en la muestra tuvieron sólo 1 hijo y que la mayoría de las familias 13 (65 %) tuvieron como máximo 2 hijos. Finalmente, su diagrama de barras y respectivo polígono de frecuencias se pueden observar en la figura 1.2.

frecuencia absoluta

(^

f)i

frecuencia relativa

(^

fri^

número de hijos por familia (xi)

Figura 1.2: Diagrama de barras y polígono de frecuencias de la variable número de hijos por familia.

El gráfico o diagrama de barras también se lo puede presentar girado 90 grados (sobre todo cuan- do la variable tiene más categorías).

1.2.3.- REPRESENTACIONES GRÁFICAS PARA VARIABLE CUANTITATIVA DE DATOS AGRUPADOS

Histograma

Se utilizan principalmente para datos de variable continua.

CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Probabilidad y Estadística

LiLi + 1 mi fi fri Fi Fri 7.405 - 8.105 7.755 7 0.333 7 0. 8.105 - 8.805 8.455 9 0.429 16 0. 8.805 - 9.505 9.155 2 0.095 18 0. 9.505 - 10.205 9.855 2 0.095 20 0. 10.205 - 10.905 10.555 1 0.048 21 1 Total 21 1

y el polígono de frecuencias acumuladas (Ojiva) resultante vendría dado por (figura 1.4):

frecuencia absoluta

(^

f)i

frecuencia relativa

(^

fri^

paralaje solar

Paralaje del Sol (Short 1763)

b c

b c

b c

b c

b c^ b^ c

7.405 (^) 7.755^ | 8.105 (^) 8.455^ | 8.805 (^) 9.155^ | 9.505 (^) 9.855^ | 10.205 (^) 10.555^ | 10.905 11.255^ |

Figura 1.4: Polígono de frecuencias acumuladas de las medidas de la paralaje del Sol.

Del polígono de frecuencias acumuladas, podemos concluir que de todas las medidas de la para- laje del sol en la muestra alrededor del 75 % son menores a 8.805.

1.2.4.- REPRESENTACIONES GRÁFICAS PARA VARIABLES CUALITATIVAS

Existe una gran variedad de representaciones para variables cualitativas, de las cuales vamos a describir las dos más usadas.

Diagrama de barras o columnas

Representar en el eje de abscisas las diferentes categorías y levantar sobre cada una de ellas un rectángulo o columna. La altura de cada rectángulo es la frecuencia (absoluta o relativa) de dicha categoría.

Diagrama de sectores o pastel

Se representa el valor de cada categoría como un sector de un círculo completo.

Probabilidad y Estadística CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA

El área de cada sector es proporcional a la frecuencia de la categoría en cuestión. Se multiplica 360 ◦^ por la frecuencia relativa correspondiente. Proporciona una idea visual muy clara de cuáles son las categorías mas representativas.

Ejemplo 6. Las notas de una asignatura de Física del curso académico 95/96 se distribuyeron de acuerdo a la siguiente tabla para los alumnos presentados en junio:

Nota fi fri Fi Fri Suspenso (SS) 110 0.46 110 0. Aprobado (AP) 90 0.38 200 0. Notable (NT) 23 0.10 223 0. Sobresaliente (SB) 12 0.05 235 0. Matrícula de Honor (MH) 2 0.01 237 1.

En este caso, Nota es una variable cualitativa, la misma consta de categorías que determinan el desempeño de los estudiantes en base a sus resultados SS, AP, NT, SB y MH. Se observa que el 5 % de los estudiantes fueron sobresalientes y sólo el 1 % estuvieron en el grupo de honor. Los diagramas de barras y de sectores correspondientes son los que se presentan en figura 1.5).

Para el diagrama de sectores es necesario saber el ángulo de cada uno de los sectores, para ello se tiene

Nota Ángulo [] SS 165. AP 136. NT 36 SB 18 MH 3.

frecuencia absoluta

(^

f)i

frecuencia relativa

(^

fri

nota en la asignatura

SS AP NT SB MH

SS

AP

38 % NT 10 %

SB 5 %

MH

Figura 1.5: Diagrama de barras (izquierda) y de sectores (derecha).

El grupo de estudiantes suspensos representa la mayor parte del total por lo tanto le corresponde el sector mayoritario del circulo (46 %).

Probabilidad y Estadística CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA

donde m es el número de categorías. Y para datos agrupados mediante intervalos de clase,

x =

k ∑ i= 1

mi · fri

Mediana: Es el valor que divide a la distribución de datos en dos partes iguales. Pero, para establecer tal valor, los datos deben ser primeramente ordenados, ya sea en forma ascendente o descendente. Así, se tiene que de todo el conjunto de datos, el 50 % está por debajo de la mediana, y el otro 50 % está por encima de la mediana. El procedimiento a seguir cuando los datos son individuales es:

  • ordene las n observaciones de menor a mayor.
  • mediana muestral es igual a la observación en la posición n^ + 2 1 , si n es impar.
  • mediana muestral es igual al promedio de dos observaciones en las posiciones n 2 y n^ + 2 2 , si n es par. Si los datos están resumidos en intervalos de clase, la mediana se determina por interpolación, así:
  • Se determina la primera clase cuya frecuencia acumulada sea mayor o igual a n 2 dicho intervalo se denomina clase mediana.
  • La mediana Me se calcula con la fórmula,

Me = Li− 1 +

n 2 −^ Fi−^1 fi^ A donde: Li− 1 : límite inferior de la clase mediana; Fi− 1 : frecuencia acumulada del intervalo inmediatamente anterior a la clase mediana; fi: frecuencia absoluta de la clase mediana; A: amplitud de la clase mediana.

Moda: La moda Mo es aquel valor que tiene mayor frecuencia absoluta. Hay ocasiones en las cuales los datos pueden tener dos o más modas, o no puede existir, cuando todos los datos tienen igual frecuencia.

Otras medidas de posición

Cuantiles: Otras medidas resumen (no de tendencia central), pero sí de posicionamiento a lo largo de la distribución de los datos que ayudan a describir éstos, son los denominados cuanti- les, entre los más frecuentemente utilizados tenemos:

  • Cuartiles: son los valores del conjunto de datos que dividen a la distribución ordenada de datos en cuatro partes iguales.

CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Probabilidad y Estadística

  • Quintiles: son los valores del conjunto de datos que dividen a la distribución ordenada de datos en cinco partes iguales.
  • Deciles: son los valores del conjunto de datos que dividen a la distribución ordenada de datos en diez partes iguales, y finalmente,
  • Percentiles: son los valores del conjunto de datos que dividen a la distribución ordenada de datos en cien partes iguales. De todos analizaremos dos en detalle:
  • Percentiles: Los percentiles Pk, son cada uno de los 99 valores que dividen a la distribución de los datos en 100 partes iguales. Para el cálculo del percentil de orden k se procede de la siguiente manera: ◦ Si los n datos no están agrupados, se efectúa la siguiente descomposición: nk 100 =^ j^ +^ r donde: j: la parte entera de 100 nk; r: la parte fraccionaria de 100 nk. ◦ Calculamos el percentil de la siguiente forma:

Pk =

xj + xj+ 1 2 si^ r^ =^0 xj+ 1 si r > 0,

◦ Si los datos están agrupados en intervalos de clases, se calcula mediante:

Pk = Lk− 1 +

nk 100 −^ Fk−^1 fk^ A donde: k: es el orden del percentil; Lk− 1 : límite inferior de la clase de interés, cuya frecuencia acumulada es la primera mayor o igual a 100 nk; Fk− 1 : frecuencia acumulada hasta Lk− 1 ; fk: frecuencia absoluta de la clase de interés; A: amplitud de la clase de interés.

  • Cuartiles: Son valores que dividen a la distribución de los datos en 4 partes, cada una de las cuales abarca al 25 % de los mismos. Los cuartiles son 3: ◦ El cuartil inferior Q 1 , que deja a su izquierda el 25 % de los datos y se cumple que Q 1 = P 25. ◦ El cuartil medio Q 2 , que deja a su izquierda el 50 %, que coincide con la mediana de los datos y se cumple que Q 2 = Me = P 50.

CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Probabilidad y Estadística

En este caso, tenemos que el conjunto de datos tiene un número de observaciones par (n = 20), por lo tanto Me = x n 2 + x n 2 + 1 2 =^

x 10 + x 11 2 =^

2 =^2

Para este conjunto de datos el valor que más se repite es 2, por lo tanto

Mo = 2

Los cuartiles son los valores que dividen en cuatro partes iguales al conjunto de datos en tér- minos de su número de observaciones, como np = 20 × 0.25 = 5 y np = 20 × 0.75 = 15, entonces:

Q 1 = xnp^ + 2 x np+^1 = x^5 + 2 x^6 = 1 + 2 1 = 1 Q 2 = Me = 2 Q 3 = xnp^ + 2 x np+^1 = x^15 + 2 x^16 = 3 + 2 3 = 3

Por debajo del primer cuartil se tiene el 25 % de las observaciones, del segundo cuartil el 50 % y del tercer cuartil el 75 %.

Ahora, determinaremos el mismo grupo de medidas pero utilizaremos datos agrupados, utilizan- do una tabla de frecuencias para agrupar los datos tenemos:

xi fi fri Fi Fri 1 6 0,3 6 0, 2 7 0,35 13 0, 3 4 0,2 17 0, 4 2 0,1 19 0, 5 1 0,05 20 1 Por lo tanto, las medidas de tendencia central y posición son:

Para la media tenemos x = (^) n^1

q ∑ i= 1

xi × fi

donde q es el número de clases en la tabla de frecuencias, por lo tanto

x = 201

5 ∑ i= 1

xi × fi = 201 [( 1 × 6 ) + ( 2 × 7 ) +... + ( 5 × 1 )] = 2.25.

Para el cálculo de la mediana se puede utilizar el mismo método del ejemplo anterior, como tenemos n = 20, entonces Me =

x n 2 + x n 2 + 1 2 =^

x 10 + x 11 2

Probabilidad y Estadística CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA

las observaciones 10 y 11 pertenecen a la segunda clase, por lo tanto,

Me = 2 + 2 2 = 2.

Por otro lado, utilizando el método de datos agrupados se tiene que

F(Me) = 0.5( 20 ) = 10 ≡ Me = 2.

La moda es el valor que más se repite en el conjunto de observaciones, podemos ver que la mayor frecuencia se presenta en la segunda clase, por lo tanto

Mo = 2.

Para el cálculo de los cuartiles se tiene que

F(Q 1 ) = 0.25( 20 ) = 5 ≡ Q 1 = 1 Q 2 = Me ≡ Q 2 = 2 F(Q 3 ) = 0.75( 20 ) = 15 ≡ Q 3 = 3

Vamos a determinar si existen datos atípicos, para ello tenemos que RIQ = Q 3 − Q 1 = 2, luego, determinemos Li = Q 1 − 1.5RIQ = − 2 y Ls = Q 3 + 1.5RIQ = 6. Se observa que tanto xmáx < Ls y xmín > Li, en consecuencia, no existen datos atípicos y los bigotes de la caja tienen como extremos exactamente estos dos valores.

A continuación, se muestra el diagrama de caja respectivo (figura 1.7).

Figura 1.7: Diagrama de caja de la variable número de hijos.

Se observa que los datos tiene una distribución asimétrica positiva, además se observa que los datos están distribuidos simétricamente entre el cuartil 1 y el 3, es decir, la misma cantidad de datos se ubican entre Q 1 y Q 2 ; y Q 2 y Q 3. También hay una dispersión de los datos entre Q 3 y xmáx mayor a la observada entre los cuartiles.