Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadistica, Apuntes de Estadística

Asignatura: Estadística I, Profesor: , Carrera: Administración y Dirección de Empresas, Universidad: UMA

Tipo: Apuntes

2015/2016

Subido el 18/06/2016

juanma1234-3
juanma1234-3 🇪🇸

3.1

(12)

3 documentos

1 / 82

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística I TEMA 1: Análisis de una variable
GADE - Curso 2015/2016
Estadística I
Bloque I
GRADO EN
ADMINISTRACIÓN Y
DIRECCIÓN DE EMPRESAS
Estadística Descriptiva
Aplicada a la Empresa
Tema 1. ANÁLISIS DE UNA VARIABLE
1.1. Introducción
1.2. Conceptos básicos
1.3. Medidas de tendencia central
1.4. Medidas de dispersión
1.5. Medidas de forma: asimetría
1.6. Medidas de desigualdad
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52

Vista previa parcial del texto

¡Descarga estadistica y más Apuntes en PDF de Estadística solo en Docsity!

GADE - Curso 2015/

Estadística I

Bloque I

GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS

Estadística Descriptiva

Aplicada a la Empresa

Tema 1. ANÁLISIS DE UNA VARIABLE

1.1. Introducción
1.2. Conceptos básicos
1.3. Medidas de tendencia central
1.4. Medidas de dispersión
1.5. Medidas de forma: asimetría
1.6. Medidas de desigualdad

GADE - Curso 2015/

Tema 1

ANÁLISIS DE UNA VARIABLE

Esta lección tiene por objeto introducir técnicas y herramientas de análisis descriptivo cuando el interés se centra en una sola característica presente en todos los elementos analizados. Después de una breve introducción (sección 1.1), comenzaremos a construir nuestro edificio estadístico con la sección 1.2, asentando una serie de definiciones que resultan básicas para el resto del curso. Así, veremos el concepto de estadística en su doble acepción y aprenderemos a identificar la población de interés, sus elementos y su tamaño. También definiremos lo que es un carácter y distinguiremos entre caracteres cuantitativos y cualitativos. Aprenderemos a representar analítica y gráficamente una distribución. Para la representación analítica aplicaremos el proceso de reducción estadística (tabulación). A partir del proceso de tabulación obtendremos una distribución de frecuencias. Por último, aprenderemos a representar gráficamente las distribuciones de frecuencias.

Una vez representada analítica y gráficamente una distribución, debe procederse al análisis descriptivo de la misma. La descripción de una variable, como la de cualquier fenómeno, se hace fijando la atención en sus características más importantes y obteniendo unos pocos coeficientes (indicadores) asociados con esas características. Esos coeficientes son una síntesis representativa de la distribución y permiten la comparación con otras distribuciones. Al obtener la distribución de frecuencias de una variable se consigue reducir o condensar en pocas cifras el conjunto de observaciones relativas a dicha variable. Pero con mucha frecuencia, el proceso de reducción hay que continuarlo hasta su grado máximo, hasta sustituir todos los valores observados por uno, que recibe el nombre de medida de tendencia central o promedio. A la definición, propiedades y uso de los promedios queda consagrada la sección 3 de este tema.

En esta lección también vamos a tratar de cuantificar cuánto de representativos son tales promedios de la distribución (sección 1.4). Esto lo haremos comprobando el grado de concentración de los restantes valores de la variable con respecto a esos promedios, esto es, vamos a ver si los valores están muy separados (dispersos) o si por el contrario están cercanos unos de otros (concentrados) y por ello cercanos al promedio. Para ello definiremos medidas de dispersión, tanto absolutas como relativas. También veremos algunas medidas o indicadores de la forma de la distribución (asimetría) (sección 1.5). Introduciremos el concepto de momento de una distribución, que supone una generalización de sus características.

Para finalizar, nos interesaremos por el grado de desigualdad en el reparto del total de los valores de una variable entre los elementos de la población (sección 1.6) introduciendo algunos instrumentos de medida de la concentración o desigualdad (curva de Lorenz e índice de Gini).

GADE - Curso 2015/

¿Por qué es importante la Estadística para la Economía? La Ciencia Económica tiene por objeto el estudio del comportamiento del hombre y de la sociedad, en general, frente a estímulos de carácter económico y social. Supongamos que mantenemos la idea de que el consumo de un determinado producto es una función creciente de la renta de los hogares, es decir, que a mayor renta, mayor consumo y viceversa o, por ejemplo, que la calificación en una determinada asignatura aumenta con el número de horas que el alumno dedica a estudiarla. ¿Cómo podemos verificar estas hipótesis? En Física, por ejemplo, podemos recrear condiciones en el laboratorio y, sin alterarlas, repetir los experimentos cuantas veces se deseen, por lo que es posible obtener leyes fijas o universales (por ejemplo, la Ley de la Gravedad). Pero esto no puede hacerse con los consumidores ni con los alumnos, volviendo a los ejemplos planteados anteriormente.

Como la sociedad está en continuo cambio, es imposible establecer normas fijas de comportamiento y leyes inmutables que regulen las relaciones económicas. El comportamiento humano frente a determinados estímulos, que es lo que interesa analizar a las Ciencias Sociales, no se rige por leyes fijas ni inmutables, que puedan ser descubiertas a través de la experimentación realizada en condiciones de laboratorio. El fenómeno no puede ser observado repetidas veces, manteniendo fijas las condiciones de partida. Es por ello que la utilización del método estadístico como método de investigación en las Ciencias Sociales, en general, y en la Economía, en particular, no sólo es aconsejable, sino imprescindible. La posibilidad de disponer de instrumentos objetivos para la verificación estadística de las hipótesis que sobre un determinado comportamiento económico se establezcan constituye la única salida racional al proceso de investigación económica.

En definitiva, la Estadística es importante para las Ciencias Sociales, en general, y para la Economía, en particular, puesto que aporta instrumentos que permiten verificar las hipótesis que se establecen sobre un determinado comportamiento económico o social y a partir de ello tomar decisiones. La Estadística sirve de base para la toma de decisiones, tanto a nivel institucional como en el seno de organizaciones y empresas.

1.2. CONCEPTOS BÁSICOS

Esta sección persigue revisar una serie de definiciones que resultan básicas para el resto de este curso de Estadística y que nos permitirán hablar un lenguaje estadístico común:

1.2.1. Población, elementos y caracteres

La población , también llamada colectivo o universo , es el conjunto de entes o fenómenos (puede tratarse de personas, cosas, actos, áreas geográficas e, incluso, el tiempo) que poseen ciertas características comunes y que son el objeto de la observación y estudio estadístico. Ejemplos: hoteles de la Costa del Sol, centros de salud de una región, alumnos de una Universidad. El tamaño de la población es el número total de entes o fenómenos que la integran. Se simboliza por N.

Llamaremos elemento a cada uno de los entes o fenómenos que integran la población. Ejemplos: cada uno de los hoteles de la Costa del Sol, cada uno de los centros de salud de una región, cada uno de los alumnos de una Universidad.

Los caracteres o características son las propiedades o rasgos comunes a todos los elementos de la población en los que se centra el interés de la investigación. Ejemplos: número de

GADE - Curso 2015/

habitaciones, número de estrellas, número de empleados, beneficios, etc. de cada uno de los hoteles de la Costa del Sol.

Ejemplo :

Se pide identificar la población, los elementos y el carácter de interés, sabiendo que lo que se pretende analizar es:

  1. Número de habitantes de las comarcas andaluzas

Respuesta: Población  conjunto formado por las comarcas andaluzas Elementos  cada una de las comarcas Carácter  número de habitantes

  1. Número de hijos de los matrimonios residentes en Málaga

Respuesta: Población  matrimonios residentes en Málaga Elementos  cada uno de los matrimonios Carácter  número de hijos

  1. Edad de los participantes en un curso de formación

Respuesta: Población  Participantes en el curso Elementos  cada uno de los participantes Carácter  edad

  1. Gasto en publicidad de las entidades financieras

Respuesta: Población  conjunto de entidades financieras Elementos  cada una de esas entidades Carácter  gasto en publicidad

Según su naturaleza , los caracteres se clasifican en cualitativos y cuantitativos:

a) Caracteres cualitativos : Estos caracteres no se pueden medir, sólo se pueden observar. Reciben el nombre de atributos y se describen mediante palabras. Las distintas formas que tiene el atributo de presentarse en los elementos de la población reciben el nombre de modalidades. Éstas son, por tanto, categorías no numéricas, que cumplen las propiedades de ser mutuamente excluyentes (un elemento de la población no puede ser catalogado en dos modalidades distintas) y exhaustivas (todos los elementos pueden ser catalogados). Ejemplos de atributos son el estado civil (casado, soltero, separado, divorciado, viudo), sexo (hombre, mujer), profesiones (ingeniero, arquitecto, electricista…), nivel de estudios alcanzado (estudios primarios, medios o superiores).

Los atributos a veces vienen expresados numéricamente mediante una escala nominal u ordinal:

  • Escala nominal : con los valores numéricos de este tipo de escala pueden establecerse claramente equivalencias o diferencias, pero no se puede afirmar que uno sea superior a otro (no se pueden ordenar). Ejemplo: sexo (hombre=0, mujer=1), religión (1=católica, 2=protestante, 3=musulmana, etc.).

GADE - Curso 2015/

ordinal), porque proceden de la agrupación de los valores de una variable. Sin embargo un atributo no puede estudiarse como una variable, ni siquiera en el caso que las modalidades se expresen numéricamente, puesto que esa denominación numérica será siempre meramente convencional. Así, por ejemplo, podemos asignar números a las modalidades del estado civil de la siguiente manera: soltero (1), casado (2), viudo (3), separado (4) y divorciado (5), pero tal asignación es absolutamente arbitraria.

Ejemplo :

De los caracteres que a continuación se relacionan, indique cuáles corresponden a atributos y cuáles a variables, señalando en este último caso si son continuas o discretas:

a) Salario. b) Nacionalidad. c) Longitud de los tornillos fabricados por una máquina. d) Número de anuncios emitidos por la televisión en un día. e) Nivel de estudios terminados de los habitantes de una determinada región. f) Velocidad. g) Medio de locomoción utilizado por los empleados de una empresa para llegar al trabajo. h) Número de empleados de las empresas de una comarca.

Respuesta: a) variable continua, b) atributo, c) variable continua, d) variable discreta, e) atributo, f) variable continua, g) atributo, h) variable discreta.

1.2.2. Observación y observaciones

Una vez seleccionados los caracteres (atributos y variables) que vamos a investigar, se procede a observarlos en los elementos de la población. Si se trata de una variable , la observación consistirá en medir el valor numérico que toma en cada elemento. Los números que obtengamos de esa medida los llamaremos observaciones , datos o valores.

Si nuestro carácter de interés es un atributo , la observación implica localizar en cada elemento de la población la modalidad con la que se expresa dicho atributo. Así, por ejemplo, si el atributo es la nacionalidad de los turistas que llegan a la Costa del sol, habrá que obtener dicha nacionalidad para cada uno de tales individuos. En este caso, el resultado de la observación lo denominaremos observaciones o datos , pero no valores.

La observación de los caracteres en la población puede hacerse de tres formas: exhaustiva, parcial o mixta. Veamos en qué consiste cada una de ellas:

a) Exhaustiva : Se observan todos los elementos de la población. Ejemplo: mediante el Censo de Población, elaborado por el Instituto Nacional de Estadística (INE) se recopila información sobre características de todos los residentes en nuestro país.

b) Parcial : Se observa sólo una parte de la población y no la totalidad, bien porque la población es infinita (ejemplo, estrellas del firmamento) o porque su tamaño es muy grande, de manera que el coste en tiempo o dinero que supondría la observación exhaustiva resultaría demasiado elevado. Éste es el tipo más común de observación estadística, pudiendo dividirse en:

GADE - Curso 2015/

  • Observación de una subpoblación : Una subpoblación es un subconjunto de la población cuyos elementos tienen alguna característica común que los diferencia del resto. Ejemplo: estudio del montante de los créditos hipotecarios concedidos por las distintas entidades financieras en 2013 en España. En este ejemplo, la población estaría compuesta por todas las entidades financieras que otorgaron ese tipo de créditos en 2013, mientras que una posible subpoblación sería la compuesta por los bancos, que controlan la mayor parte de ese negocio (el resto queda en manos de las cajas de ahorro, las cooperativas de crédito y de otros intermediarios financieros).
  • Observación de una muestra : Una muestra es un subconjunto de la población cuyos elementos no poseen ninguna característica especial que los distinga del resto. La muestra debe ser representativa de la población, puesto que lo que se persigue con su observación es extraer conclusiones sobre las características poblacionales.

Sin embargo, es necesario tener muy presente que con los datos de la muestra sólo podemos conocer con total seguridad las características de esos valores muestrales; entre éstas y las características de la población habrá siempre una diferencia, que se conoce como error muestral. El error muestral es, pues, el que se produce por el hecho de estudiar una característica en la muestra en lugar de en la población. Los resultados de cualquier análisis descriptivo efectuado sobre una muestra sólo pueden ser aproximaciones a los resultados que se tendrían si se analizaran todos los elementos de la población. Es precisamente este error el que lleva a que las decisiones en relación con las características poblacionales se tomen en condiciones de incertidumbre.

El proceso de obtención de una muestra de entre la población se denomina muestreo. Puede ser de dos tipos:

  • Muestreo aleatorio : los elementos se eligen al azar, teniendo todos los elementos de la población la misma probabilidad de ser elegidos como integrantes de la muestra.
  • Muestreo no aleatorio (opiniático) : los elementos se seleccionan de acuerdo con el criterio de ciertas personas (entrevistadores o agentes), según determinadas reglas establecidas por el que confecciona la encuesta.

c) Observación mixta : En determinadas situaciones, puede resultar apropiado combinar la observación exhaustiva y la parcial. En general, los caracteres más relevantes se estudian exhaustivamente y el resto por muestreo o bien cuando la población es muy grande. Por ejemplo, en la Encuesta de Formación Profesional Continua elaborada por el Ministerio de Empleo y Seguridad Social de España, la observación es exhaustiva para las empresas de más de 249 trabajadores, debido a su importancia en el número de trabajadores y en formación, y parcial en el resto.

Ahora podemos entender la diferencia entre censo y encuesta. El censo es una investigación estadística en la que se observan todos los elementos de la población (observación exhaustiva). Suelen ser operaciones de gran envergadura, realizadas de manera periódica pero distante en el tiempo, con el objetivo de estudiar las características estructurales y más estáticas de las poblaciones. Algunos ejemplos son el Censo de Población o el Censo de Viviendas elaborados por el INE. Por su parte, una encuesta es una investigación estadística en la que la recogida de la información se realiza mediante una muestra (observación parcial). Con ella se pretende estudiar fenómenos coyunturales o más dinámicos, por lo que su periodicidad es más corta que

GADE - Curso 2015/

gráficas son útiles para captar de un solo vistazo sus características más importantes. Como veremos, el tipo de gráfico a utilizar viene marcado por la naturaleza del carácter que se pretende analizar y por la manera adoptada para resumir la información.

En lo que queda de lección consideraremos que el interés del analista se centra exclusivamente en un carácter cuantitativo, es decir, en una sola variable.

¿Cómo se obtiene y presenta una tabla estadística para una variable? Simbólicamente, nuestra variable de interés se representará por la letra mayúscula X , mientras que para cada una de sus posibles realizaciones (es decir, valores) se utilizará la letra minúscula x. Vamos a suponer que contamos con un número N elevado de observaciones, lo que lleva a la necesidad de aplicar la reducción estadística. En estas condiciones, la manera de obtener una estadística de una sola variable depende del número de valores distintos que tome la variable, que simbolizaremos de aquí en adelante por k. Así, podemos distinguir entre:

I. Estadísticas para datos no agrupados: son estadísticas para N grande, pero la variable de interés toma un número k pequeño de valores distintos.

II. Estadísticas para datos agrupados en intervalos: son estadísticas para N grande, pero k elevado.

A continuación veremos con detalle cada uno de estos tipos.

I. Estadísticas para datos no agrupados

Las estadísticas para datos no agrupados aparecen, fundamentalmente, en el caso de variables discretas observadas en una población con N grande , pero que toman un número k pequeño de valores distintos. El sistema de reducción consiste simplemente en poner en una primera columna los pocos valores distintos que toma la variable (ordenados de menor a mayor), y en una segunda, la frecuencia absoluta o número de veces que cada valor aparece repetido (tabla 1.1). Es por ello por lo que estas estadísticas reciben también el nombre de distribuciones de frecuencias****. Simbólicamente, una distribución de frecuencias vendría dada por pares del tipo ( xi , n (^) i ) , donde xi con i = 1, … , k representa cada uno de los valores distintos que toma la variable

y ni , la frecuencia absoluta asociada al valor xi , es decir, el número de veces que se observa

dicho valor en la población, cumpliéndose que ni ≥ 0 y 1

1

... :

i k i k i

n n n n N

=

=

∑ =^ +^ +^ +^ =

Tabla 1. Distribución de frecuencias absolutas en estadísticas para datos no agrupados xi ni x 1 n x 2 n   xk nk

Total 1

i k i i

N n

=

=

GADE - Curso 2015/

Ejemplo :

Tomemos como variable a analizar la edad de los 150 jóvenes asistentes a un curso de formación ocupacional. La tabla 1.2 recoge los datos que resultan de la observación de nuestra variable de interés en cada uno de los elementos de la población, tal y como han sido recogidos por el observador. Vemos que resulta difícil extraer conclusiones sobre las características de la distribución de la edad inspeccionando los datos tal y como han sido recolectados. El número de observaciones es elevado ( N =150), lo que hace necesario organizar la información de manera distinta, aplicando algún proceso de reducción estadística que facilite la interpretación. La clave de este proceso reside en el hecho de que nuestra variable sólo toma 4 valores distintos ( k =4), por lo que es posible tabular la información de la manera recogida en la tabla 1.3.

Tabla 1. Edad de los asistentes a un curso de formación (datos según recolección) 18 20 18 18 20 18 18 18 18 18 18 18 18 18 18 18 19 18 18 19 19 18 18 19 18 20 19 18 18 19 18 18 18 19 18 18 18 19 18 18 19 18 18 19 18 19 18 18 19 18 19 18 18 18 19 20 18 18 18 18 18 18 19 18 19 18 18 19 18 18 18 18 18 19 18 18 19 18 18 19 18 18 18 18 18 20 19 18 18 18 19 18 18 19 18 18 19 18 18 19 20 18 18 18 18 18 18 19 18 18 19 18 20 18 18 18 19 18 18 19 18 19 18 19 18 20 19 18 18 19 18 19 18 19 18 19 18 18 19 18 19 21 18 19 18 19 18 18 18 21

Tabla 1. Edad de los asistentes a un curso de formación (frecuencias absolutas) xi ni 18 100 19 40 20 8 21 2 150

Como vemos, junto a cada valor de la variable aparece el número de veces que se ha observado entre los elementos de la población. De esta distribución pueden recuperarse los datos originales, lo que implica que no hay pérdida de información debida a la reducción estadística.

Aunque el par de columnas ( xi , ni ) encierra toda la información disponible, resulta útil traducirlas en un gráfico , de manera que sea posible apreciar las características más importantes de la distribución con un simple golpe de vista. Para representar las distribuciones de frecuencias absolutas en estadísticas para datos no agrupados, se utiliza un sistema de ejes cartesianos; en el eje de abscisas (eje horizontal o eje X ) se sitúan los valores de la variable, mientras que en el de ordenadas (eje vertical o eje Y ), las frecuencias correspondientes, esto es, el número de veces que se repite cada uno de los valores representados. Cada pareja ( xi , ni )

GADE - Curso 2015/

Por tratarse de porcentajes, en este caso se cumple que 1

i k i i

p

=

=

Para el ejemplo que venimos utilizando en esta sección, los cálculos indicados anteriormente proporcionan los resultados reflejados en la tabla 1.4.

Tabla 1. Edad de los asistentes a un curso de formación (frecuencias relativas)

xi n (^) i (^) i i n f N

= (^) i i^100

n p N

= ⋅

18 100 0,667 66, 19 40 0,267 26, 20 8 0,053 5, 21 2 0,013 1, Total 150 1 100

Se observa que los asistentes de 18 años representan una proporción del total de 0,667, es decir, un 66,7%. De igual manera podríamos decir que la proporción de asistentes con edad igual a 21 años es de 0,013, correspondiéndoles una presencia porcentual del 1,3%.

La importancia de las estadísticas de frecuencias relativas f i y p i radica en que permiten efectuar correctamente comparaciones entre distribuciones con distinto número de observaciones.

En el caso de estadísticas para datos no agrupados, su representación también se lleva a cabo mediante diagramas de barras , pero ahora el eje de ordenadas queda reservado para las proporciones o los porcentajes.

b) Las frecuencias acumuladas se obtienen por un proceso de acumulación, que puede aplicarse a las frecuencias absolutas, a las relativas o a las relativas porcentuales. Así, la frecuencia absoluta acumulada ( N (^) i ) indica el número de elementos de la población que presentan un valor de la variable inferior o igual a xi. Matemáticamente:

1 2 1

j i i i j j

N n n n n

=

=

Se cumple que: 1 1

-1 (salvo para^ 1).

k i i i

N n N N n N N i

=

= − =

La frecuencia relativa acumulada ( Fi ) indica la proporción de las observaciones con valor de la variable igual o inferior a xi. Por tanto, también puede obtenerse como suma de frecuencias relativas, de ahí su nombre.

1 2 1 2 1

j i i i i i j j

N n n n F f f f f N N

=

=

 

GADE - Curso 2015/

Por último, la frecuencia relativa porcentual acumulada ( Pi ) expresa la frecuencia relativa acumulada en porcentaje y, por lo tanto, indica el porcentaje de observaciones con valor de la variable igual a inferior a xi. También pueden obtenerse como la suma hasta i de las frecuencias relativas expresadas en porcentaje ( pi ):

1 2 1

100

j i i i i j j

P F p p p p

=

=

La tabla 1.5 ofrece las distribuciones de frecuencias acumuladas para nuestro ejemplo. En esa tabla, N 2 , por ejemplo, indica que 140 asistentes tienen una edad de 19 años o inferior, F 2 indica que la proporción que representa tales alumnos sobre el total observado es 0,933, lo que supone un 93,3%, tal y como refleja P 2.

Tabla 1. Edad de los asistentes a un curso de formación xi ni fi Ni Fi Pi 18 100 0,667 100 0,667 66, 19 40 0,267 140 0,933 93, 20 8 0,053 148 0,987 98, 21 2 0,013 150 1 100 Total 150 1

La representación de las distribuciones de frecuencias acumuladas (absolutas, relativas o relativas porcentuales) recibe el nombre de diagrama escalonado. La figura 1.2 muestra el diagrama escalonado de la distribución de frecuencias absolutas acumuladas correspondiente a nuestro ejemplo. El gráfico presenta discontinuidades propias de una variable discreta. Recordemos que las estadísticas para datos no agrupados se corresponden normalmente con ese tipo de variables y que una variable discreta no toma valores intermedios entre dos valores consecutivos. La magnitud de cada salto es igual a la frecuencia absoluta asociada al valor de la variable donde se produce.

Figura 1. Edad de los alumnos de Estadística (diagrama escalonado)

0

25

50

75

100

125

150

16 17 18 19 20 21 22 23

Ni

xi

GADE - Curso 2015/

Relaciones entre distintos tipos de frecuencias

acumulación

acumulación

acumulación

1 1 x x

x100 x

i

i i

i i

i

N N

N
f F
p P
n →

II. Estadísticas para datos agrupados en intervalos

Cuando el número total de observaciones es muy elevado y la variable de interés toma muchos valores distintos ( N y k grandes ) resulta necesario agrupar los datos en intervalos antes de su presentación mediante una tabla estadística. En general, éste resulta ser el caso de variables continuas, aunque también es aplicable a variables discretas cuando el número de valores distintos es muy elevado.

Para elaborarlas se procederá a agrupar los valores de la variable en clases o intervalos abiertos por la izquierda y cerrados por la derecha, es decir, ( L (^) i-1 - Li ], salvo el primero, que será un

intervalo cerrado [ L 0 – L 1 ]. La amplitud del intervalo i se define como ai = Li − Li − 1 , la

diferencia entre su límite superior e inferior.

La tabla 1.7 presenta una estadística para datos agrupados genérica. Esto es también una distribución de frecuencias ya que junto a cada intervalo i se presenta su frecuencia absoluta ( n (^) i ), que no es más que el número de elementos de la población en los que la variable toma valores incluidos en ese intervalo.

Tabla 1. Distribución de frecuencias absolutas en estadísticas para datos agrupados

Intervalos L (^) i-1 - Li

frecuencia absoluta ni [ L 0 – L 1 ] n ( L 1 – L 2 ] n   ( L (^) k-1 – Lk ] nk

Total 1

i k i i

N n

=

=

GADE - Curso 2015/

Agrupando los datos de esta forma se gana en manejabilidad de los mismos aunque, como contraprestación, la información después de tabulada pierde precisión, generándose lo que se denominan errores de agrupamiento. Estos errores tienen como consecuencia que resulte imposible reproducir los datos originales partiendo del resultado de la tabulación.

Cuando las amplitudes de los intervalos son distintas, la correcta interpretación de la información contenida en la tabla pasa por calcular las densidades de frecuencia ( h (^) i ), también llamadas alturas. La densidad de frecuencia del intervalo i es el resultado de dividir su frecuencia absoluta por la amplitud del intervalo. Matemáticamente:

i i i

n h a

=

Lo visto hasta ahora permite identificar la principal diferencia entre las estadísticas para datos no agrupados y las correspondientes a datos agrupados. En las primeras, la tabla recoge los valores que toma la variable objeto de estudio, mientras que en las segundas esa información se ha perdido parcialmente, por cuanto esos valores aparecen agrupados en intervalos. Sin embargo, la información individual resulta necesaria para calcular características importantes de las distribuciones, como veremos más adelante.

Para solucionar en parte este problema, cada intervalo se representa por su marca de clase ,

denotada por xi^ ,y que no es más que su punto central, calculado como la semisuma de los

límites:

Marca de clase del intervalo i = 1 2

i i i

L L x −^

=

Ahora podemos entender mejor el concepto de error de agrupamiento al que se ha hecho referencia con anterioridad. Al representar el intervalo por su marca de clase estamos suponiendo que los valores que toma la variable en ese intervalo son todos el mismo, e iguales a su vez a la marca de clase. La sustitución de todos los valores por el punto central del intervalo provocará errores por exceso y por defecto que, en general, no se compensarán en su totalidad. Como consecuencia, se está cometiendo un error, que es precisamente lo que se ha llamado error de agrupamiento.

A partir de las distribuciones de frecuencias absolutas con datos agrupados en intervalos pueden obtenerse las correspondientes estadísticas derivadas, tal y como refleja de manera genérica la tabla 1.8.

GADE - Curso 2015/

Figura 1. Notas de los alumnos en Estadística (histograma con intervalos de amplitud constante)

Supongamos ahora que las calificaciones de los alumnos se agrupan en intervalos de amplitud variable como refleja la tabla 1.10. En tal caso, la representación gráfica de la distribución pasa por levantar rectángulos sobre cada intervalo marcado en el eje de abscisas que tengan como altura su densidad de frecuencia hi. De esta manera se consigue que el área de los rectángulos representados sea proporcional a la frecuencia, requisito que ha de cumplir este tipo de representaciones (figura 1.4).

Tabla 1. Notas de los alumnos en Estadística Nota n i hi 0 - 5 260 52 5 - 7 180 90 7 - 9 50 25 9 - 10 10 10 Total 500 Figura 1. Notas de los alumnos en Estadística (histograma con intervalos de amplitud variable)

La representación de las distribuciones de frecuencias acumuladas ( N (^) i , Fi , Pi ) para distribuciones con datos agrupados en intervalos recibe el nombre de polígono de frecuencias

0

50

100

150

200

250

300

350

0 2 4 6 8 10

n i

x i

0

10

20

30

40

50

60

70

80

90

100

0 2 4 6 8 10

h i

x i

GADE - Curso 2015/

acumuladas u ojiva. En el caso de las frecuencias absolutas acumuladas, la representación comienza situando en el plano los puntos ( L (^) i , N (^) i ). La variable cuyas frecuencias se acumulan es de tipo continuo, por lo que la línea que se representa (la ojiva) ha de ser continua. Considerando que las observaciones se distribuyen uniformemente dentro de cada intervalo, basta para lograrlo con unir los puntos para tener el diagrama acumulado. En la figura 1.5 se representa la distribución de frecuencias absolutas acumuladas correspondiente a la distribución de las notas de Estadística recogida en la tabla 1.9.

Figura 1. Notas en Estadística (Polígono de frecuencias acumuladas)

Ejemplo 1 :

En las familias de un bloque de viviendas se ha observado el número de personas activas. Como resultado de la observación se ha obtenido el siguiente conjunto de datos:

0 1 2 1 1 2 0 1 2 1 1 0 3 0 1 0 2 0 1 3

Indique lo siguiente:

a) Población: las familias de un bloque de viviendas. b) Elementos: cada una de las familias. c) Tamaño de la población: N = 20 familias. d) Carácter observado: Número de personas activas en cada familia.

e) Valores distintos que toma el carácter: k = 4 con x 1^ =^ 0;^ x 2^ =^ 1;^ x 3^ =^ 2;^ x 4 =3.

f) Tipo de carácter: variable discreta. g) ¿Qué tipo de estadística utilizaría para resumir la información? Estadística para datos no agrupados.

0

100

200

300

400

500

-2 0 2 4 6 8 10 12

Ni

xi