Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


analisis de una variable, Apuntes de Estadística

Asignatura: Estadística I, Profesor: , Carrera: Ciències Empresarials, Universidad: URV

Tipo: Apuntes

Antes del 2010

Subido el 24/05/2008

martintxu
martintxu 🇪🇸

3.8

(202)

170 documentos

1 / 73

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Introducción a la Estadística Empresarial. Capítulo 2.- Análisis de una variable. Jesús Sánchez Fernández
1
CAPITULO 2.- ANALISIS DE UNA VARIABLE .
2.1 Introducción.
En este capítulo se darán un conjunto de instrumentos que permitirán el análisis
descriptivo de una variable. En primer lugar se indicará la forma de organizar y presentar
la información, una vez que se ha observado la población y ha sido medido uno de los
caracteres de todos y cada uno de los elementos de la misma. Esta operación nos llevará
a la obtención de una distribución de frecuencias. Una vez que se tienen los datos
organizados mediante esa distribución hay que iniciar el proceso de análisis de la
variable. Para ello, el primer instrumento al que se puede recurrir, tanto por su sencillez
como por lo fácil de su interpretación, es la representación gráfica de ese carácter. Con la
representación gráfica de la variable o del atributo, según proceda en cada caso, se
consigue tener una visión de conjunto del fenómeno estudiado de una forma más rápida y
perceptible que con la sola inspección numérica de la tabla o distribución. Para continuar
este proceso de análisis de una variable hay que definir ciertos instrumentos que nos
permitan estudiar sus características más relevantes. Entre las mismas cabe destacar las
siguientes: 1) forma de la distribución; 2) medidas de posición (valor central o promedios);
3) dispersión; 4) asimetría; 5) curtosis.
2.2 Distribuciones de frecuencias unidimensionales.
El adjetivo unidimensional hace referencia a que en nuestro análisis solo se tendrá en
cuenta un carácter. Al mismo se le va a representar simbólicamente mediante la letra X,
mientras que para sus posibles realizaciones (valores o modalidades, según se trate de
variable o de un atributo, respectivamente) se utilizará la letra x minúscula.
En lo sucesivo se entenderá que el carácter observado es de tipo cuantitativo y que, en
consecuencia, estamos trabajando con variables. En realidad el tratamiento que se le da a
los atributos, en cuanto a distribución de frecuencias, es muy similar al de las variables
discretas.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49

Vista previa parcial del texto

¡Descarga analisis de una variable y más Apuntes en PDF de Estadística solo en Docsity!

Jesús Sánchez Fernández

CAPITULO 2.- ANALISIS DE UNA VARIABLE.

2.1 Introducción.

En este capítulo se darán un conjunto de instrumentos que permitirán el análisis descriptivo de una variable. En primer lugar se indicará la forma de organizar y presentar la información, una vez que se ha observado la población y ha sido medido uno de los caracteres de todos y cada uno de los elementos de la misma. Esta operación nos llevará a la obtención de una distribución de frecuencias. Una vez que se tienen los datos organizados mediante esa distribución hay que iniciar el proceso de análisis de la variable. Para ello, el primer instrumento al que se puede recurrir, tanto por su sencillez como por lo fácil de su interpretación, es la representación gráfica de ese carácter. Con la representación gráfica de la variable o del atributo, según proceda en cada caso, se consigue tener una visión de conjunto del fenómeno estudiado de una forma más rápida y perceptible que con la sola inspección numérica de la tabla o distribución. Para continuar este proceso de análisis de una variable hay que definir ciertos instrumentos que nos permitan estudiar sus características más relevantes. Entre las mismas cabe destacar las siguientes: 1) forma de la distribución; 2) medidas de posición (valor central o promedios);

  1. dispersión; 4) asimetría; 5) curtosis.

2.2 Distribuciones de frecuencias unidimensionales.

El adjetivo unidimensional hace referencia a que en nuestro análisis solo se tendrá en cuenta un carácter. Al mismo se le va a representar simbólicamente mediante la letra X , mientras que para sus posibles realizaciones (valores o modalidades, según se trate de variable o de un atributo, respectivamente) se utilizará la letra x minúscula.

En lo sucesivo se entenderá que el carácter observado es de tipo cuantitativo y que, en consecuencia, estamos trabajando con variables. En realidad el tratamiento que se le da a los atributos, en cuanto a distribución de frecuencias, es muy similar al de las variables discretas.

Jesús Sánchez Fernández

Por distribución de frecuencias se va a entender al conjunto de valores que ha tomado una variable con sus frecuencias correspondientes. Simbólicamente, una distribución de frecuencias vendría dada por los pares ( xi, ni ), donde xi son los valores de la variable y ni son sus frecuencias. Hay que señalar, en esta definición, que la frecuencia asociada a un valor de la variable es el número de veces que se repite ese valor. A la misma se le conoce como frecuencia absoluta.

2.2.1 Distribuciones de frecuencias para valores no agrupados.

Pueden considerarse básicamente dos tipos de distribuciones de frecuencias. Aquellas en las que los valores de la variable no están agrupados y las que presentan esos valores agrupados en intervalos.

Las primeras se corresponden a variables discretas. Este tipo de variables se caracteriza, como ya se indicó en su momento, por tener un número finito de valores o infinito numerable, de forma que entre dos valores consecutivos no existe otro. Pero aunque estos valores sean observables resulta que, a veces, el número de ellos es tan elevado que resulta aconsejable presentar la distribución o tabla estadística con los valores de la variable agrupados en intervalos. Esta forma de proceder podría llevarnos a pensar que estamos trabajando con variables continuas, cuando en realidad no lo son, pues en el caso de éstas, a diferencia de las primeras, dentro de cualquier intervalo de valores se pueden considerar que hay infinitos valores distintos.

La forma estándar de dar una distribución de frecuencias con valores no agrupados es la que aparece en la Tabla 1. Las frecuencias de esta tabla puede ser unitarias o mayores que uno. El primer caso tienen poco interés para la Estadística, pues como ya se indicó en la capitulo primero, el objeto de la misma era el estudio de colectivos grandes y nunca las poblaciones con un número de elementos muy reducido.

Junto a las frecuencias absolutas de los valores de una variable resulta habitual dar, también, lo que se conoce como frecuencias relativas. Para un valor concreto, la frecuencia relativa, que representaremos por fi , es el cociente entre la frecuencia absoluta y el numero total de observaciones N. Es decir, fi = ni/N. Estas frecuencias se puede expresar en porcentajes o en tantos por uno. A su vez, las frecuencias, tanto las absolutas

Jesús Sánchez Fernández (^9 20) 0,04 495 0, (^10 5) 0,01 500 1 (^500 )

Esta distribución, además de dar los valores de la variable y sus frecuencias absolutas, recoge las relativas y las acumuladas. Se trata de la distribución de una variable discreta con un número finito de valores.

2.2.2 Distribuciones de frecuencias para valores agrupados.

Este tipo de distribuciones se asocia, fundamentalmente, con variables continuas, aunque, como ya se ha señalado con anterioridad, en algunos casos también es aplicable a variables discretas, especialmente en aquellas situaciones en las que la variable toma muchos valores, de forma que si éstos nos e agruparan, la tabla resultaría demasiado extensa y la función de síntesis de la misma se perdería.

La elaboración de la distribución de frecuencias de una variable continua plantea algunos problemas que no se dan en el caso de variables discretas. Se trata de decidir el número de intervalos en los que hay que agrupar los valores de la variable así como si la amplitud o recorrido de los mismos debe ser igual. Estas cuestiones no tienen una respuesta determinada de antemano. La solución dependerá de cada caso concreto, por lo que no tiene sentido entrar en la casuística de las distintas situaciones que pudieran darse. Otro problema surge cuando un valor de la variable coincide exactamente con un extremo del intervalo, con lo que hay dudas sobre su inclusión en ese intervalo o el siguiente. Como solución a este problema es habitual proceder a definir intervalos abiertos por la izquierda y cerrados por la derecha, lo que implica que intervalo definido entre a y b incluye a todos los valores menores o iguales que b pero mayores que a.

En general, una distribución de frecuencias para una variable continua será como la que se da en la Tabla 2. A partir del contenido de esta tabla hay que definir los siguientes conceptos:

a) Amplitud del intervalo. Es la diferencia entre el extremo superior y el inferior. Así para el intervalo i-ésimo , la amplitud vendría dada por:

Jesús Sánchez Fernández a i = Li - Li-1 (2.1)

b) Marca de clase. Es el punto central de cada intervalo. Esta se suele representar por x i. Para el intervalo i-ésimo viene será:

x i = ( Li + Li-1 )/2 (2.2)

Tabla 2. Distribución de frecuencias para valores agrupados Variable (intervalos Li-1 – Li )

Amplitud ai

Marca de clase xi

Frec. abs. ni

Frecuencia relativa fi

Frecuencia Absoluta Acumulada Ni

Frecuencia Relativa Acum. Fi L 0 – L 1 L 1 – L 2 L 2 – L 3 . . . Li-1 – Li . . Lk-1 - Lk

a 1 a 2 a 3 . . . ai . . ak

x 1 x 2 x 3 . . . xi . . xk

n 1 n 2 n 3 . . . ni . . nk

n 1 /N n 2 /N n 3 /N . . . ni /N . . nk /N

N 1 = n 1 N 2 = n 1 + n 2 N 3 = n 1 + n 2 +n 3 . . . Ni =n 1 + n 2 +...+ni . . Nk =n 1 + n 2 +...+nk = N

N 1 /N

N 2 /N

N 3 /N

Ni / N . . Nk /N = ΣΣ (^) i ni = N ΣΣ (^) i fi =

Esta agrupación de los valores de la variable en intervalos, aunque resulta operativamente necesaria, conlleva un problema grave que se conoce como error de agrupamiento. Este error es la consecuencia directa de la pérdida de información provocada al incluir un conjunto de observaciones en un mismo intervalo. Así, antes de agrupar las ni observaciones en el intervalo i-ésimo , se sabe cuales son los valores concretos observados y sus respectivas frecuencias individuales. Ahora bien, cuando esos valores se agrupan en un intervalo se pierde esa información individualizada. En esos casos lo que se hace es sustituir a todos y cada uno de ellos por su valor medio que viene representado por la marca de clase. Pero esta solución, como se verá más adelante, implica asumir ciertos supuestos que nos inducen a error. Este error es el coste de la pérdida de información que se causa por el agrupamiento de las valores de la variable.

Ejemplo 2. La distribución del presupuesto semanal en alimentación de un conjunto de 265 familias expresado en euros es el que figura en la tabla siguiente:

Jesús Sánchez Fernández

Tanto en la Figura 1 como en la Figura 2 se ha representado las frecuencias absolutas. Pero estas figuras no habrían cambiado para nada si en su lugar si se hubiera trabajado con las frecuencias relativas. La única diferencia es que el eje de ordenadas tomaría como valor máximo la unidad, pero la proporción entre las barras no cambia de un gráfico a otro.

Figura 1. Diagrama de barras para la distribución del Ejemplo 1.

ni

1 2 3 4 5 6 7 8 9 10 xi

Otra represtación gráfica que también puede realizarse con los datos de una variable discreta es lo que se conoce como un diagrama escalonado o acumulativo. En este caso, sobre el eje de abscisas se siguen llevando los valores de la variable, mientras que sobre el de ordenadas se colocan las frecuencias acumuladas, bien absolutas ( Ni ) o relativas ( Fi ). En la figura 3 se ha representado el diagrama escalonado para la variable del Ejemplo 1.

Jesús Sánchez Fernández

Figura 2. Diagrama de barras para los datos del Ejemplo 1.

0

50

100

(^1 2 3 4 5 6 7 8 9 10) x

n

Figura 3. Diagrama escalonado correspondiente a los datos del Ejemplo 1. Fi 1

0,

0,

1 2 3 4 5 6 7 8 9 10 x

Frente a este tipo de gráfico, cuando la naturaleza de la variable sea continua, entonces la representación gráfica más adecuada es el histograma o también conocido como histograma de frecuencias. Este tipo de gráficos podría utilizarse también en los casos de variables discretas con valores agrupados, aunque no resulta aconsejable hacer uso de

Jesús Sánchez Fernández

Figura 4. Histograma para los datos del Ejemplo 2.

0

2

4

6

8

10

Presupuesto

Densidad de frecuencia o alturas

Si en lugar de trabajar con las alturas se hubieran llevado sobre el eje de ordenadas directamente las frecuencias, entonces el histograma correspondiente es el que aparece en la Figura 5. Como puede apreciarse, éste es muy distinto del anterior. Este último no es correcto porque el área de cada rectángulo no es proporcional a las frecuencias y, en consecuencia, muestra una realidad distorsionada.

Figura 5. Histograma para los datos del Ejemeplo 2.

0

10

20

30

40

50

60

Presupuestos

Frecuencias

Jesús Sánchez Fernández

Al igual que para variables discretas se definió el diagrama escalonado para representar las frecuencias acumuladas, para el caso de continuas se puede proceder de forma similar. Pero en este caso, a la gráfica correspondiente, se le conoce como polígono de frecuencias acumuladas.

Ejemplo 3. A 50 clientes de una institución financiera se les ha preguntado por el tiempo que han tenido que esperar en la cola de la caja para realizar una gestión. Sus respuestas se han organizado en la siguiente tabla.

Tiempo Clientes Ni 0-5 20 20 5-10 15 35 10-15 10 45 15-20 3 48 20-25 2 50

Obtenga el polígono de frecuencias acumuladas.

Una vez que se han señalado los instrumentos gráficos más habituales en el análisis de variables, quedan por introducir los correspondientes cuando de lo que se trata es de atributos. Ahora, las modalidades no tienen la dimensión numérica de los valores de las variables. Esto hace que haya que pensar en otros tipo de gráficos. Entre los más

Jesús Sánchez Fernández

Figura 7. Población ocupada en España según situación profesional en 2000. (Miles de personas)

2638,

311,

11508,

14,

Empresario o miembro de cooperativa Ayuda familiar Asalariados Otros

Fuente: EPA. Página web del INE

Este mismo atributo se ha representado en la Figura 8 haciendo uso de un diagrama de rectángulos. Este instrumento gráfico es muy similar al diagrama de barras visto para variables discretas.

Figura 8. Población ocupada en España según situación profesional en 2000. (Miles de personas)

2638,

311,

11508,

0 14,

5000

10000

Empresario o miembro decooperativa Ayuda familiar Asalariados Otros

Fuente: EPA. Página web del INE

Jesús Sánchez Fernández

Pero este repertorio de gráficos no agota las posibilidades de representación. A los mismos se le puede añadir los pictogramas, cartogramas, etc. Sin embargo, los señalados son los que se utilizan con más frecuencia y, en cualquier caso, según el atributo con el que se esté trabajando habrá que seleccionar el más adecuado de entre la amplia gama de tipos de gráficos existentes.

Figura 9. Pirámide de la población de Andalucía. 1998

Hombres Mujeres

Edad

Efectivos masculinos Efectivos femeninos

Para finalizar este apartado dedicado a las representaciones gráficas vamos a dedicar unas líneas a un gráfico que tiene la particularidad de que en el mismo se hace uso de una variable continua, como es la edad, y un atributo, como es el sexo de la población. Nos estamos refiriendo a las pirámides de población, instrumento gráfico de gran utilidad en Demografía. Se trata de dos histogramas que comparten el mismo eje de abcisas, sobre el cual se lleva la edad de la población. Por otro lado, sobre el eje de ordenadas se llevan los efectivos poblacionales, tanto de hombres como de mujeres. Pero se trata de efectivos expresados no en cifras absolutas sino en porcentajes o en cualquier potencia de diez. Una muestra de este tipo de gráficos es el recogido en la Figura 9, donde se muestra la estructura por sexo y edad de la población de Andalucía para 1998.

Jesús Sánchez Fernández

c

d

e (^) f

2.5 Promedios.

La reducción estadística que se consigue mediante la tabulación, en la mayoría de los casos, no resulta suficiente si lo que se persigue es que el “exceso” de información no nos impida ver lo que hay detrás de ella. Por tal razón, esa reducción hay que llevarla hasta el extremo de quedarnos con un solo dato que a su vez sea representativo de todo el conjunto. A ese único dato se le conoce de forma genérica como promedio. Con la obtención de promedios lo que se consigue es determinar cual es el nivel medio de la variable y, además, facilita las comparaciones entre variables. A los promedios se les conoce también como medidas de tendencia central. En principio, el único requisito que, de forma general, se le exige a cualquier promedio es que su valor esté comprendido

entre los valores extremos de la variable. Con esta única condición, el número de promedios que pueden definirse es muy elevado, si bien los más habituales son la media aritmética, la media geométrica, la mediana, la moda, la media cuadrática, la media armónica, etc.

Jesús Sánchez Fernández

De todos ellos vamos a estudiar la media aritmética, la media geométrica, la mediana y la moda.

2.5.1 La media aritmética.

La media aritmética se define como aquel valor que resulta de dividir la suma de todas la observaciones entre el número de ellas. El resultado de este cociente no coincidirá necesariamente con valor alguno de la variable, pero si debe ser un valor del recorrido de la misma y vendrá expresado en las misma unidad de medida de esa variable. Por la forma en que se ha definido este promedio solo tiene sentido aplicarlo a variables de naturaleza cuantitativa, pues sus valores se pueden sumar, pero no las modalidades de un atributo.

Formalmente, si xi es el valor i-ésimo de la variable X , siendo ni el número de veces que se presenta ese valor, entonces la media se define como:

(^1) ( 2.4)

N

x n

x

k ii i

Ejemplo 1 : Sea X una variable que representa el volumen de facturación de una empresa a lo largo de los 25 días laborales de un mes:

xi(miles €) ni 10, 12, 13, 14, 15, 16,

2 3 9 6 4 1

En este caso la media vendrá dada por:

x^ − =(^10 ,^5 )(^2 )+(^12 ,^4 )(^3 )+(^13 ,^2 )(^9 )+(^14 ,^8 )(^6 )+(^15 ,^8 )(^4 )+(^16 ,^5 )(^1 )= miles

Jesús Sánchez Fernández

Ejemplo 3. Obtener la media de la variable del Ejemplo 1 pero con los datos agrupados

según los intervalos de Ejemplo 2.

En este caso las 25 observaciones se presentan en la tabla siguiente:

Ventas en pesetas

(miles de €)

xi ni

Ahora, la media aritmética sería:

Como puede apreciarse el valor de la media ha cambiado, pasando de 13,82 a 13,88. La diferencia entre ambos es el error de agrupamiento que se ha cometido como consecuencia de trabajar con datos agrupados en intervalos.

Si lo que se persigue es obtener la media de una variable en la que los valores de la misma no tienen todos ellos la misma importancia o significación, entonces se procede a obtener la media aritmética ponderada , en la que cada valor de la esa variable se multiplica por sus respectivo peso o ponderación ( wi ) que refleja la importancia de ese valor, pero que no es su frecuencia. Si la suma de esos productos la dividimos por la suma de las ponderaciones, lo que se obtiene es la media aritmética ponderada.

( 2.5) 1

1 ∑

=

n i i

n i i i w

xw x

x^ − =(^11 )(^2 )+(^12 ,^5 )(^3 )+(^13 ,^5 )(^9 )+(^14 ,^5 )(^6 )+(^15 ,^5 )(^4 )+(^17 ,^0 )(^1 )= miles

Jesús Sánchez Fernández

Ejemplo 4. Un alumno ha realizado un examen que constaba de cinco preguntas. En cada una de ellas ha obtenido las siguientes puntuaciones: 5; 6,5; 7; 8 y 7,5. Obtenga la nota final del examen si las ponderaciones de esas preguntas son: 0,1; 0,25; 0,15; 0,25 y 0,25.

frente a una media aritmética simple de 6,8.

2.5.1.1 Propiedades de la media aritmética. 1ª La suma de las desviaciones de los valores de la variable respecto de la media vale

cero. Es decir: ( ) 0

1

∑ −^ =

=

k i i^ i

x x n

La demostración de esta propiedad es como sigue:

1 1 1 1 1 1

∑ −^ = ∑ − ∑ =∑ − = ∑ − ∑^ =

= = = = = =

k i

k i i i i i

k i i i

k i

k i i i i

k i

xi x ni x n x n x n N x x n x n

2ª La media aritmética no varía si todas las frecuencias de su distribución se mul tiplican o dividen por una constante.

Llamemos C a constante por la que se van a multiplicar todas la frecuencias, de tal forma que nCi = Cni. En tal caso la media será:

x

N

x n

CN

C x n

CN

x Cn

N

x n

x

k i i i

k i i i

k i i i C

k i i Ci

C = = = = =

= 1 = 1 = 1 = 1

x^ −=(^5 )(^0 ,^1 )+(^6 ,^5 )(^0 ,^25 )+(^7 )(^0 ,^15 )+(^8 )(^0 ,^25 )+(^7 ,^5 )(^0 ,^25 )=