Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


tema4, Apuntes de Estadística

Asignatura: Estadística I, Profesor: benito benito, Carrera: Administración y Dirección de Empresas, Universidad: UniZar

Tipo: Apuntes

2013/2014

Subido el 09/02/2014

zad_rich
zad_rich 🇪🇸

4

(1)

4 documentos

1 / 24

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 4
DESCRIPCIÓN NÚMERICA
4.1 INTRODUCCIÓN
El objetivo de este tema es resumir las propiedades o características de una
variable estadística mediante un conjunto de medidas o valores. La tabla de frecuencias
nos ofrece toda la información posible pero es imposible, en numerosos casos,
interpretar toda esa extensa información. Por lo tanto, nos vemos obligados a resumirla
en una serie de medidas que nos permita entender de forma rápida su contenido. Este
proceso de síntesis puede tener distintos objetivos de comprensión de la información,
así pues hablamos de medidas de posición, dispersión y forma.
Las medidas de posición nos permiten tener una idea clara de la situación de la
variable en su escala de medida. Las medidas de dispersión tienen un doble fin, por un
lado nos permiten averiguar si las medidas de posición son representativas de la
distribución y, por otro lado, nos dan una clara idea de la separación, variabilidad o
dispersión de los distintos valores que toma la variable estadística. Las medidas de
forma nos permiten conocer otras características más generales de la distribución y que
están estrechamente ligadas a la forma que tendría la distribución si realizáramos una
representación gráfica. Así pues, intentaremos conocer la posible simetría o asimetría de
la distribución y su apuntamiento con respecto a un modelo de referencia. Dicha forma
también se puede analizar, de forma gráfica, mediante los diagramas de caja que nos
permiten, además, comparar distribuciones de frecuencias diferentes.
Finalmente se analiza, de forma breve, el problema de la concentración de la
riqueza. Dicho análisis se lleva a cabo, de forma gráfica, mediante las curvas de Lorenz,
y de forma numérica mediante el índice de Gini. Utilizando estos instrumentos se puede
calibrar si la distribución de reparto de la riqueza está más cerca de la situación de
máxima concentración (toda la riqueza en manos de uno solo) o de la de
equidistribución (toda la riqueza igualmente repartida). Además, dado el carácter
adimensional de estas medidas, es posible comparar el reparto de riqueza en
poblaciones diferentes.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18

Vista previa parcial del texto

¡Descarga tema4 y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 4

DESCRIPCIÓN NÚMERICA

4.1 INTRODUCCIÓN

El objetivo de este tema es resumir las propiedades o características de una variable estadística mediante un conjunto de medidas o valores. La tabla de frecuencias nos ofrece toda la información posible pero es imposible, en numerosos casos, interpretar toda esa extensa información. Por lo tanto, nos vemos obligados a resumirla en una serie de medidas que nos permita entender de forma rápida su contenido. Este proceso de síntesis puede tener distintos objetivos de comprensión de la información, así pues hablamos de medidas de posición, dispersión y forma. Las medidas de posición nos permiten tener una idea clara de la situación de la variable en su escala de medida. Las medidas de dispersión tienen un doble fin, por un lado nos permiten averiguar si las medidas de posición son representativas de la distribución y, por otro lado, nos dan una clara idea de la separación, variabilidad o dispersión de los distintos valores que toma la variable estadística. Las medidas de forma nos permiten conocer otras características más generales de la distribución y que están estrechamente ligadas a la forma que tendría la distribución si realizáramos una representación gráfica. Así pues, intentaremos conocer la posible simetría o asimetría de la distribución y su apuntamiento con respecto a un modelo de referencia. Dicha forma también se puede analizar, de forma gráfica, mediante los diagramas de caja que nos permiten, además, comparar distribuciones de frecuencias diferentes. Finalmente se analiza, de forma breve, el problema de la concentración de la riqueza. Dicho análisis se lleva a cabo, de forma gráfica, mediante las curvas de Lorenz, y de forma numérica mediante el índice de Gini. Utilizando estos instrumentos se puede calibrar si la distribución de reparto de la riqueza está más cerca de la situación de máxima concentración (toda la riqueza en manos de uno solo) o de la de equidistribución (toda la riqueza igualmente repartida). Además, dado el carácter adimensional de estas medidas, es posible comparar el reparto de riqueza en poblaciones diferentes.

4.2 MEDIDAS DE POSICIÓN

Las medidas de posición indican un valor de la variable en torno al cual se sitúa un grupo de observaciones o datos. Sirven para estudiar las características de los valores que indican la posición en la que se sitúa un grupo de valores. Su objetivo es describir y sintetizar la información contenida en un conjunto de datos, usualmente con el propósito de compararlos con respecto de otros. Pueden clasificarse en las llamadas medidas de posición de tendencia central y las medidas de tendencia no central. Una medida de tendencia central trata de ubicar el centro de la distribución que se puede considerar como representativo de la misma, mientras que una medida de tendencia no central permite conocer otros puntos característicos de la distribución que no son los valores centrales. 4.2.1 Medidas de tendencia central Una descripción básica de la localización de un conjunto de datos puede realizarse determinando su “centro”. Entre este tipo de medidas se encuentran los promedios (la media aritmética y geométrica, ponderados y sin ponderar), la mediana y la moda.

Media aritmética Una vez que los datos se han tabulado disponemos de la distribución de frecuencias: (x (^) i ;ni);i 1 ,..., k

Definición: La media aritmética se define como la suma de todos los valores de la

distribución dividida por el número total de observaciones. Se denota por x

 

 ^ ^ k i 1 i i

k i 1 i i xf N

xn x

Observaciones:

1. En datos agrupados por intervalos se adoptan como modalidades, a modo de aproximación, las marcas de clase o representantes de cada uno de los intervalos. 2. La media aritmética puede utilizarse si los datos con los que se trabaja son de naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el total de la población. Variables aditivas son, por ejemplo, el número de

  1. Le afectan los cambios de origen y los cambios de escala. Sin embargo, preserva el cambio lineal. Formalmente, se cumple que: YabXyabx
  2. La media aritmética minimiza la desviación cuadrática media de los datos. Es decir, cualquier conjunto de datos se disponen respecto de la media a la distancia menor posible. Formalmente: Sea f(c) N^1  x c ni secumpleque Minc f(c) c x

k i 1

 (^)  i ^2    Media geométrica La media geométrica se utiliza cuando las variables son de naturaleza multiplicativa (por ejemplo, el incremento salarial se efectúa sobre el anterior y no sobre uno fijo). Definición: Se denota por G y se define como la raíz N-ésima del producto de los N valores de la distribución:

N k^ N^1 n n 2 nk i 1

G  (^) xin i^  x^1 x^2 ....xk  Como en el caso de la media aritmética, en la media geométrica intervienen todos los valores de la distribución. Esta característica que, por un lado, supone una ventaja, por otra parte da lugar a que en algunos casos el promedio no resulte representativo. Así, por ejemplo, puede observarse que cualquier variable que tome el valor cero tendrá una media geométrica nula, independientemente del resto de valores de la distribución. Además, no siempre es posible determinar la media geométrica – ante un número impar de valores negativos de un total de observaciones que sea par, no será factible su cálculo. Finalmente, como propiedad destacar que, utilizando propiedades del logaritmo, se comprueba que el logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable, siendo ésta una vía alternativa para su cálculo. Se cumple:

 

k i 1 i^ i

logG N^1 log(x)n

Medias ponderadas Se dan situaciones en las que a la hora de obtener la posición central de un conjunto de observaciones, no todas ellas tienen la misma importancia o peso. Para recoger la importancia específica de cada dato se requiere una ponderación o peso. Se denota por wi

Definición: Sean  w (^) i ; i  1 ,..., k  una colección de pesos que recogen la importancia

específica de cada dato. Así , por ejemplo, la media aritmética ponderada xw se define

como:

 k i 1 i

k w i^1 i i w

xw x

y la media geométrica ponderada Gw, se define como:

 i^ k^1 w^ i^1 wk Gw xw 1 ...xk

Mediana En el caso de variables cuantitativas, la mediana se presenta como una forma alternativa de obtener numéricamente un centro representativo de la distribución. Las medidas de tendencia central anteriores son promedios que se basan en todas las observaciones y, sin embargo, en la mediana subyace la idea de ordenación de los datos. La mediana es el valor de la distribución, supuesta ordenada de menor a mayor, que deja a su izquierda y a su derecha el mismo número de datos, es decir, es el valor que ocupa el lugar central, supuesto un número impar de observaciones. En otras palabras la mediana divide a la distribución de frecuencias en dos partes con la misma frecuencia de datos por encima y por debajo de la mediana. Por ello, también puede definirse como el valor de la distribución cuya frecuencia acumulada es N/2 ó alternativamente, cuya frecuencia relativa acumulada es 50%.

valores de la variable, éstos quedan al principio y/o al final. Por este motivo, se dice que la Mediana es una medida robusta.

3. Le afectan los cambios de origen y de escala, pero preserva la forma del cambio. En concreto se demuestra que si Y abXMeY abMeX

Moda La Moda se define como el valor más frecuente en el conjunto de datos o, equivalentemente, aquel que se repite un mayor número de veces. Evidentemente, la moda puede no ser única, en cuyo caso la distribución se dice bimodal o quizá incluso multimodal. En caso de no ser única, la Moda pierde representatividad. La presencia de dos o más modas se debe, generalmente, a una mezcla de dos o más grupos heterogéneos de modo que, siempre que sea posible, conviene estudiar todos los grupos por separado.

En datos agrupados en intervalos, nos encontramos con un intervalo modal que es aquél que presenta una densidad de frecuencia mayor. Como ya hemos comentado en el apartado del histograma, la densidad de frecuencia de un intervalo viene dada como

el cociente entre su frecuencia absoluta y su amplitud: i i i a dn

Con el objeto de fijar la moda en un único valor se pueden utilizar diferentes criterios, aquí vamos a optar por hacer uso de una aproximación, cuya idea intuitiva es plantear que la moda se situará más próxima o lejana a cada uno de los extremos del intervalo modal, en términos de la densidad de frecuencia de los intervalos contiguos al modal, es decir dm  1 , dm  1. La aproximación viene dada por:

m (^1) dm 1 md^1 m 1 a m Mo L d    

Como ventajas de la moda podemos destacar su cálculo sencillo y su clara interpretación, así como que no se ve afectada por valores extremos ya que en su obtención no interviene directamente toda la distribución. Al igual que algunas de las anteriores medidas, la moda esta afectada por los cambios de origen y de escala que, potencialmente, puedan realizarse en los datos. Sin embargo, preserva la forma del cambio, y se comprueba que se cumple: Y abXMoY abMo X

4.2.2 Medidas de tendencia no central Las medidas de tendencia no central, denominadas cuantiles , son medidas que no van a reflejar ninguna tendencia de tipo central del conjunto de los datos. Por el contrario, y extendiendo al concepto de la mediana, las medidas de tendencia no central buscan poner de manifiesto otros aspectos relativos a la distribución de las frecuencias de cada intervalo. Se trata de magnitudes o valores caracterizados por dividir a la distribución de frecuencias en varias partes, todas ellas con idéntica frecuencia; es decir dividen a la distribución en diversos intervalos que contienen todos ello un mismo número de datos. Entre los cuantiles destacan, por ser de uso más frecuente, los llamados cuartiles, los deciles y los percentiles. Cuartiles Valores que dividen a la distribución de frecuencias en cuatro partes con idéntica frecuencia; es decir, en cuatro intervalos dentro de cada cual están incluidos la cuarta parte de los datos - el 25% de los valores-. Los cuartiles son tres, y los denotamos por C 1 , C 2 , C 3

25% 25% 25% 25%

C 1 C 2 C (^3)

25% 25% 25% 25%

C 1 C 2 C (^3) Su identificación o cálculo, que difiere en función del tipo de datos, es esencialmente similar al caso de la mediana y lo recogemos a continuación.

de aproximación de mediana y cuartiles, se obtiene una expresión unificada para cada uno de los 9 deciles:

m^ m

m 1 i m (^1) n a 10 i N N D L 

 

Percentiles Son los valores de la distribución que la dividen en cien partes iguales, es decir, en cien intervalos dentro de cada cual están incluidos el 1% de los valores de la distribución. Los percentiles ( =1,...,99) son 99 valores que dividen la distribución en

100 partes iguales.

P i

Cálculo:  En datos discretos, se ordenan de forma creciente, para posteriormente, identificar el valor o dato que ocupa la posición correspondiente al percentil. Así, en general para

el percentil Pi ; i  1 ,..., 99 identificaremos m  100 i Nm 1 de modo que

si

Pixm  1

100 i^ N^ m^ ^1 y Di^ =^ x^ m^1  2 xm^2 si 100 i^ Nm^1  Para datos agrupados por intervalos nos encontramos con un intervalo de clase para cada percentil. Con el objeto de fijar el percentil en un valor, utilizando el mismo convenio de aproximación de mediana, cuartiles y deciles, se obtiene una expresión unificada que, para cada uno de los 99 percentiles viene dada por:

m^ m

m 1 i m (^1) n a

i 100 N N P L

 

4.3 MEDIDAS DE DISPERSIÓN

En la sección anterior se han definido medidas de tendencia central, cuyo objetivo consiste en sintetizar la información disponible; pero su utilización como parámetros representativos de la distribución de los datos depende de su representatividad. Ésta es entendida en términos de la “proximidad” o “cercanía” de los datos respecto de la correspondiente medida de posición, habitualmente central. Por esta razón, se plantea la necesidad de completar la información sobre la posición global de los datos mediante medidas que recojan la “proximidad” o “alejamiento” de los datos a las que denominamos medidas de dispersión; en definitiva, se van a presentar medidas

objetivas que cuantifican lo separados que están los valores, bien entre sí, bien con respecto del valor central que los representa. Las Medidas de Dispersión evalúan la mayor o menor variabilidad existente en un conjunto de datos. En este sentido, no sólo sirven para establecer la dispersión de los valores de una variable o para comparar la que existe en dos poblaciones diferentes, sino que a la vez, permiten valorar el grado de representatividad de una medida de posición a tenor de la magnitud de la dispersión. Recorridos La forma más sencilla de tener una idea inicial de la dispersión entre los datos es calculando la diferencia entre el valor máximo y el mínimo: el Rango o Recorrido. Al utilizar sólo los dos datos extremos, esta medida se ve muy afectada por observaciones anómalas o atípicas y su valor puede distorsionar la magnitud de la dispersión entre el grueso de los datos. Para obtener una medida más fiable y menos sensible a datos atípicos, se calcula, en su lugar la diferencia entre el tercer y primer cuartil: el Recorrido Intercuartílico – recordar que en éste, estarán comprendidos el 50% de las datos centrales. Éste, a su vez puede generalizarse, para abarcar un mayor porcentaje de datos, dando lugar a diversos recorridos deciles y también percentiles. La sencillez de cálculo de los diferentes recorridos explica su uso generalizado. Sin embargo, tienen el inconveniente o limitación de no reflejar la “ separación ” de los datos referida al “centro” de la distribución. En consecuencia y para lograr este propósito que a su vez establecerá el grado de representatividad de una medida de posición, se introducen otras medidas de dispersión relativas a los promedios. Comenzamos introduciendo el concepto de Desviación como diferencia – o distancia- entre un dato y una medida de posición. La desviación individual de cada dato se agrega y se promedia, una desviación media. No obstante, hay que tener en cuenta que precisamos la magnitud de la distancia sin signo, para evitar que las desviaciones de signos opuestos puedan compensarse ocasionando dispersiones pequeñas o próximas a 0 que no reflejarían el alejamiento real de los datos respecto de la medida de posición. Por tanto y en este propósito, la desviación se va a medir en valor absoluto o, alternativamente en su cuadrado, lo cual va a dar lugar a dos tipos de medidas de dispersión: Desviaciones Absolutas Medias y Desviaciones Cuadráticas Medias.

La varianza, al igual que las demás, es un valor no negativo y es cero en el caso extremo de que todos los valores de la distribución coinciden. Este hecho nos da la pauta para su interpretación: cuanto más próxima sea a 0, tanto menor será la dispersión de los datos respecto de la media aritmética, otorgando a esta última, una mayor representatividad. Por el contrario, un valor elevado de la varianza refleja un alejamiento considerable de los datos respecto de la media aritmética, lo cual limita el carácter representativo de la media aritmética. En la práctica, para calcular la varianza se utiliza una expresión alternativa equivalente denominada formula abreviada de la varianza: k 2 i 1 i

(^2) x (^2) in x N S  (^1)    Entre sus propiedades, comentar que la varianza no se ve afectada por cambios de origen, pero sí por cambios de escala. El inconveniente de la varianza es que viene expresada en unidades cuadráticas, motivo por el cual se introduce la desviación típica que no es sino su raíz cuadrada, esto

es: S  S^2 En ocasiones, se requiere comparar la dispersión o variabilidad existente entre dos o más distribuciones. Éstas pueden corresponder a datos de diferente índole, además de poder estar expresadas en distintas unidades, o aún expresadas en las mismas unidades, su posición es diversa. Este tipo de situaciones requieren utilizar algún tipo de coeficientes que cuantifiquen la dispersión pero en términos relativos. Introducimos a continuación la versión relativa de las medidas de dispersión. Medidas de Dispersión Relativas La comparación de la variabilidad que existe entre dos o más conjuntos de datos concluye sobre carácter de homogeneidad, mayor o menor, de los datos en las distribuciones comparadas. La obtención de una medida que capture la dispersión, eliminado la influencia de las unidades, de los datos y de la propia medida de posición, se canaliza por medio de un Índice o coeficiente adimensional que habitualmente se construye como cociente entre la medida de dispersión respecto de un promedio y el propio promedio. Con esta idea, para el caso de la media aritmética, se construye el más importante de los coeficientes de dispersión, denominado coeficiente de variación.

Coeficiente de Variación Se basa en la varianza como medida de dispersión y se construye como cociente entre la desviación típica y la media aritmética. Esto es:

x

C. V  S

Expresa, por tanto, el número de veces que la desviación típica contiene a la media aritmética. Si toma un valor inferior a 1 se admite, como regla aproximada, que la media aritmética es representativa del conjunto de datos. Cuanto más próximo es a 0, menor dispersión relativa o mayor homogeneidad presenta la correspondiente distribución y cuando se anula es cuando la media aritmética alcanza su máxima representatividad. Sin embargo, cuando la media aritmética es cero no debe utilizarse. Indices de dispersión respecto a la media y la mediana Se basan en las desviaciones absolutas y son medidas de dispersión relativas más robustas que el coeficiente de variación. Vienen dados por las expresiones:

x ID Dx x ^ (índice de dispersión respecto a la media)

IDMe = DMe^ Me^ (índice de dispersión respecto a la mediana)

y miden, por tanto, el número de veces que las desviaciones absolutas (^) D (^) x y DMe

contienen a la media y a la mediana, respectivamente. Su interpretación es, por tanto, similar, a la del coeficiente de variación. Tipificación de una variable La tipificación de una variable consiste en transformarla linealmente restándole

su media y dividiéndola por su desviación típica. Si X es una variable con media x y desviación típica S , los valores de la variable tipificada Z se obtienen mediante:

S z xi x i

^ 

La media de una variable tipificada vale cero y su desviación típica uno. Cada valor de la variable tipificada corresponde al número de “desviaciones” en que el

valor está separado respecto de la media aritmética. Los valores tipificados pueden compararse directamente al estar situados en una escala común.

z i

Una distribución es simétrica respecto de un promedio, si ocurre que hay un mismo número de datos equidistantes y con idéntica frecuencia a ambos lados del eje de simetría. Una distribución es asimétrica a la derecha cuando las frecuencias descienden más lentamente por la derecha que por la izquierda. Una distribución es asimétrica a la izquierda cuando las frecuencias descienden más lentamente por la izquierda que por la derecha. Coeficiente de Asimetría de Fisher Basado en la idea de establecer la asimetría respecto de la situación de asimetría perfecta y teniendo en cuenta que la asimetría dependerá también de la dispersión existente en la distribución, el Coeficiente de Asimetría de Fisher viene dado por:

3

n i 1 i

3 i NS

x x n CAF

k i 1

ni z^3 i N

(^1) donde zi = s

x (^) i  x para i=1,…,k

Se considera que un coeficiente de asimetría superior, en valor absoluto, a (^2) N^6

es significativo. Coeficiente de Asimetría de Bowley A diferencia del coeficiente de Fisher que toma como punto de referencia la media, el coeficiente de Bowley toma como punto de referencia a la mediana, y compara la situación relativa del punto medio del intervalo intercuartílico con respecto a la mediana. Viene dado por:

3 1

3 1 2 C C

CAB C C^2 C

 ^ 

Coeficiente de Pearson Este coeficiente se aplica a distribuciones unimodales y se basa en comparar las posiciones relativas de la media y la moda. Viene dado por:

S CAP xMo Observaciones:  Los 3 coeficientes son adimensionales al aparecer en las mismas unidades los términos del numerado y denominador.

 Los signos de los coeficientes dependen del de su numerador  Si sus valores son 0 la distribución es perfectamente simétrica respecto a sus puntos de referencia  Si sus valores son positivos la distribución presenta asimetría a derecha respecto a sus puntos de referencia  Si sus valores son negativos la distribución presenta asimetría a izquierda respecto a sus puntos de referencia 4.4.2 Medidas de Curtosis o Apuntamiento Estas medidas tratan de valorar el perfil más o menos puntiagudo de la distribución, por ello estudian las distribuciones de frecuencia fundamentalmente en su “zona centro”. Así, la mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. Las medidas de apuntamiento o curtosis se calculan únicamente en distribuciones campaniformes, es decir, unimodales y simétricas o con ligera asimetría. El coeficiente de apuntamiento más importante debido a Fisher se calcula como:

4

n i 1 i

4 i NS

x x n CK

k i 1

ni z^4 i N

(^1) donde zi = s

x (^) i  x para i=1,…,k

Este coeficiente recoge la dispersión, se define en términos relativos y se calcula tomando como referencia el correspondiente a la curva normal que es el modelo matemático de referencia, de gran aplicabilidad y con buenas propiedades, y para el cual el coeficiente vale 3.

 Si CK  3 el apuntamiento es similar al de la normal (distribución mesocúrtica)

se considera extremo “fuerte” si su valor dista de la caja más de 3 veces el recorrido intercuartílico. Notar que los datos atipicos, por supuesto, pueden aparecer tanto por debajo del bigote inferior como por encima del superior. A la vista de la apariencia del Box-Plot pueden concluirse además algunos aspectos relativos a la descripción numérica de la distribución tales como por ejemplo el grado de dispersión, en base a la magnitud del rango o recorrido y del recorrido intercuartílico, y la asimetría en base la posición de la Mediana respecto de los bordes correspondientes a los cuartiles. 4.6. MEDIDAS DE CONCENTRACIÓN En Economía es frecuente el estudio de magnitudes cuyo valor global se distribuye entre el total de componentes de una población Este sería el caso de la masa salarial percibida por el conjunto de asalariados de cierto sector, o de los dividendos que percibirán una serie de accionistas, o simplemente de los presupuestos generales del Estado, que se distribuirán entre distintos epígrafes presupuestarios. En casos como éstos, puede resultar interesante conocer cómo se distribuye entre los perceptores la variable económica considerada. Utilizaremos para ello Medidas de Concentración las cuales nos indican si la magnitud total se encuentra repartida equitativamente o por el contrario existen desequilibrios en su reparto. Por lo tanto las Medidas o Índices de Concentración tienen como objetivo fundamental cuantificar el grado de desigualdad en el reparto o distribución de una magnitud económica (rentas, negocio, beneficios, etc...), entre un número determinado de “unidades” (individuos, familias, empresas, etc...). Consideremos la distribución de frecuencias (xi, ni); i=1, 2, ..., k, donde los valores xi están ordenados de menor a mayor, y siendo xi ≥ 0. Notar que si la distribución es agrupada xi representa la marca de clase del intervalo i-ésimo. El grado de concentración de una distribución se encuentra entre las dos situaciones extremas: 1.- Concentración máxima , cuando un único individuo percibe el total y el resto no percibe nada, en este caso, nos encontramos ante un reparto no equitativo: x 1 = x 2 = x 3 = ………… = xk-1 = 0 y xk  0 2.- Concentración mínima , cuando todos los individuos perciben el mismo valor de la variable, en este caso diremos que estamos ante un reparto equitativo x 1 = x 2 = x 3 = ………… = xk-1 = xk

El grado de concentración puede ser estudiado gráficamente o a través de algún índice numérico. Entre diversas Medidas de Concentración en esta sección presentamos dos: el índice de Gini y la curva de Lorenz. 4.6.1 Indice de Gini El Índice de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado Gini (1912). Normalmente se utiliza para medir la desigualdad en los ingresos, pero puede utilizarse para medir cualquier forma de distribución desigual. Se puede demostrar que la expresión para este índice viene dada por:

 

  

 

 (^) k 1 i 1 i

k 1

G i^1 i i p

p q I (1)

Para elaborar el índice de Gini y aplicar la formula (1) hemos de seguir algunas pautas:

  1. Calcular las frecuencias absolutas acumuladas Ni
  2. Calcular la masa parcial correspondiente a un valor xi de una variable X , es decir, multiplicar el valor de la variable por su frecuencia absoluta: xini.
  3. Obtener la masa parcial acumulada ui, es decir,

u = xj nj

i i j= 1

Asi: u 1 =x 1 n1; u 2 =x 1 n 1 +x 2 n2; ... .......uk = x 1 n 1 +x 2 n 2 +…+xk nk 4 Calcular las frecuencias relativas acumuladas en porcentaje que denotaremos por pi, es decir, p (^) i = NNi 100 5 Obtener las masas parciales acumuladas en porcentaje que denotaremos por qi, es decir, q = uu 100 k i i