Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadistica, Apuntes de Estadística

Asignatura: estadistica, Profesor: Joaquin Joaquin, Carrera: Economía, Universidad: UAM

Tipo: Apuntes

2014/2015

Subido el 15/03/2015

cdd-7
cdd-7 🇪🇸

3.3

(45)

48 documentos

1 / 18

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
TEMA 3:
TEMA 3:
CARACTERIZACIÓN DE UNA
DISTRIBUCIÓN DE
FRECUENCIAS
Estadística Descriptiva
Juan A. Núñez-Serrano
1.Introducción
2.Medidas de posición
a) De posición central
b) De posición No central
3
Momentos potenciales
3
.
Momentos potenciales
4.Medidas de dispersión
a) Absolutas
b) Relativas
5.Medidas de forma
a) Asimetría
b) Curtosis
6.Medidas de concentración
Pará metro : es una cantidad numérica calculada sobre
una población,
Por ejemplo la altura media de los individuos de un país.
La idea es resumir toda la información que hay en la población
ú
t)
en unos pocos n
ú
mero
(
par
á
me
t
ros
)
.
Estadístico: es una cantidad numérica calculada sobre
una muestra.
Por ejemplo la altura media de los que estamos en este aula.
Si un estadístico se usa para aproximar un parámetro también
se le suele llamar estimador.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Vista previa parcial del texto

¡Descarga estadistica y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 3:TEMA 3:

CARACTERIZACIÓN DE UNA

DISTRIBUCIÓN DE

FRECUENCIAS

Estadística Descriptiva

Juan A. Núñez-Serrano

  1. Introducción
  2. Medidas de posición

a) De posición central

b) De posición No central

3 3. Momentos potencialesMomentos potenciales

  1. Medidas de dispersión

a) Absolutas

b) Relativas

  1. Medidas de forma

a) Asimetría

b) Curtosis

  1. Medidas de concentración

Parámetro : es una cantidad numérica calculada sobre

una población ,

  • Por ejemplo la altura media de los individuos de un país.
  • La idea es resumir toda la información que hay en la población

en unos pocos número (parámetros).ú ( á t )

Estadístico : es una cantidad numérica calculada sobre

una muestra.

  • Por ejemplo la altura media de los que estamos en este aula.
  • Si un estadístico se usa para aproximar un parámetro también

se le suele llamar estimador.

Posición central (centralización)

  • Indican valores con respecto a los que los datos parecen

agruparse. (Media, Mediana, Moda)

Posición no central

Medidas o estadísticos de distribución

Posición no central

  • Dividen un conjunto ordenado de datos en grupos con la misma

cantidad de individuos. (Cuantiles, percentiles, cuartiles,

deciles,...)

Dispersión

  • Indican la mayor o menor concentración de los datos con respecto

a las medidas de centralización. (Desviación típica, coeficiente

de variación, rango, varianza)

Forma

  • Asimetría y apuntalamiento o curtosis

Visualización gráfica

Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.

 Media Aritmética ( ) : Es el promedio de los valores de una variable.

Suma de los valores dividido por el tamaño muestral.

De posición central

x

^     ^ N i ii

N N i ii

N i i fx N

nx

N

xx x N

x X 1

1 1 2 ...^1 OJO!!! La media no tiene por qué ser representativa

Ejemplo: (^)  Media=6,

 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.  Centro de gravedad de los datos.  ¿Cómo se calcula cuando los datos están agrupados en intervalos? Marca de clase

 Ejemplo:

De posición central

 Media Geométrica ( G ) : Es la raiz N- del producto de los N valores de

la distribución.

De posición central

N

n

i

n i

N n n G xn^ xn xn^ xi      1

1 2

i  1

Características:

  • El logaritmo de la media geométrica es igual a la media

aritmética de los logaritmos de los valores de la variable

  • Si algún valor es cero o existen datos negativos, la

representatividad de esta media es nula

  • Se emplea para promediar variables que presentan variaciones

acumulativas: porcentajes, tasas, índices,...

 (^)  xi ni

N

G (log )

log

 Media Armónica ( G ) : Es la media aritmética de los inversos de los

valores de la variable.

De posición central

 (^) n ni

N
H

Características:

  • Si algún valor es cero o existen datos negativos, la

representatividad de esta media es nula

  • Se emplea para promediar variables que presentan velocidades,

tiempos, rendimientos,...

i

i 1 xi

 Ejemplo:

De posición central

 Mediana ( Me ) : Es un valor que divide a la las observaciones (ordenadas

de forma creciente) en dos grupos con el mismo número de individuos. Si el número de datos es par, se elige la media de los dos datos centrales.

De posición central

Ejemplos:  Mediana de 1,2,4, 5 ,6,6,8 es 5  Mediana de 1,2,4, 5 , 6 ,6,8,9 es (5+6)/2=5,  Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.  Mediana de 1,2,4, 5 ,6,6, 800 es 5. ¡La media es 117,7!

Media=

Media=

De posición central

Características de la mediana:

  • Cuando los datos están agrupados (hay intervalos) para calcular la mediana hay que buscar el intervalo donde se encuentra el N/2 y luego aplicar la siguiente formula
  • Es muy recomendable cuando se tienen datos extremos. Además su cálculo es rápido y su interpretación es muy sencilla: el 50% de las observaciones está a la izquierda de la Mediana y el 50% a la derecha.
  • Además, tiene más sentido utilizar esta medida cuando los datos tienen una escala ordinal, es decir, cuando tiene sentido ordenar los datos.

i i

i

i n c

N

N

Me L

1 1

 

Las medidas de posición NO CENTRAL resumen los valores que separan a los datos en grupos significativos. Una medida de posición es un indicador que se usa para señalar qué porcentaje de datos dentro de la muestra se encuentra a un lado y a otro del mismo.

 Se define el cuantil de orden “tal “ como un valor de la variable por

De posición NO central

debajo del cual se encuentra una frecuencia acumulada a “tal” porcentaje.

 Casos particulares son los cuartiles, percentiles, deciles, quintiles,...

 Cuartiles (C r): Son los 3 valores que dividen la muestra en cuatro partes

iguales, es decir, en cuatro intervalos dentro de cada cual se encuentra el 25% de los valores de la distribución. (k=4)

 Deciles (Dr): Son los 9 puntos que dividen la distribución en 10 partes, de

f d d d á i l id l 10% d l l d

De posición NO central

forma que dentro de cada una están incluidos el 10% de los valores de la distribución. (k=10)

 Percentiles (Pr): Son los 99 valores que dividen la distribución en 100

partes. (k=100)

Datos NO AGRUPADOSDatos AGRUPADOS

k

r Q N k

r ^ i i

i

rk i c

n

N

k

r

N

Q L

1 1

 

 Ejemplo:

De posición NO central

x (^) i ni N (^) i fi F (^) i 1 2 2 0.05 0. 2 6 8 0.15 0. 3 10 18 0.25 0. 4 5 23 0.125 0.

24

N

Q

C 2  Me  4

3 ^  

N

Q C 3  5 4 5 23 0.125 0.

TOTAL 40 1
  • Calculamos el segundo cuartil (C 2 ), que ocupa la posición correspondiente a la “mitad”, ¿con qué parámetro visto ya coincide este segundo cuartil?.
  • Calculamos el tercer cuartil (C 3 ).
  • Calculamos el percentil noventa y cinco (P 95 ).

Q C 3 5

95100

N

Q P 95 ^7

Los momentos son medidas obtenidas a partir de todos los

datos de una variable estadística y sus frecuencias

absolutas. Estas medidas caracterizan a las distribuciones de

frecuencias de tal forma que si los momentos coinciden en

dos distribuciones, diremos que son iguales.dos distribuciones, diremos que son iguales.

Momentos respecto al origen (ar )

Momentos respecto a la media (mr )

 Momentos respecto al origen (a r) Se define al momento respecto al

origen de orden r de una variable estadística a la expresión:

Respecto al origen

 Ejemplo: N

x n a

N

i

i

r

r

i  ^1

x (^) i ni x (^) i∙ni x (^) i^2 ∙ni 1 2 2 2 2 6 12 24 3 10 30 90 4 5 20 80 5 10 50 250 6 3 18 108 7 2 14 98 8 2 16 128 TOTAL 40 162 780

1 40

1 40

0

0   

N

x n a

N i ii

4 , 05 40

1 162

1 1   

N

x n a x

N i ii

19 , 5 40

1 780

2

2   

N

x n a

N i ii

4 , 05 40

1 162

1 1   

N

x n a x

N i ii

 Ejemplo: N

 Momentos respecto a la media (m r) Se define al momento respecto a la

media de orden r de una variable estadística a la expresión:

Respecto a la media

 

N

x x n m

N

i

i

r

r

 i   1

 Ejemplo:^ r N

x (^) i ni (x (^) i‐) (x (^) i‐) 2 (x (^) i‐)∙ni (x (^) i‐) 2 ∙ni 1 2 ‐3.05 9.30 ‐6.1 18. 2 6 ‐2.05 4.20 ‐12.3 25. 3 10 ‐1.05 1.10 ‐10.5 11. 4 5 ‐0.05 0.00 ‐0.25 0. 5 10 0.95 0.90 9.5 9. 6 3 1.95 3.80 5.85 11. 7 2 2.95 8.70 5.9 17. 8 2 3.95 15.60 7.9 31. TOTAL 40 0 123.

 Ejemplo:

  1 40

1 1 40 0   

 

  N

n

N

x xn m

N i i

N i i

o i

  0 40

1 0

1

1  

 

N

x x n m

N

i i i

  3 , 0975 90

1 123.^9

2

2  

 

N

x x n m

N

i i i

Desviación típica (Sx ): Es la parte positiva de la

raíz cuadrada de la varianza.

Medidas de dispersión absolutas

Sx  S x

  • Sus unidades son las mismas a la de la variable.
  • Cuanto mayores son sus valores, más dispersos son los datos.

1. Las mismas que la varianza.

2. Es más sensible a los valores extremos que la desviación

media, pues previamente ha sido elevado al cuadrado.

Propiedades:

x x

La Tipificación no es más que hacer un cambio de

origen (que es la media) y de escala (la desviación

típica) sobre la variable original.

Transformación de variables

  • De este modo la media de la nueva variable será igual 0 y

su desviación típica será 1.

  • Es útil para comparar datos.
  • Una variable tipificada no tiene unidades. Los valores

representan el número de desviaciones típicas que se alejan

de la media y en qué dirección (a través del signo).

x

i S

x x Z

 

 Para poder comparar distintas distribuciones se necesita que

las unidades de medida no existan (o sean las mismas), es

decir, que sean adimensionales.

Medidas de dispersión relativas

  • Coeficiente de apertura (A): Ratio entre el máximo y el mínimo valor de la variable. ( muy sensible a valores extremos ) Como no hace referencia a la media no resuelve el problema de comparación.
  • Recorrido relativo (Rer ): Cociente entre el Recorrido y la media aritmética.

Es el número de veces que el Re contiene a la media.

  • Recorrido semi-intercuartílico (Res ): Cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil.

min( )

max() i

i x

Ax

r x Re ^ Re

3 1

Re 3 1 C C

C C s (^)   

 Coeficiente de Variación de Pearson (CV): Se define como la

razón entre la desviación típica y la media aritmética.

  • Mide la desviación típica en forma de “ qué tamaño tiene con respecto a la media

Medidas de dispersión relativas

S CV

x

  • También se la denomina variabilidad relativa.
  • Es frecuente mostrarla en porcentajes: Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)
  • Invariante ante cambios de escala pero NO es invariante ante cambios de origen.

Adimensional. Interesante para comparar la variabilidad de diferentes variables.

  • Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.

x

CV

 Ejemplo:

xi n (^) i xi∙n (^) i xi^2 ∙n (^) i (xi‐)^2 ∙n (^) i Ixi‐I Ixi‐I∙n (^) i 1 2 2 2 18.61 3.05 6. 2 6 12 24 25.22 2.05 12. 3 10 30 90 11.03 1.05 10. 4 5 20 80 0 01 0 05 0 25

Desviación media respecto a :

Coeficiente de variación de Pearson:

x

S

CV x

4 5 20 80 0 .01 0.05 0. 5 10 50 250 9.03 0.95 9. 6 3 18 108 11.41 1.95 5. 7 2 14 98 17.41 2.95 5. 8 2 16 128 31.21 3.95 7. TOTAL 40 162 780 123.9 58.

4 , 05 40

1 162

1

1   

N

x n a x

N

i ii

19 , 5 40

1 780

2 2   

N

x n a x

N i ii

S^2 x^  a 2 ( a 1 )^2  19 , 5 ( 4 , 05 )^2  3. 0975

Varianza:

  1. 0975 40

  2. 9

( )^2 2 2  

  

N

x x n m S i

i i x

Desviación Típica:

SxS^2 x^  3. 0975  1 , 76

1 , 4575 40

^1 ·^58.^3 

N

x x n D

i

N

x i i

 Para analizar los datos no vale sólo con conocer su media (posición) y

desviación típica (dispersión) sino que también es importante conocer su forma a partir de la asimetría y el apuntamiento.

 De este modo se puede caracterizar una distribución de frecuencias casi por

completo.

 Í

Asimetría

 Para estudiar la (A)SIMETRÍA de una distribución se tienen que

comparar los valores con la media aritmética.

 Lo más fácil para ver la asimetría sería analizar su desviación respecto a

la media, pero sabemos que la suma de todos es cero (prop. Media).

 De este modo se suele utilizar el momento de orden 3 respecto de la media

(interesa conocer el signo). ( PROBLEMA: no es adimensional ni invariante ante cambios de escala)

  • Si m 3 = 0 SIMÉTRICA
  • Si m 3 > 0 ASIMÉTRICA POSITIVA (A Dchas)
  • Si m 3 < 0 ASIMÉTRICA NEGATIVA (A Izdas)

 

N

x x n m

N

 i  i i

  1

3

3

APUNTAMIENTO : La mayor concentración de frecuencias alrededor

de la media y en la zona central de la distribución dará lugar a

una distribución más o menos APUNTADA.

 La curtosis nos indica el grado de apuntamiento (aplastamiento) de una

Apuntamiento o curtosis

distribución con respecto a la distribución normal o gaussiana.

  • Si g2= 0 NORMAL  MESOCÚRTICA (meso=medio)
  • Si g 2 > 0 APUNTADA  LEPTOCÚRTICA (Lepto=delgado)
  • Si g 2 < 0 APLASTADA  PLATICÚRTICA (plati=plano)

2 ^44 ^3

S

m

g

 Ejemplo:

Coeficiente de asimetría de Fisher:

No tiene sentido porque no hay única moda

x (^) i ni (x (^) i‐) 3 ∙ni (x (^) i‐) 4 ∙ni Coeficiente de asimetría de Pearson: 1 2 ‐56.75 173. 2 6 ‐51.69 105. 3 10 ‐11.58 12.

Coeficiente de apuntamiento o curtosis:

TOTAL 40 85.41 981.

2 , 135 40

85 , 41

( )^3 · 3  

 

N

x x n m i

i i 24 , 526 40

981 , 06

( )^4 · 4  

 

N

x x n m i

i i

3 3

1 ^3   
S

m g Asimetría a la derecha

3 0 , 440 ( 1. 76 )

981 , 06 2 ^44 ^3  4   S

m g Platicúrtica

 Box plot o diagrama de caja Es una representación gráfica

que recoge buena parte de las medidas que se acaban de

ver, con las siguientes ventajas:

  • Sitúa la mediana y los cuartiles extremos mostrando cómo se comporta la variabilidad y extraer la relación que tienen con ella las colas de la distribución.
  • Permiten conocer visualmente la globalidad de un conjunto de datos así como la cantidad de variabilidad que presentan.
  • Analizan características de simetría en la población de la que proceden los datos.
  • Permiten detectar la presencia de observaciones extremas o datos anómalos (outliers).
  • El intervalo [L (^) i -L (^) s] es el intervalo de valores admisibles. Los valores que quedan fuera del mismo son los considerados atípicos.
  • Si la mediana esta en el centro de la caja o cerca del mismo constituye uncaja o cerca del mismo, constituye un indicio de simetría.
  • Si la línea de la mediana se encuentra más cerca de Q 1 , es indicio de que los datos son asimétricos a la derecha o positiva (y al contrario).
  • Si la línea que parte de Q 3 es más corta que la que parte de Q 1 , es indicio de que lo datos son asimétricos a la izquierda o negativos (y al contrario).

En la distribución de salarios de una empresa se puede estudiar si la masa salarial (o nómina de la empresa) se encuentra concentrada en unos pocos trabajadores o si, por el contrario, está bien repartida entre ellos.

Concepto

Dispersión “opuesto a” concentración

concentración En estadística esto no es así: Dispersión significa variabilidad de los datos y, por tanto, representatividad Concentración indica igualdad en el reparto de alguna variable

900 900 €€

10 empleados10 empleados 1 director1 director

8.1008.100 €€

Estos sueldos estarían muy desproporcionados,Estos sueldos estarían muy desproporcionados, muy concentradosmuy concentrados en una sola personaen una sola persona

Miden el grado de igualdad en el reparto del total de los valores de la variable.

Indican el grado de equidistribución de la variable = grado de CONCENTRACIÓN.

Concepto

LLos casos extremos serían: í ConcentraciónConcentración mínimamínima oo equidistribuciónequidistribución:: Cuando todos los trabajadores reciben la misma cantidad:

x 1  x 2  x n

ConcentraciónConcentración máximamáxima:: Cuando de los n trabajadores sólo uno percibe el total de las rentas (de los salarios) y los demás nada:

x MTV

x x x

n

n

1 ^2   1 ^0

Masa Total de la VariableMasa Total de la Variable (MTV)

Curva de Lorenz

A continuación en unos ejes de coordenadas, se marca en el de abcisas los siguientes valores de p (^) i en porcentajes:

1 ^1 ^1 ^0 ,^20 ^20 %
N

n N

N

p que^ indican^ loslos^ porcentajesporcentajes^ dede trabajadorestrabajadores concon unun nivelnivel dede salariosalario

5 1 2 3 4 5 5

4 1 2 3 4 4

3 1 2 3 3

2 1 2 2

N

n n n n n N

N

p

N

n n n n N

N

p

N

n n n N

N

p

N

n n N

p N

trabajadorestrabajadores concon unun nivelnivel dede salariosalario igualigual oo inferiorinferior alal ii--ésimoésimo..

Por ejemplo, si i = 3 tenemos que p (^3) es el 60%, lo que significa que el 60% de los trabajadores obtienen un salario anual igual o inferior al “tercero” en orden ascendente.

Curva de Lorenz

Sobre el eje de ordenadas se anotan los valores de q (^) i , también porcentajes:

11 22 2

11 1

xn xn x n

MTV

xn xn q

MTV

xn q

11 22 33 44 55 5

11 22 33 44 4

11 22 33 3

MTV

xn xn xn xn xn q

MTV

xn xn xn xn q

MTV

xn xn xn q

que indican lala parteparte queque deldel totaltotal dede lala masamasa salarialsalarial lesles correspondecorresponde aa loslos trabajadorestrabajadores cuyocuyo salariosalario eses igualigual oo inferiorinferior alal ii--ésimoésimo. Por ejemplo para i = 4 se tiene que q 4 es el 56,95%, es decir, de los 181.505,66 €, el 56,95% corresponde a los trabajadores con salario igual o inferior al “cuarto” en orden ascendente.

Curva de Lorenz

Es siempre creciente (porque p y q son acumulados)

Se sitúa siempre por debajo de la diagonal, ya que, al estar ordenados los salarios de menor a mayor, ningún q (^) i. podrá ser mayor que su correspondiente p (^) i GRÁFICO 1 D En caso de equidistribución p (^) i = q (^) i. , la curva de concentración sería la diagonal , recta que se denomina recta de equidistribución.

En caso de máxima concentración , la curva de concentración, denominada curva de máxima concentración , vendría dada por ABD donde p 1 = (N-1/N) %; q 1 = 0% p 2 = 100%; q 2 = 100%

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100 pi (%) porcentaje acumulado de trabajadores

qi (%) porcentaje acumulado de la masa salar

Curva de concentración Rect a de Equidistribución Curva de Máxima Concentración

(80 ; 56,95)

(60 ; 30,46) (50 ; 22,18) (20 ; 8,28)

D

A B C

Curva de Lorenz

A (^) n 10 0

A (^) n 10 0

p (^) i (% )

q i (% )

B p a

O 1 00 p^ i^ ( % )

q i (% )

B p a

O 1 0 0

Área Conc (^) Área Máx Conc

Cuanto mayor sea el área de concentración respecto del área máxima concentración, mayor será la desigualdad en el reparto de la masa total de la variable. Por consiguiente, de manera natural, las medidas de concentración se obtendrán por cociente entre estas dos áreas.

Índice de Gini

Índice deÍndice de GiniGini

AMC

AC

Índice deÍndice de GiniGini

Índice de Gini

Gini

I

Equidistribución

1

1

1

N

i

i

N

i

i i

p

p q IG

Máxima Concentración

xi ni xini Ni Ui pi qi pi-qi* 300 3 900 3 900 9,68 3,59 6, 500 10 5000 13 5900 41,94 23,51 18, 625 4 2500 17 8400 54,84 33,47 21, 950 6 5700 23 14100 74,19 56,18 18, 1000 5 5000 28 19100 90,32 76,10 14, 2000 3 6000 31 25100 100,00 100,00 0, 5375 31 25100 73500 N-1 270,97 192,83 78,

1

1

N

i

pi 

1

1

N

i

pi qi