Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Probabilidad y Estadistica, Apuntes de Estadística

Asignatura: Estadisitica, Profesor: Gloria Diaz Pardo, Carrera: Economía + Periodismo, Universidad: URJC

Tipo: Apuntes

2015/2016

Subido el 11/03/2016

monster69
monster69 🇪🇸

4.7

(3)

9 documentos

1 / 437

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga Probabilidad y Estadistica y más Apuntes en PDF de Estadística solo en Docsity!

ESTADÍSTICA DESCRIPTIVA

Y CÁLCULO DE PROBABILIDADES

Isabel Castillo Manrique

Marta Guijarro Garvi

Profesoras del Departamento de Economía

Universidad de Cantabria

Prólogo

José Luis Rojo García

Catedrático de Economía Aplicada

Universidad de Valladolid

Madrid • México • Santafé de Bogotá • Buenos Aires • Caracas • Lima • Montevideo • San Juan • San José • Santiago • São Paulo • White Plains

PRÓLOGO .......................................................................................................................... VII

  • CAPÍTULO 1. Distribuciones de frecuencias unidimensionales INTRODUCCIÓN IX
    • • Principales conceptos y resultados.........................................................................
    • • Aplicación de conceptos y demostración de resultados.........................................
  • CAPÍTULO 2. Distribuciones de frecuencias bidimensionales
    • • Principales conceptos y resultados.........................................................................
    • • Aplicación de conceptos y demostración de resultados.........................................
  • CAPÍTULO 3. Análisis de atributos
    • • Principales conceptos y resultados.........................................................................
    • • Aplicación de conceptos y demostración de resultados.........................................
  • CAPÍTULO 4. Números índices y tasas de variación
    • • Principales conceptos y resultados.........................................................................
    • • Aplicación de conceptos y demostración de resultados.........................................
  • CAPÍTULO 5. Análisis clásico de series de tiempo
    • • Principales conceptos y resultados.........................................................................
    • • Aplicación de conceptos y demostración de resultados.........................................
  • CAPÍTULO 6. Introducción al cálculo de probabilidades
    • • Principales conceptos y resultados.........................................................................
    • • Aplicación de conceptos y demostración de resultados.........................................

Pero la mayor innovación que se aprecia en la obra es su formato, que corresponde al de los denominados «libros de problemas». Así, las autoras no apabullan al lector (al estudiante) con una impactante y densa enumeración exhaustiva de los resultados y sus demostraciones. La presentación de los temas se realiza a través de un breve y bien organizado resumen que abor- da únicamente los conceptos centrales en estudio. Las ampliaciones se presentan dentro de los problemas, a través de sucesivos ejercicios que siguen el esquema de definición-ejemplo-resul- tados complementarios.

Este estilo disminuye la aridez de los desarrollos, facilitando la incorporación de los estudian- tes a los contenidos propuestos. Además, permite realizar diversas lecturas de los materiales, desde una más básica, que de cada tema extrae los rasgos más elementales, hasta la más sofis- ticada, para la que se definen conceptos más elaborados y se demuestran resultados formales de cierta complejidad, si bien ello se realiza, como se ha dicho más arriba, a través de la pre- sentación de ejercicios que consecutivamente sitúan los conceptos como ampliaciones de mate- riales más elementales.

Como las profesoras indican en su presentación, los temas tratados cubren las necesidades de la docencia en descripción estadística de datos que forman parte de los programas de las asig- naturas de Introducción a la Estadística de las titulaciones de Ciencias Sociales (Administra- ción y Dirección de Empresas, Economía, Empresariales, Sociología, Relaciones laborales o Sociología, por citar las más notables). Incluso se aborda un capítulo dedicado al cálculo de probabilidades, material que las distintas programaciones docentes sitúan indistintamente al final de las disciplinas introductorias o en el inicio de las disciplinas dedicadas al estudio de las distribuciones estadísticas y de los procedimientos inferenciales.

Pero, aunque su motivación responde a las necesidades docentes en Ciencias Sociales, la posi- bilidad de realizar lecturas a distintos niveles hace que este libro pueda ser utilizado también para un curso semestral de Introducción a la Estadística en carreras más técnicas, como las diplomaturas o licenciaturas en Ciencias y Técnicas estadísticas o las diplomaturas en Informá- tica de Gestión o de Sistemas, entre otras.

Cada profesional de la estadística tiene en la cabeza su libro, como proyecto o como declara- ción de intenciones, y no conozco dos de estos proyectos que coincidan al cien por cien. Así que no sorprenderá que eche en falta algunas cuestiones, como serían una incursión por el aná- lisis exploratorio de datos, o un mayor desarrollo de las medidas de asociación para atributos que sigan escalas nominales u ordinales. Cierto es que ello incrementaría notablemente el volu- men y (el precio) del libro, y perdería parcialmente el atractivo que posee en su versión actual.

En fin, no me cabe ninguna duda de que espera a este libro una fructífera singladura (por uti- lizar un símil marinero de los que tanto gustan a las autoras) de la que seremos beneficiarios docentes y profesionales de Estadística. Mi enhorabuena.

José Luis Rojo García Catedrático de Economía aplicada Universidad de Valladolid

VIII E S T A D Í S T I C A D E S C R I P T I V A Y C Á L C U L O D E P R O B A B I L I D A D E S

La obra que presentamos a continuación contiene las nociones fundamentales de estadística descriptiva, así como los conceptos introductorios de cálculo de probabilidades.

La estructura del trabajo permite entender los contenidos de la materia como un todo, en el cual teoría y práctica son indivisibles: no es un libro de teoría —aunque al inicio de cada capítulo haya una presentación de los principales conceptos y resultados—, tampoco un libro de ejerci- cios —aunque tenga más de 250 problemas resueltos y comentados—, es un libro de estadís- tica descriptiva e introducción al cálculo de probabilidades. Este hecho es fundamental, si se tiene en cuenta que el alumno tiende a rechazar los aspectos teóricos de las disciplinas de natu- raleza matemática, y a pensar que «no tienen relación» con las aplicaciones prácticas. Con este libro pretendemos ayudar a desmontar estas expectativas.

En la obra, por tanto, no sólo se enseña la herramienta estadística, sino que, prioritariamente, se muestra el modo de utilizarla. En la actualidad, con la generalización del uso de programas informáticos, el empleo de procedimientos estadísticos puede ser peligroso si se desconoce cómo, cuándo, dónde y por qué hay que aplicarlos; así, el libro consta de problemas sencillos que introducen en el conocimiento de las técnicas, y de otros, basados en la realidad que se pre- tende analizar, que permiten aprender los conceptos presentados.

A pesar de que este texto hará posible el aprendizaje individualizado de cualquier lector con cierta madurez, pues se describe y analiza cada concepto de manera sencilla, la claridad en la exposición no está exenta de rigor: un rigor que hemos procurado no sólo en los aspectos más teóricos, sino también en la elección de los supuestos prácticos que ayudarán al lector a inter- pretar la realidad en términos estadísticos.

En el primer capítulo se estudian las distribuciones de frecuencias unidimensionales, desde la presentación y representación de las mismas, hasta el análisis de sus principales medidas de resumen (posición, dispersión, forma y concentración). El capítulo segundo versa sobre las dis-

Introducción

Distribuciones de frecuencias unidimensionales

Principales conceptos y resultados

Se denomina población^1 a un conjunto de unidades, siendo una variable cualquier caracterís- tica numérica de las unidades de la población.

De la observación de una variable en las unidades de la población se obtienen datos u obser- vaciones que constituyen una estadística primaria. Cada observación distinta de una variable es un valor, denotándose por x 1 , …, x (^) h los h valores de una variable X, que supondremos orde- nados de menor a mayor, siendo x (^) i el valor genérico.

La frecuencia absoluta de un valor de una variable es el número de observaciones iguales a dicho valor o, equivalentemente, el número de unidades de la población que tienen ese valor de la variable. Se denota por ni la frecuencia absoluta genérica, esto es, la frecuencia absoluta correspondiente al valor x (^) i. Si N es el número total de datos se tiene:

h

i  1

ni  N.

La frecuencia relativa de un valor de una variable es la proporción de observaciones iguales a dicho valor. Se denota por fi la frecuencia relativa del valor x (^) i. Teniendo en cuenta que, por definición, que

f (^) i  ,

resulta, entonces,

h

i  1

fi  1.

ni  N

Capítulo 1

(^1) Esta denominación es debida a que dicho concepto fue estudiado por primera vez en Demografía.

Una distribución de frecuencias elaborada a partir de una estadística primaria es la relación de los valores de una variable junto con sus correspondientes frecuencias. Una distribución de frecuencias se denota mediante el par (xi; n (^) i) o bien (x (^) i; f (^) i), según se utilicen frecuencias abso- lutas o relativas^5.

Una distribución de frecuencias es unitaria , si todas las frecuencias absolutas son iguales a la unidad.

Llamaremos valores de la distribución a todas las observaciones de la variable en las unida- des de la población.

Dos variables tienen la misma distribución de frecuencias si coinciden sus valores y sus corres- pondientes frecuencias relativas.

La frecuencia absoluta acumulada de un valor de una variable 2 es el número de observacio- nes menores o iguales a dicho valor. Se denota por N (^) i la frecuencia absoluta acumulada del valor x (^) i^3. Se verifica que

N 1  n 1 y Ni  n 1  …  ni, para i  2, ..., h.

La frecuencia relativa acumulada de un valor de una variable es la proporción de observa- ciones menores o iguales a dicho valor. Denotaremos por Fi la frecuencia relativa acumulada genérica 4. Se cumple que

F (^) i  

N
N

i

y, además,

F 1  f 1 y Fi  f 1  …  fi, para i  2, ..., h.

En la siguiente tabla se resumen los conceptos definidos:

2 E S T A D Í S T I C A D E S C R I P T I V A Y C Á L C U L O D E P R O B A B I L I D A D E S

(^2) Algunos autores dan una definición más general de este tipo de frecuencias, al considerar la frecuencia absoluta acu- mulada asociada a cualquier número (no necesariamente a un valor de la variable). (^3) Nótese que N (^) h es igual a N. (^4) Nótese que F (^) h es igual a 1. (^5) Pueden considerarse frecuencias ordinarias o acumuladas.

Frecuencias ordinarias Frecuencias acumuladas Absoluta Relativa Absoluta Relativa x 1 n 1 f 1  n 1 /N N 1  n 1 F 1  f 1      xi ni fi  n (^) i /N Ni  n 1  …  ni Fi  f 1  …  fi      xh nh fh  n (^) h /N Nh  n 1 …nh  N Fh  f 1  …  fh  1

Hay una serie de medidas que informan sobre los aspectos fundamentales de las distribuciones de frecuencias de una variable.

En este sentido, las medidas de posición sitúan la distribución, es decir, indican en torno a qué valor están las observaciones de la variable. Una medida de posición actúa como medida de resumen de la información contenida en los datos.

Una de las medidas de posición más utilizada es la media aritmética. Se define como la suma de todas las observaciones de una variable dividida entre el número de ellas. La media aritmé- tica de la variable X, cuya distribución de frecuencias es (xi; n (^) i), media aritmética de la distri- bución de frecuencias (xi; ni) o, simplemente, media de X es, por consiguiente,

x  (^) Σ

h

i  1

xi  ni  (^) Σ

h

i  1

xi  fi.

Dada su definición, la media aritmética es muy sensible a los valores extremos de la variable.

La media aritmética de las desviaciones de los valores de la distribución con respecto a su media aritmética es igual a cero:

Σ

h

i  1

(xi  x ) fi  0.

La media aritmética de una distribución se ve afectada por transformaciones lineales y, por tanto, por cambios de origen y de escala en los valores de la distribución. Así, dada la distribución de fre- cuencias (xi; ni), cuya media es x, la media de la distribución transformada, (a  xi  b; ni), (a y b números reales) es a  x  b. En particular, si a 1/e y b   o/e y, (e y o números reales, e > 0), es decir, si la transformación lineal es un cambio de origen y de escala, entonces, la media de la distribución transformada es (x  o)/e.

Para promediar índices y tasas se utiliza la media geométrica , raíz N-ésima del producto de las N observaciones de una variable:

G  (^) N

h

i  1 

x ni i (^) 

h

i  1

x (^) if i.

La media armónica de una distribución de frecuencias (xi; ni), que se emplea para promediar magnitudes relativas, se define como el inverso de la media aritmética de la variable inversa, es decir, el inverso de la media aritmética de la distribución (1/x (^) i; ni):

H   .

La mediana de una distribución de frecuencias es el número que, supuesta una ordenación cre- ciente de los datos, tiene a su derecha y a su izquierda el mismo número de observaciones. Al no tener en cuenta la magnitud de los valores de la variable, su cálculo resulta adecuado en aquellas distribuciones con valores extremos.

Σ

h

i  1

x^1 i

  fi

N

Σ

h

i  1

^ nx i

i

N^1  (^) Σ

h

i  1

x^1 i

  ni

N

4 E S T A D Í S T I C A D E S C R I P T I V A Y C Á L C U L O D E P R O B A B I L I D A D E S

Para calcular la mediana en distribuciones no agrupadas en intervalos, se siguen los siguientes pasos:

  • Se obtiene el valor N/2.
  • Se calcula la frecuencia absoluta acumulada, N (^) i , de cada valor x (^) i.
  • Si existe un valor x (^) i tal que N (^) i N/2 —hecho que sólo puede darse cuando N es un número par—, la mediana es la media aritmética de los dos valores centrales de la distribución:

Me .

  • Si no existe un valor xi tal que N (^) i  N/2, la mediana se define como el mínimo valor x (^) i tal que Ni es mayor que N/2.

En el caso de distribuciones de frecuencias agrupadas en intervalos la mediana responde a la expresión:

Me  Li  1   ci,

donde Li  1 y ci son, respectivamente, el extremo inferior y la amplitud del intervalo media- no , esto es, del intervalo que ocupa la posición central 9.

La moda de una distribución de frecuencias es el valor con mayor frecuencia 10. En distribu- ciones agrupadas en intervalos, la moda se calcula como

Mo  Li  1   di 

d 1

i 

 d

1 i  1

  ci,

donde ci es la amplitud del intervalo modal —intervalo con mayor densidad de frecuencia 11 — y di es la densidad de frecuencia de dicho intervalo 12.

Los cuantiles son medidas de posición que dividen el conjunto de observaciones de una varia- ble en clases, conteniendo cada una de ellas una cierta proporción de observaciones. Denotaremos

^ N

  Ni  1  ni

xi  xi  1  2

Distribuciones de frecuencias unidimensionales 5

(^9) Para calcular el intervalo mediano se obtiene la frecuencia absoluta acumulada de cada intervalo. Si existe un inter- valo cuya frecuencia absoluta acumulada, N (^) i, es igual a N/2, éste es el intervalo mediano, siendo la mediana el extre- mo superior del intervalo, como puede comprobarse sustituyendo en la fórmula de esta medida de posición. Si no existe un intervalo verificando tal condición, el intervalo mediano es el primer intervalo cuya frecuencia absoluta acu- mulada es estrictamente mayor que N/2. (^10) Una distribución de frecuencias puede tener más de una moda cuando haya más de un valor con la máxima frecuencia. (^11) Cuando el intervalo modal es el primero (último), la moda es el extremo superior (inferior) del intervalo. (^12) Si los intervalos son de igual amplitud, puede sustituirse la densidad de frecuencia por la frecuencia correspon- diente, tanto en la definición de intervalo modal como en la expresión de la moda.

La varianza es un caso particular de la desviación cuadrática media con respecto a un prome- dio , P, que, dada una distribución de frecuencias (xi; ni), se define como

D P^2  (^) Σ

h

i  1

(xi  P )^2 ni Σ

h

i  1

(xi  P)^2 fi.

Otra medida de dispersión es la desviación absoluta media con respecto a un promedio , P, que, para una distribución de frecuencias (xi; ni), es

dP  (^) Σ

h

i  1

xi ^ P^  ^ ni Σ

h

i  1

xi ^ P ^ fi.

El coeficiente de variación respecto a un promedio , P, es una medida de dispersión rela- tiva que permite comparar variabilidades de diferentes distribuciones; además, sirve para dis- criminar entre promedios de una distribución. Dada una distribución de frecuencias (x (^) i; n (^) i), se define 16 como

VP  .

Este coeficiente se interpreta en valor absoluto: cuanto mayor sea el coeficiente de variación, mayor será la variabilidad de la distribución y, recíprocamente, cuanto menor sea el coeficien- te, menor la dispersión.

Cuando el promedio es la media aritmética se obtiene el coeficiente de variación de Pearson :

V .

El índice de dispersión respecto a un promedio , P, es, también, una medida de dispersión relativa. Dada una distribución de frecuencias (x (^) i; ni), se define 17 como

I P  .

Las medidas de resumen de la información proporcionada por los datos se basan en ciertas características halladas a partir de los valores de la distribución. Estas características, denomi- nadas momentos , son herramientas útiles para muchos cálculos.

Σ

h

i  1

xi ^ P^  ^ fi  P

N

 (^) Σ

h

i  1

xi ^ P^  ^ ni  P

S

x

h

i^  ^  1

(xi  P) ^2 fi  P

 N

^  Σ

h

i ^  1 

(xi  P )^2 ni  P

N
N

Distribuciones de frecuencias unidimensionales 7

(^16) Este coeficiente solamente está definido cuando P es distinto de cero. (^17) Véase nota anterior.

Dada una distribución de frecuencias (x (^) i; n (^) i), el momento de orden r respecto al origen o momento no central de orden r de la distribución es

ar  (^) Σ

h

i  1

x ri  ni  (^) Σ

h

i  1

x ri  fi.

Obsérvese que

a 1  (^) Σ

h

i  1

x (^) i  ni Σ

h

i  1

x (^) i  fi

es la media aritmética de la distribución.

El momento de orden r respecto a la media aritmética o momento central de orden r de la distribución de frecuencias (xi; ni) es

mr  (^) Σ

h

i  1

(xi  x )r^ ni Σ

h

i  1

(xi  x )r^ fi.

Nótese que la varianza, S^2 , es el momento central de orden dos:

m 2  (^) Σ

h

i  1

(xi  x )^2 ni Σ

h

i  1

(xi  x )^2 fi.

Dos son los aspectos fundamentales en el estudio de la forma de una distribución: su grado de simetría y su grado de apuntamiento o curtosis.

El coeficiente de asimetría más utilizado es el coeficiente de Fisher , que, para una distribución de frecuencias (xi; ni), es

g 1   .

Si la distribución es simétrica, esto es, cuando a la derecha y a la izquierda de su media arit- mética existe el mismo número de valores de la variable, a la misma distancia de la media y con la misma frecuencia, este coeficiente es nulo, siendo positivo o negativo si la distribución es asimétrica positiva o asimétrica negativa, respectivamente^18.

Σ

h

i  1

(xi  x )^3 fi   Σ

h

i  1

(xi  x )^2 fi

3/

N

 (^) Σ

h

i  1

(xi  x )^3 ni   N

 (^) Σ

h

i  1

(xi  x )^2 ni

3/

m 3  S^3

N
N
N
N

8 E S T A D Í S T I C A D E S C R I P T I V A Y C Á L C U L O D E P R O B A B I L I D A D E S

(^18) Nótese que el numerador de este coeficiente es el promedio de las desviaciones al cubo de las observaciones con respecto a su media aritmética, y que dicho promedio es igual a cero en el caso de que exista simetría, puesto que entonces habrá el mismo número de observaciones a la derecha que a la izquierda de la media. Además, como el denominador de este coeficiente es una potencia de la desviación típica, siempre positiva, el signo del coeficiente de asimetría depende del numerador, positivo en el caso de asimetría positiva (más desviaciones con respecto a la media positivas que negativas) y negativo en caso de asimetría negativa (más desviaciones negativas que positivas).