Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


estadistica I, Apuntes de Estadística

Asignatura: Estadistica 1, Profesor: , Carrera: Administració i Direcció d'Empreses, Universidad: UB

Tipo: Apuntes

2014/2015

Subido el 25/10/2015

mireiaa1719
mireiaa1719 🇪🇸

3.7

(2)

1 documento

1 / 181

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
ESTADÍSTICA I (ADE): TEORÍA Y EJERCICIOS
Victoria Alea Riera
Ernest Jiménez Garrido
Carme Muñoz Vaquer
Núria Viladomiu Canela
Curso 2015/16
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga estadistica I y más Apuntes en PDF de Estadística solo en Docsity!

ESTADÍSTICA I (ADE): TEORÍA Y EJERCICIOS

Victoria Alea Riera

Ernest Jiménez Garrido Carme Muñoz Vaquer

Núria Viladomiu Canela

Curso 2015/

Tema 1. CONCEPTO Y CONTENIDO DE LA ESTADÍSTICA

Objeto de la estadística Estadística descriptiva e inferencia estadística Población y muestra Datos. Clasificación y escalas de medida Instalación del programa R-Commander

La ESTADÍSTICA da respuesta a preguntas como son:

  • ¿Cuál será la proporción de electores que votarán a un partido determinado en unas elecciones municipales?
  • ¿Cuál es el porcentaje de unidades defectuosas con que opera determinado proceso de producción?
  • ¿Cuál es precio de los spots publicitarios en televisión?
  • ¿Han variado en los últimos 5 años los alquileres de los locales comerciales en la ciudad de Barcelona?
  • ¿Cómo repercute sobre la demanda de un producto un incremento en su precio?
  • ¿Cómo se relacionan la tasa de inflación y la tasa de paro de un país?

La estadística permite reducir la incertidumbre en el proceso de toma de decisiones en el ámbito empresarial, económico, político, etc.

El proceso estadístico comienza identificando el grupo cuyo comportamiento se quiere describir. Este grupo recibe el nombre de POBLACIÓN. La población estadística está formada no sólo por personas, sino por cualquier tipo de objetos o entidades sobre los cuales pueda observarse alguna característica.

Por ejemplo, se quiere averiguar la proporción de electores de Badalona que votarán a un determinado candidato en las próximas elecciones municipales. En este caso la población está formada por todos los habitantes censados en Badalona con capacidad de voto.

Un fabricante quiere calcular el porcentaje de unidades defectuosas con que opera su proceso de producción. En este caso la población la constituyen todas las unidades fabricadas mientras el proceso se mantenga en su actual estado. En este caso el número de elementos de la población es teóricamente infinito.

Dada la naturaleza limitada de la información muestral, al inferir (inducir) el comportamiento de la población a partir de la descripción de la muestra, es necesario evaluar la fiabilidad de los resultados en términos probabilísticos.

La TEORÍA DE LA PROBABILIDAD permite calcular el margen de error con el que puede aceptarse el modelo matemático o teórico de comportamiento propuesto para la población.

DATOS

La observación de la característica de interés en la muestra proporciona los DATOS. Los datos pueden consistir en un conjunto de valores numéricos o modalidades. Por ejemplo, si se sondea a la población de electores de Badalona sobre su intención de votar a determinado candidato los datos presentan dos modalidades: SI/NO. En el caso de que se analicen los resultados académicos de los estudiantes de Andalucía, los datos serán valores numéricos, de 0 a 10. En el caso de que se analice el importe del alquiler de las viviendas de una localidad, los datos son valores numéricos en Euros.

Las VARIABLES son las características de los individuos que se quieren estudiar y pueden tomar distintas modalidades o valores.

Los DATOS son el conjunto de observaciones de una o más características obtenidas de una población o de una muestra.

Es importante distinguir entre los distintos tipos de datos con los que podemos tratar. Sus diferencias determinan la selección y aplicación de las técnicas estadísticas

Tema 2. DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA

Tabla de frecuencias simple: variable discreta Diagrama de barras y de frecuencias acumuladas Tabla de frecuencias con valores agrupados: variable continua Histograma y polígonos de frecuencias Análisis exploratorio de datos: diagrama de tallo y hojas (Stem and Leaf)

TABLA DE FRECUENCIAS

Recoge de forma resumida el conjunto de datos resultantes de la observación de una variable en un colectivo o muestra de n individuos.

Elementos de una tabla de frecuencias

  1. Tabla de frecuencias con los valores de la variable sin agrupar:

Xi ni fi Ni Fi x1 n1 f1 N1 F x2 n2 f2 N2 F …. … … … … xi ni fi Ni Fi … … … … … xk nk fk Nk=n Fk= n 1

Interpretación de las columnas de la tabla:

  • Xi, valores de la variable, recoge cada uno de los valores observados de X ordenados de menor a mayor.
  • ni, frecuencia absoluta del valor xi, es el número de elementos de la muestra para los que X = xi.

1

k ∑i = ni^ =n La suma de todas las frecuencias absolutas es igual a n.

  • fi, frecuencia relativa, es la proporción en tanto por uno de elementos para los que X = xi. fi = ni/n

1

k ∑i = fi^ = La suma de todas las frecuencias relativas es igual a 1.

Si se multiplican las frecuencias relativas por 100 se obtienen los correspondientes porcentajes.

  • Ni, frecuencia absoluta acumulada hasta el valor xi, es el número de elementos para los que X ≤ xi. Ni = n1 + n2 + … + ni-1 + ni = 1

i

∑ j =^ n j

  • Fi, frecuencia relativa acumulada hasta xi, es la proporción de elementos para los que X ≤ xi. Fi = f1 + f2 + … + fi-1 + fi = 1

i

∑ j =^ f j

Si las frecuencias relativas acumuladas se multiplican por 100 se obtiene los porcentajes acumulados.

  1. Tabla de frecuencias con los valores de la variable agrupados en intervalos.

Li-1-Li Xi (ci) ni fi Ni Fi L0-L1 (^) x1 ni f1 N1 F L1-L2 x2 n2 f2 N2 F …. (^) …. …. .... …. …. Li-1-Li (^) xi ni fi Ni Fi .... … .... .... .... .... Lk-1-Lk (^) xk nk fk Nk=n Fk= n 1

Interpretación de las columnas de la tabla

  • Li-1-Li recoge todos los intervalos o clases en los que se agrupan los valores de la variable; Li-1 y Li son los límites inferior y superior del intervalo i-ésimo. Los intervalos, por omisión, se establecen abiertos en el límite inferior y cerrados en el superior.
  • ai, amplitud del intervalo i-ésimo, es ai = Li – Li-i.
  • xi, marca de clase o punto medio del intervalo, es el valor que representa al intervalo en el análisis descriptivo, xi = 1 2

L i (^) − + Li.

  • ni, frecuencia absoluta del intervalo, es el número total de elementos para los que el valor de X está dentro del intervalo i-ésimo. 1

k

∑i =^ ni^ =n

  • fi, frecuencia relativa del intervalo, es la proporción en tanto por uno de elementos para los que X está dentro del intervalo i-ésimo, fi = ni/n.

Diagrama de Escalera

El diagrama en escalera se utiliza para representar las distribuciones de frecuencias absolutas o relativas acumuladas correspondientes a una variable discreta que toma pocos valores diferentes.

Para construir el diagrama se sitúan en el eje de abscisas los valores de la variable y en el de ordenadas las frecuencias acumuladas. Se marca los puntos de coordenadas (xi, Ni) o (xi, Fi) según se quiera representar las frecuencias absolutas o relativas. Desde cada uno de estos puntos se traza una recta paralela al eje de abscisas hasta el valor siguiente de X, es decir, hasta el punto (xi+1, Ni), dado que entre dos valores consecutivos no hay acumulación de frecuencia. Los puntos extremos de las líneas horizontales se unen con líneas verticales dando al diagrama el aspecto de escalera.

  • El máximo que alcanza el gráfico es n si se representan las frecuencias absolutas acumuladas o 1 si se representan las frecuencias relativas acumuladas.
  • La altura de los escalones es la frecuencia absoluta o relativa de cada valor xi.

Por ejemplo, para una variable X que toma únicamente los valores x1, x2, …, x6, el diagrama de frecuencias relativas acumuladas podría ser:

Histograma

Se construye colocando en el eje de abscisas los intervalos en los que se agrupan los valores de la variable. Sobre cada intervalo se dibuja un rectángulo cuya área debe ser igual o proporcional a su frecuencia.

  • Si todos los intervalos son de igual amplitud, por comodidad, se dibujan los rectángulos con alturas iguales a las frecuencias. En este caso, el área de los rectángulos será proporcional a la frecuencia.
  • Si la amplitud del intervalo es variable se debe calcular su densidad o altura de los rectángulos. En este caso, el área de los rectángulos será igual a la frecuencia del intervalo. Densidad = altura = frecuencia amplitud

En el histograma:

  • Las áreas y no las alturas de los rectángulos son las que representan las frecuencias.
  • La altura de los rectángulos informa sobre la densidad o concentración de observaciones en el intervalo.
  • El área total es igual o proporcional al tamaño de la muestra.
  • Si se representan las frecuencias relativas, el área total es igual o proporcional a 1.
  • El perfil del histograma depende de la elección del número y la amplitud de los intervalos.
  • El perfil del histograma es el mismo tanto si se representa la distribución de frecuencias absolutas como la de frecuencias relativas.

Polígono de Frecuencias

Es un gráfico que sintetiza el perfil del histograma y suele presentarse superpuesto a éste.

El polígono se construye situando en el eje de abscisas los límites de los intervalos definidos en la tabla y en el de ordenadas las frecuencias acumuladas. Se señalan los puntos correspondientes a los límites superiores y sus frecuencias acumuladas, (Li, Ni) o (Li, Fi), y con trazo continuo se unen dichos puntos, empezando por el punto (L0, 0) (límite inferior del primer intervalo, frecuencia acumulada 0) y acabando en el punto (Lk, n) o (Lk, 1) (límite superior del último intervalo, frecuencia total acumulada.

Al realizar el gráfico, dado que ya no se dispone de las observaciones correspondientes a cada intervalo, se supone que éstas se reparten uniformemente en el intervalo, por lo tanto, la frecuencia se acumula de forma lineal.

Por ejemplo, para una variable X se ha tabulado en K intervalos, el diagrama de frecuencias absolutas acumuladas podría ser:

Este tipo de gráfico es adecuado si se quiere:

  • Localizar valores que acumulan una determinada frecuencia. Se fija la frecuencia acumulada en el eje vertical y se localiza el valor correspondiente en el eje horizontal.
  • Obtener el número o el porcentaje de observaciones con “menos que” o “más que” un valor determinado. Se fija el valor en el eje horizontal y en el eje vertical se halla la frecuencia acumulada.
  • Identificar el modelo de distribución poblacional o teórica asociado a la muestra analizada superponiendo los gráficos.

Diagrama Stem-and leaf (Gráfico de tallo y hojas)

El diagrama de tallo y hojas es una técnica para presentar datos cuantitativos en formato gráfico.

Esta técnica proporciona simultáneamente:

  • La ordenación de los datos. Todas las observaciones quedan ordenadas de menor a mayor, lo que facilitará la localización de algunas medidas de síntesis como son la mediana y los cuantiles.
  • La tabulación de los datos. Cada tallo define un intervalo cerrado por la izquierda y abierto por la derecha equivalente al intervalo de la tabla de frecuencias con valores agrupados.
  • La representación gráfica de la distribución. El perfil del gráfico es similar al histograma que se obtendría de su correspondiente tabla de frecuencias.

Al igual que el histograma, mediante el diagrama de tallo y hojas se visualizan diferentes rasgos de la distribución como son:

  • Rango de los valores (dispersión)
  • Localización de valores centrales
  • Identificación de valores muy o poco frecuentes
  • Saltos (gaps) o lagunas
  • Valores anómalos o extremos notablemente desviados del conjunto
  • Asimetría y forma.

Comparándolo con el histograma presenta las siguientes ventajas:

  • No condensa la información. Se puede seguir reconociendo los elementos de la muestra con una mínima pérdida de información.
  • Facilita la localización de los cuantiles.
  • Informa de la existencia de valores outliers y los identifica.

Para construir este diagrama:

  • Se divide cada valor observado en dos partes: hoja y tallo. Para ello, se fija la posición del dígito que se tomará como hoja (…, décimas, unidades, decenas, centenas, …) y los tallos quedan determinados por los dígitos que quedan a la izquierda de dicha posición.

Si se subdividen en 2 partes, a la primera le corresponderán las hojas del 0 al 4 y a la segunda del 5 al 9.

ni Tallo Hojas 5 3 22244 10 3 5555777789 15 4 001222222233333 10 4 5555577899 5 5 00111

Unidades de las hojas: 1 3|2 representa 32

En el diagrama de tallo y hojas anterior se observa que la distribución es poco dispersa, los valores centrales están alrededor del 42, no presenta saltos o lagunas ni valores extremos y es simétrica.