Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Tablas estadisticas, Diapositivas de Estadística Descriptiva

Precensatacion que describe gran parte la introduccion a la Estadistica Descriptiva Unidimencional

Tipo: Diapositivas

2018/2019

Subido el 05/07/2019

CristianPaz
CristianPaz 🇨🇴

1 documento

1 / 39

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tablas
Estadísticas
Con Comentarios
Roberto Behar Y Pere Grima
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27

Vista previa parcial del texto

¡Descarga Tablas estadisticas y más Diapositivas en PDF de Estadística Descriptiva solo en Docsity!

Tablas

Estadísticas

Con Comentarios

Roberto Behar Y Pere Grima

Tablas Estadísticas

Con Comentarios

Roberto Behar - Pere Grima

1ª Edición

Abril del 2002

Índice

  • Distribuciones de probabilidad: Azar no significa ausencia de regularidad ¿Para qué sirven las tablas?
  • Prueba de significación para el coeficiente de correlación
  • Estimación de una proporción en la población
  • ¿Cómo se han construido?
  • Forma de las distribuciones
  • Uso de las tablas a través de ejemplos
  • Distribución binomial TABLAS
  • Distribución de Poisson
  • Distribución Normal estandarizada
  • Distribución t de Student
  • Distribuciçon Chi-ciadrado
  • Distribuci´çon F de Snedecor
  • Valores críticos del coeficiente de correlación
  • Tamaños de muestra para la estimación de proporciones

También conviene poner de manifiesto que la distribución de probabilidad representa un modelo

teórico para realizar cálculos, que es muy útil, pero no por eso hay que confundirlo con la realidad.

Uno de los ejemplos más típicos de la distribución Normal es la distribución de las alturas de las

personas, pero si pudiéramos medir la altura de los miles de millones de seres humanos adultos, y

representarla en forma de histograma, su perfil no sería el de la típica campana que conocemos. En

este, como en otros casos, se trata de un modelo teórico, muy útil para describir la realidad, pero

que no hay que confundir con la realidad misma.

Ejemplos de variables que parece razonable modelar con las distribuciones comentadas son:

Binomial Poisson Normal

  • Número de veces que sale el 5 al lanzar 20 veces un dado.
  • Número de piezas defectuosas en un lote de 100, sabiendo que la máquina que las ha fabricado produce un 3% de defectos.
  • Número de personas que votan por un determinado partido en un conjunto de 50 tomadas al azar.
  • Número de veces que aparece la letra e en la página de un libro.
  • Número de hogares que tienen ordenador con conexión a internet, de un conjunto de 100 tomados al azar. - Número de averías anuales que tiene un ascensor. - Número de partículas emitidas por una sustancia radioactiva por unidad de tiempo - Número de accidentes de tráfico en una determinada área geográfica durante el fin de semana. - Número de llamadas que se reciben en la centralita de una gran empresa durante 1 minuto. - Número de pasas en una ración de 100 gr de muesli. - Altura de las personas adultas de un mismo sexo y origen racial - Error experimental al medir una determinada magnitud - Valor medio obtenido al lanzar 20 veces un dado (aproximadamente) - Peso de las naranjas de una cierta variedad - Grosor de una moneda, medido con un aparato de precisión.

Las otras distribuciones que aparecen en las tablas: t de Student, Chi cuadrado y F de Snedecor

tienen un carácter más instrumental y describen la variabilidad que presentan variables que se

utilizan en los procesos de inferencia. Así, la t de Student se utiliza para calcular probabilidades

relaciones con distribuciones Normales, cuando el desconocimiento de la varianza poblacional

impide utilizar la Normal estandarizada. La distribución de Chi cuadrado, se utiliza para explicar,

entre otras cosas, la variabilidad que presenta la varianza muestral de muestras obtenidas de

poblaciones Normales. La F de Snedecor describe la variabilidad que presenta el cociente de 2

varianzas muestrales obtenidas de poblaciones Normales independientes y con la misma varianza

poblacional. Algo que dicho así parece sólo un capricho de alguien interesado en crear nuevas

distribuciones, pero que en realidad resulta imprescindible cuando se aplican técnicas como el

análisis de la varianza.

Prueba de significación para el coeficiente de correlación

El gráfico adjunto presenta la relación entre la pureza de un producto obtenido mediante una reacción química y la temperatura a que ha tenido lugar la reacción en 20 casos distintos. Deseamos saber si existe correlación entre temperatura y pureza. El coeficiente de correlación para nuestros datos vale 0,53. ¿Será posible que la pureza y la temperatura no tengan ninguna relación (ρ = 0) y que sólo por obra del azar haya resultado r = 0,53? o, en otras palabras, ¿está nuestro valor de r lo suficientemente alejado del cero como poder decir que hay relación?.

Se puede contestar a la pregunta anterior siguiendo el siguiente proceso:

  1. Generar 2 conjuntos de 20 números aleatorios cada uno y calcular el coeficiente de correlación que existe entre ellos. El hecho de que no tengan ninguna relación no implica que el coeficiente de correlación deba ser igual a cero. Puede darnos, por ejemplo, 0,162.
  2. Repetir la operación anterior un gran número de veces, guardando el valor del coeficiente de correlación obtenido cada vez. La figura muestra el histograma de los valores obtenidos al repetir 10.000 veces este proceso (realizado con el programa Minitab y una sencilla macro).
  3. Comparar nuestro coeficiente de correlación (el que queremos saber si es suficientemente grande o no) con la distribución de los coeficientes obtenidos anteriormente. Si nuestro valor es normal en esa distribución, por ejemplo, si fuera 0,23, diríamos que no es significativamente distinto de cero (o, simplemente, que no es significativo), porque un valor como ese o mayor se da con mucha frecuencia sin existir ningún tipo de relación. Sin embargo, si fuera muy grande, 0,9, por ejemplo, diríamos que claramente sí es significativo, porque si no hubiera correlación un valor como el obtenido es prácticamente imposible de obtener.

En nuestro caso, comparando 0,53 con los 10.000 valores generados, comprobamos que un valor como el nuestro o mayor se presenta del orden del 0,8 % de las veces. Si sospechamos que nuestras variables pueden estar correlacionadas lo más razonable será considerar que efectivamente lo están, aunque corremos un cierto riesgo de equivocarnos, ya que si no existiera correlación, un valor como el obtenido no es imposible, sino que como ese o superior se da por azar el 0,8 % de las veces.

Si estamos seguros de que en el caso de existir correlación esta será positiva, el porcentaje calculado es el nivel de significación de la prueba. Si la correlación puede ser tanto positiva como negativa, al porcentaje anterior le debemos sumar el de los casos en que se obtiene un valor menor de –0,53. Como la distribución es simétrica también será 0,8 %, y la suma de los 2, el 1,6%, será el nivel de significación en este caso.

-1,0 -0,5 0,0 0,5 1,

300

200

100

0

Coeficiente de correlación

Frequencia 0,8 %

118 119 120 121 122

87

88

89

90

91

92

Temperatura

Pureza

¿Cómo se han construido?

Distribución binomial

Se ha utilizado Excel, y su función que da probabilidades acumuladas para la distribución binomial.

Para realizar los cálculo de forma fácil, los valores de n (columna A) deben estar todos. Los que no se ven es porque se ha definido el blanco como color de la fuente.

Distribución de Poisson

De forma análoga a la distribución binomial se ha utilizado Excel, pero en este caso se ha usado la función POISSON(x;media;acumulado). Para facilitar la posterior edición se han utilizado 3 hojas, una para cada parte de la tabla.

Distribución Normal

También se ha utilizado Excel, y su función que da probabilidades acumuladas para la distribución Normal

Distribución t de Student

Se ha utilizado Minitab y su función que da el valor de la variable correspondiente a un valor dado de la función de distribución. Ha sido necesario utilizar una macro para que los valores vayan quedando de la misma forma en que después se presenta la tabla.

Se podría haber hecho con Excel, sin necesidad de macro, usando su función DISTR.T.INV

Distribución Chi cuadrado

También se han construido con Minitab, de forma análoga a la t de Student

Distribución F de Snedecor

Se ha utilizado Minitab, con macros para cada tabla (área de cola). También se podría haber usado la función de Excel: DISTR.F.INV(probabilidad;grados_de_libertad1;grados_de_libertad2)

Valores críticos del coeficiente de correlación

Partimos de que la expresión: (^2) 1 r

n 2 r −

, en la que r es el coeficiente de correlación

muestral y n el tamaño de la muestra, sigue una distribución t de Student con n- grados de libertad si el coeficiente de correlación poblacional ρ = 0.

Utilizando Minitab, mediante una macro se han determinado los valores de r que corresponden a los niveles de significación (valores p) que se indican.

Forma de las distribuciones

Distribución binomial
n = 20
p = 1/

Esta distribución puede representar la probabilidad del número de veces que sale el 5 (o cualquier otro valor en concreto) al tirar 20 veces un dado.

0 1 2 3 4 5 6 7 8 91011121314151617181920

0,

0,

0,

0,

0,

0, X

P (X=x)

p = 1/

n = 20

n = 20
p = 0,

Si p = 0,5 la distribución es simétrica. Esta puede representar la probabilidad del número de caras que se obtienen al lanzar una moneda 20 veces.

0 1 2 3 4 5 6 7 8 91011121314151617181920

0,

0,

0,

0,

0,

0, X

P (X=x)

p = 0,

n = 20

n = 100
p = 0,

Similar al anterior pero con n =100. El perfil de esta distribución es muy similar a la distribución Normal.

Cuando n es grande y p no excesivamente pequeño, es más cómodo calcular las probabilidades con la distribución Normal (^0102030405060708090100)

0, 0, 0, 0, 0, 0, 0, 0, 0, X

p = 0,

n = 100

P ( X=x)

Distribución de Poisson

Puede representar la distribución de probabilidad del número de llamadas que llegan por minuto a una centralita, en unas condiciones en las que en promedio llegan 2 llamadas por minuto.

0 5 10 15 20 25

0,

0,

0,

0,

0,

0,

0,

X

λ = 2

0 5 10 15 20 25

0,

0,

0,

0,

0,

0,

0,

X

λ (^) = 4

A media que aumenta el valor de λ, la distribución se hace más simétrica.

0 5 10 15 20 25

0,

0,

0,

0,

0,

0,

0,

X

λ = 10

Distribución F de Snedecor

Con pocos grados de libertad, la distribución es muy asimétrica. F(20,5)

F(3,5) F(5,10)

0 1 2 3 4 5

0, 0,

0,

0, 0,

0, 0,

0,

Valores de F

La distribución cambia con el orden de

los grados de libertad.

F(10,5) F(5,10)

0 1 2 3 4 5

0,

0, 0,

0,

0, 0,

0, 0,

Valores de F

Al aumentar los grados de libertad la distribución se va haciendo menos

asimétrica.

F(100,50)

F(20,20)

F(200,200)

0 1 2 3 4 5

3

2

1

0

Valores de F

Uso de las tablas, a través de ejemplos

Distribución binomial

Un proceso produce un 10 % de unidades defectuosas. Determine la probabilidad de que en una muestra de 15 se tengan:

a) 2 defectos

b) Algún defecto
P (X > 0) = 1- P (X=0) = 1- 0,2059 = 0,
c) Menos de 3 defectos
P (X < 3) = B(2; 15; 0,10) = 0,
d) Más de 2 defectos
P (X > 2) = 1 – P (X ≤ 2) = 1 – B(2; 15; 0,10) = 1 – 0,8159 = 0,
Distribución de Poisson
A una centralita de teléfonos llegan un promedio de 2 llamadas por minuto. Determine la
probabilidad de que:
a) En un minuto lleguen 5 llamadas
b) En 5 minutos lleguen más de 8 llamadas
P (X>8; λ =10) = P(X ≤ 8; λ =10) = 1 – 0,333 = 0,
Distribución t de Student

Se toma una muestra de 10 paquetes de azúcar que acaban de salir de la línea de envasado. Los valores de la media y desviación tipo de sus pesos es: x = 1001,5 gr.; s = 2 gr.

a) ¿Puede afirmarse que la línea está llenando los paquetes con un peso medio superior a 1 kg? H 0 : μ = 1000; H 1 : μ > 1000

Si H 0 es cierta, el estadístico

x t s n

− μ = sigue una distribución t de Student con ν = n-1g.l.

En nuestro caso:

t 2, 2 10

= =. Utilizamos las tablas para analizar la posición de

este valor en la distribución t de Student con 9 grados de libertad.

p ν 0,40 0,25 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0, 1 0,325 1,000 3,078 6,314 12,706 31,821 63,657 127,321 318,309 636, 2 0,289 0,817 1,886 2,920 4,303 6,965 9,925 14,089 22,327 31, 3 0,277 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,215 12, 4 0,271 0,741 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8, 5 0,267 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,

6 0,265 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5, 7 0,263 0,711 1,415 1,895 2,365 2,998 3,500 4,029 4,785 5, 8 0,262 0,706 1,397 1,860 2,306 2,897 3,355 3,833 4,501 5, 9 0,261 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4, 10 0,260 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,

Entrando en la tabla por la fila de los 9 grados de libertad, se comprueba que nuestro valor deja un área de cola que está entre 0,025 y 0,01. Por tanto, puede afirmarse que el peso medio que se está produciendo es superior a 1 kg, con un nivel de significación que se encuentra entre los valores citados.

b) Calcule un intervalo de confianza del 99 % para el valor del peso medio con que están saliendo los paquetes.

La fórmula a aplicar es: (^) / 2;

s x t n

±α ν. En nuestro caso: t α / 2; ν = t0 ,005;9 = 3,

p ν (^) 0,40 0,25 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,

1 0,325 1,000 3,078 6,314 12,706 31,821 63,657 127,321 318,309 636, 8 0,262 0,706 1,397 1,860 2,306 2,897 3,355 3,833 4,501 5, 9 0,261 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4, 10 0 260 0 700 1 372 1 812 2 228 2 764 3 169 3 581 4 144 4 587

Sustituyendo los valores, el intervalo queda: 1001,5 ± 2,

Distribución Chi cuadrado ( χ^2 )

Siguiendo con el ejemplo anterior, en que se tiene una muestra de 10 paquetes de azúcar con x = 1001,5 gr. y s = 2 gr, calcular un intervalo de confianza del 95 % para la varianza de los pesos con que salen los paquetes.

La fórmula del intervalo de confianza para la varianza es:

2 2 2 2 2 ;^1 2 ;

s s [( n 1 ) ; ( n 1 ) ] χ αν χ (^) −αν

2 α 2 ; ν χ = χ 0 ,025;9^2 = 19,92 2 2^ α ; ν

χ = χ 0 ,025;9^2 = 2,

p ν 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010 0, 1 0,00 0,00 0,00 0,00 0,02 0,10 1,32 2,71 3,84 5,02 6,64 7, 2 0 01 0 02 0 05 0 10 0 21 0 58 2 77 4 61 5 99 7 38 9 21 10 60 8 1,34 1,65 2,18 2,73 3,49 5,07 10,22 13,36 15,51 17,54 20,09 21, 9 1,74 2,09 2,70 3,33 4,17 5,90 11,39 14,68 16,92 19,02 21,67 23, 10 2,16 2,56 3,25 3,94 4,87 6,74 12,55 15,99 18,31 20,48 23,21 25,

Sustituyendo valores queda el intervalo: (1,81; 13,33)

F de Snedecor

Se tienen 2 líneas (A y B) de llenado de paquetes de azúcar. De la línea A se tiene una muestra aleatoria de n (^) A=10 paquetes cuyos pesos presentan una desviación tipo de sA = 2 gr. De la línea B la muestra es de tamaño nB =6 y los pesos tienen una sB = 5 gr. A la vista de estos valores, ¿puede afirmarse que la variabilidad del peso de los paquetes es distinta en ambas líneas?

2 2 H 0 : σ (^) A = σ B; 2 2 H 1 : σ (^) A ≠ σ B.

Si H 0 es cierta: (^) A B

2 A 2 n^ 1; n^1 B

s F s

(^) − − , o, lo que es lo mismo: (^) B A

2 B 2 n^ 1; n^1 A

s F s

Como las tablas de la F sólo dan áreas de cola hacia la derecha, a efectos prácticos debemos poner la varianza muestral mayor en el numerador para que el cociente dé mayor que 1. (Si lo hiciéramos al revés deberíamos mirar el área de cola hacia la izquierda, que no dan las tablas

aunque se puede deducir utilizando la expresión: (^) A B B A

( 1 ), n 1; n 1 ( ), n 1; n 1

F
F

α α

− − − − −

Por tanto, en nuestro caso, F = 25/4 = 6,25 y habrá que comparar este valor en una distribución F de Snedecor con 5 y 9 grados de libertad. Cada hoja de la tabla contiene los valores para una determinada área de cola.

Empezamos por la tabla para valores de α = 0,05. El valor de F que deja este área de cola en la distribución con 5 y 9 grados de libertad es 3,48. Al ser nuestro valor mayor (está más hacia la derecha), dejará un área de cola menor.