Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


intro a la estadistica 2, Apuntes de Estadística

unidad 2 de estadistica basica con bibliografia basica

Tipo: Apuntes

2019/2020

Subido el 12/04/2020

nazareno-cenoz
nazareno-cenoz 🇦🇷

5 documentos

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Introducción a la Estadística
27
UNIDAD II: TRATAMIENTO DE LOS DATOS ESTADÍSTICOS.
DISTRIBUCIÓN DE FRECUENCIAS.
1. DATOS NO ORDENADOS. DIAGRAMA DE TALLO Y HOJAS. ORDENAMIENTO.
CÁLCULO DEL RANGO.
¿Para qué necesitamos recolectar datos? Pueden darse cuatro razones importantes:
1. Proporcionar la introducción imprescindible para un estudio o investigación.
2. Medir el desempeño en un servicio o proceso en curso.
3. Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de de-
cisiones.
4. Satisfacer nuestra curiosidad.
Para el estadístico o investigador, la información requerida proviene de los datos. Son el recurso
sico del investigador, su trabajo consiste en transformar los datos en información útil para la toma de
decisiones. La calidad del trabajo depende de la calidad de los datos.
Se pueden presentar errores durante la recopilación de los datos. Cualquier dato disponible que
se utiliza sin un análisis previo, o bien, el empleo de datos que se obtuvieron con poco cuidado puede
ocasionar que se obtenga información engañosa o se tomen malas decisiones. Sin embargo, si se asegu-
ra que los datos sean exactos, se contribuye a obtener información confiable y valiosa para la toma de
decisiones.
Los datos no ordenados o datos brutos o sin procesar, son aquellos datos recolectados a partir
de una muestra que no han sido arreglados de acuerdo con algún criterio convencional, por lo que se
presentan en el orden en que han sido obtenidos.
Ejemplo: la siguiente información corresponde a una muestra de 80 autos vendidos por una
concesionaria en el último año, considerando el precio de los vehículos, la edad de los compradores y
el origen de los autos (1 = nacionales. 0 = importados).
PRECIO
(en miles
$)
EDAD
ORIGEN
PRECIO
(en miles
$)
EDAD
ORIGEN
92,788
46
0
82,568
39
1
93,488
48
0
87,924
43
1
81,816
40
1
96,208
56
0
94,364
40
0
103,196
44
0
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga intro a la estadistica 2 y más Apuntes en PDF de Estadística solo en Docsity!

UNIDAD II: TRATAMIENTO DE LOS DATOS ESTADÍSTICOS.

DISTRIBUCIÓN DE FRECUENCIAS.

1. DATOS NO ORDENADOS. DIAGRAMA DE TALLO Y HOJAS. ORDENAMIENTO.

CÁLCULO DEL RANGO.

¿Para qué necesitamos recolectar datos? Pueden darse cuatro razones importantes:

  1. Proporcionar la introducción imprescindible para un estudio o investigación.
  2. Medir el desempeño en un servicio o proceso en curso.
  3. Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de de-

cisiones.

  1. Satisfacer nuestra curiosidad.

Para el estadístico o investigador, la información requerida proviene de los datos. Son el recurso

básico del investigador, su trabajo consiste en transformar los datos en información útil para la toma de

decisiones. La calidad del trabajo depende de la calidad de los datos.

Se pueden presentar errores durante la recopilación de los datos. Cualquier dato disponible que

se utiliza sin un análisis previo, o bien, el empleo de datos que se obtuvieron con poco cuidado puede

ocasionar que se obtenga información engañosa o se tomen malas decisiones. Sin embargo, si se asegu-

ra que los datos sean exactos, se contribuye a obtener información confiable y valiosa para la toma de

decisiones.

Los datos no ordenados o datos brutos o sin procesar, son aquellos datos recolectados a partir

de una muestra que no han sido arreglados de acuerdo con algún criterio convencional, por lo que se

presentan en el orden en que han sido obtenidos.

Ejemplo: la siguiente información corresponde a una muestra de 80 autos vendidos por una

concesionaria en el último año, considerando el precio de los vehículos, la edad de los compradores y

el origen de los autos (1 = nacionales. 0 = importados).

PRECIO

(en miles

$)

EDAD ORIGEN

PRECIO

(en miles

$)

EDAD ORIGEN

PRECIO

(en miles $)

EDAD TIPO

PRECIO

(en miles $)

  • 106,604 46 1 63,176 EDAD TIPO
  • 109,812 37 1 73,052
    • 69,064 32 1 143,700
    • 72,084 29 1 69,596
  • 114,732 38 1 71,872
  • 123,488 43 0 81,424
    • 78,348 32 0 85,768
    • 92,676 47 0 86,888
  • 143,404 56 0 77,324
    • 77,004 42 1 91,268
    • 80,188 28 1 79,064
    • 97,140 56 0 82,532
    • 97,296 50 1 83,848
    • 98,436 31 1 91,380
    • 114,68 51 1 105,14
    • 62,184 26 1 111,584
    • 63,740 25 1 116,304
    • 79,492 45 1 129,968
  • 101,004 56 1 75,560
  • 101,108 47 0 86,960
  • 112,136 38 1 89,496
    • 98,120 51 0 98,284
  • 109,772 39 0 101,796
    • 79,556 44 1 113,348
    • 80,016 46 1 82,568
    • 69,428 28 1 94,452
    • 80,620 33 1 96,880
    • 78,752 35 1 122,62
    • 94,628 35 0 89,768
  • 106,452 42 1 71,564
    • 83,580 35 0 83,272
    • 80,812 36 1 104,948
    • 95,060 48 0 81,780
  • 103,132 53 1 86,224
  • 106,644 46 1 86,556
  • 129,108 55 0 97,184

A medida que se avanza en el trabajo estadístico pasando de una etapa a la otra, en cada paso

que se da, el método debe permitir encontrar las soluciones para cada problema que se presente sin re-

troceder a la etapa anterior, tomando los datos en su nueva forma de presentación.

Con los datos ordenados puede obtenerse el Rango. Es la primera medida estadística que

puede calcularse , y se obtiene haciendo la diferencia entre los valores extremos del conjunto de

datos ordenados. Sólo puede calcularse, precisamente, con los datos previamente ordenados.

RxMxm donde xM es el valor máximo y xm es el valor mínimo del conjunto.

RxMxm = 143,700 – 62,184 = $ 81,

2. DISTRIBUCIÓN DE FRECUENCIAS: REGLAS PARA SU CONSTRUCCIÓN. COM-

PONENTES PARA VARIABLES CONTINUAS Y DISCRETAS. FRECUENCIAS AB-

SOLUTA, ACUMULADA Y RELATIVA.

La distribución de frecuencias es una forma de presentación de los datos que facilita su trata-

miento conjunto y permite una comprensión diferente de ellos. Es un ordenamiento tabular de los datos

en clases con las observaciones (frecuencias) que corresponden a cada una. La frecuencia de clase es el

número de individuos que pertenecen a cada clase.

Para variables cualitativas , las observaciones pueden registrarse en tablas resumen, asociando

cada categoría de la variable objeto de estudio con el número de veces que se repite dicha categoría_._

Origen de los automóviles Cantidad

Nacionales 50

Importados 30

Total 80

Esta distribución de frecuencias proporciona un resumen de cómo se distribuyen las ventas de

autos según el origen.

Para variables cuantitativas los datos se agrupan o arreglan en clases o categorías ordenadas

en forma numérica, establecidas de modo conveniente.

Los datos pierden la individualidad (se deja de conocer el valor particular de cada uno) porque

se presentan en clases o categorías que agrupan a un conjunto de valores. Estos grupos se denominan

intervalos de clases.

Para construir una distribución de frecuencias se debe:

 Seleccionar el número apropiado de intervalos de clase

 Obtener el tamaño de cada intervalo de clase

 Establecer los límites de cada clase para evitar superposiciones

El siguiente cuadro constituye un ejemplo de los Componentes principales para casos conti-

nuos. Los datos originales corresponden al precio de los autos (en miles de pesos). A continuación del

cuadro se definen los diferentes elementos que lo integran.

Precios de los automóviles vendidos (en miles de $)

Precios

(miles de $)

Nº de

autos

Verdadero

Límite

Punto

Medio

Frecuencia

Acumulada

Menor que

Frecuencia

Acumulada

Mayor que

Frecuencia

Relativa

Frecuencia

Relativa

Acumulada

Menor que

Frecuencia

Relativa

Acumulada

Mayor que

fi VL xi Fi (-) Fi (+) hi Hi (-) Hi (+)

Intervalo de clase: Es un intervalo entre dos valores de la variable bajo estudio, elegido en

forma convencional y conveniente, y constituye la primera columna de la distribución, que lleva como

título el nombre de la variable que se está midiendo o presentando (en este caso "Precios (en miles de

$" ). Si bien existen fórmulas para definir cuál es el número de intervalos de clase para cada distribu-

ción (la fórmula de Sturges es un ejemplo en la que el Número de Intervalos: NI = 1 + 3,3 log.n ),

aplica fundamentalmente en los casos de Distribuciones para variables discretas.

Amplitud o tamaño del intervalo de clase (c): Es la diferencia, en valor absoluto, entre dos

Verdaderos Límites Inferiores consecutivos:  1

i i

c VLI VLI

Si la distribución de frecuencias tuviera todos sus intervalos con igual amplitud, se la denomina

equiespaciada o monomodular****.

El que la distribución sea equiespaciada resulta una importante ventaja para la organización del

trabajo estadístico debido a la simplificación que eso significa en el uso de las fórmulas estadísticas y

en los cálculos propiamente dichos_._

Punto medio del intervalo de clase (xi): Se calcula haciendo la semisuma entre dos Verdade-

ros Límites Inferiores consecutivos, valor que se atribuye al intervalo que corresponde al menor de

ellos. Es decir que

 1

i i i

VLI VLI

x

Si la distribución de frecuencias es equiespaciada, a partir del primer punto medio se pueden

obtener los siguientes sumándoles sucesivamente la amplitud c.

x (^) ixi  1  c

Representan los datos de la clase. Para análisis matemáticos posteriores, todas las observaciones

pertenecientes a un intervalo de clase se suponen coincidentes con los puntos medios.

Frecuencia acumulada creciente o "menor que"(Fi (-) ): Es el total de elementos menores o

iguales que un límite superior cualquiera LSk.

Se obtiene por adición sucesiva de las frecuencias absolutas, comenzando desde el primer inter-

valo hasta el último. El resultado final debe coincidir con n.

Frecuencia acumulada decreciente o "mayor que" (Fi(+)): Es el total de elementos mayores o

iguales que un límite inferior cualquiera LIk.

Se obtiene por adición sucesiva de las frecuencias absolutas, comenzando desde el último inter-

valo y concluyendo en el primero.

Frecuencia relativa (hi): Es la relación entre las frecuencias absolutas y el total de elementos n.

Es decir que n

f h

i (^) i  100. Suele expresarse en forma de porcentajes.

Es importante para determinar la proporción de observaciones que pertenece a cada intervalo de

clase.

Frecuencias relativas acumuladas "menor que" y "mayor que" (Hi (-) y Hi (+) ): Son similares

a las correspondientes Frecuencias acumuladas F (-) y Fi (+) , pero calculadas a partir de las frecuencias

relativas.

Para variables discretas, como “ edad de los compradores”, se debe prestar atención a los Ver-

daderos límites (ya que no coinciden con los límites ), y al cálculo de los puntos medios de los Inter-

valos de Clase.

Edades de los compradores de automóviles

Edades

de

autos

Verdadero

Límite

Punto

Medio

Frecuencia

Acumulada

Menor que

Frecuencia

Acumulada

Mayor que

Frecuencia

Relativa

Frecuencia

Relativa

Acumulada

Menor que

Frecuencia

Relativa

Acumulada

Mayor que

fi VL xi Fi (-) Fi (+) hi Hi (-) Hi (+)

3. HISTOGRAMAS. POLÍGONOS DE FRECUENCIAS. OJIVAS.

El Histograma es un gráfico de la distribución de frecuencias, que se construye con rectán-

gulos de superficie proporcional al producto de la amplitud por la frecuencia absoluta (o relati-

va) de cada uno de los intervalos de clase.

Está formado por una serie de rectángulos, la variable de interés se representa en el eje horizon-

tal, el número o porcentaje de observaciones se representa en el eje vertical. La base está sobre el eje

horizontal y el centro en el punto medio. Los extremos de cada rectángulo coinciden con los verdaderos

límites. La longitud es el tamaño de cada intervalo de clase y la superficie es proporcional a la frecuen-

cia. La superficie total del histograma representa el 100 % de los datos.

La figura siguiente corresponde al Histograma de la Distribución de frecuencias de la variable

continua " Precios (en miles de $")

medio del intervalo de clase inmediato posterior al último intervalo de clase, lo cual permite obtener

una figura poligonal cerrada con similar superficie que el histograma.

En el trazado del polígono hay sectores que se pierden y otros que se ganan respecto del histo-

grama propiamente dicho.

El polígono de frecuencias permite mostrar cómo sería, de una manera sumamente esquemática,

la verdadera distribución teórica de la variable bajo estudio, distribución ésta que nunca puede obte-

nerse realmente. Si en un histograma se supone que la amplitud de los intervalos disminuyera al mis-

mo tiempo que aumentara el número total de observaciones, se produciría un aumento en el número de

intervalos. Cuando la amplitud tiende a cero, el número de intervalos de clase se vuelve infinito, y el

histograma se convierte en una línea continua que debe considerarse como la verdadera distribución

teórica. Lo que hace el polígono es, como ya se dijo, mostrar una aproximación eminentemente prácti-

ca de ese proceso.

Sin embargo, la mayor utilidad de este gráfico consiste en la comparación de la distribución

empírica de los datos proporcionados por el cuadro de distribución de frecuencias con una distribución

estándar denominada distribución normal.

Las curvas de frecuencia provienen de la suavización de los polígonos de frecuencias de la

muestra, se conocen como polígonos de frecuencia suavizados, como se ve en el gráfico siguiente.

Los polígonos de frecuencia relativa se obtienen cambiando la escala vertical de frecuencia ab-

soluta a frecuencia relativa.

La Ojiva se utiliza para graficar las "Frecuencias Acumuladas Menor que", es la representa-

ción de esas Frecuencias Acumuladas en particular, y se construye a partir de los “Verdaderos Límites

Superiores” para obtener una línea poligonal creciente, llamada en algunos textos ojiva creciente.

E n el gráfico se muestra, también, la representación de las "Frecuencias acumuladas ma-