Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


ESTADISTICA DESCRIPTIVA, Apuntes de Relaciones Laborales y Recursos Humanos

Asignatura: ., Profesor: , Carrera: Relaciones Laborales, Universidad: ULL

Tipo: Apuntes

2014/2015

Subido el 08/07/2015

agm93-1
agm93-1 🇪🇸

5

(1)

3 documentos

1 / 11

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística:
Ciencia que proporciona técnicas para tratar gran volumen de datos para extraer y
mostrar la información que subyace en ellos. Permite obtener información de un
colectivo muy amplio de datos a partir de un conjunto relativamente pequeño de datos
procedentes de él, gracias a ello se formulan modelos matemáticos que representen la
repuesta obtenida en alguna característica de interés al ser influenciada por diferentes
factores. Con esta información en la mano se puede tomar decisiones cuando exista un
marco de incertidumbre.
En Estadística se estudian fenómenos aleatorios, que son aquellos cuyo resultado no es
previsible aunque se repitan en idénticas condiciones.
Colectivo o Población: es el conjunto todos los individuos a los que va dirigido el
estudio estadístico.
Muestra: es el subconjunto de datos elegidos del colectivo que realmente se analizan.
Variable estadística: es cada una de las características que se miden de cada uno de los
individuos que forman la muestra.
Las variables estadísticas pueden ser cualitativas y cuantitativas.
Se dice que una variable estadística es cualitativa cuando los valores que puede tomar
son atributos. Variables cuantitativas son aquellas que pueden tomar valores numéricos.
Las variables cualitativas pueden ser:
Nominales o categóricas: los valores no admiten ordenación, por ejemplo, el color, o la
marca de bebida preferida, o el partido político elegido, o el lugar de procedencia, etc.
Ordinales: los valores de este tipo de variables admiten ordenación, aunque sean
cualitativas, por ejemplo, el estado de salud de pacientes de un hospital: Muy grave,
Grave, Leve. También son ordinales las variables que miden el grado de satisfacción
conseguido por algún servicio: Muy mal, Mal, Regular, Bien, Muy bien.
Las variables cuantitativas pueden ser:
Discretas: aquellas que solo pueden tomar valores aislados, y dados dos consecutivos
no puede haber valores intermedios, frecuentemente van asociadas a procesos de
conteo: Nº de ramas de un árbol, Nº de puestas en nidos, Nº de miembros por familia,
etc.
Continuas: aquellas variables numéricas que, si se poseyesen instrumentos con infinita
precisión, su valor podría ser expresado con infinitas cifras decimales, dados dos
valores, por próximos que estén, siempre sería posible encontrar valores intermedios
entre ambos. La mayoría de las variables que implican una medición son de este tipo: la
temperatura de la atmósfera, la velocidad del vuelo de un ave, la altura que alcanza un
árbol, son ejemplos de variables cuantitativas Continuas.
A veces, cuando las variables son numéricas, es necesario conocer su escala de medida:
Decimos que una variable numérica está medida en escala por intervalos cuando no
hay un cero absoluto origen de las medidas, por ejemplo: la hora de llegada de un tren a
una estación, si se toma como cero las 24 horas del día anterior y ha llegado un tren a
las 0h 10 min. y otro a las 0h 20 min., sabemos que el segundo llegó 10 minutos
después que el primero, pero no podemos decir que el segundo haya tardado el doble
que el primero en llegar, pues no se ha adoptado un cero absoluto común a todos los
recorridos. Un ejemplo clásico de este tipo de variable es la temperatura: si el aire hoy
está a 10ºC y ayer estaba a 20ºC, no podemos decir que la temperatura hoy sea el doble
de la de ayer, pues el cero en la escala de medida se ha tomado de modo arbitrario, para
comprobarlo, basta con expresar ambas temperaturas en grados Fahrenheit.
Una variable estadística está medida en escala por ratios cuando existe un cero
absoluto, entonces podemos considerar diferencias entre las medidas y también
proporciones. La mayoría de los fenómenos físicos que consideremos están medidos en
este tipo de escala, por ejemplo, la temperatura absoluta, en grados Kelvin es una
variable medida en escala por ratios, también el peso, la longitud, o la masa lo son.
1
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga ESTADISTICA DESCRIPTIVA y más Apuntes en PDF de Relaciones Laborales y Recursos Humanos solo en Docsity!

Estadística: Ciencia que proporciona técnicas para tratar gran volumen de datos para extraer y mostrar la información que subyace en ellos. Permite obtener información de un colectivo muy amplio de datos a partir de un conjunto relativamente pequeño de datos procedentes de él, gracias a ello se formulan modelos matemáticos que representen la repuesta obtenida en alguna característica de interés al ser influenciada por diferentes factores. Con esta información en la mano se puede tomar decisiones cuando exista un marco de incertidumbre. En Estadística se estudian fenómenos aleatorios , que son aquellos cuyo resultado no es previsible aunque se repitan en idénticas condiciones. Colectivo o Población : es el conjunto todos los individuos a los que va dirigido el estudio estadístico. Muestra : es el subconjunto de datos elegidos del colectivo que realmente se analizan. Variable estadística : es cada una de las características que se miden de cada uno de los individuos que forman la muestra. Las variables estadísticas pueden ser cualitativas y cuantitativas. Se dice que una variable estadística es cualitativa cuando los valores que puede tomar son atributos. Variables cuantitativas son aquellas que pueden tomar valores numéricos. Las variables cualitativas pueden ser: Nominales o categóricas : los valores no admiten ordenación, por ejemplo, el color, o la marca de bebida preferida, o el partido político elegido, o el lugar de procedencia, etc. Ordinales : los valores de este tipo de variables admiten ordenación, aunque sean cualitativas, por ejemplo, el estado de salud de pacientes de un hospital: Muy grave, Grave, Leve. También son ordinales las variables que miden el grado de satisfacción conseguido por algún servicio: Muy mal, Mal, Regular, Bien, Muy bien. Las variables cuantitativas pueden ser: Discretas : aquellas que solo pueden tomar valores aislados, y dados dos consecutivos no puede haber valores intermedios, frecuentemente van asociadas a procesos de conteo: Nº de ramas de un árbol, Nº de puestas en nidos, Nº de miembros por familia, etc. Continuas : aquellas variables numéricas que, si se poseyesen instrumentos con infinita precisión, su valor podría ser expresado con infinitas cifras decimales, dados dos valores, por próximos que estén, siempre sería posible encontrar valores intermedios entre ambos. La mayoría de las variables que implican una medición son de este tipo: la temperatura de la atmósfera, la velocidad del vuelo de un ave, la altura que alcanza un árbol, son ejemplos de variables cuantitativas Continuas. A veces, cuando las variables son numéricas, es necesario conocer su escala de medida: Decimos que una variable numérica está medida en escala por intervalos cuando no hay un cero absoluto origen de las medidas, por ejemplo: la hora de llegada de un tren a una estación, si se toma como cero las 24 horas del día anterior y ha llegado un tren a las 0h 10 min. y otro a las 0h 20 min., sabemos que el segundo llegó 10 minutos después que el primero, pero no podemos decir que el segundo haya tardado el doble que el primero en llegar, pues no se ha adoptado un cero absoluto común a todos los recorridos. Un ejemplo clásico de este tipo de variable es la temperatura: si el aire hoy está a 10ºC y ayer estaba a 20ºC, no podemos decir que la temperatura hoy sea el doble de la de ayer, pues el cero en la escala de medida se ha tomado de modo arbitrario, para comprobarlo, basta con expresar ambas temperaturas en grados Fahrenheit. Una variable estadística está medida en escala por ratios cuando existe un cero absoluto, entonces podemos considerar diferencias entre las medidas y también proporciones. La mayoría de los fenómenos físicos que consideremos están medidos en este tipo de escala, por ejemplo, la temperatura absoluta, en grados Kelvin es una variable medida en escala por ratios, también el peso, la longitud, o la masa lo son.

Estadística descriptiva : Es la parte de la estadística que proporciona técnicas para extraer y mostrar la información que subyace en conjuntos de muy numerosos datos. Cuando se acomete un estudio científico, es habitual medir gran cantidad de parámetros sobre cada uno de los individuos elegidos, la estadística descriptiva univariante permite estudiar los datos correspondientes a cada característica sin considerar la influencia de las demás.

Tablas de frecuencias Como resultado del estudio estadístico se posee una serie de estadillos o cuestionarios, uno por cada individuo considerado en el que se recogen todas las medidas realizadas a cada individuo. La tabla siguiente es un ejemplo de uno de estos estadillos , en él se han anotado seis características de árboles de un vivero después de un año de haber sido plantadas, la tabla recoge las medidas correspondientes a los diez primeros.

Árbol nº Replantado Grado de afección

Nº de ramas primarias

Diámetro (cm)

Altura (cm)

1 N MG 1 3,9 160, 2 S NA 0 4,3 203, 3 N M 2 3,9 160, 4 N G 1 2,5 146, 5 N M 3 3,9 123, 6 S NA 4 4,2 184, 7 N L 2 4,5 153, 8 N L 1 5,3 186, 9 S MG 0 2,5 169, 10 S M 2 2,9 168, Códigos: S: Si N: No

NA: No Afectado L: Leve M: Medio G: Grave MG: Muy Grave

el primer paso para sintetizar la información es tabular los datos. Consideraremos distintos tipos de agrupaciones de datos:

Tablas de frecuencias de datos en agrupamiento discreto : Realizamos este tipo de agrupamiento cuando el número de posibles respuestas a la variable en estudio es reducido. Las variables cualitativas se prestan muy bien a este sistema de agrupamiento Para construir una tabla de frecuencias de agrupamiento discreto se anotan en una columna cada uno de los distintos valores que tome la variable y en la columna siguiente su frecuencia o número de veces que se repite. La tabla de frecuencia de la variable Replantado es:

Replantado frecuencia S 4 N 6 Total: 10

La tabla de frecuencia de la variable X = Grado de afección es:

Clases Marcas de clase

x (^) i

frecuencia

ni

frecuencia relativa

f (^) i

frecuencia acumulada

N (^) i

frecuencia acumulada relativa F (^) i [2.5 ; 3.2] 2.85 3 0.3 3 0. (3.2 ; 3.9] 3.55 3 0.3 6 0. (3.9 ; 4.6] 4.25 3 0.3 9 0. (4.6 ; 5.3] 4.95 1 0.1 10 1.

Representaciones gráficas: Diagramas de sectores o de tarta: Son aplicables a cualquier tipo de variables, pero se utilizan sobre todo para las categóricas. Se construyen dividiendo un círculo en tantos sectores como categorías se vayan a representar. Cada sector abarca un ángulo proporcional a la frecuencia que se desea representar. El diagrama de sectores de la variable Replantado es:

Diagramas de barras: Son representaciones aplicables a tablas de frecuencias de datos en agrupamiento discreto, se pueden aplicar tanto a datos cualitativos como cuantitativos discretos. Consisten en un sistema de ejes cartesianos sobre cuyo eje de abcisas se llevan los valores de la variable y sobre el de ordenadas la frecuencia absoluta o relativa, acumulada o no. Por cada valor de la variable se levantará una línea o barra (aunque puede ser un rectángulo) de altura equivalente a la frecuencia que se desea representar. Se muestran diagramas de barras de la variable Grado de afección y de la variable Nº de ramas:

Los diagramas de barras, al representar sobre el eje de abcisas los valores de la variable, y ser el eje numérico, tienen mejor aplicación en variables como mínimo ordinales, pues en las variables nominales no hay una ordenación de los valores y se pueden representar en cualquier orden.

Histograma Aplicables a tablas de frecuencias de datos agrupados en clases. Consiste en llevar sobre un eje horizontal segmentos consecutivos que representen las amplitudes de cada clase, posteriormente se traza sobre cada clase un rectángulo cuyo área sea proporcional a la frecuencia que se desea representar. Si todas las clases tienen igual amplitud, los rectángulos tienen no solo el área proporcional a la frecuencia, su altura también lo es. Las alturas de los rectángulos representan frecuencia por cada unidad de amplitud, que también se llama densidad de frecuencia. Si se traza un eje vertical, la escala sobre este es la frecuencia por unidad de amplitud. A continuación se muestran histogramas de la variable Diámetro.

En estos dos histogramas se ha tomado la unidad de longitud igual a la amplitud y, como todas las amplitudes son iguales, la cifra que indica el área de cada rectángulo coincide con la que indica la altura y ambas con la frecuencia que se representa.

Polígonos de frecuencias: Aplicables a variables numéricas, aunque también se pueden trazar sobre cualitativas ordinales, se construyen uniendo los extremos de los diagramas de barras o los centros

de las bases superiores de los rectángulos del histograma mediante líneas rectas. Si se desea cerrar la línea poligonal por sus dos extremos, se podría inventar un valor o intervalo por delante del primero y otro mayor que el último, cuyas frecuencias serán cero. En el caso de datos agrupados también es frecuente unir el origen de la primera clase con el centro de su base superior y el centro de la base superior del último rectángulo con el extremo de su base inferior.

Existen otros tipos de gráficos, como los pictogramas que utilizan símbolos gráficos para representar las frecuencias, ya sea repitiendo un mismo símbolo varias veces para indicar las mayores o menores frecuencias, o aumentando o disminuyendo el tamaño del símbolo según la frecuencia que se represente.

Medidas de posición: Otra vía de resumir la información es expresar algunas cifras que de algún modo resuman lo más característico de los datos, podemos calcular medidas de posición y de dispersión. Entre las primeras se verán:

Moda: es la categoría, valor o marca de clase que más se repite. Cuando tengamos datos de tipo contínuo solo tendrá sentido la moda después de haber sido agrupados en clases. La moda de la variable Replantado es N, pues su frecuencia es la mayor entre las dos categorías posibles. La moda de la variable Grado de afección es M, en tanto que para la variable Nº de ramas primarias hay dos valores con máxima frecuencia, son 1 y 2 ramas. La moda puede no ser única, y hablamos de distribuciones de frecuencias bimodales, trimodales, etc.

Mediana: es aplicable a datos como mínimo ordinales, y se define como aquél valor de la variable que ocupa la posición central del conjunto de datos ordenados, también se puede definir como aquél valor de la variable que resulta ser mayor o igual que la mitad de los datos y menor que la otra mitad. Cuando se considera los N datos sin agrupar, la mediana es el dato que ocupa la posición (N+1)/2, de los datos ordenados. Si el número de datos N es impar la mediana se calcula de modo inmediato, si el número de datos es par, la mediana es la media aritmética de los datos que ocupan las posiciones N/2 y N/2 + 1. Para el conjunto de datos que se están considerando, la mediana es el dato que ocupa la posición 11/2=5.5, por tanto es la media entre los datos que ocupen las posiciones 5ª y 6ª.

Datos ordenados Mediana

Grado de afección NA NA L L M M M G MG MG M

Nº de ramas primarias 0 0 1 1 1 2 2 2 3 4 1.

Diámetro 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3 3.

En realidad, si los datos son cualitativos no tiene sentido calcular la mediana, en este caso se puede calcular la mediana del grado de afección porque los datos 5º y 6º son ambos M.

Si se localiza en el conjunto de datos ordenados aquellos que lo dividen en cuatro intervalos con el mismo número de observaciones, habremos encontrado los cuartiles primero, segundo y tercero. Primer cuartil Q1: Es aquél valor de la variable que resulta ser mayor o igual que el 25% de los datos y menor que el 75% restante. Para calcular Q1 se procede de diferente modo si los datos están agrupados en clases o no. Para datos sin agrupar o con agrupamiento discreto, consideraremos el conjunto original de datos ordenados, si de este conjunto eliminamos la mediana, quedan dos subconjuntos, la mediana del primero de ellos es Q1. Si se divide la lista de datos ordenados correspondiente a la variable Nº de ramas primarias por el punto que corresponde a la mediana , quedan dos grupos de datos, ambos con cinco datos :

Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4

La mediana de la primera mitad es el dato (5+1)/2 = 3º, por tanto

Q

Q1 = 1 : Nº de ramas primarias 0 0 1 1 1

Si los datos están agrupados en clases y no se dispone de los datos originales, se procede de modo similar a lo hecho para la mediana en estos casos, y se puede aplicar la fórmula vista, sustituyendo la frecuencia acumulada por N/4 o la acumulada relativa por 0.25:

aquí se considera que el intervalo que contiene al primer cuartil es el j-ésimo. Para la variable diámetro, el intervalo que contiene el primer cuartil es el primero, cuyos límites son 2.5 y 3.2 , la frecuencia relativa es 0.3 y la acumulada relativa, 0. también, por ser el 1º por ello la frecuencia acumulada relativa correspondiente al intervalo anterior es 0.

Para esta variable, procediendo como datos discretos, Q1 = 2.9, siempre que se pueda se debe trabajar sobre los datos originales, sin agrupar.

Segundo cuartil : Q2 es la mediana.

Tercer cuartil: Q3 , es aquél valor de la variable que resulta ser mayor o igual que el 75% de los datos y menor que el 25% restante. Para datos sin agrupar, se calcula como la mediana de la segunda mitad de los datos ordenados que se obtiene al dividir la lista original eliminando el dato mediano. Respecto de la variable Nº de ramas primarias, la mediana de la segunda mitad es el dato 5+(5+1)/2 = 8º, por tanto

Q

Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4

Q3 = 2 Para datos agrupados en clases, se localiza primero el intervalo que contiene el tercer cuartil, que es aquél cuya frecuencia relativa acumulada es mayor o igual a 0.75, sea este intervalo el j-ésimo, entonces:

El tercer cuartil de la variable Diámetro está en el tercer intervalo (frecuencia acumulada relativa = 0.9), su valor se puede calcular como:

mientras que de los datos originales como si fuesen discretos, Q3=4.

Percentiles: Como extensión, si el primer cuartil es el valor de la variable que resulta ser mayor o igual que el 25% de los datos y menor que el 75%, se define Percentil como el valor de la variable que resulta ser mayor o igual que un porcentaje dado de los datos, así se habla del percentil 10, del percentil 20, etc., se fácil comprobar que: p25 = Q1; p 50 = Q2 = me ; p 75 = Q

Si se desea calcular el percentil p (^) α y el primer intervalo cuya frecuencia acumulada

relativa es igual o mayor que F 06 1/100 es el j-ésimo:

En general, definimos el cuantil F 06 1 ( en tanto por 1) como aquél valor de la variable que

resulta ser menor que el 100 F 06 1% de los datos y mayor o igual que el 100(1- F 06 1)%

restante, es evidente que cuantil F 06 1 = p (^) 100(1- F 0 6 1). Medidas de dispersión: Para mejorar la información sobre el conjunto de datos no basta saber en torno a qué valores está la mayoría de los datos, también es conveniente saber si el conjunto de medidas son todas muy parecidas entre sí o si son muy diferentes, esto se consigue con las medidas de dispersión o variabilidad. Rango : es la medida de variabilidad más simple, es el mayor valor menos el más pequeño, conforme más próximos sean los valores observados, menor será el rango. R= max(xi ) – min(xi) Rango intercuartílico: El rango está influenciado por la presencia de algún error de medida, que suele traducirse en valores excesivamente grandes o pequeños, por eso se prefiere como medida de variabilidad, la diferencia entre los cuartiles tercero y primero, también llamado Rango intercuartílico : RI = Q3-Q

Desviación media es la media de las diferencias o desviaciones de cada dato hasta la media, tomadas en valor absoluto, pues de lo contrario la suma se anula: si los datos están agrupados: Varianza : es la media de los cuadrados de las diferencias o desviaciones de cada dato hasta la media:

si los datos están agrupados en clases, la fórmula es: Para la variable Nº de ramas primarias, el cálculo de la varianza es:

Tratándolos como datos y frecuencias:

y por la fórmula reducida:

La varianza se expresa en unidades al cuadrado y no es comparable con los datos, por eso se define Desviación típica , es la raíz cuadrada positiva de la varianza,

La desviación típica de la variable Nº de ramas primarias es :

La varianza mide la dispersión de los datos respecto de la media de los propios datos. Si lo que tenemos es una muestra, y se desea estimar la varianza de toda la población con los datos de la muestra, se utiliza la Cuasivarianza :

Si g 2 <0 decimos que los datos son poco apuntados (distribución platicúrtica, apuntamiento menor que el de una normal), si g 2 F 0B B 0 diremos que los datos tienen un apuntamiento semejante al de una normal (distribución mesocúrtica), si g 2 >0 diremos que nuestros datos tienen una distribución leptocúrtica o más apuntados que la normal.

Análisis exploratorio de datos: Se conoce con este nombre a un conjunto de técnicas que mezclan gráficos y medidas numéricas, y facilitan mucho la visión rápida de la distribución de los datos.

Diagrama de tallo y hojas: Se construye considerando, por una parte la cifra de menor valor significativo de todos los datos. Habitualmente esta cifra es la de las unidades, pero puede ser las decenas, si todas las cifras terminan en cero, o las décimas o centésimas, etc., si los datos poseen decimales. Con estas cifras se forman lo que se denomina “hojas”. Por otra parte se considera el resto de dígitos que forma la cifra de los datos, es lo que se denomina “tallo”. Para construir el diagrama se tabulan los datos en varias filas. Cada fila está encabezada por un tallo, y detrás de él se escriben ordenados e igualmente espaciados los dígitos que forman las hojas correspondientes a cada tallo. Para la variable Diámetro:

Diámetro, datos ordenados 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5. De cada dato, Tallo 2 2 2 3 3 3 4 4 4 5 Hoja 5 5 9 9 9 9 2 3 5 3

Diagrama de tallo y hojas:

Tallo Hojas 2 5 5 9 3 9 9 9 4 2 3 5 5 3

Si lo vemos como en sentido horizontal, se muestra como un diagrama de barras y se aprecia la forma de la distribución de frecuencias, y la simetría. Para completar la información se suele añadir una columna delante del tallo en la que se cuentan las frecuencias de cada tallo acumulándolas de arriba hacia abajo y viceversa, en el tallo donde se encuentre el dato mediano se escribe solamente la frecuencia de ese tallo, encerrada entre paréntesis. Si se desea se pueden marcar las filas donde estén los cuartiles colocando un asterisco a continuación de la frecuencia. Para los datos anteriores:

frecuencias Tallo Hojas 3* 2 5 5 9 (3) 3 9 9 9 4* 4 2 3 5 1 5 3

Diagrama de cajón y pata :

Es un gráfico en el que se incide más en la simetría y en la presencia de outliers, consiste en dibujar un eje horizontal (también se podría hacer vertical) en el que se lleva una escala correspondiente a los datos, más arriba se dibuja un segmento vertical sobre la mediana y dos más, uno sobre cada cuartil posteriormente se cierran ambos segmentos por segmentos horizontales, con esto se forma la caja. La posición relativa del segmento mediano respecto de los lados de la caja ya nos informa sobre la simetría de los datos. A continuación y desde el centro de cada uno de los lados de la caja se lleva un segmento horizontal que termina en el los valores observados menor y mayor que no son outliers, si los hay, o en los valores menor y mayor de los observados. Si hay outliers se marcan con símbolos especiales, por ejemplo, * para los leves y # para los graves.

El diagrama de cajón y pata para la variable diámetro es:

En este caso no hay outliers, y por eso la pata empieza con el menor dato y termina con el mayor. Se puede ver que los datos se extienden desde algo más de 2 hasta algo más de 5, que la distribución presenta una cola o asimetría hacia la derecha y que no hay outliers; además se aprecia la ubicación y valor de la mediana y cuartiles. Respecto del 50% de los datos centrales, como puede verse en la caja, la asimetría es hacia la izquierda.