Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Introducción a la Estadística: Variables, Frecuencias y Distribuciones, Apuntes de Estadística Aplicada

Una introducción básica a la estadística, explicando conceptos como variables, frecuencias absolutas y relativas, medias de posición, moda y distribuciones de frecuencia. Además, se abordan las distribuciones bivariables y la asociación entre variables. El texto también incluye una breve discusión sobre la diferencia entre datos y valores, y el concepto de coeficiente de confianza.

Tipo: Apuntes

2016/2017

Subido el 07/05/2017

patrytigeras
patrytigeras 🇪🇸

3

(2)

5 documentos

1 / 48

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 1: ALGUNAS CONSIDERACIONES SOBRE LA
ESTADÍSTICA
La estadística no está limitada a los círculos científicos o a las administraciones públicas. Su
presencia en el mundo actual es tal que el contacto con ella es prácticamente constante.
PRENOCIONES Y PREJUICIOS. Tres grandes grupos:
1. La estadística miente y manipula. ¿La estadística miente? Dos acepciones:
Estadística como procedimiento.
Estadística como conjunto de datos.
La estadística como herramienta no miente, como producto puede mentir.
2. Los datos estadísticos son más “objetivos” que otro tipo de datos y, de algún modo,
confieren “cientificidad a aquello que describen. ¿Son más “objetivos” que otro tipo de
datos? No.
3. La estadística es difícil “asusta”, es una materia que, como todas las relacionadas con
las matemáticas, es incomprensible, aburrida y fría. ¿Es difícil? Depende, puede ser tan
fácil o tan difícil como el profesor quiera hacerla. Además, puede enfocarse de muchas
formas. Lo importante es ir paso a paso, de lo más sencillo a lo más complejo.
ACLARACIONES TERMINOLÓGICAS
El término estadística no siempre ha tenido el significado que tiene en la actualidad; a lo largo
de la historia su significado ha ido cambiado sustancialmente.
En su sentido primero, “estadística” nace derivado de la palabra “estado”. Tiene su origen en el
renacimiento italiano como disciplina cuyo objeto era el estudio del Estado y las diferentes
formas del Estado. Surge como “una clase sistemática de ciencia política comparada”.
En la actualidad, la palabra estadística tiene dos acepciones claramente diferenciadas:
1. La estadística como conjunto de datos numéricos. Ha de tenerse en cuenta que no toda
colección de datos constituye una estadística, “tales datos numéricos han de estar
presentados de una manera ordenada y sistemática; han de constituir un conjunto
coherente, establecido de forma sistemática según un criterio ordenación”.
2. La estadística como conjunto de procedimientos para el análisis de datos. Este concepto
ha ido cambiado a lo largo de su desarrollo histórico.
HISTORIA DE LA ESTADÍSTICA
Surge de las aportaciones e influencias de diversas ciencias. La llamada “estadística actual”
surge con la confluencia de dos ramas del saber que evolucionan por separado hasta finales del
siglo XIX: la Estadística por una parte y el Cálculo de Probabilidades por otra.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30

Vista previa parcial del texto

¡Descarga Introducción a la Estadística: Variables, Frecuencias y Distribuciones y más Apuntes en PDF de Estadística Aplicada solo en Docsity!

TEMA 1: ALGUNAS CONSIDERACIONES SOBRE LA

ESTADÍSTICA

La estadística no está limitada a los círculos científicos o a las administraciones públicas. Su presencia en el mundo actual es tal que el contacto con ella es prácticamente constante.

PRENOCIONES Y PREJUICIOS. Tres grandes grupos:

  1. La estadística miente y manipula. ¿La estadística miente? Dos acepciones:
    • (^) Estadística como procedimiento.
    • Estadística como conjunto de datos.

La estadística como herramienta no miente, como producto puede mentir.

  1. Los datos estadísticos son más “objetivos” que otro tipo de datos y, de algún modo, confieren “cientificidad a aquello que describen. ¿Son más “objetivos” que otro tipo de datos? No.
  2. La estadística es difícil “asusta”, es una materia que, como todas las relacionadas con las matemáticas, es incomprensible, aburrida y fría. ¿Es difícil? Depende, puede ser tan fácil o tan difícil como el profesor quiera hacerla. Además, puede enfocarse de muchas formas. Lo importante es ir paso a paso, de lo más sencillo a lo más complejo.

ACLARACIONES TERMINOLÓGICAS

El término estadística no siempre ha tenido el significado que tiene en la actualidad; a lo largo de la historia su significado ha ido cambiado sustancialmente.

En su sentido primero, “estadística” nace derivado de la palabra “estado”. Tiene su origen en el renacimiento italiano como disciplina cuyo objeto era el estudio del Estado y las diferentes formas del Estado. Surge como “una clase sistemática de ciencia política comparada”.

En la actualidad, la palabra estadística tiene dos acepciones claramente diferenciadas:

  1. La estadística como conjunto de datos numéricos. Ha de tenerse en cuenta que no toda colección de datos constituye una estadística, “tales datos numéricos han de estar presentados de una manera ordenada y sistemática; han de constituir un conjunto coherente, establecido de forma sistemática según un criterio ordenación”.
  2. La estadística como conjunto de procedimientos para el análisis de datos. Este concepto ha ido cambiado a lo largo de su desarrollo histórico.

HISTORIA DE LA ESTADÍSTICA

Surge de las aportaciones e influencias de diversas ciencias. La llamada “estadística actual” surge con la confluencia de dos ramas del saber que evolucionan por separado hasta finales del siglo XIX: la Estadística por una parte y el Cálculo de Probabilidades por otra.

El cálculo de probabilidades es una rama de las matemáticas. Sus antecedentes se sitúan en el renacimiento italiano. El inicio del cálculo de probabilidades y sus primeros desarrollos estuvieron muy ligados a los juegos de azar. Su consolidación como disciplina independiente se produce entre la segunda mitad del XVII y la primera del XVIII.

Ambas disciplinas evolucionan por separado durante todo el siglo XVIII y la primera mitad del XIX.

La confluencia de ambas disciplinas, que es lo que ha dado origen a la actual estadística, no tuvo lugar en un momento concreto. Es un proceso de confluencia que se inició en la segunda mitad del siglo XIX y culmina hacia los años 30-40 del siglo XX. La unión de ambas se cristaliza por lo tanto en la década de los 40. En esta confluencia está el origen de la estadística inferencial que constituye el núcleo de lo que actualmente es la estadística.

CLASIFICACIONES DE LA ESTADÍSTICA

  • (^) Estadística teórica o matemática. Estudio formal del proceso que conduce desde las observaciones a las inferencias, la decisión o cualquier clase de conclusiones, en cuanto el proceso puede ser abstraído de los contextos empíricos concretos.
  • Estadística aplicada. Aplicación documentada de métodos que han sido teóricamente investigados: el salto real después de estudiar la teoría del salto.

Entre teoría y aplicación existe las más de las veces una acción recíproca. Una buena aplicación de la estadística exige conocer los fundamentos del método que se está utilizando; por otra parte en numerosas ocasiones el hecho mismo de la aplicación puede contribuir al desarrollo de la teoría.

En realidad no son dos tipos de estadística: es la misma; lo que cambia es el enfoque de quien se acerca a ella.

ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL

  • Estadística descriptiva. Parte de la estadística que se ocupa de describir resumiendo la información, los datos (muestra o población) su resumen siempre se realiza mediante procedimientos de la estadística descriptiva.
  • Estadística inferencial. Entra en juego cuando se trabaja con muestras. Se apoyan en modelos matemáticos tomados del cálculo de probabilidades y se utilizan para determinar el tamaño de la muestra, para estimar parámetros poblacionales y para contrastar hipótesis.

SEGÚN EL NÚMERO DE VARIABLES

  • (^) Univariable. Reúne todos aquellos procedimientos estadísticos los que se utiliza una sola variable.
  • Bivariable. Procedimientos estadísticos en los que se utilizan los datos de dos variables.
  • Multivariable. Procedimientos estadísticos en los que se usan datos de tres o más variables.

CONCEPTO ACTUAL DE ESTADÍSTICA

propia de la estadística) cuya principal característica es que las afirmaciones que se hacen acerca de la población tienen una “confianza medible” y cuya condición es que la muestra se haya elegido anteriormente.

UNIDADES

  • Unidad: cada uno de los elementos de la población investigada.

Ejemplo. Si la población investigada son los 80 “alumnos de la clase”, cada uno de ellos es una unidad.

Cuando se trabaja con muestras, la muestra estará formada por algunas de las unidades que forman la población investigada. En cualquier caso, todos los datos que se obtengan irán referidos a dichas unidades.

VARIABLES

En cualquier población se pueden definir infinitas variables relativas a dicha población y deben ser los objetos de investigación los que determinen las variables investigadas.

  • Variable: una característica de las unidades investigadas que toma valores diferentes en las diferentes unidades.

Requisitos que debe cumplir una característica para ser considerada variable:

  1. Ser una característica de las unidades investigadas.
  2. Tomar al menos dos valores diferentes.

Es fundamental tener en cuenta que toda variable lo es en relación a una determinada población.

El sexo sería una variable si la población investigada son los “Alumnos matriculados en la UCM en el curso 2016-2017” porque es una característica de los alumnos y porque toma, al menos, dos valores diferentes: entre los alumnos matriculados hay algunos que son hombres y otros que son mujeres. Si la población son “Monjas residentes en la provincia de Ávila según el último censo” el sexo no es una variable.

TIPOS DE VARIABLES

Variables cualitativas y cuantitativas

  • Cualitativa: aquella cuyos valores se expresan con palabras.

En las variables cualitativas es muy común designar los diferentes valores con el nombre de “categorías de la variable”.

Categorías de la variable “Estado civil”: soltero, casado, viudo, divorciado, separado.

  • Cuantitativas: aquella cuyos valores son números.

Variable “Número de hijos”: 0, 1, 2…

Variables discretas, continuas y agrupadas en intervalos

Desde un punto de vista teórico, las variables pueden ser discretas o continuas.

  • Discretas: números enteros.
  • Continuas: números decimales.

Una variable discreta es “número de hijos”. Alguien puede tener 0, 1 o 10 hijos, pero nadie puede tener tres hijas y medio. Pero la variable “Peso de un niño al nacer” sería continua ya que un bebe puede pesar al nacer 3,5kg.

Desde un punto de vista práctico, las variables pueden presentarse como discretas o agrupadas en intervalos con independencia de si teóricamente son discretas o continuas. Por lo que, en la práctica, una variable discreta puede presentarse en las tablas como discreta o puede agruparse en intervalos y lo mismo sucede con una continua.

CLASIFICACIÓN DE LAS VARIABLES SEGÚN SU NIVEL DE MEDIDA

  • Nominales.
  • Ordinales.
  • (^) Intervales.
  • De razón.

Cada una de ellas tiene un nivel de medida superior al anterior.

NOMINA L

Clasifica

ORDINAL Clasifica + Ordena INTERVA L

Clasifica + Ordena + Tiene una unidad de mediada que permite conocer la distancia exacta entre la posición de dos unidades. RAZÓN clasifica + ordena + Tiene una unidad de mediada que permite conocer la distancia exacta entre la posición de dos unidades.

  • Tiene un 0 absoluto

El cero absoluto es el origen de la escala, no es arbitrario.

Para decir que una variable tiene un nivel de medida nominal, dicha variable tiene que establecer una clasificación en la población a la que va referida y para establecer una clasificación en una población, las categorías (o valores) de la variable tienen que ser:

  • Mutuamente excluyentes. Cada unidad sólo ha de poder incluirse en una de las categorías. En el momento en el que una sola unidad pueda estar clasificada en más de una categoría, dichas categorías no son mutuamente excluyentes.
  • Exhaustivas. Toda la unidad debe poder ser incluida en una de las categorías. Cuando una unidad no tenga una categoría en la que ser incluida, las categorías no cumplen esta condición. Por eso en muchos cuestionarios se incluye la categoría otras.

Si la población investigada son los niños nacidos en España en el año 2011, el sexo es una variable nominal, porque cualquiera de los nacidos puede incluirse en una y una sola de las categorías de la variable (hombre/mujer).

Por lo general, en la matriz de datos no suelen ponerse los nombres de las diferentes categorías de las variables cualitativas. Lo usual es asignar códigos numéricos a cada una de ellas y estos códigos son los que se ponen en la matriz de datos.

Unidad Edad Sexo Estado civil 1 35 1 4 2 24 2 1 3 29 1 1 4 43 1 4 5 45 2 2 6 28 1 2 7 32 2 1 8 35 1 2 9 29 1 1 10 36 2 2

Cualquier trabajo estadístico parte siempre de una matriz de datos y suele empezar con el análisis de cada una de las variables por separado (análisis univariable). Después se suelen hacer análisis bivariables, es decir, la distribución de las variables dos a dos. Y en ocasiones se realiza algún análisis multivariable en el que entran en juego tres o más variables a la vez.

TEMA 4. DISTRIBUCIONES UNIDIMENSIONALES DE

FRECUENCIA.

Objetivo de la estadística descriptiva: describir resumiendo la información de los datos. Todo trabajo estadístico comienza con el análisis de cada una de las variables de la matriz de datos por separado.

Unidad Edad Sexo Estado civil 1 35 1 4 2 24 2 1 3 29 1 1 4 43 1 4 5 45 2 2 6 28 1 2 7 32 2 1 8 35 1 2 9 29 1 1 10 36 2 2

Población de 10 personas y datos de cada una de ellas en tres variables: edad, sexo y estado civil. Para cada una de estas variables obtendremos su distribución unidimensional de frecuencias.

Para obtener cada una de las distribuciones de frecuencia se trata simplemente de:

  1. Identificar los valores diferentes de la variable (x) y, en caso de que la variable sea ordinal o interval, ordenar dichos valores de menor a mayor.
  2. Consultar el número de veces que aparece cada uno de esos valores. Al número de veces que aparece un valor se le llama frecuencia absoluta (ni ).
  3. Asociar a cada valor (xi ) de la variable, la frecuencia (ni ).

Haciendo esto podemos obtener de la matriz de datos de la tabla 1 tres distribuciones de frecuencia, una para cada variable; dichas distribuciones se presentan en la siguiente tabla:

Edad (x (^) i ) Frecuencia (n (^) i ) 24 1 28 1 29 2 32 1 35 2 36 1 43 1 45 1 TOTAL 10

Esta tabla contiene una distribución de frecuencias; se llaman así porque nos indican como se reparte la frecuencia total entre los diferentes valores que toma la variable.

El análisis de matrices más grandes, se realiza con programas informáticos ya que hacerlo manualmente resulta una pérdida de tiempo y muy tedioso. Existen muchos programas informáticos de análisis de datos. El más conocido y utilizado en CCSS es el SPSS, que es muy caro para un particular; existe un programa similar llamado PPSP.

FRECUENCIAS ABSOLUTAS Y RELATIVAS. PORCENTAJES. FRECUENCIAS ACUMULADAS. CÁLCULO E INTERPRETACIÓN.

x (^) i n (^) i fi pi Ni F (^) i P (^) i 0 30 0.150 15 30 0.150 15 1 60 0.300 30 90 0.450 45 2 70 0.350 35 160 0.800 80 3 15 0.075 7.5 175 0.875 87. 4 15 0.075 7.5 190 0.950 95 5 10 0.050 5 200 1 100 Total 200 1 100

xi : valores de la variable

ni : frecuencias absolutas

fi : frecuencias relativas

  • Las frecuencias absolutas acumuladas se calculan a partir de las frecuencias absolutas. La primera frecuencia absoluta acumulada es igual a la primera frecuencia absoluta. La primera frecuencia absoluta acumulada y la primera frecuencia absoluta son 30. La segunda frecuencia absoluta acumulada se obtiene sumando la frecuencia acumulada anterior a la frecuencia sin acumular de su fila. La segunda frecuencia absoluta acumulada es 90 (30 de la frecuencia acumulada anterior y 60 de la frecuencia absoluta de su fila). Y así sucesivamente. En general:

N (^) i = N (^) i-1 + ni

Que significa que una frecuencia acumulada = a la frecuencia acumulada de la fila anterior más la frecuencia sin acumular de su propia fila. N 4 (175) = N 3 + n 4 (15).

La última frecuencia absoluta acumulada siempre es = a la frecuencia total. En este caso, la última frecuencia acumulada es 200.

  • Las frecuencias relativas acumuladas se calculan de la misma forma, partiendo de las frecuencias relativas. Y la última frecuencia relativa acumulada siempre es = 1.

Fi = Fi-1 + f (^) i

Los porcentajes acumulados se calculan de la misma forma partiendo de los porcentajes. El último porcentaje acumulado es igual a 100.

Pi = Pi-1 + p (^) i

Para la interpretación de las frecuencias acumuladas, los valores de la variable deben estar ordenados de menor a mayor, por lo que las frecuencias acumuladas no tienen sentido en las variables nominales.

Interpretación de las frecuencias acumuladas de la tercera fila:

  • Frecuencia absoluta acumulada, N 5 = 160: en esta población hay 160 niños de 2 o menos años.
  • Frecuencia relativa, F 3 = 0.8: en esta población la proporción de niñas de 2 o menos años es 0.8.
  • Porcentaje acumulado, P 3 = 80: el 80€ de los niños investigados tienen 2 o menos años.

TEMA 5. MEDIDAS DE POSICIÓN.

  • (^) Medias de posición: nos dan información sobre la posición que ocupan determinados valores en la distribución de frecuencias. Las más importantes de las medidas de posición son las cuantiles. Entre los cuantiles, los más usados son los percentiles.

Si decimos que el percentil 75 de la variable edad en un grupo de alumnos es 30 años, decimos que el 75% de los alumnos son menores o iguales de 30 años y el 25% mayores o iguales a esa edad. Este percentil está situado indicando la posición del valor 30 respecto a los otros valores de la distribución de frecuencias.

Dentro, están las medidas de tendencia central o de centralización que nos indican cuales son los valores que ocupan los lugares centrales de la distribución de frecuencias.

MODA

  • Moda: “lo que más se lleva”. Es el valor de la variable al que le corresponde la máxima frecuencia y de ahí se deriva su cálculo casi inmediato. Se mira en la distribución de frecuencias cual es la mayor de las frecuencias y el valor de la variable al que le corresponda dicha frecuencia es la moda.

Si en una población hay 20 mujeres y 5 hombres, la moda es ser mujer.

La interpretación de la moda es muy sencilla, pero hay que tener cuidado de no cometer un error muy común: a veces se interpreta la moda diciendo que “la mayoría de la población es o tiene…”; pero la moda no es la mayoría, es el valor más frecuente.

En una población de 200 niños, hay 70 niños de 2 años, por lo tanto es la moda al ser lo más frecuente, no la mayoría.

Lo más habitual es que las distribuciones de frecuencias tengan una sola moda (unimodales), pero también puede haber distribuciones de frecuencias que tengan dos modas (bimodal); si tiene tres o más modas se denomina multimodal.

  • Ventajas: facilidad de su cálculo y el poder calcularse en cualquier variable sea cual sea su nivel de medida.
  • Problemas: su cálculo intervienen sólo unos pocos valores de la variable, de tal forma que puede haber grandes cambios en la distribución de frecuencias sin que se produzcan cambios en la moda, lo que significa que es una medida poco sensible.

Las tablas 1 y 2 recogen la distribución de las notas de los alumnos de una clase. Podemos ver que la moda es 6. Hay diferencias importantes entre la distribución de las frecuencias de la tabla 1 y la tabla 2; sin embargo, dichos cambios no repercuten en la moda que sigue siendo 6.

Tabla nº Notas Frecuencia 3 10 4 10 6 20 8 5 9 5 50 Tabla nº Notas Frecuencia 3 1 4 1 6 20 8 14 9 14 50

  • Ventajas: sencillez de su cálculo y que en su determinación intervienen todos los datos de la variable, de forma que cualquier cambio en uno de los datos repercute en la media. Por eso se dice que es una medida muy sensible.
  • Pero esta extrema sensibilidad de la media en ocasiones se convierte en su principal defecto, ya que por ella el principal inconveniente suele estar muy afectada por los valores externos. Tanto es así que cuando en una variable existen valores extremos muy alejados del resto, se desaconseja el uso de la media o se recomienda eliminar, siempre explicándolo, el valor extremo antes del cálculo de la media.

La media, además tiene varias propiedades matemáticas, entre las cuales se encuentra una necesaria para explicar la varianza. Dicha propiedad dice que la suma de todas las desviaciones respecto a la media siempre es cero.

La desviación de un valor respecto a la media se obtiene restando a dicho valor la media. Por tanto, una desviación respecto a la media puede ser positiva o negativa.

Si la nota media en una clase ha sido 6 y un alumno ha sacado un 9, su desviación respecto a la media es +3; otro alumno que haya sacado un 4 tendrá una desviación de -2.

CUANTILES: CUARTILES, DECILES Y PERCENTILES.

Cuartiles

Este segmento horizontal representa todos los datos de la variable ordenados en orden creciente. Pues bien, habrá un dato que, al estar ordenados todos los datos en sentido creciente, una cuarta parte estén a izquierda (menores) y tres cuartas partes a la derecha (mayores o iguales). Dicho valor es el cuartil 1 o cuartil de orden 1 y se designa como Q 1.

Al decir que el cuartil 1 de las puntuaciones de un grupo de personas en un test cuya puntuación va de 0 a 100 es 42.45, estamos diciendo que una cuarta parte de dichas personas han obtenido puntuaciones por debajo o menores de 42.45 y tres cuartas partes puntuaciones por encima o iguales.

En distribución de frecuencias se pueden calcular tres cuartiles.

  • El cuartil dos es el que deja dos cuartas partes por debajo y dos cuartas partes por encima, por tanto el cuartil 2 es la mediana.
  • El cuartil tres es el valor de la variable que deja ¾ partes de la frecuencia por debajo y ¼ parte por encima.

Deciles

Se pueden entender por analogía con los cuartiles. Si éstos “dividen” la distribución de frecuencias en cuatro partes, los deciles la “dividen” en diez partes. Por tanto, hay 9 deciles.

El decil 7 es el valor de la variable que, ordenados todos los datos en sentido creciente, siete décimas partes están por debajo y 3 décimas partes están por encima.

Por supuesto, el decil 5 es la mediana, porque es el que deja la mitad de la frecuencia a un lado y la otra mitad al otro.

Percentiles

Los percentiles “dividen” las frecuencias en 100 partes y, consecuentemente, hay 99 percentiles.

El percentil 13 es el valor de la variable que, ordenados todos los datos en sentido creciente, un 13% son menores o iguales y un (100-13), es decir, 87% son mayores o iguales.

Tanto la mediana, como los cuartiles y los deciles son casos particulares de percentiles.

  • El percentil 50 es la mediana, el cuartil 2 y el decil 5.
  • En cuanto a los cuartiles 1 y 3 son, respectivamente, los percentiles 25 y 75.
  • El decil 1 es el percentil 10; el decil 2, el percentil 20 y así sucesivamente.

El percentil de orden r o percentil r (Pr ) es el valor de la variable que, ordenados todos los datos en sentido creciente, un r% son menores o iguales y un (100-r) % son mayores o iguales. Suelen usarse para situar una unidad dentro de la población investigada.

El cálculo de los percentiles es muy similar al de la mediana. Para calcular el percentil “r”:

  1. Se calculan los porcentajes acumulados.
  2. Se busca el primero que sea mayor que r.
  • Está muy influido por los valores extremos ya que en el momento en que exista un solo valor muy diferente a los demás, el recorrido se dispara.

El recorrido en la clase A sería 2, que es la distancia entre el valor más alto (7) y el más bajo (5) que toman las notas en ese grupo. El recorrido está muy influido por los valores extremos.

Si el recorrido fuera una buena medida de dispersión, cuanto mayor fuera la dispersión, mayor valor tomaría el recorrido.

Pero tanto el recorrido informa de la distancia entre el valor mayor y menor que toma una variable, pero no es válido como medida de dispersión.

Se puede que el recorrido de C es mayor que el de B, pero, a partir de este dato, no se puede decir que los datos de C estén más disparos que en B.

Recorrido intercuartílico

Distancia entre el primer y el tercer cuartil. Se calcula restando del tercer cuartil (o percentil 75) el primer cuartil (o percentil 25). Supone una mejora respecto al recorrido como medida de dispersión y es que, al no tener en cuenta en su cálculo ni el 25% de los valores más altos ni el 25% de los más bajos, no se ve influida por los valores extremos.

  • Mide la distancia que existe entre el valor mayor y el menor del 50% de los valores centrales.

Igual que el recorrido, el recorrido intercuantílico va expresado en las mismas unidades que la variable, por lo tanto sólo se podrán comparar dos recorridos intercuantílicos cuando vayan expresados en las mismas unidades.

Si calculamos los recorridos intercuantílicos de A, B y C obtenemos:

Grupo Percentil 25 Percentil 75 Recorrido intercuantílico A 5 7 2 B 3 9 6 C 6 6 0 El valor más bajo se obtiene en el grupo C, cuyo recorrido intercuartílico es 0, lo que indica máxima concentración entre el 50% de los datos centrales.

Aunque el recorrido intercuantílico mejora al recorrido en que no influyen en su cálculo los valores extremos, se mantiene el problema de que no todos los datos influyen en su cálculo, de modo que puede haber grandes variaciones en los datos que no sean recogidos por los correspondientes cambios en el recorrido intercuantílico.

Varianza

  • Es la más importante de las medidas de dispersión. Se explica y se define por su propia fórmula.

Para empezar, recordar el concepto de desviación respecto a la media: (x (^) i – x)

Esta desviación nos indica la distancia que existe entre cada unidad y la media de su grupo. Si todos los datos son muy parecidos, estas desviaciones serán muy pequeñas; sin embargo, cuanto más heterogéneos sean los datos, mayores serán las desviaciones. Por lo tanto, si sumamos

todas las desviaciones, estaremos teniendo en cuenta todos los datos y obtendremos un número mayor cuanto mayores sean las desviaciones. El problema es que la suma de todas las desviaciones respecto a la media siempre es igual a cero.

Se puede solucionar de dos formas:

  • tomando el valor absoluto de las desviaciones.
  • elevando las desviaciones al cuadrado.

La mejor solución es la segunda, por lo tanto, elevaremos cada desviación al cuadrado y después sumar todas ellas. De este modo, cuanto más alejados estén los datos de la media, mayores serán las desviaciones y mayor el resultado de este sumatorio.

(^2) ·n (^) i

2

Cálculo de la varianza de la clase A Notas (Xi ) N (^) i

5 25 -1 1 25 6 0 0 0 0 7 25 1 1 25 50 50

En esta tabla se ha calculado el sumatorio de las desviaciones al cuadrado para la clase A. Partiendo de la distribución de frecuencias (columnas una y dos) en la columna 3 se ha calculado para cada valor de la variable su distancia a la media (media = 6); los que están sacando un 5 están un punto por debajo de la media y los que han sacado un 7 están un punto por encima de la media. En la columna siguiente, estas desviaciones se elevan al cuadrado y en la siguiente se multiplican por la frecuencia. Se trata de sumar todas las desviaciones al cuadrado, en este caso todas las desviaciones al cuadrado valen uno, por ello el total es cincuenta, ya que hay cincuenta alumnos, pero es lo mismo sumar “uno” 25 veces que multiplicar 1 por 25.

El valor menor que puede tomar este sumatorio es cero y sucede cuando todos los datos son iguales entre sí e iguales a la media, porque en ese caso, todas las desviaciones son iguales a cero y por tanto el sumatorio de las desviaciones al cuadro es también igual a cero. Por lo tanto, el valor mínimo que puede tomar este sumatorio es cero e indica máxima concentración y homogeneidad: todos los datos son iguales. En cuanto al valor mayor, no existe límite.

Supongamos una clase D con 200 alumnos que sus datos tienen el mismo grado de dispersión que los de la clase A.

Se obtiene dividiendo la desviación típica por la media (y generalmente multiplicando por cien para darlo en tanto por ciento):

CV = S/X · 100

Se obtiene un número adimensional, por lo que el coeficiente de variación sirve para comparar el grado de dispersión de dos variables aun cuando vayan expresadas en diferentes unidades.

RESUMEN DE LAS MEDIDAS DE DISPERSIÓN

MEDIDA DE DISPERSIÓN

CONCEPTO UNIDADES COMPARABILIDAD

RECORRIDO Distancia entre el valor mínimo y máximo que toma la variable.

Las mismas que la variable.

Sólo cuando van expresadas en las mismas unidades.

RECORRIDO INTERCUARTÍLIC O

Distancia entre el primer y el tercer cuartil.

Las mismas que la variable.

Sólo cuando van expresadas en las mismas unidades. VARIANZA Sumatorio de las desviaciones respecto a la media al cuadrado, dividiendo por la frecuencia total.

Las mismas que la variable al cuadrado.

Sólo cuando van expresadas en las mismas unidades.

DESVIACIÓN

TÍPICA

Raíz cuadrada de la varianza.

Las mismas que la variable.

Sólo cuando van expresadas en las mismas unidades. COEFICIENTE DE VARIACIÓN DE PEARSON

Desviación típica dividida por la media.

Número adimensional. Siempre

TIPIFICACIÓN DE UNA VARIABLE. VARIABLES TIPIFICADAS.

Tipificar una variable es transformarla en otra cuya media sea cero y cuya desviación típica sea

  1. A la variable tipificada se le suele llamar “z”. Para transformar cualquier variable (x) en z, se le resta su media y se divide por la desviación típica, de modo que:

Se puede demostrar y comprobar que al hacer este cambio, la nueva variable z tiene como media cero y la desviación típica 1.

  • Puntuación tipificada: cada uno de los valores de la nueva variable. Una puntuación tipificada indica el número de desviaciones típicas que una unidad está por encima o por debajo de la media del grupo.

Si tipificamos las notas del grupo A, obtenemos las siguientes distribuciones de frecuencias:

Puntuaciones tipificadas de la clase A Notas (xi ) Notas (z (^) i ) ni 5 -1 25 6 0 0 7 1 25 50 Como la media de x es 6 y la desviación típica 1, las puntuaciones tipificadas serán: (5-6)/1 = - (6-6)/1 = 0 (7-6)/1 = 1

Se puede comprobar que la media en cada una de las nuevas variables es cero y que la desviación típica es uno.

Una persona que haya sacado un 5 en la clase A, está una desviación típica por debajo de la media de su grupo.

Por lo tanto, las puntuaciones tipificadas sirven, entre otras cosas, para posicionar a las unidades respecto a la media y la desviación típica de su grupo.

TEMA 7. DISTRIBUCIONES BIVARIABLES.

ANÁLISIS BIVARIABLE

Comienza con el cruce de algunas de las variables de la matriz de datos.

  • Se llama cruzar dos variables a obtener su distribución bivariable.
  • Obtener la distribución bivariable es asociar a cada par de valores (uno de cada variable) la frecuencia con que aparece.

Si las variables que vamos a cruzar son el sexo y la nota (suspenso, aprobado, notable y sobresaliente), habrá 8 pares de valores (2 variables de sexo x 4 de nota). A cada uno de esos pares de valores se le asocia la frecuencia con que aparece de forma que podemos saber que hay: 12 mujeres suspensas, 25 mujeres aprobadas…

  • Así como en el análisis univariable se obtienen las distribuciones de frecuencias de cada una de las variables de la matriz de datos, en el caso del análisis bivariable, se seleccionan sólo aquellos cruces que puedan ser interesantes para los objetivos de la investigación.
  • Cada cruce de dos variables se presenta en una tabla de doble entrada o de contingencia. Además de la distribución bivariable, se pueden observar una serie de distribuciones unidimensionales de frecuencia. - Distribuciones marginales: son dos, una por cada una de las variables. - Distribuciones condicionadas: el nº de distribuciones de una variable condicionadas por la otra parte del número de categorías de la variable que condiciona.