








































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una introducción básica a la estadística, explicando conceptos como variables, frecuencias absolutas y relativas, medias de posición, moda y distribuciones de frecuencia. Además, se abordan las distribuciones bivariables y la asociación entre variables. El texto también incluye una breve discusión sobre la diferencia entre datos y valores, y el concepto de coeficiente de confianza.
Tipo: Apuntes
1 / 48
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!









































La estadística no está limitada a los círculos científicos o a las administraciones públicas. Su presencia en el mundo actual es tal que el contacto con ella es prácticamente constante.
PRENOCIONES Y PREJUICIOS. Tres grandes grupos:
La estadística como herramienta no miente, como producto puede mentir.
ACLARACIONES TERMINOLÓGICAS
El término estadística no siempre ha tenido el significado que tiene en la actualidad; a lo largo de la historia su significado ha ido cambiado sustancialmente.
En su sentido primero, “estadística” nace derivado de la palabra “estado”. Tiene su origen en el renacimiento italiano como disciplina cuyo objeto era el estudio del Estado y las diferentes formas del Estado. Surge como “una clase sistemática de ciencia política comparada”.
En la actualidad, la palabra estadística tiene dos acepciones claramente diferenciadas:
HISTORIA DE LA ESTADÍSTICA
Surge de las aportaciones e influencias de diversas ciencias. La llamada “estadística actual” surge con la confluencia de dos ramas del saber que evolucionan por separado hasta finales del siglo XIX: la Estadística por una parte y el Cálculo de Probabilidades por otra.
El cálculo de probabilidades es una rama de las matemáticas. Sus antecedentes se sitúan en el renacimiento italiano. El inicio del cálculo de probabilidades y sus primeros desarrollos estuvieron muy ligados a los juegos de azar. Su consolidación como disciplina independiente se produce entre la segunda mitad del XVII y la primera del XVIII.
Ambas disciplinas evolucionan por separado durante todo el siglo XVIII y la primera mitad del XIX.
La confluencia de ambas disciplinas, que es lo que ha dado origen a la actual estadística, no tuvo lugar en un momento concreto. Es un proceso de confluencia que se inició en la segunda mitad del siglo XIX y culmina hacia los años 30-40 del siglo XX. La unión de ambas se cristaliza por lo tanto en la década de los 40. En esta confluencia está el origen de la estadística inferencial que constituye el núcleo de lo que actualmente es la estadística.
CLASIFICACIONES DE LA ESTADÍSTICA
Entre teoría y aplicación existe las más de las veces una acción recíproca. Una buena aplicación de la estadística exige conocer los fundamentos del método que se está utilizando; por otra parte en numerosas ocasiones el hecho mismo de la aplicación puede contribuir al desarrollo de la teoría.
En realidad no son dos tipos de estadística: es la misma; lo que cambia es el enfoque de quien se acerca a ella.
ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL
SEGÚN EL NÚMERO DE VARIABLES
CONCEPTO ACTUAL DE ESTADÍSTICA
propia de la estadística) cuya principal característica es que las afirmaciones que se hacen acerca de la población tienen una “confianza medible” y cuya condición es que la muestra se haya elegido anteriormente.
UNIDADES
Ejemplo. Si la población investigada son los 80 “alumnos de la clase”, cada uno de ellos es una unidad.
Cuando se trabaja con muestras, la muestra estará formada por algunas de las unidades que forman la población investigada. En cualquier caso, todos los datos que se obtengan irán referidos a dichas unidades.
VARIABLES
En cualquier población se pueden definir infinitas variables relativas a dicha población y deben ser los objetos de investigación los que determinen las variables investigadas.
Requisitos que debe cumplir una característica para ser considerada variable:
Es fundamental tener en cuenta que toda variable lo es en relación a una determinada población.
El sexo sería una variable si la población investigada son los “Alumnos matriculados en la UCM en el curso 2016-2017” porque es una característica de los alumnos y porque toma, al menos, dos valores diferentes: entre los alumnos matriculados hay algunos que son hombres y otros que son mujeres. Si la población son “Monjas residentes en la provincia de Ávila según el último censo” el sexo no es una variable.
TIPOS DE VARIABLES
Variables cualitativas y cuantitativas
En las variables cualitativas es muy común designar los diferentes valores con el nombre de “categorías de la variable”.
Categorías de la variable “Estado civil”: soltero, casado, viudo, divorciado, separado.
Variable “Número de hijos”: 0, 1, 2…
Variables discretas, continuas y agrupadas en intervalos
Desde un punto de vista teórico, las variables pueden ser discretas o continuas.
Una variable discreta es “número de hijos”. Alguien puede tener 0, 1 o 10 hijos, pero nadie puede tener tres hijas y medio. Pero la variable “Peso de un niño al nacer” sería continua ya que un bebe puede pesar al nacer 3,5kg.
Desde un punto de vista práctico, las variables pueden presentarse como discretas o agrupadas en intervalos con independencia de si teóricamente son discretas o continuas. Por lo que, en la práctica, una variable discreta puede presentarse en las tablas como discreta o puede agruparse en intervalos y lo mismo sucede con una continua.
CLASIFICACIÓN DE LAS VARIABLES SEGÚN SU NIVEL DE MEDIDA
Cada una de ellas tiene un nivel de medida superior al anterior.
NOMINA L
Clasifica
ORDINAL Clasifica + Ordena INTERVA L
Clasifica + Ordena + Tiene una unidad de mediada que permite conocer la distancia exacta entre la posición de dos unidades. RAZÓN clasifica + ordena + Tiene una unidad de mediada que permite conocer la distancia exacta entre la posición de dos unidades.
El cero absoluto es el origen de la escala, no es arbitrario.
Para decir que una variable tiene un nivel de medida nominal, dicha variable tiene que establecer una clasificación en la población a la que va referida y para establecer una clasificación en una población, las categorías (o valores) de la variable tienen que ser:
Si la población investigada son los niños nacidos en España en el año 2011, el sexo es una variable nominal, porque cualquiera de los nacidos puede incluirse en una y una sola de las categorías de la variable (hombre/mujer).
Por lo general, en la matriz de datos no suelen ponerse los nombres de las diferentes categorías de las variables cualitativas. Lo usual es asignar códigos numéricos a cada una de ellas y estos códigos son los que se ponen en la matriz de datos.
Unidad Edad Sexo Estado civil 1 35 1 4 2 24 2 1 3 29 1 1 4 43 1 4 5 45 2 2 6 28 1 2 7 32 2 1 8 35 1 2 9 29 1 1 10 36 2 2
Cualquier trabajo estadístico parte siempre de una matriz de datos y suele empezar con el análisis de cada una de las variables por separado (análisis univariable). Después se suelen hacer análisis bivariables, es decir, la distribución de las variables dos a dos. Y en ocasiones se realiza algún análisis multivariable en el que entran en juego tres o más variables a la vez.
Objetivo de la estadística descriptiva: describir resumiendo la información de los datos. Todo trabajo estadístico comienza con el análisis de cada una de las variables de la matriz de datos por separado.
Unidad Edad Sexo Estado civil 1 35 1 4 2 24 2 1 3 29 1 1 4 43 1 4 5 45 2 2 6 28 1 2 7 32 2 1 8 35 1 2 9 29 1 1 10 36 2 2
Población de 10 personas y datos de cada una de ellas en tres variables: edad, sexo y estado civil. Para cada una de estas variables obtendremos su distribución unidimensional de frecuencias.
Para obtener cada una de las distribuciones de frecuencia se trata simplemente de:
Haciendo esto podemos obtener de la matriz de datos de la tabla 1 tres distribuciones de frecuencia, una para cada variable; dichas distribuciones se presentan en la siguiente tabla:
Edad (x (^) i ) Frecuencia (n (^) i ) 24 1 28 1 29 2 32 1 35 2 36 1 43 1 45 1 TOTAL 10
Esta tabla contiene una distribución de frecuencias; se llaman así porque nos indican como se reparte la frecuencia total entre los diferentes valores que toma la variable.
El análisis de matrices más grandes, se realiza con programas informáticos ya que hacerlo manualmente resulta una pérdida de tiempo y muy tedioso. Existen muchos programas informáticos de análisis de datos. El más conocido y utilizado en CCSS es el SPSS, que es muy caro para un particular; existe un programa similar llamado PPSP.
FRECUENCIAS ABSOLUTAS Y RELATIVAS. PORCENTAJES. FRECUENCIAS ACUMULADAS. CÁLCULO E INTERPRETACIÓN.
x (^) i n (^) i fi pi Ni F (^) i P (^) i 0 30 0.150 15 30 0.150 15 1 60 0.300 30 90 0.450 45 2 70 0.350 35 160 0.800 80 3 15 0.075 7.5 175 0.875 87. 4 15 0.075 7.5 190 0.950 95 5 10 0.050 5 200 1 100 Total 200 1 100
xi : valores de la variable
ni : frecuencias absolutas
fi : frecuencias relativas
N (^) i = N (^) i-1 + ni
Que significa que una frecuencia acumulada = a la frecuencia acumulada de la fila anterior más la frecuencia sin acumular de su propia fila. N 4 (175) = N 3 + n 4 (15).
La última frecuencia absoluta acumulada siempre es = a la frecuencia total. En este caso, la última frecuencia acumulada es 200.
Fi = Fi-1 + f (^) i
Los porcentajes acumulados se calculan de la misma forma partiendo de los porcentajes. El último porcentaje acumulado es igual a 100.
Pi = Pi-1 + p (^) i
Para la interpretación de las frecuencias acumuladas, los valores de la variable deben estar ordenados de menor a mayor, por lo que las frecuencias acumuladas no tienen sentido en las variables nominales.
Interpretación de las frecuencias acumuladas de la tercera fila:
Si decimos que el percentil 75 de la variable edad en un grupo de alumnos es 30 años, decimos que el 75% de los alumnos son menores o iguales de 30 años y el 25% mayores o iguales a esa edad. Este percentil está situado indicando la posición del valor 30 respecto a los otros valores de la distribución de frecuencias.
Dentro, están las medidas de tendencia central o de centralización que nos indican cuales son los valores que ocupan los lugares centrales de la distribución de frecuencias.
Si en una población hay 20 mujeres y 5 hombres, la moda es ser mujer.
La interpretación de la moda es muy sencilla, pero hay que tener cuidado de no cometer un error muy común: a veces se interpreta la moda diciendo que “la mayoría de la población es o tiene…”; pero la moda no es la mayoría, es el valor más frecuente.
En una población de 200 niños, hay 70 niños de 2 años, por lo tanto es la moda al ser lo más frecuente, no la mayoría.
Lo más habitual es que las distribuciones de frecuencias tengan una sola moda (unimodales), pero también puede haber distribuciones de frecuencias que tengan dos modas (bimodal); si tiene tres o más modas se denomina multimodal.
Las tablas 1 y 2 recogen la distribución de las notas de los alumnos de una clase. Podemos ver que la moda es 6. Hay diferencias importantes entre la distribución de las frecuencias de la tabla 1 y la tabla 2; sin embargo, dichos cambios no repercuten en la moda que sigue siendo 6.
Tabla nº Notas Frecuencia 3 10 4 10 6 20 8 5 9 5 50 Tabla nº Notas Frecuencia 3 1 4 1 6 20 8 14 9 14 50
La media, además tiene varias propiedades matemáticas, entre las cuales se encuentra una necesaria para explicar la varianza. Dicha propiedad dice que la suma de todas las desviaciones respecto a la media siempre es cero.
La desviación de un valor respecto a la media se obtiene restando a dicho valor la media. Por tanto, una desviación respecto a la media puede ser positiva o negativa.
Si la nota media en una clase ha sido 6 y un alumno ha sacado un 9, su desviación respecto a la media es +3; otro alumno que haya sacado un 4 tendrá una desviación de -2.
CUANTILES: CUARTILES, DECILES Y PERCENTILES.
Cuartiles
Este segmento horizontal representa todos los datos de la variable ordenados en orden creciente. Pues bien, habrá un dato que, al estar ordenados todos los datos en sentido creciente, una cuarta parte estén a izquierda (menores) y tres cuartas partes a la derecha (mayores o iguales). Dicho valor es el cuartil 1 o cuartil de orden 1 y se designa como Q 1.
Al decir que el cuartil 1 de las puntuaciones de un grupo de personas en un test cuya puntuación va de 0 a 100 es 42.45, estamos diciendo que una cuarta parte de dichas personas han obtenido puntuaciones por debajo o menores de 42.45 y tres cuartas partes puntuaciones por encima o iguales.
En distribución de frecuencias se pueden calcular tres cuartiles.
Deciles
Se pueden entender por analogía con los cuartiles. Si éstos “dividen” la distribución de frecuencias en cuatro partes, los deciles la “dividen” en diez partes. Por tanto, hay 9 deciles.
El decil 7 es el valor de la variable que, ordenados todos los datos en sentido creciente, siete décimas partes están por debajo y 3 décimas partes están por encima.
Por supuesto, el decil 5 es la mediana, porque es el que deja la mitad de la frecuencia a un lado y la otra mitad al otro.
Percentiles
Los percentiles “dividen” las frecuencias en 100 partes y, consecuentemente, hay 99 percentiles.
El percentil 13 es el valor de la variable que, ordenados todos los datos en sentido creciente, un 13% son menores o iguales y un (100-13), es decir, 87% son mayores o iguales.
Tanto la mediana, como los cuartiles y los deciles son casos particulares de percentiles.
El percentil de orden r o percentil r (Pr ) es el valor de la variable que, ordenados todos los datos en sentido creciente, un r% son menores o iguales y un (100-r) % son mayores o iguales. Suelen usarse para situar una unidad dentro de la población investigada.
El cálculo de los percentiles es muy similar al de la mediana. Para calcular el percentil “r”:
El recorrido en la clase A sería 2, que es la distancia entre el valor más alto (7) y el más bajo (5) que toman las notas en ese grupo. El recorrido está muy influido por los valores extremos.
Si el recorrido fuera una buena medida de dispersión, cuanto mayor fuera la dispersión, mayor valor tomaría el recorrido.
Pero tanto el recorrido informa de la distancia entre el valor mayor y menor que toma una variable, pero no es válido como medida de dispersión.
Se puede que el recorrido de C es mayor que el de B, pero, a partir de este dato, no se puede decir que los datos de C estén más disparos que en B.
Recorrido intercuartílico
Distancia entre el primer y el tercer cuartil. Se calcula restando del tercer cuartil (o percentil 75) el primer cuartil (o percentil 25). Supone una mejora respecto al recorrido como medida de dispersión y es que, al no tener en cuenta en su cálculo ni el 25% de los valores más altos ni el 25% de los más bajos, no se ve influida por los valores extremos.
Igual que el recorrido, el recorrido intercuantílico va expresado en las mismas unidades que la variable, por lo tanto sólo se podrán comparar dos recorridos intercuantílicos cuando vayan expresados en las mismas unidades.
Si calculamos los recorridos intercuantílicos de A, B y C obtenemos:
Grupo Percentil 25 Percentil 75 Recorrido intercuantílico A 5 7 2 B 3 9 6 C 6 6 0 El valor más bajo se obtiene en el grupo C, cuyo recorrido intercuartílico es 0, lo que indica máxima concentración entre el 50% de los datos centrales.
Aunque el recorrido intercuantílico mejora al recorrido en que no influyen en su cálculo los valores extremos, se mantiene el problema de que no todos los datos influyen en su cálculo, de modo que puede haber grandes variaciones en los datos que no sean recogidos por los correspondientes cambios en el recorrido intercuantílico.
Varianza
Para empezar, recordar el concepto de desviación respecto a la media: (x (^) i – x)
Esta desviación nos indica la distancia que existe entre cada unidad y la media de su grupo. Si todos los datos son muy parecidos, estas desviaciones serán muy pequeñas; sin embargo, cuanto más heterogéneos sean los datos, mayores serán las desviaciones. Por lo tanto, si sumamos
todas las desviaciones, estaremos teniendo en cuenta todos los datos y obtendremos un número mayor cuanto mayores sean las desviaciones. El problema es que la suma de todas las desviaciones respecto a la media siempre es igual a cero.
Se puede solucionar de dos formas:
La mejor solución es la segunda, por lo tanto, elevaremos cada desviación al cuadrado y después sumar todas ellas. De este modo, cuanto más alejados estén los datos de la media, mayores serán las desviaciones y mayor el resultado de este sumatorio.
(^2) ·n (^) i
2
Cálculo de la varianza de la clase A Notas (Xi ) N (^) i
5 25 -1 1 25 6 0 0 0 0 7 25 1 1 25 50 50
En esta tabla se ha calculado el sumatorio de las desviaciones al cuadrado para la clase A. Partiendo de la distribución de frecuencias (columnas una y dos) en la columna 3 se ha calculado para cada valor de la variable su distancia a la media (media = 6); los que están sacando un 5 están un punto por debajo de la media y los que han sacado un 7 están un punto por encima de la media. En la columna siguiente, estas desviaciones se elevan al cuadrado y en la siguiente se multiplican por la frecuencia. Se trata de sumar todas las desviaciones al cuadrado, en este caso todas las desviaciones al cuadrado valen uno, por ello el total es cincuenta, ya que hay cincuenta alumnos, pero es lo mismo sumar “uno” 25 veces que multiplicar 1 por 25.
El valor menor que puede tomar este sumatorio es cero y sucede cuando todos los datos son iguales entre sí e iguales a la media, porque en ese caso, todas las desviaciones son iguales a cero y por tanto el sumatorio de las desviaciones al cuadro es también igual a cero. Por lo tanto, el valor mínimo que puede tomar este sumatorio es cero e indica máxima concentración y homogeneidad: todos los datos son iguales. En cuanto al valor mayor, no existe límite.
Supongamos una clase D con 200 alumnos que sus datos tienen el mismo grado de dispersión que los de la clase A.
Se obtiene dividiendo la desviación típica por la media (y generalmente multiplicando por cien para darlo en tanto por ciento):
CV = S/X · 100
Se obtiene un número adimensional, por lo que el coeficiente de variación sirve para comparar el grado de dispersión de dos variables aun cuando vayan expresadas en diferentes unidades.
RESUMEN DE LAS MEDIDAS DE DISPERSIÓN
MEDIDA DE DISPERSIÓN
RECORRIDO Distancia entre el valor mínimo y máximo que toma la variable.
Las mismas que la variable.
Sólo cuando van expresadas en las mismas unidades.
RECORRIDO INTERCUARTÍLIC O
Distancia entre el primer y el tercer cuartil.
Las mismas que la variable.
Sólo cuando van expresadas en las mismas unidades. VARIANZA Sumatorio de las desviaciones respecto a la media al cuadrado, dividiendo por la frecuencia total.
Las mismas que la variable al cuadrado.
Sólo cuando van expresadas en las mismas unidades.
Raíz cuadrada de la varianza.
Las mismas que la variable.
Sólo cuando van expresadas en las mismas unidades. COEFICIENTE DE VARIACIÓN DE PEARSON
Desviación típica dividida por la media.
Número adimensional. Siempre
Tipificar una variable es transformarla en otra cuya media sea cero y cuya desviación típica sea
Se puede demostrar y comprobar que al hacer este cambio, la nueva variable z tiene como media cero y la desviación típica 1.
Si tipificamos las notas del grupo A, obtenemos las siguientes distribuciones de frecuencias:
Puntuaciones tipificadas de la clase A Notas (xi ) Notas (z (^) i ) ni 5 -1 25 6 0 0 7 1 25 50 Como la media de x es 6 y la desviación típica 1, las puntuaciones tipificadas serán: (5-6)/1 = - (6-6)/1 = 0 (7-6)/1 = 1
Se puede comprobar que la media en cada una de las nuevas variables es cero y que la desviación típica es uno.
Una persona que haya sacado un 5 en la clase A, está una desviación típica por debajo de la media de su grupo.
Por lo tanto, las puntuaciones tipificadas sirven, entre otras cosas, para posicionar a las unidades respecto a la media y la desviación típica de su grupo.
Comienza con el cruce de algunas de las variables de la matriz de datos.
Si las variables que vamos a cruzar son el sexo y la nota (suspenso, aprobado, notable y sobresaliente), habrá 8 pares de valores (2 variables de sexo x 4 de nota). A cada uno de esos pares de valores se le asocia la frecuencia con que aparece de forma que podemos saber que hay: 12 mujeres suspensas, 25 mujeres aprobadas…