



































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
En este documento se presenta un análisis estadístico de datos mediante la agrupación de datos en clases y el cálculo de parámetros estadísticos como media, desviación típica, varianza y coeficiente de variación. Se utiliza el software mathematica para realizar los cálculos y graficar los resultados.
Tipo: Apuntes
1 / 43
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




































Podemos definir la Estadística como la ciencia que nos facilita los métodos precisos para la obtención y descripción de datos, así como los métodos de análisis, inter- pretación y obtención de conclusiones a partir de la información recogida. Estas dos vertientes dan lugar a dos partes bien diferenciadas de la Estadística:
1. La Estadística descriptiva o deductiva, que tiene por objeto la recogida, ordenación, análisis y representación de los datos obtenidos por las observaciones. En esta parte de la Estadística no se hace uso del cálculo de probabilidades y se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos. 2. La Estadística inferencial o inductiva, que tiene por objeto conocer y analizar un colectivo a partir del estudio de una parte del mismo, llamado muestra. Esta parte de la Estadística se apoya fuertemente en el cálculo de probabilidades.
Llamaremos población a cualquier colectivo de individuos u objetos de cualquier índole a los que se puede asociar una o varias características comunes. Cada ele- mento de la población se denomina individuo o unidad estadística. Es frecuente que el número de individuos de una población (lo que se denomina tamaño de la misma) sea muy grande (posiblemente infinito), lo que aconseja tomar una parte representativa de tamaño manejable, denominada muestra. A la elección de mues- tras se le denomina muestreo y existen muchos criterios sobre la elección de mues- tras. No vamos a entrar en este tema, sino sólo digamos que cualquier individuo de la población debe tener la misma probabilidad de estar en la muestra, que es mucho más importante la representatividad de la muestra que su tamaño y que su composi- ción debe estar en proporción con la composición de la población.
Se denomina variable estadística a una característica, aspecto, fenómeno, rasgo o cualidad que presenta cada individuo de la población y que puede tomar distintos valores (si se expresan numéricamente) o modalidades (en caso contrario). Se deno- tan por letras mayúsculas X , Y , Z , …, mientras que los valores que puede tomar la variable estadística X se denotan con letras minúsculas x 1 , x 2 , x 3 , …. El conjunto de los valores o modalidades que puede tomar una variable estadística se llama dominio de dicha variable. Atendiendo a su dominio, las variables estadísticas se clasifican en:
è Variables estadísticas cualitativas: su dominio son valores no numéricos, es decir, que no se pueden medir; por ejemplo, la profesión de una persona, su estado civil, el idioma elegido, etc. è Variables estadísticas cuantitativas: su dominio son valores numéricos que sí se pueden medir; por ejemplo, la altura de una persona, el diámetro de una pieza de precisión, el cociente intelectual de un alumno, etc. Si la variable cuantitativa sólo puede tomar un número finito de valores distintos, se denomina variable cuantitativa discreta (por ejemplo, la edad de los alumnos de una clase), mientras que en caso contrario se denomina variable cuantitativa continua (por ejemplo, la presión sanguínea de los enfermos de un determinado hospital). Normalmente, si una variable discreta puede tomar un elevado número de valores distintos, se considera como si fuese también una variable conitinua (por ejemplo, el salario de los alumnos de Arquitectura Técnica egresados el curso 2007/2008).
Dada una variable estadística cuantitativa discreta X , se llama frecuencia absoluta del valor x (^) k , y se representa por fk , al número de veces que aparece en una deter- minda muestra. Se llama frecuencia relativa del valor x (^) k , y se representa por hk , al
cociente hk = fn^ k , siendo n el número de individuos de la muestra. También podemos
indicar la frecuencia relativa en términos de porcentajes; se llama porcentaje del valor x (^) k , y se representa por pk , a pk = 100 ÿ hk.
Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos una sucesión de valores x 1 < x 2 < ∫ < x (^) m , siendo m el número de valores distintos
que toma dicha variable. En ese caso, se llama frecuencia absoluta acumulada del valor x (^) h , y se representa por Fk , a Fk = f 1 + f 2 + ∫f k. De igual forma, se llama frecuencia relativa acumulada del valor x (^) k , y se representa por H (^) k , a
H (^) k = h 1 + h 2 + ∫ + hk = Fnk. La tabla o distribución de frecuencias de una variable
estadística discreta está formada por cinco columnas: valores, frecuencias absolu- tas, frecuencias relativas (o porcentajes), frecuencias absolutas acumuladas y fre- cuencias relativas acumuladas.
En caso de que la variable X sea continua (o bien discreta pero con un número muy grande de posibles valores) es muy conveniente agrupar los datos en clases. Una clase es un intervalo a , b , de forma que un valor x (^) k pertenece a dicha clase si a § x (^) k < b (obsérvese que toda clase es un intervalo cerrado por la izquierda y abierto por la derecha). Los extremos a , b del intervalo se denominan límites de
clase , y el punto medio a + 2 b se denomina marca de clase.
notas Sort5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
Para obtener la distribución de frecuencias absolutas de una variable var podemos usar el comando Tally[var]. Téngase presente que antes de aplicar este comando es recomendable que la variable esté ordenada. Este comando devuelve una matriz con dos columnas; la primera contiene los valores que toma la variable y la segunda sus respectivas frecuencias absolutas; para visualizar el resultado como una matriz hemos de emplear el comando MatrixForm[mat] :
notas2 Tallynotas MatrixFormnotas2
0, 2, 1, 3, 2, 1, 3, 1, 4, 1, 5, 3, 6, 2, 7, 5, 8, 7, 9, 5
Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y así sucesivamente. Pode- mos definir por separado los valores de la variable y sus frecuencias absolutas en sendas variables, extrayendo la primera y segunda columna, respectivamente:
notasValores notas2All, 1 notasFrecuencias notas2All, 2
La distribución de frecuencias acumuladas se puede obtener aplicando el comando Accumulate[lista] :
notasFrecAcum AccumulatenotasFrecuencias
2, 5, 6, 7, 8, 11, 13, 18, 25, 30
Y la distribución de frecuencias relativas se obtiene dividiendo (cuando se aplica una operación aritmética a una lista, se realiza dicha operación a cada elemento de ella) las frecuencias absolutas por el número total de elementos de la muestra, el cual se puede obtener con el comando Length[lista] :
n Lengthnotas notasFrecRel notasFrecuencias n NnotasFrecRel
Aun cuando la distribución de frecuencias de una variable estadística discreta con- tiene toda la información, a veces es más conveniente expresarla mediante un grá- fico, con el fin de hacerla más clara y evidente. Para comparar datos cuantitativos de tipo discreto son muy útiles los denominados diagramas de barras. Para trazarlos se representan sobre el eje de abscisas los valores de la variable discreta y sobre el eje de ordenadas las frecuencias absolutas. A continuación, por los puntos marca- dos en el eje de abscisas se levantan trazos gruesos o barras de longitud igual a la frecuencia correspondiente. Para visualizar un diagrama de barras con Mathematica podemos usar el comando BarChart[frec] , siendo frec la lista que contiene las fre- cuencias absolutas de la variable dada:
Número de hijos 0 1 2 3 4 5 Número de familias 10 16 20 18 12 12
Entonces, la variable queda definida mediante las siguientes dos listas (es necesario escribir ambas en el mismo orden, de manera que podamos asociar cada valor con su frecuencia absoluta):
nhijos 0, 1, 2, 3, 4, 5 nfamilias 10, 16, 20, 18, 12, 12
En este caso, para saber el número total de individuos de la muestra hemos de sumar todas las frecuencias absolutas, lo cual podemos hacer mediante el comando Total[lista] :
nfamtotal Totalnfamilias
88
A partir de aquí las distribuciones de frecuencias acumuladas y relativas se calculan igual que antes. Sin embargo, para poder calcular parámetros estadísticos, Mathe- matica requiere como argumento una lista que contenga todos las observaciones de la variable, es decir, una lista en la que cada valor distinto esté repetido tantas veces como indique su frecuencia absoluta (véase la ayuda del programa sobre Decriptive Statistics ). Para obtener dicha lista, podemos proceder como sigue.
Primero definimos una lista con 10 elementos iguales a cero, para lo cual podemos aplicar el comando Table[expr,{i,imin,imax}] , el cual genera una lista cuyos elemen- tos se obtienen al sustituir en expr el valor de la variable i desde imin hasta imax:
list0 Table0, i, 1, 10
0, 0, 0, 0, 0, 0, 0, 0, 0, 0
Repetimos este proceso con los restantes valores que toma la variable estadística:
list1 Table1, i, 1, 16 list2 Table2, i, 1, 20 list3 Table3, i, 1, 18 list4 Table4, i, 1, 12 list5 Table5, i, 1, 12
Finalmente, combinamos todas estas listas definidas en una única lista aplicando el comando Join[lista1,lista2,...] :
hijos Joinlist0, list1, list2, list3, list4, list5
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5
Consideremos ahora una variable continua. Por ejemplo, supongamos que las edades de las personas que acuden a un logopeda son las que se reflejan en la siguiente tabla:
3 2 11 13 4 3 2 4 5 6 7 3 4 5 3 2 5 6 27 15 4 21 12 4 3 6 29 13 6 17 6 13 6 5 12 26
Consideremos la variable edad una variable continua, dada la gran diversidad de valores que puede tomar. En Mathematica , los valores que toma una variable con- tinua se pueden definir como si fuese una variable discreta; es decir:
entes a sus valores y a sus frecuencias absolutas asociadas. Por ejemplo, supong- amos que la siguiente tabla refleja el número de alumnos que han tardado un determi- nado tiempo en resolver un problema de matemáticas que se les ha propuesto:
N úmero de alumnos 3 6 10 12 9 empo tardado en min. 10, 12 12, 14 14, 16 16, 18 18, 20
Definimos entonces las dos listas asociadas, una con las marcas de las clases y la otra con las respectivas frecuencias absolutas:
alumnClases 11, 13, 15, 17, 19 alumnFrecabs 3, 6, 10, 12, 9
También tendremos que definir una lista que contenga todas las observaciones, en este caso usando las marcas de las clases como valores de la variable (hay, por tanto, cierta pérdida de información). Para ello, procederemos como ya hicimos con las variables discretas:
lista1 Table11, i, 1, 3; lista2 Table13, i, 1, 5; lista3 Table15, i, 1, 10; lista4 Table17, i, 1, 12; lista5 Table19, i, 1, 9; alumnos Joinlista1, lista2, lista3, lista4, lista5
11, 11, 11, 13, 13, 13, 13, 13, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 17, 19, 19, 19, 19, 19, 19, 19, 19, 19
Como ocurría con las variables estadísticas discretas, una representación gráfica de la distribución de frecuencias puede en muchos casos hacerla más clara y eficiente. Para variables estadísticas continuas, o bien para variables estadísticas discretas con un gran número de datos, que se han agrupado en clases se suelen emplear los denominados histogramas. Para construir un histograma se representan sobre el eje de abscisas los límites de las clases. Sobre dicho eje se construyen rectángulos que tienen por base la amplitud de cada clase y cuya altura es igual a la frecuencia absoluta correspondiente (con mayor exactitud, dicha altura debería ser tal que el área de cada rectángulo fuese igual a la frecuencia de la correspondiente clase,
pero en Mathematica la altura de cada rectángulo conicide con la frecuencia absoluta). En Mathematica , el comando Histogram(datos,{{clases}}) representa gráficamente el histograma de la variable estadística datos (antes de haberla agrupado en clases), agrupándola en las clases indicadas en el segundo argumento. Por ejemplo, recordando la variable edad (que representaba las edades de los pacientes de un logopeda), su histograma se representa mediante el siguiente comando:
Histogramedad, 0, 5, 10, 15, 20, 25, 30
En el curso 1996/1997 se diplomaron 328 alumnos en esta Escuela. La siguiente tabla muestra el número total de cursos académicos transcurridos desde su ingreso en ella. Hallar la distribución de frecuencias, dibujar el diagrama de barras correspondiente y definir la lista con todas las observa- ciones.-
Número de años 3 4 5 6 7 8 9 10 11 12 13 16 18 21 Número de alumnos 18 67 88 63 43 30 6 3 3 2 1 2 1 1
En el examen primer parcial de Fundamentos Matemáticos del curso 2000/ se presentaron 468 alumnos. La siguiente tabla muestra el número de alumnos que obtuvieron la nota que se indica. Hallar la distribución de frecuencias, definir la lista con todas las observaciones y dibujar su his- tograma.-
se define la media de la distribución como:
m =
ÿ (^) k = 1
n x (^) k ÿ fk
Si la variable estadística X es continua y sus datos se encuentran agrupados en clases, se toman como valores x 1 , x 2 , …, x (^) n las marcas de cada clase. La media es la medida de centralización más utilizada por su fácil cálculo y por tener en cuenta todos los datos. Sin embargo, hay casos en los que se deben utilizar otras medidas de centralización. Por ejemplo, si la variable toma algunos valores extremos poco significativos, éstos pueden distorsionar la media. Por otra parte, si los datos están agrupados en clases y alguna de ellas es abierta, no es posible calcu- lar la media. En Mathematica , la media de una variable estadística var se calcula con el comando Mean[var]. Como ejemplo, calculamos la edad media de los pacientes de nuestro logopeda:
edadMedia Meanedad NedadMedia
313 36
Podemos comprobar que si agrupamos esta variable continua en clases se pierde información (se sustituye cada valor real de la variable por la marca de la clase a la que pertenece) y resultan parámetros estadísticos diferentes:
edadagruMedia Meanedadagru
Dada una variable estadística X , ordenemos en orden creciente de magnitud todos los valores que toma sin agruparlos. Si el número de datos es impar, la mediana de la distribución es el valor central, es decir, el valor tal que hay tantos valores por debajo de él que por encima. Si el número de datos es par, la mediana es el valor medio de los dos valores centrales. La mediana de una variable estadística presenta las siguientes características:
1. Es útil cuando entre los datos existe uno ostensiblemente extremo que distorsiona la media o cuando no es posible calcular ésta. 2. Depende del orden de los datos y no de su valor. 3. Gráficamente, la mediana es la abscisa tal que la vertical levantada sobre ella divide al histograma en dos partes de igual área. 4. No utiliza todos los datos de que se dispone. En Mathematica , la mediana de una variable estadística var se calcula con el comando Median[var]. Como ejemplo, calculamos la mediana de la edad de los pacientes de nuestro logopeda:
edadMediana Medianedad
6
Hallamos también la mediana de la variable agrupada en clases, la cual siempre proporciona como resultado la marca de una de las clases (es decir, la denominada clase mediana ):
edadagruMediana Medianedadagru
Dada una variable estadística X , se llama moda de la distribución al valor de dicha variable que presenta mayor frecuencia absoluta. Si la variable estadística está agru- pada en clases, se llama clase modal a la clase de mayor frecuencia absoluta. La moda no tiene por qué ser única, puesto que puede haber varios valores de la vari- able que alcancen la misma frecuencia absoluta máxima. Se dice en este caso que la distribución es bimodal, trimodal, etc. La moda de una variable estadística pre- senta las siguientes características:
1. Representa el valor dominante, y no existe si la frecuencia es constante. 2. No intervienen todos los datos de que se dispone. 3. Gráficamente, la moda es la abscisa del punto de intersección de las rectas que unen los límites de la clase modal con los límites de las dos clases contiguas. En Mathematica , la moda de una variable estadística var se calcula con el comando Commonest[var]. Como ejemplo, calculamos la moda de la edad de los pacientes de nuestro logopeda:
Al igual que en los comandos anteriores, Mathematica sólo proporciona la marca de la clase ([15,20) en este ejemplo) a la que pertenece el percentil buscado.
Se consideran las dos variables estadísticas definidas en los dos primeros ejerci- cios de este tema (duración de los estudios y notas de matemáticas). Hallar las respectivas medidas de centralización y el percentil 20 de cada distribución.
La investigación acerca de una variable estadística queda incompleta si sólo se estudian las medidas de centralización, siendo imprescindible conocer si los datos numéricos están concentrados o no alrededor de los valores centrales. A esto es a lo que se le llama dispersión, y a los parámetros que miden estas desviaciones respecto de la media se les llama medidas o parámetros de dispersión
Se llama recorrido o rango de una distribución a la diferencia entre el mayor y el menor valor de la variable estadística. Conforme menor es el rango mayor es la representatividad de los valores centrales, en cuyo caso diremos que la distribución es menos dispersa. Su cálculo es muy elemental, pero al depender sólo de los val- ores extremos basta que uno de ellos se separe mucho para que el recorrido se vea muy afectado. Para evitar esto se utilizan también el rango intercuartílico Q 3 - Q 1 y el rango entre percentiles P 90 - P 10. En Mathematica , como los datos de la variable están ordenados de menor a mayor, la simple diferencia entre el primer valor y el último proporciona el rango de la variable:
edad edadRango 29 2 O bien, sin necesidad de visualizar los datos de la variable edadRango edadLengthedad edad 1
Por otra parte, el rango intercuartílico o el rango entre percentiles lo obtenemos a partir del cálculo de éstos:
edadRangoCuartiles Quantileedad, 0.75 Quantileedad, 0.25 edadRangoPercentiles Quantileedad, 0.9 Quantileedad, 0.1
Se llama desviación media o desviación respecto de la media de una distribución a la media aritmética de los valores absolutos de las desviaciones observadas respecto de un determinado valor medio m. Es decir, dada una distribución de N observaciones de una variable estadística en la que se alcanzan los valores x 1 , x 2 , …, x (^) n con frecuencias absolutas f 1 , f 2 , …, fn , respectivamente, su desviación media viene dada por:
DM =
ÿ (^) k = 1
n fk ÿ x (^) k - m
En Mathematica , la desviación media de una variable estadística var se calcula con el comando MeanDeviation[var]. Como ejemplo, calculamos la desviación media de la edad de los pacientes de nuestro logopeda:
edadDT StandardDeviationedad NedadDT edadVar Varianceedad NedadVar
13 663 7 6
13 663 252
Podemos comprobar que la varianza es el cuadrado de la desviación típica:
edadVar edadDT ^ 2
0
Hallamos también la desviación típica y la varianza de la variable agrupada:
edadagruDT StandardDeviationedadagru edadagruVar Varianceedadagru
La información conjunta que proporciona la media y la desviación típica puede precis- arse de la siguiente forma: entre la media y k veces la desviación típica existe, como
mínimo, el 100 ÿ 1 - (^) k^12 % de las observaciones. Es decir, entre la media y 2 desvia-
ciones típicas está al menos el 100 ÿ 1 - 14 = 75% de las observaciones, y entre la
media y 3 desviaciones típicas se encuentra al menos el 100 ÿ 1 - 19 = 89% de las
observaciones. En nuestro ejemplo:
val1 edadMedia 2 edadDT Nval1 val2 edadMedia 2 edadDT Nval2
13 663 7 3
13 663 7 3
6.
Por lo tanto, al menos el 75% de los datos se encuentran en el intervalo -6.03, 23.42.
Se define el coeficiente de variación (CV) de una distribución de valores de una variable estadística como el cociente entre su desviación típica s y el valor absoluto de su media m, es decir, CV = (^) sm. En ocasiones se multiplica este coeficiente por 100 para proporcionar valores percentuales. El coeficiente de variación de una población homogénea es típicamente menor que la unidad. Si este coeficiente es mayor que 1.5 conviene estudiar posibles fuentes de heterogeneidad en los datos (utilización de distintos instrumentos de medida, distintos momentos temporales, etc.). Algunas veces resulta deseable comparar diversos grupos en relación a su relativa homogeneidad cuando los grupos tienen medias diferentes, pero puede motivar cierta confusión la comparación de las magnitudes absolutas de las deviaciones típicas. En esos casos resulta aconsejable utilizar como elemento de comparación la desviación típica en relación a la media, es decir, el coeficiente de variación. Por ejemplo, calculemos el coeficiente de variación de nuestra población de pacientes del logopeda: