















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Resumen sobre la estadistica descriptiva y como analizar datos no probabilisticos
Tipo: Tesinas
1 / 23
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
















III. UNIDAD: ANÁLISIS DESCRIPTIVO DE DATOS DE UNA SOLA VARIABLE
Se denomina Estadística a la rama de las matemáticas que se ocupa de reunir, organizar, presentar, analizar e interpretar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones.
Se encarga de la recolección, agrupación y presentación de los datos de una manera tal que los describa fácil y rápidamente.
Involucra la utilización de una muestra para sacar alguna inferencia o conclusión sobre la población de la cual procede la muestra. Puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población, basándose sólo en los resultados de una muestra. El objetivo de la inferencia estadística es obtener información acerca de la población, partiendo de la información que contiene la muestra. A la característica numérica de una población, como el promedio de la población, la desviación estándar de la población, etc., se le denomina parámetro. El parámetro es una medida de resumen que se calcula para describir una característica de toda una población. A la característica numérica de una muestra, como el promedio de la muestra, la desviación estándar de la muestra, etc., se le denomina Estadístico. El estadístico es una medida de resumen que se calcula para describir una característica de una sola muestra de la población. La población es el conjunto de todos los individuos. Como individuo se entiende cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Una muestra es un subconjunto que seleccionamos de la población, es una parte representativa de la población que se selecciona para ser estudiada ya que la población es demasiado grande para analizar su totalidad. Al Proceso de obtener muestras se le conoce como muestreo. Existen dos tipos de muestreo: aleatorio y no aleatorio. El muestreo aleatorio es en el cual la muestra se obtiene dando la misma oportunidad a cada elemento de la población de pertenecer a ella. Al muestro aleatorio también se le conoce como muestreo representativo. Mientras que en el muestreo no aleatorio la muestra se obtiene sin darle la misma oportunidad a cada elemento de la población de pertenecer a ella. El muestreo aleatorio puede llevarse a cabo a través de urnas o tómbolas, o bien usando números aleatorios, mientras que el muestreo no aleatorio se realiza a juicio.
Una segunda clasificación del muestreo surge en la forma en que se selecciona la muestra, así el muestreo puede ser con reemplazo y sin reemplazo. El muestreo con reemplazo es el muestreo en el cual cada miembro de una población puede seleccionarse más de una vez, cada vez que se toma un elemento la población conservará su tamaño. El Muestreo sin reemplazo es en el cual cada miembro de una población puede seleccionarse únicamente una vez y en este caso el tamaño de la población se va reduciendo conforme se conforma la muestra.
Una variable es una característica de interés sobre cada elemento individual de una población o muestra. Un dato es el valor de la variable asociada a un elemento de una población o muestra. Este valor puede ser un número, una palabra o un símbolo. Un experimento es una actividad planeada cuyos resultados producen un conjunto de datos. Dependiendo del número de características que se analizan de la población, las variables se pueden clasificar en: a) Variables unidimensionales: sólo recogen información sobre una característica. Ejemplo: edad de los alumnos de una clase. b) Variables bidimensionales: recogen información sobre dos características de la población. Ejemplo: edad y altura de los alumnos de una clase. c) Variables pluridimensionales o multidimensionales: recogen información sobre tres o más características. Ejemplo: edad, altura y peso de los alumnos de una clase. Dependiendo del tipo de datos las variables pueden clasificarse en: a) Variables cualitativas o atributos : no se pueden medir numéricamente. Ejemplo: religión, nacionalidad, color de la piel, sexo. b) Variables cuantitativas : tienen valor numérico. Ejemplo: edad, longitud, precio. Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas. a) Discretas: sólo pueden tomar valores enteros (1, 2, 8, - 4, etc.). Estas variables representan conteos, por ejemplo: el número de alumnos en un salón de clase puede ser: 35, 60, 100, etc., nunca podrá ser 41.3. b) Continuas : pueden tomar cualquier valor real dentro de un intervalo. Estas variables representan mediciones, por ejemplo, la altura de una persona puede ser 1.35 m, 1.68, 1.90, etc.
Los Niveles o Escalas de medición son las formas de clasificar los datos, pueden ser: a) Escala Nominal: se caracteriza por datos que consisten exclusivamente en nombres, rótulos o categorías. Los datos no pueden acomodarse según esquema de ordenamiento (digamos de bajo alto). El término nominal puede asociarse con “sólo nombres”. La escala de medida nominal, puede considerarse la escala de nivel más bajo, y consiste en la asignación, puramente arbitraria de números o símbolos a cada una de las diferentes categorías en las cuales podemos dividir el carácter que observamos, sin que puedan establecerse relaciones entre dichas categorías, a no ser el de que cada elemento pueda pertenecer a una y solo una de estas categorías. Se trata de agrupar objetos en clases, de modo que todos los que pertenezcan a la misma sean equivalentes respecto del atributo o propiedad en estudio, después de lo cual se
en el grado de atributo presente en el objeto de estudio. Además, siendo que cero ya no es arbitrario, sino un valor absoluto, podemos decir que A tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B.
Los datos pueden obtenerse de dos tipos de fuentes: a) Fuentes internas: cuando los datos son parte de la propia actividad del ente que los recopila, se dice que el dato es interno y la fuente es interna. b) Fuentes externas: cuando se tiene que otras empresas, instituciones, poblaciones, etc., fuera del ente recopilador.
Para obtener la información existen varias técnicas, entre estas: encuesta, entrevista, cuestionario y observación. a) Encuesta: Conjunto de preguntas tipificadas dirigidas a una muestra representativa, para averiguar estados de opinión o diversas cuestiones de hecho. A diferencia de un censo, donde todos los miembros de la población son estudiados, las encuestas recogen información de una porción de la población de interés, dependiendo el tamaño de la muestra en el propósito del estudio. b) Entrevista: Las entrevistas se utilizan para recabar información en forma verbal, a través de preguntas que propone el analista. Quienes responden pueden ser gerentes o empleados, los cuales son usuarios actuales del sistema existente, usuarios potenciales del sistema propuesto o aquellos que proporcionarán datos o serán afectados por la aplicación propuesta. El analista puede entrevistar al personal en forma individual o en grupos. Sin embargo, las entrevistas no siempre son la mejor fuente de datos de aplicación. En otras palabras, la entrevista es un intercambio de información que se efectúa cara a cara. Es un canal de comunicación entre el analista y la organización; sirve para obtener información acerca de las necesidades y la manera de satisfacerlas, así como concejo y comprensión por parte del usuario para toda idea o método nuevos. Por otra parte, la entrevista ofrece al analista una excelente oportunidad para establecer una corriente de simpatía con el personal usuario, lo cual es fundamental en transcurso del estudio. c) Cuestionario: se entiende por cuestionario a la lista de preguntas que se proponen por cualquier fin, el cuestionario proporcionan una alternativa muy útil para la entrevista; si embargo, existen ciertas características que pueden ser apropiada en algunas situaciones e inapropiadas en otra. Al igual que la entrevistas, deben diseñarse cuidadosamente para una máxima efectividad. d) Observación: Otra técnica útil para el analista en su progreso de investigación, consiste en observar a las personas cuando efectúan su trabajo. Como técnica de investigación, la observación tiene amplia aceptación científica. Los sociólogos, sicólogos e ingenieros industriales utilizan extensamente ésta técnica con el fin de estudiar a las personas en sus actividades de grupo y como miembros de la organización. El propósito de la organización es múltiple: permite al analista determinar que se está haciendo, como se está haciendo, quien lo hace, cuando se lleva a cabo, cuánto tiempo toma, dónde se hace y por qué se hace.
La información estadística puede constar de un gran número de observaciones y mientras mayor sea el número, mayor puede ser la conveniencia y necesidad de presentarla en forma resumida, la cual puede permitir algunos detalles pero en cambio puede revelar la naturaleza general de la información. Un resumen de tal distribución se denomina Distribución de Frecuencias. Puede decirse también, que una distribución es el patrón de variabilidad mostrado por los datos de una variable. La distribución muestra la frecuencia de cada valor de la variable. La tabla No.1 resume las edades de 1,763,000 varones que constituían la fuerza laboral masculina de cierto país: Tabla No. 1 Fuerza laboral masculina de un país (clasificación por edades) La tabla No. 1 presenta datos de una variable cuantitativa, por lo cual se trata de una Distribución de Frecuencia Cuantitativa, por otra parte, la tabla No.2 es una Distribución de Frecuencias Cualitativas, debido a que el campo de especialización del alumno no puede ser medidos sino sólo puede ser descrito. Tabla No. 2 Campos de Especialización de los alumnos de áreas técnicas
La dificultad de resumir un conjunto de datos, puede ser superada agrupando los diversos valores en un número reducido de clases llamados intervalos de clase. Cada una de las clases tiene un extremo o límite superior y uno inferior; el extremo inferior es el menor valor que puede caer en esta clase y el superior el mayor valor. El punto medio entre el límite superior de una clase y el límite inferior de la siguiente clase es la frontera superior o límite real superior de la clase y la frontera inferior o límite real inferior de la siguiente clase. En una clase dada todos los valores deben ser mayores a la frontera inferior y menores a la frontera superior. Para evitar ambigüedades, las fronteras se expresan con una cifra decimal más que los extremos. Edad Número de varones 14 a19 años 218, 20 a 24 años 313, 25 a 55 años 977, Más de 55 años 255, Total 1,763, Campo de especialización Número de alumnos Construcción 42 Electrónica 88 Eléctrica 50 Mecánica 34 Total 214
Segundo Calcular el número de clases. K = 1 + 3.3 Log (55) K = 6. De acuerdo a la regla de Sturges, deberíamos tener 6 ó 7 clases. Para efectos de cálculos el valor de K se aproxima el entero más próximo. K = 7 Tercero. Calcular la amplitud. Para esto previamente identificamos el dato mayor y el menor, en nuestro caso tales datos son 15 y 63 A = 63 - 15 7 A = 6. La amplitud debe aproximarse al entero más cercano. A = 7 Cuarto. Una vez determinado el número de de clases y la amplitud, debe elegirse el extremo inferior de la primera clase. Dado que aquí el valor mínimo es 15, el extremo inferior puede ser 15 o menos; por consiguiente tomaremos como criterio usar el número 15. Quinto. Establecido el extremo inferior, se sumará la amplitud a éste para obtener el valor del límite inferior de la siguiente clase y así sucesivamente. Para obtener los límites superiores, se le resta uno al límite inferior posterior. Se tiene que tomar en cuenta que en la última clase esté contenido el dato mayor. Sexto. Corresponde ahora calcular la frontera inferior de la clase. Puesto que los valores están dados en números enteros y como las fronteras deben darse con un decimal más, tomamos como frontera inferior el valor de la primera clase inferior menos 0.05 (si los valores se hubieran dado con un decimal, se le restaría 0.005) y como frontera superior el valor de la primera clase superior más 0. (si los valores se hubieran dado con un decimal, se le sumaría 0.005)
Intervalo de Frontera Frontera Amplitud clase Inferior Superior de clase 15 - 21 14.5 21.5 7 22 - 28 21.5 28.5 7 29 - 35 28.5 35.5 7 36 - 42 35.5 42.5 7 43 - 49 42.5 49.5 7 50 - 56 49.5 56.5 7 57 - 63 56.5 63.5 7 Séptimo. Una vez construidos los diversos intervalos de clase, se cuenta el número de elementos que cae en cada uno, obteniéndose así las respectivas frecuencias. Tabla No. 3 Distribución de frecuencia Velocidades de un grupo de conductores en una autopista Intervalo de clase frecuencia 15 - 21 7 22 - 28 26 29 - 35 12 36 - 42 5 43 - 49 4 50 - 56 1 T o t al 55
La distribución de frecuencias es una tabla resumen en la que los datos originales se condensan o agrupan para facilitar el análisis de los datos. Sin embargo, para ampliar el análisis, es deseable formar la distribución de frecuencia relativa o la distribución de porcentaje, dependiendo de si se prefieren fracciones o porcentajes. La frecuencia relativa (fr) es la relación entre la frecuencia de un intervalo y el número total de datos: fr = fi/n La frecuencia porcentual (fr%) es la expresión en porcentaje de la frecuencia relativa: (fr%) = fr * 100 Tabla No. 4 Distribución de frecuencias absoluta y relativa Velocidades de un grupo de conductores en una autopista frecuencia absoluta frecuencia realtiva frecuencia porcentual f fr fr% 15 - 21 7 0.1273 12. 22 - 28 26 0.4727 47. 29 - 35 12 0.2182 21. 36 - 42 5 0.0909 9. 43 - 49 4 0.0727 7. 50 - 56 1 0.0182 1. 55 1.0000 100. Intervalo de clase T o t al
Una vez elaborada la tabla de distribución de frecuencia es importante construir su representación visual. Esta representación revela patrones de comportamiento de la variable en estudio. El tipo de gráfico que se utilice dependerá del tipo de datos y el concepto a representar.
Las gráficas que generalmente se utilizan para resumir datos cualitativos, de atributo o categóricos son las gráficas de barras y la de pastel.
Las gráficas de barras muestran la cantidad de datos que pertenecen a cada categoría como áreas rectangulares de tamaño proporcional. Cada barra sólida, ya sea vertical u horizontal representa un tipo de dato.
Denominada también gráfica de pastel o gráfica del 100%, se utilizan para mostrar la cantidad de datos que pertenecen a cada categoría como una parte proporcional de un círculo. Se forma al dividir un círculo en sectores circulares de manera que: a) Cada sector circular equivale al porcentaje correspondiente al dato o grupo que representa. b) La unión de los sectores circulares forma el círculo y la suma de sus porcentajes es 100. Es aconsejable que el número de elementos comparados dentro de un gráfico circular, no sea mayor de 5, ordenando los segmentos de mayor a menor, iniciando con el más amplio a partir de las 12 como en un reloj. Una manera sencilla de diferenciar los segmentos es sombreándolos de claro a oscuro, siendo el de mayor tamaño el más claro y el de menor tamaño el más oscuro.
Una razón fundamental para elaborar una gráfica de datos cuantitativos es mostrar su distribución.
Una de las formas más comunes de representar una distribución de frecuencias es un histograma. Un histograma es una gráfica que se construye a partir de la tabla estadística, consiste en rectángulos verticales unidos entre sí, en donde sus lados son los límites reales inferior y superior de clase y cuya altura es igual a la frecuencia de clase. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.
Consiste en una serie de segmentos que unen los puntos cuyas abscisas son las marcas de cada clase y cuyas ordenadas son proporcionales a sus frecuencias respectivas.
El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. De este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráfica sobre un intervalo son idénticas.
Una gráfica de distribución de frecuencias acumuladas es llamada una ojiva. Se trazan los límites reales superiores contra las frecuencias acumuladas. Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay dentro de los intervalos, esto es lo que refleja la ojiva. Se puede construir una ojiva de una distribución de frecuencias relativas de la misma manera en que trazamos la ojiva de una distribución de frecuencias absolutas. Sólo habrá un cambio: la escala del eje vertical.
La representación gráfica por medio de puntos (o gráfica de puntos) es una de las gráficas más sencillas que se utilizan. Presenta los datos de una muestra mediante la representación de cada porción de datos con un punto ubicado a lo largo de una escala. Esta escala puede ser vertical y horizontal. La frecuencia del los valores está representada a lo largo de la otra escala.
frecuencias de cada una, uniéndose consecutivamente con líneas.
Las medidas de posición facilitan información sobre la serie de datos que se está analizando. Estas medidas permiten conocer diversas características de la serie de datos.
Informan sobre los valores medios del conjunto de datos. Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribución de frecuencia, es por esto que se les llama "Medidas de Tendencia Central".
Las media o promedio es una medida de posición que proporciona una descripción compacta de cómo están centrados los datos y una visualización más clara del nivel que alcanza la variable,
La media geométrica es útil cuando la variable cambia a lo largo del tiempo, esto es, en el cálculo del promedio de tasas, razones, proporciones geométricas y relaciones de variables. Se utiliza en Matemáticas Financieras y Finanzas para promediar números índices, tasas de cambio, etc. Esta media se ve afectada por todos los números y valores extremos pero en menor grado que la Media Aritmética, su valor siempre es menor que el de ésta. Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada. La media Geométrica de una serie de números es la raíz n-ésima del producto de esos números:
n
__
Es el valor de la observación que ocupa la posición central de un conjunto de datos ordenados según su magnitud. Es el valor medio o la media aritmética de los valores medios. La mediana es un valor de la variable que deja por debajo de él un número de casos igual al que deja por arriba. Geométricamente la mediana es el valor de la variable que corresponde a la vertical que divide al histograma en dos áreas iguales. Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con respecto a los demás, entonces la media aritmética se puede distorsionar y perder su carácter representativo, en esos casos es conveniente utilizar la mediana como medida de tendencia central, es decir que la mediana no presenta el problema de estar influida por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido). Características de la mediana a. Es una medida de tendencia central no afectada por los valores extremos. b. No está definida algebraicamente. c. Cuando la localización del elemento central puede ser determinada y los límites de clase mediana son conocidos, la mediana para la distribución de frecuencias puede ser calculada por interpolación, no importando que ésta contenga intervalos abiertos, cerrados, iguales o diferentes. d. La suma de los valores absolutos, sin considerar el signo, de las desviaciones individuales respecto a la mediana es mínimo. e. La mediana en caso de una distribución asimétrica, no resulta desplazado del punto de tendencia central. f. Si el universo tiene curtosis excesiva la mediana como estadístico, varía menos que cualquier otra medida.
g. Si la mediana se calcula por interpolación y hay lagunas en los valores de la clase mediana o los datos son irregulares, esta medida no es buena ya que su ubicación puede resultar falsa. h. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada, ya que por comparación pone en evidencia si un elemento está en la mitad superior a ella o en la inferior.
Para datos no agrupados : 1ero. Se ordenan los datos ascendentemente. 2do. La mediana corresponde al dato que está en la posición central. Para datos agrupados 1ero. Se calcula la clase de la mediana , la cual corresponde a la clase cuya frecuencia acumulada es mayor o igual a n/2. 2do. En la clase de la mediana se aplica la siguiente fórmula:
me
Donde : Lme = Límite real inferior de la clase de la mediana F = frecuencia acumulada de la clase anterior a la mediana fme = frecuencia absoluta de la clase de la mediana A = amplitud del intervalo de la clase de la mediana
Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como el valor más típico de una serie de datos. Para datos agrupados se define como Clase Modal el intervalo que tiene más frecuencia. La moda puede no existir o no ser única, las distribuciones que presentan dos o más máximos relativos se designan de modo general como bimodales o multimodales respectivamente. Características de la Moda: a. Representa más elementos que cualquier otro valor b. No está afectada por los valores extremos pero para datos continuos es dudoso su cálculo. c. La moda para una distribución de frecuencias de datos agrupados no puede ser calculada exactamente, el valor de la moda puede ser afectado por el método de agrupación de los intervalos de clase. d. La moda no permite conocer la mayor parte de los datos. e. Algunas veces el azar interviene de manera importante y hace que un valor no representativo se repita frecuentemente. f. Puede usarse para datos cuantitativos como cualitativos. g. La moda como estadístico, varía mucho de una muestra a otra.
Para datos no agrupados : 1ero. Se ordenan los datos ascendentemente. 2do. Se calcula el índice (posición) del percentil con la siguiente fórmula
En donde p es el número de percentil de interés y n es la cantidad de observaciones. 3ero. Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posición del p- èsimo percentil. Si i sí es entero , el p - èsimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i + 1. Para datos agrupados 1ero. Se calcula el índice del percentil
2do. Se localiza la clase del percentil , la cual corresponde a la clase cuya frecuencia acumulada es mayor o igual a i. 3ro. En la clase del percentil se aplica la siguiente fórmula:
pi
Donde : Lpi = Límite real inferior de la clase del percentil F = frecuencia acumulada de la clase anterior al percentil Fpi = frecuencia absoluta de la clase del percentil A = amplitud del intervalo de la clase del percentil
Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos. Es importante medir la dispersión por las siguientes razones: a) La dispersión proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central, si los datos se encuentran muy dispersos, la posición central es menos representativa de los datos, como un todo, que cuando éstos se agrupan más cerca del valor de la media. b) Existen problemas característicos para datos muy dispersos, por lo que es necesario reconocer esa dispersión alta para poder abordar ese tipo de problemas. c) Cuando se desea comparar diferentes muestras, si no se desea tener una alta dispersión de valores con respecto del centro de distribución, o esto presenta riesgos inaceptables, se necesita reconocerla y evitar elegir distribuciones que tengan las dispersiones más grandes.
Asimismo, la dispersión puede medirse desde tres enfoques, la distancia, la dispersión promedio y la dispersión relativa.
La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del conjunto de datos, a continuación se presentan tres de las llamadas medidas de distancia.
Es la diferencia entre el más alto y el más pequeño de los valores observados. El rango es fácil de entender y de calcular, pero su utilidad como medida de dispersión es limitada, pues solo toma en cuenta el valor más grande y el más pequeño y ninguna otra observación del conjunto de datos, restándole importancia a las variaciones entre todas las demás observaciones.
El rango intercuartilico mide aproximadamente qué tan lejos de la mediana se debe ir en cualquiera de las dos direcciones antes de recorrer una mitad de los valores del conjunto de datos.
Es una medida de dispersión de la diferencia entre los valores del percentil 90 y el percentil 10.
Las descripciones más completas de la dispersión son aquellas que manejan la desviación promedio respecto a alguna medida de tendencia central. En esta clasificación las más utilizadas son la varianza y la desviación estándar. Ambas medidas dan una distancia promedio de cualquier observación del conjunto de datos respecto a la media de la distribución.
Medida del cuadrado de la distancia promedio entre la media y cada observación de la población.
^ x
2
2
f^ xi
2