Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística Descriptiva: Introducción y Técnicas para Datos Univariantes, Apuntes de Estadística

Una introducción a la estadística descriptiva, una rama de la estadística que se ocupa de recolectar, organizar, resumir y analizar datos provenientes de una muestra. Se detalla la historia de la estadística, sus contribuyentes clave y su importancia en la sociedad y los planes de estudios universitarios. Además, se presentan las técnicas descriptivas para datos univariantes, que incluyen la construcción de gráficos y el resumen descriptivo de la muestra, con énfasis en la centralización, dispersión y forma de los datos.

Tipo: Apuntes

2012/2013

Subido el 15/09/2013

sitoperez
sitoperez 🇪🇸

4.3

(12)

27 documentos

1 / 9

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
M. Iniesta
Universidad de Murcia
ESTADÍSTICA DESCRIPTIVA
Tema 1.1:
Estadística Descriptiva
para una variable
Introducción
Aunque surgida de la realización de censos y los estudios de demografía en la Edad
Media, la Estadística, tal y como la entendemos en la actualidad, sienta sus bases teóricas
entre los siglos XVIII y XIX con las importantes contribuciones de matemáticos como
Gauss (1777-1855), Poisson (1781-1840), Galton (1822-1911) o Pearson (1857-1936), en-
tre otros, que permiten conferir a esta disciplina la categoría de cientíca, aunque es
Fisher (1890-1962) el que es considerado como padre de la Estadística Moderna pues
desarrolló la metodología estadística para la investigación genética y biológica, aunque
ésta pronto se extendió a áreas tan diversas como la social, económica, epidemiológica,
clínica, etc.
Fue a partir de la tercera parte del siglo XX, coincidiendo con la proliferación de los
computadores y los paquetes estadísticos, cuando se extendió la metodología estadística
a centros de investigación y nancieros, áreas de producción y de mercadotecnia, y en
general a todas las áreas que usan el método empírico en la investigación cientíca.
En la actualidad se acepta que la Estadística contribuye al desarrollo de la sociedad
de la información y el conocimiento, mediante el avance del descubrimiento y el uso
efectivo del conocimiento derivado de datos. Además, se ha ido incorporando a muy
diversos planes de estudios universitarios, básicamente en las carreras de áreas que usan
la observación experimental como sustrato cientíco.
1
Por
Estadística
entendemos una batería de recursos cientícos por los cuales podemos
recolectar, organizar, resumir, presentar y analizar datos que provienen de un conjunto
de observaciones.
La Estadística es por tanto un potente auxiliar en muchas ciencias y actividades
humanas, pues es un lenguaje basado en datos cuantitativos que permite comunicar
información, resolver problemas de diseño experimental y ayudar a la toma de decisiones.
Los procedimientos estadísticos se clasican, atendiendo al objetivo que resuelve y
al tipo de resultados que produce en:
1.
Técnicas Descriptivas:
El objetivo es sintetizar, ordenar y/o clasicar el con-
junto de datos que constituye la muestra. Según el tipo de datos, las técnicas más
frecuentes son:
Datos univariantes
: Construcción de grácos y resumen descriptivo de la
muestra, atendiendo a características de centralización, dispersión o forma
(cálculo de estadísticos)
1
Extracto del artículo
La Estadística en la perspectiva de su desarrollo
por Mario Miguel Ojeda, en
http://www.uv.mx/acl/Paginas/Ciencia-4.htm
Página: 1
pf3
pf4
pf5
pf8
pf9

Vista previa parcial del texto

¡Descarga Estadística Descriptiva: Introducción y Técnicas para Datos Univariantes y más Apuntes en PDF de Estadística solo en Docsity!

Universidad de Murcia

ESTADÍSTICA DESCRIPTIVA

Tema 1.1:

Estadística Descriptiva

para una variable

Introducción

Aunque surgida de la realización de censos y los estudios de demografía en la Edad Media, la Estadística, tal y como la entendemos en la actualidad, sienta sus bases teóricas entre los siglos XVIII y XIX con las importantes contribuciones de matemáticos como Gauss (1777-1855), Poisson (1781-1840), Galton (1822-1911) o Pearson (1857-1936), en- tre otros, que permiten conferir a esta disciplina la categoría de cientíca, aunque es Fisher (1890-1962) el que es considerado como padre de la Estadística Moderna pues desarrolló la metodología estadística para la investigación genética y biológica, aunque ésta pronto se extendió a áreas tan diversas como la social, económica, epidemiológica, clínica, etc. Fue a partir de la tercera parte del siglo XX, coincidiendo con la proliferación de los computadores y los paquetes estadísticos, cuando se extendió la metodología estadística a centros de investigación y nancieros, áreas de producción y de mercadotecnia, y en general a todas las áreas que usan el método empírico en la investigación cientíca. En la actualidad se acepta que la Estadística contribuye al desarrollo de la sociedad de la información y el conocimiento, mediante el avance del descubrimiento y el uso efectivo del conocimiento derivado de datos. Además, se ha ido incorporando a muy diversos planes de estudios universitarios, básicamente en las carreras de áreas que usan la observación experimental como sustrato cientíco.^1

Por Estadística entendemos una batería de recursos cientícos por los cuales podemos recolectar, organizar, resumir, presentar y analizar datos que provienen de un conjunto de observaciones.

La Estadística es por tanto un potente auxiliar en muchas ciencias y actividades humanas, pues es un lenguaje basado en datos cuantitativos que permite comunicar información, resolver problemas de diseño experimental y ayudar a la toma de decisiones. Los procedimientos estadísticos se clasican, atendiendo al objetivo que resuelve y al tipo de resultados que produce en:

  1. Técnicas Descriptivas: El objetivo es sintetizar, ordenar y/o clasicar el con- junto de datos que constituye la muestra. Según el tipo de datos, las técnicas más frecuentes son:

Datos univariantes: Construcción de grácos y resumen descriptivo de la muestra, atendiendo a características de centralización, dispersión o forma (cálculo de estadísticos) (^1) Extracto del artículo La Estadística en la perspectiva de su desarrollo por Mario Miguel Ojeda, en

http://www.uv.mx/acl/Paginas/Ciencia-4.htm

Universidad de Murcia

Datos bidimensionales: Descripción de relaciones entre variables mediante grácos, estadísticos por grupos o ajustes a funciones, dependiendo del tipo de datos. Datos multidimensionales: Según el objetivo y el tipo de datos, las técnicas más conocidas son el Análisis en Componentes Principales, el Análisis de Correspondencias y los Análisis Cluster. (No se verán en este curso)

  1. Técnicas Explicativas o de Inferencia Estadística: El objetivo es inferir propiedades de una población a partir del análisis de una muestra de ella. Los problemas más importantes que se planean en este contexto son de estimación de parámetros desconocidos de la población, si bien pueden resolverse otros objetivos que no tienen naturaleza paramétrica. Si los datos son:

Unidimensionales: Se analizan medias, varianzas, proporciones, etc., me- diante Intervalos de Conanza y Test de Hipótesis para una o dos muestras. Multidimensionales: Se analizan relaciones entre variables, mediante téc- nicas de Regresión, ANOVA y ANCOVA. (No se verán en este curso)

Además, el sustrato teórico necesario para pasar de la descripción de muestras al análisis de las mismas para inferir propiedades en la población de procedencia es la teoría de la probabilidad. Los elementos de la teoría de la probabilidad ejercen de puente para esta- blecer un margen de conanza sobre las conclusiones que se lleven a cabo en poblaciones a partir de muestras extraídas de la misma.

1. Objetivos

En este primer tema vamos a introducir los conceptos básicos y vamos a tratar con muestras de datos univariantes con el objetivo general de extraer de ella toda la informa- ción relevante pero de manera sintética y organizada. Según el tipo de datos se podrán utilizar unos procedimientos descriptivos u otros. Se trata básicamente de seleccionar el método apropiado para cada caso y saber interpretar las salidas que obtengamos. Mu- chas veces será necesario repetir un determinado procedimiento variando sus opciones para obtener la síntesis que precisamos pero con una representación idónea y pérdida mínima de información. Concretamos nuestros objetivos para este tema en los siguientes puntos.

X Distinguir y aplicar convenientemente los distintos tipos de grácos y tablas. X Interpretar las medidas descriptivas más conocidas. X Comparar muestras a partir de las medidas anteriores.

Universidad de Murcia

Categoría profesional. (Cualitativa con valores posibles como obrero, cuadro inter- medio, directivo, .....)

Tipo de artículos en los que está interesado. (Cualitativa con valores posibles como viajes, informática, libros,....)

Nivel de estudios. (Cualitativa ordinal con valores posibles como estudios prima- rios, medios, superiores,...)

Nivel de satisfacción del servicio. (Cualitativa ordinal con valores posibles como bajo, regular, bueno, muy bueno,.....)

Número de veces que realizó compras on-line en los últimos seis meses. (Cuantita- tiva discreta con valores posibles 0, 1, 2, 3, ......)

Número de veces que intentó conectarse al servicio sin éxito en los últimos seis meses. (Cuantitativa discreta con valores posibles 0, 1, 2, 3, ......)

Edad en años. (Cuantitativa discreta con valores posibles 18, 19, 20, 21, ......)

Dinero gastado en compras on-line en el servicio en los últimos seis meses (Va- riable continua con cualquier valor positivo como valor posible de la variable)

3. Procedimientos de descripción de datos univarian-

tes

Una vez seleccionados los individuos que van a componer la muestra y observadas todas las variables de interés en cada uno de ellos, solemos disponer la información obtenida en un tipo de matriz que se denomina matriz de datos o de individuos por variables en donde las las representan a los individuos de la muestra y las columna representan a las variables. Si una la contiene toda la información de determinado individuo, una columna contiene todos los valores observados de una determinada variable en el conjunto de la muestra. Esas matrices van a constituir nuestros cheros de datos que tendrá formato informático para poder ser tratado con software estadístico. Denotaremos dicha matriz con la letra X que tiene orden n × k donde n es el tamaño de la muestra y k el número de variables observadas. El elemento xij es el valor que la variable Xj^ en el individuo número i. (i = 1, ....., n y j = 1, ...., k).

La matriz anterior contiene toda la información disponible sobre el fenómeno que se quiere investigar y el objetivo ahora es ordenar y sintetizar dicha información para que ésta resulte más operativa y podamos extrae un resumen del comportamiento de las características en estudio. En este tema hablaremos de las técnicas de Estadística Descriptiva Univariantes que usan los datos de una sola variable. Clasicamos estas técnicas en función de los resultados que producen y el tipo de datos que usa en:

  1. Tabulación: o disposición de los todos los valores distintos observados en la mues- tra, que llameremos clases, en una tabla con sus correspondientes frecuencias o

Universidad de Murcia

cómputo del número de veces que dicha clase aparece en el conjunto de la muestra. La tabla puede ser para:

Variables Cualitativas: Las modalidades distintas observadas o clases se dispo- nen en la primera columna y se agregan la coluna de frecuencias absolutas (número de veces que cada modalidad (clase) aparece en la muestra) y las frecuencias relativas (proporción que la frecuencia absoluta representa en el conjunto de la muestra). Variables Cuantitativas Discretas: Además de la información anterior, las cla- ses aparecen ordenadas en la tabla de menor a mayor y se agregan las fre- cuencias acumuladas que ofrece la frecuencia de cada clase acumulada a las frecuencias de las clases inferiores. Variables Cuantitativas Continuas: Si la muestra contiene un gran número de clases la tabla anterior puede ser poco operativa. En estas situaciones se construyen clases de intervalo que agrupa los valores observados entre los valores especicados en dicha clase.

  1. Grácos: Los grácos permiten visualizar las características básicas de la distribu- ción de frecuencias representadas en la tabla anterior. Según el tipo de variable, los más básicos son los siguientes:

Diagrama de sectores para representar una tabla de una variable cualitativa mediante un gráco circular de forma que hay tantos sectores circulares como clases y con áreas proporcionales a la frecuencias que representan. Diagrama de barras para representar una tabla de una variable cuantitativa discreta mediante un gráco con un eje horizontal en donde se representan las clases y una barra vertical sobre cada clase cuya altura es proporcional a la frecuencia que representa. Diagrama de Tallo y Hojas que ofrece la ordenación y el recuento de todos los valores observados de una variable numérica, cuando el tamaño de la muestra no es demasiado grande. Para construir este gráco se selecciona uno o más dígitos comunes a un conjunto de datos para los valores de tallo y los dígitos sobrantes van a constituir hojas del mismo tallo. Histograma que agrupa los valores observados de una variable cuantitativa con- tinua en clases de intervalo representados en un eje horizontal y levantando sobre cada uno un rectángulo cuya área representa a la frecuencia de dicha clase. Las clases deben ser las mismas que las construídas en la correspon- diente tabla de frecuencias.

  1. Cálculo de estadísticos: para cuanticar las características de la distribución de frecuencias que visualizamos en tablas y grácos. Dichas características son prin- cipalmente de:

Centralización: ofrecen valores centrales o representantes del conjunto de la muestra. Localización: ofrecen valores localizados de la muestra cuando ésta se presenta con todos sus datos ordenados de menor a mayor.

Universidad de Murcia

El objetivo de este curso es la aplicación de los métodos estadísticos para lo que habrá que desarrollar dos destrezas básicas: la ejecución de los métodos mediante un software estadístico y la correcta interpretación de los resultados. Es por ello que se omitirán desarrollos formales y se trabajará fundamentalmente el establecimiento de las condiciones necesarias para la aplicación de un determinado procedimiento y la discusión del resultado que produce. En el caso del cálculo de estadísticos los docentes más tradicionales de esta materia proporcionaban materiales textuales con fórmulas de los estadísticos que los estudiantes debían aplicar a un conjunto de datos, ayudados como mucho por una calculadora. En nuestro caso iremos más a desarrollar la utilidad de cada estadístico sin olvidar que habrá que seleccionar los más oportunos en cada situación experimental. Aún así y aunque en la práctica no las usemos, daremos las expresiones de los esta- dísticos más usados en la práctica. Si x 1 , x 2 , ....., xn es una muestra de datos de la variable cuantitativa continua X, que se mide en la unidad u, se denen los siguientes estadísticos:

Media aritmética:

x =

∑n i=1 xi n

u

Varianza y Cuasivarianza:

s^2 =

∑n i=1(xi^ −^ x) 2 n

u^2 ; S^2 =

∑n i=1(xi^ −^ x) 2 n − 1

u^2

Desviación típica y cuasidesviación típica:

s =

√∑n i=1(xi^ −^ x)

2 n

u; S =

n i=1(xi^ −^ x)

2 n − 1

u

Coeciente de Variación:

CV =

S

|x|

3.2. Diagrama de caja y patillas (Boxplot)

Este gráco ofrece un resumen de las medidas descriptivas anteriores, pues nos apor- ta una visualización de las características de centralización, localización, dispersión y forma de la distribución de frecuencias, además de permitir detectar datos atípicos de la muestra. Contiene los siguientes elementos:

Un rectángulo o caja que se extiende desde el primer cuartil al tercer cuartil y dentro de ella marcada la mediana.

Dos patillas, una a cada lado de la caja, que se extienden desde los cuartiles a las observaciones más extremas, siempre y cuando éstas no se alejen más de 1.5 veces al extremo de la caja, es decir, más de 1.5 veces al cuartil más próximo.

Universidad de Murcia

Las observaciones que disten más de 1.5 veces al extremo de la caja (cuartil más próximo) se consideran atípicas y serán reejadas en el gráco como puntos aislados fuera de las patillas. La siguiente gura muestra un ejemplo de Boxplot para el peso de una muestra de 150 osos.

4. Actividades

  1. Pensad en dos variables, una discreta y otra continua. Por ejemplo el número de veces que la población juvenil de Murcia va al cine mensualmente y el dinero del que dispone en ese mismo mes. Dibuja un diagrama de barras y un histograma pensando que éstos representan la distribución de frecuencias de las correspondien- tes variables. La cuestión es discutir cómo deberíamos de elaborar estos mismos grácos si quisiéramos representar las frecuencias acumuladas.
  2. En el caso de transformar los datos de una variable X mediante la expresión Y = aX + b, observar cómo se ve modicada la media aritmética, la varianza, la desviación típica y el coeciente de variación.
  3. Estudiar el caso de la transformación Y = (X − x)/S y su utilidad en la compa- ración de observaciones de distintas variables.
  4. Si tuviéramos que calcular la varianza a mano la expresión dada anteriormente no es la más adecuada. Expresar la (cuasi)varianza de una muestra de forma que, una vez calculada la media aritmética, sólo intervenga ésta y la media de los valores de la muestra al cuadrado.