Vista previa parcial del texto
¡Descarga Libro de Estadística-Capítulo 1 y más Apuntes en PDF de Estadística solo en Docsity!
Introducción a la Estadística En este capítulo pretendemos, principalmente, introducir al alumno en el contexto de la Estadística. En primer lugar, presentamos el con- cepto de Estadística y su interés en el área de las Ciencias Sociales. En segundo lugar, introducimos unas breves referencias históricas que ayudan a visuatizar la Estadística como algo cotidiano, algo que de un modo u otro siempre ha existido. A continuación, hablamos de las etapas de un estudio estadístico donde identificaremos las principales ramas de la Estadística con las que visualizaremos el contexto en el que se desarrolla la estadística descriptiva, objetivo principal de este mamual. Por último, definimos los conceptos básicos que utilizaremos en los siguientes capítulos. 1.1 Definición de Estadística Si buscamos en el Diccionario de la lengua española de la Real Academia Española la palabra “estadística”, nos aparecen tres acep- ciones: 14 M. D. Molina, J. Mulero, M. J. Nueda y A. Pascual 1. Estudio de los datos cuantitativos de la población, de los recur- sos naturales e industriales, del tráfico o de cualquier otra mani- festación de las sociedades humanas. 2. Conjunto de estos datos. 3. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de pro- babilidades. En la vida cotidiana, nos encontramos habitualmente el término “estadística” usado con cualquiera de estas tres acepciones, siendo qui- zás el segundo concepto el más usado hoy en día, con el que nos refe- rimos a resultados ya elaborados en un estudio en el que se empleó la Estadística como método. Desde el punto de vista matemático, pode- mos resumir los tres conceptos con la siguiente definición: La Estadística es la parte del método científico que me- diante el análisis matemático nos permite obtener infor- mación sobre la realidad que nos rodea. Lo cierto es que la Estadística constituye una poderosa herramienta para generar conocimiento y ha experimentado un vigoroso desarrollo desde sus orígenes hasta nuestros días. Actualmente, se aplica en todas las áreas del saber y, de manera de- terminante, en las Ciencias Sociales. Por ejemplo, en Administración de Empresas se utiliza para evaluar la aceptación de un producto antes de comercializarlo; en Economía, para medir la evolución de los pre- cios o los hábitos de los consumidores; en Sociología, para investigar y estudiar los perfiles y dinámica de colectivos sociales; en Relaciones Laborales, para el análisis de salarios, de desempleo o de accidentes laborales; y en Criminología, para el análisis de la delincuencia o la prevención del crimen. 16 M. D. Molina, J. Mulero, M. J. Nueda y A, Pascual 1.3 Etapas de un estudio estadístico El siguiente esquema resume las etapas que se podrían llevar a cabo en el proceso de un estudio estadístico: Planteamier del problem: Plan del trabajo de campo Recopilación de información Análisis de datos Emisión del informe Interpretación 1. Planteamiento del problema : Toda investigación comienza por una primera fase de indaga- ción preliminar y revisión del conocimiento existente sobre al- gún fenómeno, necesaria para después concretar los objetivos y formular hipótesis de partida, delimitando el alcance y las carac- terísticas generales del problema que nos ocupa. En concreto, en esta primera etapa, se define el objeto de la investigación y se precisa el universo o población al que se refiere el estudio. 2. Planificación del trabajo de campo En esta etapa se toman decisiones con respecto a la forma de obtener la información, el enfoque a adoptar, las tácticas de la Estadística aplicada a las Ciencias Sociales 17 investigación y, cuando se recurre a datos primarios, se diseña todo el proceso del trabajo de campo, procedimientos de entre- vista, características del muestreo, diseño de herramientas, etc. 3. Recopilación de información Incluye la recogida de los datos y también la depuración de la información obtenida, es decir, tratar los problemas de la no- respuesta, los errores de campo, los errores de oficina, los datos desaparecidos y los datos anómalos. 4. Análisis de los datos El resultado de las fases anteriores es la obtención de una tabla o matriz de datos que requiere un análisis. En principio este análi- sis será de tipo descriptivo y en el caso de trabajar con muestras, que es lo más habitual en Ciencias Sociales, se recurrirá a un análisis inferencial para generalizar los resultados y así obtener conclusiones generales. a) Análisis descriptivo: Organizar y resumir los datos dis- ponibles para extraer la información relevante en nuestro estudio. Esta fase proporciona tablas, gráficos y una serie de medidas que describen los valores analizados. b) Inferencia estadística: Se basa en el supuesto de que la población sigue un modelo o una distribución conocida y los datos que tenemos son realizaciones aleatorias de ese modelo. Para cuantificar la fiabilidad de estos resultados se recurre al cálculo de probabilidades. Hemos de indicar que será necesario diagnosticar la validez de los supuestos del modelo que nos permiten interpretar los datos y llegar a conclusiones sobre la población. 5. Interpretación y elaboración de un informe Con los resultados definitivos se procede a la interpretación de los mismos para obtener las conclusiones del estudio. Esta tarea Estadistica aplicada a las Ciencias Sociales 19 E Población: Conjunto de personas, objetos, ideas o acontecimien- tos sometido a una observación estadística. E Individuo o unidad estadística: Cada uno de los elementos de la población. 3 Muestra: Subconjunto de una población. 8 Carácter o variable: Cada una de las propiedades, rasgos o cua- lidades que poseen los elementos de una población y que son Objeto de estudio. Haremos la si ¡guiente clasificación: E Variables cualitativas o categóricas: Los valores que to- man estas variables están establecidos en clases o catego- rías que, normalmente, no son cuantificables. Las podemos clasificar como: Ordinales: Variables cuyas categorías tienen estable- cido un orden. Por ejemplo, la categoría profesional o el rango militar, Nominales: Variables cuyas categorías no tienen prees- tablecido un orden. Por ejemplo, el sexo, el estado ci- vil o bebida preferida, Bi Variables cuantitativas o medibles: Los valores que to- man se pueden cuantificar o medir numéricamente. Depen- diendo de la naturaleza de dichos valores, las podemos cla- sificar como: Discretas: Pueden tomar valores de un conjunto fini- to O infinito numerable. Dicho de otro modo, los va- lores que pueden tomar son aislados. Por ejemplo, el número de hermanos o el número de bajas laborales tomadas en un año. Continuas: Pueden tomar valores de un conjunto infi- nito no numerable, es decir, cualquier valor de la recta real o de un intervalo. Por ejemplo, el precio de unas acciones o el tiempo de espera en la consulta de ur- gencias. 20 M. D. Molina, J. Mulero, M. J. Nueda y A. Pascual Como veremos en el tema siguiente, a la hora de realizar tablas y gráficos, cada tipo de variable requiere un tratamiento específico y adecuado a la naturaleza de los datos con los que se trabaja. Una de las principales diferencias en cuanto al tratamiento de va- riables discretas y continuas es que con las variables continuas, normalmente se dispone de gran variedad de resultados, es de- cir, datos que se repiten poco. En este caso, optaremos por hacer grupos o intervalos de valores. No obstante, podríamos encon- tramos con variables discretas que toman muchos valores y, por lo tanto, interesaría agrupar o variables continuas que toman po- cos valores e interesaría considerarlas como discretas. Por ejem- plo, la edad, que es una variable continua, se puede tomar como discreta si sólo se toma la parte entera y tenemos pocos casos, o incluso podríamos tratarla como cualitativa ordinal si se toman las categorías niños-jóvenes-adultos-tercera edad. Parámetro: Es un valor numérico calculado a partir de todos los datos de la población a través de una determinada expresión matemática. Estadístico: Es un valor numérico calculado a partir de los datos de cada muestra a través de una determinada expresión matemá- tica, con el objetivo de estimar o inferir características de una población. Por tanto, un estadístico es un valor que depende de la muestra escogida. Así pues, hablaremos de parámetros en la población, que nor- malmente serán desconocidos, y de estadísticos en la muestra, que se podrán calcular con los datos disponibles: Población (Parámetro) Muestra (Estadístico) 2 M. D. Molina, J. Mulero, M. J. Nueda y A. Pascual jemplo 1.1 (continuación). En particular, EDAD, es la edad en el momento de la prue- ba; SEXO, si es hombre o mujer; NOTA, el resultado de la prueba realizada; CALIF,, la nota codificada en las categorías suspenso, aprobado, notable o sobresaliente; CONV., el núme- ro de veces que ha realizado las pruebas; ALT., la altura del individuo en metros; y PESO, el peso en kilogramos. Indica de qué tipo son las variables consideradas. ... Veamos su clasificación: $ EDAD: variable cuantitativa continua. 8: SEXO: variable cualitativa nominal. E NOTA: variable cuantitativa continua. $ CALIFICACIÓN: variable cualitativa ordinal. 8 CONVOCATORIA: variable cuantitativa discreta. $8 ALTURA: variable cuantitativa continua. $ PESO: variable cuantitativa continua. Este ejemplo nos servirá para analizar los diferentes tipos de va- riables que aparecen y para aplicar los conceptos estadísticos de los próximos capítulos. Estadística aplicada a las Ciencias Sociales 23 1.5 Usando R A lo largo de este manual iremos mostrando sentencias básicas para utilizar el programa estadístico denominado R. En este capítulo introductorio, explicamos brevemente qué es R, cómo se instala y la forma más sencilla de introducir datos para abordar con R los proble- mas planteados. No se pretende elaborar un manual de R, simplemente es una introducción sencilla al programa para la resolución del tipo de cuestiones que planteamos. R es un sistema para análisis de datos que está considerado como algo más que un programa de análisis estadístico debido a su doble naturaleza, ya que dispone de: 3 Una colección de programas con los que se puede hacer cálcu- los, gráficos y almacenar datos. $3 Un lenguaje de programación bien desarrollado y efectivo. Se considera que es un dialecto del lenguaje S (AT£T Bell) y su código fuente está en C y Fortran. Se distribuye gratuitamente bajo los términos de la GNU General Public Licence. La comunidad de R es muy dinámica e integrada por estadísticos de gran renombre. Se obtiene en: http: //cran.r-project.org/ y se puede descargar para Windows, LINUX y MacOS X. La docu- mentación es muy completa y accesible. En el apartado Documenta- tion de la web anterior, se puede acceder a manuales elaborados por los desarrolladores de R (R Development Core Team), manuales que también podemos encontrar en la misma página web traducidos al es- pañol. Cuando abrimos R, aparece una pantalla que denominamos conso- la de trabajo (workspace). Teclearemos las instrucciones a continua- ción del símbolo > denominado prompt. A la hora de elaborar los ejercicios conviene guardar las intruc- ciones en scripts, que son archivos de texto que se pueden crear a partir de la consola seleccionando desde el menú desplegable: o SR Estadística aplicada a las Ciencias Sociales > EDAD <= 5 (18,19,17,19,22,21,22,19,19,28,27, 22/23/18, 18,37,56,19, + 20,19) da > NOTA <- 2(7,3,4,5.3,6.1,5,5,9,4.1,3,5,5,6.3,5.3,5.5,9.5,7.8,8, + 3,6,4,5) > ALTURA <- c(1.68,1.80, 1.71,1.56,1.70,1.79,1,64,1.65,1.85,1.70, + 1,75,1.65,1.80,1.62,1.60,1.72,1:78,1.67,1.87,1.55) > PESO <- 5 (60,75, 60,50,57,75,58,55,80,66,70,58,78,62, 64, 65,80,70, + 90,58) Para introducir una variable categórica cuyos valores son incómo- dos de escribir por tener varios Caracteres, conviene utilizar la función factor () con la que podremos codificar cada categoría de una for- ma sencilla señalando los valores mediante etiquetas . Por ejemplo, para los datos de las variables SEXO y CALIFICACIÓN: SEXO s= factor(c(1,1,1,2,2,1,1,2,1,1,2,1,2,1,2,2,1,1,1,1, labels=0 ("HOMBRE”, "MÚUJER") ) : CALIFICACIÓN: factor (0(3,1,2,2,2,2,4,1,1,2,2,2/2,2,4,3,3,1,1,2), labels=c ("SUSPENSO", "APROBADO", "NOTABLE", "SOBRESALTENTE?)) + vey Se podrían agrupar las variables creadas como vectores en una úni- ca matriz utilizando la función data. frame () . La matriz la podría- mos visualizar con el editor de datos usando edit () ofix(). > PATOS <- data.frame (EDAD, SEXO, NOTA, CALIFICACIÓN, ALTURA, PESO) > edit.(DATOS) 26 M. D. Molina, J. Mulero, M. J. Nueda y A. Pascual EN ]carrescación PESO [varT sara. nal NOTABLE ESTO SUSPENSO E atar [AFROSADO. a ERE [APROSADO. CC MEN AN ja 5 aemonano 322 3 SOBRESALIENTE! NEO CEMCEST E NES E suspenso El ENE CE j El ENEA s ABRCSADO 3322 E-3 [APROBADO 13 123, 15.37 [APROBADO 19138 525 [apROÑADO EREO os [scaner 3 36197 [2.8 nomas E 1758 E NOTABLE. y ERES 37577 |suspERsO E 35 20 z SUSPENSO 5 APROBADO. . L 28 M. D. Molina, J. Mulero, M. J. Nueda y A. Pascual a) Variable cualitativa nominal, cada partido político sería una categoría. b) Variable cuantitativa continua. c) Variable cualitativa ordinal, se podría clasificar cada acci- dente como leve, grave, muy grave, etc. Estadistica aplicada a las Ciencias Sociales 29 1.7 Problemas propuestos 1. A partir de los siguientes títulos de posibles estudios, indica la población que debería considerarse y qué variables se podrían estudiar, identificando de qué tipo son: a) Encuesta sobre el gasto en educación de los hogares a nivel nacional. b) Resultados de las Pruebas de Acceso a la Universidad en la convocatoria de junio de 2014 en la Comunidad Valencia- na. c) Estudio de los accidentes laborales en una empresa en un período determinado. 2. Clasifica las siguientes variables indicando las posibles catego- rías en aquellas variables que sean cualitativas: a) Gasto de las familias alicantinas en la campaña navideña de 2013. b) Tipo de delitos denunciados en una comisaría. c) Nivel de estudios de los asistentes a un concierto de jazz. d) Compañía de telefonía móvil con la que se tiene contrato. e) Modo de acceso a la Universidad de los alumnos de primer curso de Criminología en la Universidad de Alicante. Estadística aplicada a las Ciencias Sociales 31 6. 10. Un individuo o unidad estadística: a) Siempre es una persona. b) Es un elemento de la población. c) Puede ser cualitativo o cuantitativo. - La variable “Valor en bolsa de una acción” (medida en euros) es una variable: a) Cuantitativa continua. b) Cualitativa continua. c) Cuantitativa discreta. . Un estadístico: a) Es un valor numérico calculado a partir de todos los indi- viduos de la población. b) Es una expresión matemática. c) Es un valor numérico calculado a partir de los datos de una muestra. . El análisis de los datos: a) Se realiza después de la interpretación del modelo. b) Incluye la validación del modelo a estudiar. e) Requiere de la ordenación de los datos en cualquier caso. La variable “Número de delitos al año” es una variable: a) Cualitativa ordinal. b) Cuantitativa discreta. Cc) Cuantitativa continua.