Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Descriptivo de Datos: Distribución de Frecuencias, Apuntes de Estadística

Cómo organizar y presentar datos numéricos utilizando diagramas de barras, gráficos de sectores, diagramas de tallo y hojas, y gráficos de caja. Se enseña cómo calcular frecuencias absolutas y relativas, así como cómo interpretar las tendencias centrales, dispersión y forma de distribución. Se utiliza el software spss para crear gráficos.

Tipo: Apuntes

2015/2016

Subido el 23/05/2016

jessi515
jessi515 🇪🇸

3.5

(11)

5 documentos

1 / 21

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Descripción tabular y gráfica de los datos de
una variable
1. Descripción de datos de una sola variable
2. La descripción mediante tablas
1. Variables cualitativas o nominales
2. Variables ordinales
3. Variables cuantitativas discretas
4. Variables cuantitativas continuas
3. La descripción mediante gráficos
1. Diagramas de barras
2. Gráficos de sectores
3. Histogramas
4. Gráficos de líneas
5. Diagramas de tallo y hojas
6. Gráficos de caja
7. Representaciones de grupos
Los datos obtenidos de experimentos, encuestas,
investigaciones observacionales, etc., son
colecciones de números que deben organizarse de
forma clara para su comprensión por el
investigador y otras personas interesadas en los
resultados. La estadística descriptiva proporciona
diversos medios para esta finalidad:
Descripción de los datos mediante tablas de frec uencias absolutas y
relativas
Descripción de los datos mediante gráficos
Estadísticos resumen que pueden ser de diferentes
tipos (que se verán en los temas siguientes):
Tendencia central y posición
Dispersión o variabilidad
Forma de la distribución
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15

Vista previa parcial del texto

¡Descarga Análisis Descriptivo de Datos: Distribución de Frecuencias y más Apuntes en PDF de Estadística solo en Docsity!

Descripción tabular y gráfica de los datos de

una variable

  1. Descripción de datos de una sola variable
  2. La descripción mediante tablas
    1. Variables cualitativas o nominales
    2. Variables ordinales
    3. Variables cuantitativas discretas
    4. Variables cuantitativas continuas
  3. La descripción mediante gráficos
    1. Diagramas de barras
    2. Gráficos de sectores
    3. Histogramas
    4. Gráficos de líneas
    5. Diagramas de tallo y hojas
    6. Gráficos de caja
    7. Representaciones de grupos

 Los datos obtenidos de experimentos, encuestas,

investigaciones observacionales, etc., son

colecciones de números que deben organizarse de

forma clara para su comprensión por el

investigador y otras personas interesadas en los

resultados. La estadística descriptiva proporciona

diversos medios para esta finalidad:

◦ Descripción de los datos mediante tablas de frecuencias absolutas y relativas ◦ Descripción de los datos mediante gráficos

 Estadísticos resumen que pueden ser de diferentes

tipos (que se verán en los temas siguientes):

◦ Tendencia central y posición ◦ Dispersión o variabilidad ◦ Forma de la distribución

 Normalmente el primer paso en la organización

de los datos es describirlos por medio de la

distribución de frecuencias y su presentación en

forma de tablas.

 La distribución de frecuencias es una forma de

disponer los datos que muestra la frecuencia de

ocurrencia de las diferentes modalidades o

valores de la variable o la frecuencia de

ocurrencia de valores que caen dentro de rangos

de la variable, arbitrariamente definidos,

denominados intervalos de clase.

 Disponemos den observaciones de una variable. Los

datos correspondientes a variables cualitativas se agrupan de forma natural en las diferentes categorías o clases. Por ejemplo, en los datos de nuestra investigación, las observaciones correspondientes a la variable sexo (2), estado civil (8), nivel educativo (6), fuente de estrés (9),….

 Todos los casos pertenecen a una de las clases, propiedad que se conoce como exhaustividad de las clases y los elementos pertenecen a una y solo una de las clases en cada variable, propiedad que se conoce como ser mútuamente excluyentes. La organización de las categorías de una variable debe tener siempre estas dos propiedades.

 Si la variable puede tomar valores

pertenecientes ak clases, representamos por:

n 1 , n 2 ,......,n k el número de casos que

aparecen en cada una de ellas, siendo n i el

número de casos pertenecientes a la

categoría n-ésima, que recibe el nombre de

frecuencia absoluta de dicha clase. Es

requisito que:

k

i

n n n nk ni

1

 La primera columna de la Tabla presenta las categorías (8) en las que se ha codificado la variable, que son exhaustivas, ya que, como se puede observar recogen a los 200 casos de la muestra. Puede verse que todos los casos aparecen como válidos. Si existiesen casos perdidos o ausentes, se indicaría en esta columna, como se ha visto en la Unidad 3, con la etiqueta de Perdidos. La segunda columna presenta las frecuencias absolutas y puede verse que 47 sujetos están solteros, 16 tienen relaciones casuales, etc. En la segunda columna se presenta la frecuencia relativa en forma de porcentaje (Porcentaje = (frecuencia/total) * 100)).

 El primer valor, 23,5% indica que los 47 sujetos solteros o de la categoría “estar soltero” representa el 23,5% del total de los 200 casos, tener relaciones casuales el 8% y así sucesivamente. La tercera columna representa el porcentaje válido que, en este caso coincide con la columna anterior, ya que no hay casos perdidos o ausentes. En el caso de que los hubiese, los valores serían diferentes, puesto que el porcentaje válido se calcula solamente sobre los casos válidos o con respuesta. Finalmente, en la última columna se presenta el porcentaje acumulado, que va sumando a cada categoría los porcentajes de las anteriores. En el caso de una variable como la que nos ocupa esnominal esta columna no tiene sentido, ya que las frecuencias relativas acumuladas no representan nada y debería eliminarse en la presentación de los resultados.

 El interés de las frecuencias relativas radica

en que permiten comparar las frecuencias de

las clases en conjuntos de datos con

diferente número de observaciones.

 La tabla anterior representa el resumen más

importante de la información contenida en

una variable cualitativa.

Nivel educativo más alto

Frecue ncia

Porcent aje

Porcent aje válido

Porcent aje acumula do Válidos Secundaria incompleta 26 13,0^ 13,0^ 13, Secundaria 43 21,5 21,5 34, Formación Profesional 56 28,0^ 28,0^ 62, Universitaria completa 53 26,5^ 26,5^ 89, Postgrado 22 11,0 11,0 100, Total 200 100,0 100,

 Son variables que no admiten valores intermedios entre dos valores cualesquiera de la distribución: nº de hijos, nº de libros, nº de accidentes de tráfico, nº de palabras, etc.  La noción de distribución de frecuencias para variables discretas es similar a la que hemos visto para variables cualitativas o categóricas, ya que las clases en que se agrupan los datos vienen dadas de forma natural por los valores de la variable.  En el archivonoexperimental.sav solamente existe una variable de este tipo:nº de cigarrillos, pero muestra una distribución muy amplia y no la consideramos para el ejemplo. Este tipo de representación es más adecuada para variables discretas que toman un número reducido de categorías. En otro caso pueden tratarse como se propone para las variables cuantitativas en general. En la Tabla siguiente se presentan los datos procedentes de una tarea de recuerdo de palabras realizada por una muestra de n = 589 adultos.

pal_

Frecuen cia

Porcentaj e

Porcentaj e válido

Porcentaj e acumulad o Válid os

0 34 5,8 5,8 5, 1 61 10,4 10,4 16, 2 94 16,0 16,0 32, 3 131 22,2 22,2 54, 4 111 18,8 18,8 73, 5 77 13,1 13,1 86, 6 40 6,8 6,8 93, 7 26 4,4 4,4 97, 8 10 1,7 1,7 99, 9 3 ,5 ,5 99, 10 2 ,3 ,3 100, Total 589 100,0 100,

(a)

Edad en 5 intervalos

Frecuen cia

Porcentaj e

Porcentaj e válido

Porcentaj e acumulad o Válid os

18 ‐ 24 43 21,5 21,5 21, 25 ‐ 32 43 21,5 21,5 43, 33 ‐ 40 35 17,5 17,5 60, 41 ‐ 49 37 18,5 18,5 79, 50+ 42 21,0 21,0 100, Total 200 100,0 100,

(b) Frecuencia Porcentaje

Porcentaje válido

Porcentaje acumulado Válidos 18-30 70 35,0 35,0 35, 31-43 63 31,5 31,5 66, 44-56 48 24,0 24,0 90, 57-69 16 8,0 8,0 98, 70-82 3 1,5 1,5 100, Total 200 100,0 100,

 El procedimiento para su obtención con SPSS es el mostrado antes

 La interpretación es la misma que la de las tablas anteriores, teniendo sentido también en este caso la interpretación de la columna de los porcentajes acumulados.

 En la primera tabla (a) puede verse que los intervalos no tienen la misma amplitud y que uno de ellos (el último) está abierto. En este caso para la formación se intentó que en todos hubiese un número bastante similar de casos, puesto que los grupos de edad se utilizarán en análisis posteriores. No obstante, entre las reglas para la formación de intervalos suele recomendarse que la amplitud sea la misma y que todos estén cerrados.

 Esto es imprescindible para el cálculo de

estadísticos a partir de datos agrupados; en otros

casos pueden ser más importantes otras

consideraciones.

 En Estadística veremos algunos estadísticos

calculados a partir de de datos agrupados en

intervalos, no obstante, cuando se hace análisis

de datos con ordenador se utilizan todas las

puntuaciones para no perder información y la

agrupación en intervalos se reserva para la

descripción tabular y para algunas

representaciones gráficas.

 Se observa el rango de valores de la variable (en el ejemplo la edad va de 18 a 82 años).

 El primer paso consiste en dividir el recorrido o conjunto de valores posibles de la variable en clases o intervalos que no se solapen y que sean exhaustivos.

 El punto central de cada uno de ellos es la

denominada marca de clase, que denotamos comoci.

Para ello se divide el rango de valores (Xs-Xi+1) normalmente entre 10-20 clases (más dejarían de ser informativos).

 Cada intervalo tiene un Límite superior y un límite inferior y una amplitud o numero de unidades.

 Cuando la variable es continua, no puede

haber discontinuidades (valores que faltan)

entre los intervalos. Para no romper la

continuidad hablamos de límites exactos vs.

Límites aparentes. Por convención los límites

exactos inferiores suelen tomarse media

unidad a la izquierda y los superiores media

unidad a la derecha.

 Pueden llevarse a cabo muchas

modificaciones en los gráficos para mejorar

su estética por medio del Editor de gráficos,

al que se accede una vez obtenido el gráfico

haciendo doble clic sobre él. Entonces

aparece una nueva ventana que es el editor

de gráficos como la que aparece en la Figura

siguiente.

 En la pantalla aparece un gráfico en forma de

diagrama de barras que muestra la

distribución de respuestas a la variable “nivel

educativo” del archivonoexperimental.sav.

 Para las variables cualitativas suelen usarse

dos tipos de representaciones gráficas:

◦ Diagrama de Barras ◦ Ciclograma o gráfico de sectores

 Existen otros tipos de gráficos, como el

diagrama de Pareto o los pictogramas,

bastante utilizados en otras áreas de las

ciencias sociales, pero no en psicología. Nos

limitamos a los dos anteriores, que son los

habituales.

 Para construir un diagrama de barras se

representan en el eje de abscisas (horizontal) las

clases o categorías de la variable, con una

separación entre ellas para indicar la

discontinuidad y sobre la base de cada una de

estas clases se construye un rectángulo cuya

altura es proporcional a la frecuencia (absoluta o

relativa, ya que no es más que un cambio de

escala, que no modifica la forma del diagrama).

En la Figura siguiente se presenta el diagrama de

barras de la variable cualitativa “fuentes del

estrés percibido” del archivo de datos

noexperimental.sav.

 En los pictogramas, utilizados con frecuencia

en la prensa y publicaciones de divulgación

suelen utilizarse símbolos relativos a la

variable que se está representando (personas,

libros, medicamentos, etc...), cuyo tamaño o

altura es proporcional a las frecuencias de la

clase a que representan.

Ejemplos de pictogramas

 Histogramas

 Gráficos de líneas o perfiles

 Diagramas de caja

 Diagramas de tallo y hojas

 El histograma es un gráfico para la representación de una variable cuantitativa continua que representa las frecuencias absolutas o relativas mediante áreas. Se utiliza desde hace varios siglos y fue K. Pearson el que le dio el nombre en 1894.  En la figura siguiente se representa el histograma de los datos de la distribución de frecuencias de la variable afrontamiento. Como se han tomado en el eje de abscisas clases del mismo tamaño, las frecuencias son proporcionales a las alturas de los rectángulos. Cada altura da idea de la densidad o concentración de datos en esa zona: a más altura, más valores de la variable.  A diferencia del diagrama de barras, aquí los rectángulos se representan contiguos, para reflejar la idea de la continuidad de la variable.  El área total encerrada en el histograma es 1 cuando los rectángulos representan frecuencias relativas (o 100, si son porcentajes).

 Construcción de un histograma con el

programa SPSS

◦ Hacer clic en Gráfico→ Cuadros de diálogo antiguo→ Histograma

◦ Seleccionar la variableafrontamiento en la ventana

de las variables y llevarla a la casilla Variable. (Solamente está permitido hacer un histograma cada vez). ◦ Pulsar Aceptar

No acumuladas (^) Acumuladas

 El diagrama de tallo y hojas forma parte de la rama de la estadística conocida comoExploratory Data Analysis. Permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. En inglés se denominastem and leaf. Es una forma de representación semigráfica que permite ver la forma de la distribución y los valores que toma la variable. Parte de la idea de que todo número puede dividirse en una parte más significativa, el tallo, que se define por las unidades de orden superior y otra parte menos significativa, la hoja, definida por las de orden inferior. Por ejemplo, en los datos de la variableafrontamiento representada en la Figura siguiente las puntuaciones oscilan entre 20 y 88. En sus valores hay decenas (2, 3, …,8) y unidades (0,1, 2, …..,9).

 La parte significativa son las decenas y la menos significativa las unidades. Esta división sirve para separar cada dato o puntuación en dos partes, el tallo (en este caso las decenas) y la hoja (las unidades). Por ejemplo el número 45 tiene como tallo el 4 y como hoja el 5; para el 67, su tallo es el 6 y la hoja el 7. Tallos y hojas se ordenan por orden creciente, el tallo en vertical y la hoja en horizontal.

 Cuando una misma unidad superior se divide en dos tallos, por convención la primera recoge las hojas de 0-4 y la segunda las de 5 a 9. Cuando hay muchos datos, la unidad principal puede dividirse en más tallos. No hay reglas fijas, sino que se persigue la mejor visualización de la distribución.

 Con respecto a los histogramas y otros

procedimientos convencionales de

representación de datos, el diagrama de tallo y

hojas presenta ciertas ventajas:

◦ Conserva los valores originales y no requiere reagrupar los datos en intervalos, con lo que se tiene un examen detallado de la distribución ◦ Permite localizar los valores centrales de la distribución, identificar concentraciones de datos y confirmar la existencia de saltos o lagunas o discontinuidades en las que no se observa ningún dato ◦ Permite observar fácilmente el rango de la distribución, evaluándose de forma global la dispersión de la distribución y la presencia de valores atípicos ◦ Facilita el estudio de la forma de la distribución

 La organización en tallo y hojas adopta

disposiciones diferentes en función del número

de tallos en que se divida la muestra. Por

ejemplo, todos los números de la decena del 20

o de cualquier otra pueden organizarse en un

único tallo o dividirlos en más de uno. Por

ejemplo, en la variable que nos ocupa, todas las

decenas del 30 al 80 se han dividido en dos

tallos. En los veinte, solamente hay tres casos

que consideraextremos y los ha agrupado juntos

bajo la denominaciónExtremes.

AfrontamientoFrequency Stem Stem &‐ andLeaf‐Leaf Plot 3,00,00 Extremes 3. (=<29) 10,005,00^34 ..^567790011223344 13,0022,00 45 .. (^55666777889990011122233333444444444) 25,00 5. 5555566667777888888888999 40,0030,00 66 .. (^0000000001111222233333333334444444444444555556666666667777777788889999) 25,0013,00 77 .. (^00000011111122233333444445566677789999) 7,003,00 88. (^). 0122233668 Stem width: 10 Each leaf: 1 case(s)

 Pueden representarse las medias para varias variables del estudio conjuntamente por medio de diagramas de barras, haciendo clic en la opción Resúmenes para distintas variables. Junto con las medias pueden presentarse sus intervalos del confianza del 95% o la desviación típica, mostrando así tendencia central y variabilidad. En la Figura siguiente se presentan las medias de tres variables con las barras de error que muestran un intervalo comprendido entre para las variables afrontamiento, autoconfianza y optimismo (a). En (b) se presentan las medias con su intervalo de confianza del 95%. Para estos gráficos debe hacerse clic en opciones y seleccionar: Intervalo de confianza, error típico o desviaciones típicas.

 Como veremos, algunos estadísticos son

sensibles a la presencia de casos extremos

(valores muy por encima o por debajo de los de

la mayoría de la muestra); esto sucede con los

estadísticos basados en la suma de las

puntuaciones o de sus diferencias elevadas a

alguna potencia (media, varianza,….).

 Hay diferentes procedimientos para detectar la

presencia de estos casos y actuar en

consecuencia, optando por su tratamiento o por

usar alguno de los procedimientos estadísticos

que hemos denominado robustos en los

correspondientes apartados.

 Un caso anómalo presenta características diferentes de las de las restantes observaciones. Estas observaciones no pueden considerarse “a priori” ni beneficiosas ni problemáticas, sino que deben considerarse en el contexto del análisis y serán evaluadas en relación con los tipos de información que pueden proporcionar para el fenómeno bajo estudio. Cuando su efecto se puede considerar beneficioso es cuando son valores posibles en la población, que, aunque diferentes de la mayoría de la muestra, pueden ser indicativos de características de la población. Por el contrario, pueden tener efecto perjudicial para el análisis cuando no son representativos de la población y son contrarios a los objetivos del análisis. En estos casos pueden distorsionar mucho los resultados de los análisis estadísticos. Es importante que el analista examine cuidadosamente los datos de cara a su posible influencia (observaciones influyentes).

 ¿Por qué tienen lugar los “casos atípicos”?

Según sus causas, suelen clasificarse en

cuatro categorías.

 Los primeros son los que tienen lugar por errores de procedimiento, del tipo de los cometidos en la introducción de datos en el archivo o en la codificación. Estos serán identificados en la fase de depuración de datos y serán corregidos o tratados como perdidos si no se pueden corregir.  El segundo tipo es la observación que tiene lugar como resultado de un suceso extraordinariamente raro y en este caso de existir alguna explicación de la rareza de la observación. El analista debe decidir si representa una observación válida de la población; en caso afirmativo, la mantendrá y si es negativo, la eliminará.  El tercer tipo comprende las observaciones extraordinarias para las que el analista no tiene explicación; éstas serán retenidos si el analista considera que representan a un segmento válido de la población.  Por último, se encuentran aquellos valores “normales” para una variable considerada aisladamente, pero que son únicos en su combinación con otras variables. Estos casos son los denominados casos atípicos bivariables o multivariables. En la Unidad 10 se considerarán los bivariables por medio de diagramas de dispersión y diversos estadísticos para su detección en el contexto de múltiples variables que se derivan del análisis de regresión.