



Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Análisis exploratorio de datos, Profesor: , Carrera: Estadística Empresarial, Universidad: UMH
Tipo: Apuntes
1 / 7
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




Estadística es la ciencia basada en la recolección, organización, presentación, análisis e interpretación de datos para facilitar la toma de decisiones fundamentadas.
Planteamiento de objetivos.
Diseño y planificación de la recogida de datos.
Estudio de campo: recogida de información.
Análisis exploratorio de datos: ESTADÍSTICA DESCRIPTIVA
El objetivo básico de la Estadística Descriptiva es describir , resumiendo los datos recopilados, lo que hemos observado o medido en un conjunto de sujetos o individuos.
Censo: Observamos/medimos a todos los individuos de una población. Muestra: Observamos/medimos un subconjunto de individuos de una población.
Al aplicar técnicas y procedimientos de Estadística Descriptiva sobre una muestra, nunca se pretenden generalizaciones a la población a la que pertenece dicha muestra. (Si fuese así sería Estadística Inferencial)
Las técnicas y procedimientos utilizados se engloban en dos tipos: ■ Numéricos ■ Gráficos
Los datos a describir provienen de medir u observar características (VARIABLES) de interés en los sujetos considerados. Distinguimos dos tipos de variables:
■ Variables categóricas. Sólo unas pocas respuestas son posibles.
Fases de un Análisis Estadístico
■ Variables numéricas. Muchas respuestas diferentes son posibles y todas ellas numéricas. Por ejemplo, se han recopilado el número de llamadas telefónicas diarias recibidas en un servicio de comida a domicilio. Pues pueden ser 23, 57, o 90… Respuestas numéricas en un rango amplio.
El primer paso tras recabar información experimental u observacional, es tabular y visualizar los datos.
Las tablas de frecuencias nos permiten organizar la información y resumirla a través de los porcentajes de distribución.
Obtenidos los resúmenes porcentuales asociados a las tablas de frecuencia la visualización de la distribución de los datos es inmediata.
Una tabla de frecuencias es una presentación resumida y organizada de los distintos valores que toma la variable. Número y porcentaje de sujetos que han dado cada una de las posibles respuestas. Para organizar la información disponible a través de tablas de frecuencias es preciso tener en cuenta:
♦ Si los datos vienen dados individualizados o agrupados. ♦ El tipo y valores posibles de la característica medida/observada. ♦ La organización de los datos de acuerdo a esos posibles valores-respuestas: tabulación. ♦ El resumen numérico de dicha ordenación: conteos. NOTA: Todos los ejemplos que hay a continuación son los mismos que hemos usado en el tema 1
2.1.Tabla de frecuencias para variables categóricas nominal.
Para las variables categóricas nominales el orden no tiene importancia. Se establece la tabla a partir de frecuencias absolutas y frecuencias relativas.
Las frecuencias absolutas representan el número de sujetos observados en cada una de las categorías o de la variable.
Totales: 50 1
2.3.Tabla de frecuencias para variables numéricas.
La construcción de la tabla de frecuencias no es inmediata ya que la información ordenada no se encuentra clasificada en categorías. Por este motivo, el siguiente paso es la determinación de clases o categorías de valores para la agrupación de la información ordenada. Dichas clases se denominan intervalos, introduciendo además los conceptos de amplitud del intervalo, como la diferencia entre el valor máximo y mínimo, y la marca de clase, como el punto medio de dicho intervalo. En la tabla de frecuencias para variables numéricas se calcula las frecuencias relativas y absolutas y sus acumuladas. Como en las variables categóricas ordinal.
Paso 1. Ordenar los datos
Paso 2. Calcular el rango Rango= nº Máximo – nº Mínimo
Paso 3. Establecer el número de intervalos que se desean construir. Para tamaños de muestra pequeños (menos de 5 datos) se recomienda construir no más de 5 intervalos.
Paso 4. Establecer límites y amplitud (igual para todos) de cada intervalo, teniendo en cuenta:
a. Valor máximo y mínimo observado en la muestra. b. Procurar que los extremos de los límites sean números enteros para su mejor comprensión.
Paso 5. Tabular los resultados.
Ejemplo: llamadas telefónicas diarias recibidas en un establecimiento de comida rápida.
Rango=83-42=
Estudiamos a continuación la representación de las tablas de frecuencias:
Paso 3, 4 y 5Paso 1 y 2Paso 1
Las medidas de localización, dispersión y forma permiten resumir la información de un conjunto de datos numéricos en una serie de indicadores numéricos que caracterizan cómo se distribuyen. Diferenciamos varios tipos de medidas: ■ Medidas de localización ■ Medidas de dispersión
Gráficos de cajas. Son útiles para presentar diferentes medidas de localización como los datos, como mínimo, máximo y cuartiles.
Dispersión: cómo de variables son los datos. Tratan de cuantificar la cantidad de variación, diseminación o agrupamiento de los datos. El objetivo fundamental es conocer si los datos se agrupan en torno a cierto valor o si por el contrario se reparten sobre el rango posible de observaciones. Por lo tanto, se usan para establecer la fiabilidad sobre las medidas de localización. Las medidas habituales son el rango, rango intercuartílico, varianza, desviación típica…
Forma: cuál es la forma de la distribución de los datos.
P= dato de pos+ cuando pos nos ha salido