






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Anàlisi de Dades, Profesor: claudia claudia, Carrera: Administració i Direcció d'Empreses, Universidad: UPF
Tipo: Apuntes
1 / 10
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!







Introducción a la estadística
La estadística consiste en a partir de datos que recojo, ordeno y clasifico, hacer un análisis y unas observaciones.
La estadística aplicada se divide en dos grandes áreas:
La estadística trata sobre datos, los datos son los números puestos en un contexto y se utilizan para profundizar en un tema y sacar conclusiones. Los datos ayudan a dar una visión fiable de la realidad. Sin embargo, los datos pueden estar mal por muchas razones: mal recolectados, mal interpretados…
El proceso de análisis de datos se basa en las siguientes fases:
Dimensiones de los datos estadísticos:
Tipos de variables:
Examen descriptivo de los datos
Las herramientas y las ideas estadísticas ayudan a examinar los datos para poder describir sus características principales.
Después se analiza cada variable de forma separada y luego se analiza las relaciones entre las variables.
Para analizar las variables se utilizan gráficos y resúmenes numéricos.
Tabla de frecuencias:
Sirve para resumir y visualizar bases de datos grandes.
Las estadísticas se pueden hacer en series de tiempo y en paneles.
Obtención de una muestra aleatoria
El análisis estadístico permite descubrir y resumir la información que contienen los datos. A veces tenemos acceso directo a todo el colectivo que nos interesa (lista de la clase, ver el sexo), pero otras veces no es factible conseguir los datos para todos los individuos (tasa de desempleo). A partir de los datos que tenemos queremos extender esas conclusiones a algún grupo mayor de
Muestra aleatoria simple
El azar es el que escoge la muestra, así no hay favoritismos del encuestador ni de autoselección por parte de los encuestados. Evita el sesgo. Cualquier individuo de una población puede ser seleccionado de manera aleatoria.
Idea – numerar a los individuos y sacar los números de una bolsa. Esto lo hacen los programas estadísticos de forma instantánea de una lista de individuos de una población. También se puede hacer utilizando la tabla de dígitos aleatorios. Esta muestra sí es representativa y permite sacar conclusiones de la población. La tabla presenta números aleatorios agrupados en dígitos y se pueden utilizar para números aleatorios de 1 dígito, de 2, y así sucesivamente.
Inferencia sobre la población
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por la muestra. Cuál es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.
Los resultados de las muestras sólo son estimaciones de lo que ocurre en toda la población.
¡Muestras más grandes dan resultados más precisos que muestras pequeñas, siempre que las muestras sean aleatorias!
TEMA 2: Descripción gráfica y numérica de una variable
Análisis exploratorio de los datos
Las herramientas y las ideas estadísticas ayudan a examinar los datos para poder describir sus características principales:
Para analizar las variables se utiliza gráficos y resúmenes numéricos.
Descripción con gráficos
Por cada tipo de variable existe un tipo de gráfico:
medida aritmética. El problema de esta medida es que está influenciada por los valores extremos y deja de informar. Medida no robusta.
LA MEDIANA es el valor de la variable que ocupa la posición central, la mitad de las observaciones son menores y la otra mitad mayores.
Cuando la media y la mediana se encuentran muy cerca, se dice que se trata de una distribución simétrica. Si la media y la mediana son exactamente iguales, hay una distribución exactamente simétrica. Es una distribución asimétrica si la media queda desplazada hacia la cola más larga.
LA MODA es el valor que más se repite. Una distribución puede ser bimodal o multimodal. Si ningún valor se repite, podemos hablar de clase modal en el histograma.
Hay 3 tipos de distribución en las medidas de centro:
Medidas de posición no centrales
MÁXIMOS Y MÍNIMOS el máximo es el máximo valor y el mínimo, el mínimo.
LOS CUARTILES son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Se utiliza Q (^) 1, Q 2 y Q3. Se pueden
mostrar gráficamente en el diagrama de caja y sirven para comparar distribuciones. Rango inter-cuartílico Q 1 – Q 3. Q 2 coincide con la mediana.
El primer cuartil es la media de las observaciones situadas a la izquierda de la mediana global. Separa el primer 25% de las observaciones.
El tercer cuartil es la mediana de las observaciones situadas a la derecha de la mediana global. Es mayor que el 75% de las observaciones.
Se pueden mostrar gráficamente en el diagrama de cajas.
Medidas de dispersión
LA VARIANZA es la media de la distancia al cuadrado de los valores de una variable con respecto a la media aritmética.
LA DESVIACIÓN TÍPICA es la media de la distancia de los valores de una variable con respecto a la media aritmética. Es la raíz cuadrada de la varianza. Mide la dispersión respecto a la media. Propiedades: mide la dispersión respecto la media, sólo se usa cuando utilizamos la media como medida de centro. S=0 no hay dispersión. S>0 hay dispersión.
Para poder comparar dos distribuciones y evitar el problema de dimensionalidad (unidad) de las variables, utilizamos el coeficiente de variación:
Ambas reflejan el grado de variabilidad de una variable, la diferencia son las unidades de medida en que se expresan. La varianza en unidades al cuadrado y la desviación típica en unidades.
Medidas de forma
ASIMETRÍA permite establecer el grado de simetría o asimetría que presenta una distribución sin tener que hacer su representación gráfica. Existe:
Hay tres posibilidades: