Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Introducción a la estadística , Apuntes de Administración de Empresas

Asignatura: Anàlisi de Dades, Profesor: claudia claudia, Carrera: Administració i Direcció d'Empreses, Universidad: UPF

Tipo: Apuntes

2015/2016

Subido el 02/12/2016

lauraabd98
lauraabd98 🇪🇸

1 documento

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 1
Introducción a la estadística
La estadística consiste en a partir de datos que recojo, ordeno y clasifico, hacer
un análisis y unas observaciones.
La estadística aplicada se divide en dos grandes áreas:
Descriptiva describe, visualiza y resume los datos a partir del estudio.
Inferencial a partir de los datos que tengo y a partir de la descripción
genero modelos, inferencias y predicciones. Considerando la
aleatoriedad de las observaciones.
La estadística trata sobre datos, los datos son los números puestos en un
contexto y se utilizan para profundizar en un tema y sacar conclusiones. Los
datos ayudan a dar una visión fiable de la realidad. Sin embargo, los datos
pueden estar mal por muchas razones: mal recolectados, mal interpretados…
El proceso de análisis de datos se basa en las siguientes fases:
Fase previa formulación del problema.
Fase 1 Buscar datos organizados en variables (recolecta de datos).
Introducir los datos en el ordenador.
Fase 2 Hacer un examen descriptivo de los datos. Selección de
resultados.
Fase 3 generalización del problema. Se hace la elaboración del informe,
se extraen conclusiones.
Dimensiones de los datos estadísticos:
Individuos es relativo y depende de la variable que se quiera estudiar;
relativo al concepto de observación. Los datos permiten describir a un
grupo de individuos a través de una variable.
Variables informan sobre las características de cada individuo. Puede
tomar distintos valores para cada individuo.
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Introducción a la estadística y más Apuntes en PDF de Administración de Empresas solo en Docsity!

TEMA 1

Introducción a la estadística

La estadística consiste en a partir de datos que recojo, ordeno y clasifico, hacer un análisis y unas observaciones.

La estadística aplicada se divide en dos grandes áreas:

  • Descriptiva describe, visualiza y resume los datos a partir del estudio.
  • Inferencial a partir de los datos que tengo y a partir de la descripción genero modelos, inferencias y predicciones. Considerando la aleatoriedad de las observaciones.

La estadística trata sobre datos, los datos son los números puestos en un contexto y se utilizan para profundizar en un tema y sacar conclusiones. Los datos ayudan a dar una visión fiable de la realidad. Sin embargo, los datos pueden estar mal por muchas razones: mal recolectados, mal interpretados…

El proceso de análisis de datos se basa en las siguientes fases:

  • Fase previa formulación del problema.
  • Fase 1 Buscar datos organizados en variables (recolecta de datos). Introducir los datos en el ordenador.
  • Fase 2 Hacer un examen descriptivo de los datos. Selección de resultados.
  • Fase 3 generalización del problema. Se hace la elaboración del informe, se extraen conclusiones.

Dimensiones de los datos estadísticos:

  • Individuos es relativo y depende de la variable que se quiera estudiar; relativo al concepto de observación. Los datos permiten describir a un grupo de individuos a través de una variable.
  • Variables informan sobre las características de cada individuo. Puede tomar distintos valores para cada individuo.

Tipos de variables:

  • Cualitativas Categóricas indican a qué grupo o categoría pertenece el individuo, por ejemplo el sexo (hombre o mujer).
  • Cuantitativa o numéricas toma valores numéricos como por ejemplo la altura (1,74). Tiene sentido hacer operaciones aritméticas. Pueden ser continuas o discretas.

Examen descriptivo de los datos

Las herramientas y las ideas estadísticas ayudan a examinar los datos para poder describir sus características principales.

Después se analiza cada variable de forma separada y luego se analiza las relaciones entre las variables.

Para analizar las variables se utilizan gráficos y resúmenes numéricos.

Tabla de frecuencias:

Sirve para resumir y visualizar bases de datos grandes.

  • Frecuencia relativa porcentaje de casos sobre el total que presenta el valor de dicha variable. Ej. 4 de 6 personas son españolas 4/6.
  • Frecuencia absoluta número de veces que se observa el valor de una variable en un intervalo. Ej. 4 personas son españolas.

Las estadísticas se pueden hacer en series de tiempo y en paneles.

Obtención de una muestra aleatoria

El análisis estadístico permite descubrir y resumir la información que contienen los datos. A veces tenemos acceso directo a todo el colectivo que nos interesa (lista de la clase, ver el sexo), pero otras veces no es factible conseguir los datos para todos los individuos (tasa de desempleo). A partir de los datos que tenemos queremos extender esas conclusiones a algún grupo mayor de

  • Sesgo por falta de sensibilidad de un instrumento

Muestra aleatoria simple

El azar es el que escoge la muestra, así no hay favoritismos del encuestador ni de autoselección por parte de los encuestados. Evita el sesgo. Cualquier individuo de una población puede ser seleccionado de manera aleatoria.

Idea – numerar a los individuos y sacar los números de una bolsa. Esto lo hacen los programas estadísticos de forma instantánea de una lista de individuos de una población. También se puede hacer utilizando la tabla de dígitos aleatorios. Esta muestra sí es representativa y permite sacar conclusiones de la población. La tabla presenta números aleatorios agrupados en dígitos y se pueden utilizar para números aleatorios de 1 dígito, de 2, y así sucesivamente.

Inferencia sobre la población

La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por la muestra. Cuál es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.

Los resultados de las muestras sólo son estimaciones de lo que ocurre en toda la población.

¡Muestras más grandes dan resultados más precisos que muestras pequeñas, siempre que las muestras sean aleatorias!

TEMA 2: Descripción gráfica y numérica de una variable

Análisis exploratorio de los datos

Las herramientas y las ideas estadísticas ayudan a examinar los datos para poder describir sus características principales:

  1. Organizar los datos: hoja de cálculo, tipo de variables.
  2. Se analiza cada variable de forma independiente
  • Se observan los valores que toma una variable y con qué frecuencia: distribución de la variable
  1. Se analiza las relaciones entre las variables

Para analizar las variables se utiliza gráficos y resúmenes numéricos.

Descripción con gráficos

Por cada tipo de variable existe un tipo de gráfico:

  • Variables cualitativas o categóricas:
    • Diagrama de barras se puede incluir o no todas las categorías. Permite comparar rápidamente la altura de las diferentes categorías.
    • Diagrama de sectores (quesito) no puedes eliminar categorías, en el de barras sí. Visualiza la importancia relativa de cada categoría respecto el total del grupo.
  • Variables cuantitativas o numéricas:
    • Histogramas representación en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Su utilidad es más evidente cuando hay un gran número de datos cuantitativos y se agrupan en clases. Permite ver la homogeneidad o no de la variable comparada a otras variables. Se va a observar el aspecto, la forma, el centro, la dispersión, y las observaciones atípicas. Construcción de un histograma:
      1. Ordenar los datos
      2. Dividir el recorrido de los datos en clases de igual amplitud
      3. Construir los intervalos de clases
      4. Graficar el histograma

medida aritmética. El problema de esta medida es que está influenciada por los valores extremos y deja de informar. Medida no robusta.

LA MEDIANA es el valor de la variable que ocupa la posición central, la mitad de las observaciones son menores y la otra mitad mayores.

  • Si el número es impar tiene 50% de valores por encima y 50% de valores por debajo y se hace sumando el total de los valores +1 entre 2.
  • Si es par se hace la media aritmética de los dos valores centrales. Los valores extremos no alteran su valor, es más robusta que la media.

Cuando la media y la mediana se encuentran muy cerca, se dice que se trata de una distribución simétrica. Si la media y la mediana son exactamente iguales, hay una distribución exactamente simétrica. Es una distribución asimétrica si la media queda desplazada hacia la cola más larga.

LA MODA es el valor que más se repite. Una distribución puede ser bimodal o multimodal. Si ningún valor se repite, podemos hablar de clase modal en el histograma.

Hay 3 tipos de distribución en las medidas de centro:

  • Distribución simétrica y “unimodal” Moda=Media=Mediana
  • Distribución asimétrica positiva media > mediana
  • Distribución asimétrica negativa media < mediana

Medidas de posición no centrales

MÁXIMOS Y MÍNIMOS el máximo es el máximo valor y el mínimo, el mínimo.

LOS CUARTILES son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Se utiliza Q (^) 1, Q 2 y Q3. Se pueden

mostrar gráficamente en el diagrama de caja y sirven para comparar distribuciones. Rango inter-cuartílico Q 1 – Q 3. Q 2 coincide con la mediana.

El primer cuartil es la media de las observaciones situadas a la izquierda de la mediana global. Separa el primer 25% de las observaciones.

El tercer cuartil es la mediana de las observaciones situadas a la derecha de la mediana global. Es mayor que el 75% de las observaciones.

Se pueden mostrar gráficamente en el diagrama de cajas.

Medidas de dispersión

LA VARIANZA es la media de la distancia al cuadrado de los valores de una variable con respecto a la media aritmética.

LA DESVIACIÓN TÍPICA es la media de la distancia de los valores de una variable con respecto a la media aritmética. Es la raíz cuadrada de la varianza. Mide la dispersión respecto a la media. Propiedades: mide la dispersión respecto la media, sólo se usa cuando utilizamos la media como medida de centro. S=0 no hay dispersión. S>0 hay dispersión.

Para poder comparar dos distribuciones y evitar el problema de dimensionalidad (unidad) de las variables, utilizamos el coeficiente de variación:

Ambas reflejan el grado de variabilidad de una variable, la diferencia son las unidades de medida en que se expresan. La varianza en unidades al cuadrado y la desviación típica en unidades.

Medidas de forma

ASIMETRÍA permite establecer el grado de simetría o asimetría que presenta una distribución sin tener que hacer su representación gráfica. Existe:

  • La medida de asimetría de Pearson: si la distribución es simétrica Ap= 0, y será positivo si Ap>0 o negativo cuando Ap<0 y habrá asimetría. Se calcula:

Hay tres posibilidades:

  • Leptocúrtica es más apuntada de lo normal, CRT>0.
  • Mesocúrtica o normal CRT=0 (normal)
  • Platicúrtica menos achatada de lo normal, CRT<0.