Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Resumen de Aprendizaje Automático, Resúmenes de Introducción al Aprendizaje Automático

Tema 1. Introducción al aprendizaje automático Tema 2. Evaluación de algoritmos de regresión Tema 3. Evaluación de algoritmos de clasificación Tema 4. Aprendizaje supervisado: clasificación con Naive Bayes Tema 5. Aprendizaje supervisado: regresión y clasificación con árboles de decisión Tema 6. Aprendizaje supervisado: regresión y clasificación con random forests Tema 7. Combinación de clasificadores: bootstrapping, bagging, boosting Tema 8. Aprendizaje supervisado: clasificación con máquinas vector de soporte Tema 9. Aprendizaje supervisado: regresión y clasificación con redes de neuronas Tema 10. Técnicas de aprendizaje no supervisado: agrupamiento Tema 11. Técnicas de detección de anomalías Tema 12. Aprendizaje por refuerzo y control Tema 13. Parametrización automática y optimización de algoritmos

Tipo: Resúmenes

2021/2022

Subido el 31/03/2026

eduardo-urena-4
eduardo-urena-4 🇪🇸

2 documentos

1 / 17

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
- 1 -
Tema 1. Introducción al aprendizaje automático
Supervisado: se predice un dato a partir de otros conocidos (se conocen las posibles
clases).
No supervisado: divide los datos de entrada en grupos similares (no se conocen las
posibles clases).
1.2. Aprendizaje supervisado: problemas de regresión
1.3. Aprendizaje supervisado: problemas de clasificación
1.4. Conjuntos de entrenamientos, test y validación cruzada
1.5. Técnicas de agrupamiento
1.6. Técnicas de detección de anomalías
Tema 2. Evaluación de algoritmos de regresión
2.2. Algoritmos de regresión
Regresión lineal simple
𝑦=𝛽0+𝛽1𝑥
¿Cómo podemos saber que nuestros coeficientes calculados son apropiados?
Regla general: si el p-valor es menor que 0,05 podemos aceptar que existe una fuerte
relación entre la variable y el objetivo.
¿Cómo podemos saber que nuestro modelo es bueno?
Observamos los residuos:
RSE (Residual Standard Error): cuanto más bajo, mejor se ajusta el modelo.
R2: mide la proporción de variabilidad en el objetivo que puede ser explicada por X.
Por lo tanto, si X puede predecir el objetivo, la proporción es grande y el valor será
cercano a 1, en caso contrario será cercano a 0.
Nota: Las variables independientes deberán seguir una distribución normal para poder
aplicar este tipo de algoritmos.
Regresión lineal múltiple
𝑦=𝛽0+𝛽1𝑥1+𝛽2𝑥2+𝛽3𝑥3++𝛽𝑛𝑥𝑛
2.3. Métricas de error
Error cuadrático medio, mean square error (MSE): se define como la media de la
diferencia entre el valor real y el valor predicho o estimado al cuadrado.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga Resumen de Aprendizaje Automático y más Resúmenes en PDF de Introducción al Aprendizaje Automático solo en Docsity!

Tema 1. Introducción al aprendizaje automático Supervisado: se predice un dato a partir de otros conocidos (se conocen las posibles clases). No supervisado: divide los datos de entrada en grupos similares (no se conocen las posibles clases). 1.2. Aprendizaje supervisado: problemas de regresión 1.3. Aprendizaje supervisado: problemas de clasificación 1.4. Conjuntos de entrenamientos, test y validación cruzada 1.5. Técnicas de agrupamiento 1.6. Técnicas de detección de anomalías Tema 2. Evaluación de algoritmos de regresión 2.2. Algoritmos de regresión Regresión lineal simple

¿Cómo podemos saber que nuestros coeficientes calculados son apropiados? Regla general: si el p-valor es menor que 0,05 podemos aceptar que existe una fuerte relación entre la variable y el objetivo. ¿Cómo podemos saber que nuestro modelo es bueno? Observamos los residuos:

  • RSE (Residual Standard Error): cuanto más bajo, mejor se ajusta el modelo.
  • R^2 : mide la proporción de variabilidad en el objetivo que puede ser explicada por X. Por lo tanto, si X puede predecir el objetivo, la proporción es grande y el valor será cercano a 1, en caso contrario será cercano a 0. Nota: Las variables independientes deberán seguir una distribución normal para poder aplicar este tipo de algoritmos. Regresión lineal múltiple

2.3. Métricas de error

  • Error cuadrático medio, mean square error (MSE): se define como la media de la diferencia entre el valor real y el valor predicho o estimado al cuadrado.
  • Error absoluto medio, mean absolute error (MAE): se define como la diferencia en valor absoluto entre el valor real y el valor predicho.
  • Raíz del error cuadrático medio, root mean square error (RMSE): se define como la raíz cuadrada de la media de la diferencia entre el valor real y el valor predicho o estimado al cuadrado.
  • Logaritmo de la raíz del RMSE, root mean logarithmic square error (RMLSE): 2.4. Visualización de los errores Tema 3. Evaluación de algoritmos de clasificación 3.2. Algoritmos de clasificación Obtener la clase más probable para cada una de sus instancias (puede ser clasificación binaria o clasificación multi-clase). 3.3. Métricas de evaluación: matriz de confusión Accuracy: esta métrica también se conoce como ratio de éxito. Representa la proporción del número de predicciones correctas entre el número total de predicciones. Precision: proporción de ejemplos clasificados como positivos que son positivos

4.4. Independencia condicional en el clasificador Naive Bayes Naive Bayes asume que todas las variables que predicen la variable objetivo son independientes entre sí.

  • P(A|B) = P(A)
  • P (A, B) = P(A) P(B)
  • P(A,B|C) = P(A|C) P(B|C) 4.5. Clasificador Naive Bayes Particularidades
  • Asume independencia condicional.
  • Funciona mejor para variables categóricas que para variables numéricas.
  • Las variables numéricas se deben discretizar. Ventajas
  • Simple, rápido y efectivo.
  • Funciona muy bien con datos noisy y missing.
  • Requiere de pocos ejemplos para entrenar, pero puede usar muchos.
  • Es fácil obtener la probabilidad estimada para la predicción. Desventajas
  • Se basa en la suposición errónea de variables independientes e igual de importantes.
  • No es adecuado para datasets con un gran número de variables numéricas.
  • Tiene poca capacidad predictiva. Tema 5. Aprendizaje supervisado: regresión y clasificación con árboles de decisión 5.2 Introducción a los árboles de decisión Particularidades
  • Permiten resolver problemas de regresión y clasificación.
  • Dividen o segmentan el espacio de las variables predictoras en varias regiones.
  • Los valores de las características deben ser categóricos. Si los valores son continuos, se discretizan antes de construir el modelo.
  • Para predecir una observación se utiliza la mediana (para regresión) o la moda (para clasificación) de las observaciones que pertenecen a esa región.

Ventajas

  • Es fácil entender la forma en la que se han llevado a cabo las clasificaciones.
  • Se pueden analizar las consecuencias de llevar a cabo una alternativa específica.
  • Invariantes a las transformaciones de las variables:  No importa el escalado (no hace falta normalizar).  Son robustos frente a outliers.
  • Resistentes a variables irrelevantes. Desventajas
  • Las reglas de clasificación son muy sensibles a pequeños cambios en los datos.
  • No es fácil elegir un árbol óptimo.
  • Suelen requerir de bastantes datos para ofrecer resultados satisfactorios.
  • Tienden a la sobre-parametrización (overfitting).
  • Árboles grandes son difíciles de interpretar. 5.3 Best split: entropía, Gini index, ganancia de información El principal desafío en la implementación del árbol de decisión es identificar los atributos que consideramos como el nodo raíz y cada nivel de dicho árbol. Las dos medidas de selección de atributos más populares son: Ganancia de información
  • La ganancia de información es la disminución de la entropía.
  • La entropía mide el grado de incertidumbre de la muestra. Entropy(S) = ∑ −𝑝ⅈ 𝑐 ⅈ= 1 ∙ log 2 (𝑝ⅈ )

El resultado de los random forests es el voto de la mayoría para clasificación y la media para regresión. La construcción de un modelo de random forests comprende tres etapas:

- Creación del conjunto de datos para cada árbol. - Entrenar cada árbol utilizando el conjunto de datos apropiado e introducir aleatoriedad en la selección de características. - Repetir N veces. 6.4. Fortalezas y Debilidades Fortalezas - Modelo de propósito general que funciona bien en la mayoría de los problemas. - Puede gestionar datos noisy o missing y variables categóricas o continuas. - Se puede utilizar con datos que tienen un número grande de features o instancias. Debilidades - A diferencia de un árbol de decisión, el modelo no es fácilmente interpretable. - Puede ser necesario algo de trabajo para tunear el modelo. Tema 7. Combinación de clasificadores: bootstrapping, bagging, boosting 7.2. Introducción Los ensembles /conjuntos son métodos que combinan múltiples modelos de machine learning para crear modelos más potentes. 7.3. Técnica de bootstrapping Es un método estadístico para estimar la distribución de la muestra por medio de muestreo con reemplazamiento de la muestra original (Es útil para poblaciones con un número muy elevado de individuos).

7.4. Método bagging

- Bootstrap + aggregation = Bagging - Permite reducir la varianza de un método de machine learning. - Método para combinar varias instancias de estimadores de caja negra que se han construido sobre muestras aleatorias del conjunto de entrenamiento original y que agregan las predicciones individuales para obtener una predicción única. 7.5. Método boosting - Se puede aplicar a los modelos de regresión y de clasificación. - Cada árbol se construye secuencialmente con los errores de los árboles anteriores.

- Muchas veces las fronteras lineales siguen sin funcionar, independientemente del valor de coste C que se utilice. Una posible solución es aumentar la dimensión del hiperplano de separación para obtener fronteras de decisión no lineales sobre el espacio original. 8. 5 Kernel trick - Las expansiones de las variables con polinomios, especialmente aquellos con grandes dimensiones, son computacionalmente costosos. Existe una solución más elegante y controlada de introducir no-linealidad que es utilizada en las máquinas vector de soporte por medio del uso de kernels. - El uso de kernels permite obtener fronteras de decisión no lineales por medio de transformaciones matemáticas sin necesidad de tener que realizar transformaciones con polinomios. - El Kernel de base radial (rbf) tiene el parámetro “gamma”, que a medida que aumenta, el hiperplano de separación se ajusta más a los datos pudiendo producirse sobreajuste. Tema 9. Aprendizaje supervisado: regresión y clasificación con redes de neuronas 9.2 Neuronas Artificiales Conceptos básicos - Inputs  Datos de entrada - Valores de salida  Continuos (i.e. precio de una determinada compra)  Binarios (i.e. padece una enfermedad o no)  Categóricos (i.e. la marca de coche más vendida el próximo año) - Pesos  Cada valor de entrada/sinapsis tendrá asignado un peso (importancia de la señal)  El ajuste de los pesos es la tarea fundamental (para el entrenamiento) Un diagrama de red define las re laci ones entre las señales de entrada (variables x) y la señal de salida (variable y). La señal de cada dendrita es ponderada (pesos w de acuerdo a su importancia. Las señales de entrada se suman en la neurona y la señal es enviada utilizando una función de activación (f) **9.3 Arquitectura de una red de neuronas: capas, funciones de activación

  • Función de activación:** transforma las entradas de una neurona en la señal que se propaga por la red (Función escalón, Función sigmoide, Función rectificador, Función tangente hiperbólica) - Topología de la red: describe el número de neuronas en el modelo, así como el número de capas y la forma en que están conectadas.

- Algoritmo de entrenamiento: específica como se establecen la conexiones de los pesos para inhibir y/o excitar neuronas en proporción a la señal de entrada. 9.4 Algoritmo de entrenamiento: backpropagation - Se propaga la entrada hasta la salida (propagación hacia delante), se calcula el error, y se propaga hacia atrás modificando los pesos (propagación hacia atrás) - Backpropagation hace uso de la derivada parcial de la función de coste C con respecto a cualquier peso (o sesgo) en la red. 9.5 Cosas a tener en cuenta sobre las redes de neuronas - El número de nodos de entrada viene determinado por el número de features en los datos de entrada. - El número de nodos de salida viene determinado por el número de salidas a modelar o el número de niveles de la clase. - No hay una regla para determinar el número de neuronas de cada capa. - En general, redes más complejas con un mayor número de conexiones permiten aprender problemas más complejos. - La regla práctica es empezar con pocas neuronas e ir subiendo el número. - Son modelos de caja negra - El valor de alpha indica la tasa de aprendizaje o impulso (entre 0 y 1) Tema 10. Técnicas de aprendizaje no supervisado: agrupamiento 10.2. Introducción al aprendizaje no supervisado - Modelos de aprendizaje no supervisado. - El clustering consiste en la división de los datos en grupos de objetos similares. - Los objetos que están en el mismo grupo tienen propiedades similares, mientras que los objetos de diferentes grupos deberían tener propiedades no similares. - Medir similitud entre objetos.

Divisivos Descendentes, constituyen el proceso inverso al anterior. Comienzan con un conglomerado que engloba a todos los casos tratados y, a partir de este grupo inicial, a través de sucesivas divisiones, se van formando grupos cada vez más pequeños. Al final del proceso se tienen tantas agrupaciones como casos han sido tratados.

- Los métodos jerárquicos permiten la construcción de un árbol de clasificación, que recibe el nombre de dendrograma. Tema 11. Técnicas de detección de anomalías 11.2. Introducción a la detección de anomalías - El valor atípico/ outlier se define como una observación que se desvía demasiado de otras observaciones. - Todos los patrones que no siguen el funcionamiento esperado son conocidos como anomalías y su detección permite la prevención de nuevos ataques, malos funcionamientos, así como la detección a tiempo de tumores. 11.3. Aplicación del aprendizaje automático a la detección de anomalías Funcionamiento general - Partimos de un conjunto de datos que contiene registros normales, o la gran mayoría de ellos lo son. - Objetivo: utilizar este conjunto como referencia y observar si existen nuevos ejemplos anómalos. - Se construye un modelo que indica la probabilidad de que un ejemplo sea normal.

Donde ε es un umbral de probabilidad definido en función de qué nivel de certeza

queramos tener.

Tipos de detección de anomalías

1. Outlier detection: Los datos de entrenamiento contienen valores atípicos que se definen como observaciones que están lejos de las demás. 2. Novelty detection: Los datos de entrenamiento no están contaminados por valores atípicos y estamos interesados en detectar si una nueva observación es un valor atípico. - Se utilizan métodos estadísticos y de Machine Learning para identificar observaciones que parecen ser raras o poco probables dados los datos disponibles. Algoritmo base - Elegir variables x i que consideres son buenos indicadores del comportamiento anómalo. - Ajustamos los parámetros (media y desviación estándar) - Calculamos la probabilidad gaussiana de aparición de P(x). - Tenemos una anomalía si la probabilidad es menor que un umbral. Retos - Definir región normal. - El límite entre lo “normal” y el “outlier ” a veces no está claramente definido. - La noción de outlier es diferente para distintos dominios. - Disponibilidad de datos para “aprender”. **Tema 12. Aprendizaje por refuerzo y control

  1. 1 Introducción al aprendizaje por refuerzo -** El objetivo del aprendizaje por refuerzo es extraer qué acciones deben ser elegidas en los diferentes estados para maximizar la recompensa. - Buscamos que el agente aprenda lo que se llama una política , que formalmente podemos verla como una aplicación que dice en cada estado qué acción tomar.

Tema 13. Parametrización automática y optimización de algoritmos 13.2. Concepto de hiperparámetros

- La optimización de hiperparámetros depende más de los resultados experimentales que de la teoría. - La mejor forma de obtener los hiperparámetros es probar diferentes combinaciones y evaluarlos. - El ajuste de hiperparámetros, también denominado optimización de hiperparámetros es el proceso de encontrar la configuración de hiperparámetros que produzca el mejor rendimiento. - Los hiperparámetros permiten reducir o controlar el overfitting o sobre ajuste. - En la fase de entrenamiento es común ir iterando sobre los datos de entrenamiento e ir comparando los resultados sobre el conjunto de test. - Cuando estos resultados no son satisfactorios una forma de mejorarlos es por medio de la modificación de los hiperparámetros. 13.3. Búsqueda cartesiana de hiperparámetros - Se especifican una serie de valores para cada uno de los parámetros del modelo que desean optimizar. - Se entrena un modelo para cada una de las combinaciones de los valores de los hiperparámetros. - Se trata de una búsqueda exhaustiva de un subconjunto de hiperparámetros. - Útil si no hay muchos parámetros que ajustar y si los datos de entrenamiento son pocos. Problemas - GridSearch sufre la maldición de la dimensionalidad: la cantidad de veces que debe evaluar el modelo durante la optimización de hiperparámetros crece exponencialmente en la cantidad de parámetros. - Además, ni siquiera está garantizado encontrar la mejor solución, a menudo usando solapamiento sobre la mejor configuración. 13.4. Búsqueda aleatoria de hiperparámetros - Se establece un rango para los parámetros, - Se realiza un muestreo uniforme sobre las posibles combinaciones. - No probaremos secuencialmente todas las combinaciones. En su lugar, intentamos combinaciones aleatorias entre el rango de valores especificados para los hiperparámetros - Inicialmente especificamos el número de configuraciones aleatorias que queremos probar en el espacio de parámetros.

- La principal ventaja es que podemos probar un rango más amplio de valores o hiperparámetros dentro del mismo tiempo de cálculo que la búsqueda de cuadrícula, o probar los mismos en mucho menos tiempo. - Sin embargo, no tenemos la garantía de identificar la mejor combinación, ya que no se probarán todas las combinaciones. - Varianza innecesariamente alta.