









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Tema 1. Introducción al aprendizaje automático Tema 2. Evaluación de algoritmos de regresión Tema 3. Evaluación de algoritmos de clasificación Tema 4. Aprendizaje supervisado: clasificación con Naive Bayes Tema 5. Aprendizaje supervisado: regresión y clasificación con árboles de decisión Tema 6. Aprendizaje supervisado: regresión y clasificación con random forests Tema 7. Combinación de clasificadores: bootstrapping, bagging, boosting Tema 8. Aprendizaje supervisado: clasificación con máquinas vector de soporte Tema 9. Aprendizaje supervisado: regresión y clasificación con redes de neuronas Tema 10. Técnicas de aprendizaje no supervisado: agrupamiento Tema 11. Técnicas de detección de anomalías Tema 12. Aprendizaje por refuerzo y control Tema 13. Parametrización automática y optimización de algoritmos
Tipo: Resúmenes
1 / 17
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Tema 1. Introducción al aprendizaje automático Supervisado: se predice un dato a partir de otros conocidos (se conocen las posibles clases). No supervisado: divide los datos de entrada en grupos similares (no se conocen las posibles clases). 1.2. Aprendizaje supervisado: problemas de regresión 1.3. Aprendizaje supervisado: problemas de clasificación 1.4. Conjuntos de entrenamientos, test y validación cruzada 1.5. Técnicas de agrupamiento 1.6. Técnicas de detección de anomalías Tema 2. Evaluación de algoritmos de regresión 2.2. Algoritmos de regresión Regresión lineal simple
¿Cómo podemos saber que nuestros coeficientes calculados son apropiados? Regla general: si el p-valor es menor que 0,05 podemos aceptar que existe una fuerte relación entre la variable y el objetivo. ¿Cómo podemos saber que nuestro modelo es bueno? Observamos los residuos:
2.3. Métricas de error
4.4. Independencia condicional en el clasificador Naive Bayes Naive Bayes asume que todas las variables que predicen la variable objetivo son independientes entre sí.
Ventajas
El resultado de los random forests es el voto de la mayoría para clasificación y la media para regresión. La construcción de un modelo de random forests comprende tres etapas:
- Creación del conjunto de datos para cada árbol. - Entrenar cada árbol utilizando el conjunto de datos apropiado e introducir aleatoriedad en la selección de características. - Repetir N veces. 6.4. Fortalezas y Debilidades Fortalezas - Modelo de propósito general que funciona bien en la mayoría de los problemas. - Puede gestionar datos noisy o missing y variables categóricas o continuas. - Se puede utilizar con datos que tienen un número grande de features o instancias. Debilidades - A diferencia de un árbol de decisión, el modelo no es fácilmente interpretable. - Puede ser necesario algo de trabajo para tunear el modelo. Tema 7. Combinación de clasificadores: bootstrapping, bagging, boosting 7.2. Introducción Los ensembles /conjuntos son métodos que combinan múltiples modelos de machine learning para crear modelos más potentes. 7.3. Técnica de bootstrapping Es un método estadístico para estimar la distribución de la muestra por medio de muestreo con reemplazamiento de la muestra original (Es útil para poblaciones con un número muy elevado de individuos).
7.4. Método bagging
- Bootstrap + aggregation = Bagging - Permite reducir la varianza de un método de machine learning. - Método para combinar varias instancias de estimadores de caja negra que se han construido sobre muestras aleatorias del conjunto de entrenamiento original y que agregan las predicciones individuales para obtener una predicción única. 7.5. Método boosting - Se puede aplicar a los modelos de regresión y de clasificación. - Cada árbol se construye secuencialmente con los errores de los árboles anteriores.
- Muchas veces las fronteras lineales siguen sin funcionar, independientemente del valor de coste C que se utilice. Una posible solución es aumentar la dimensión del hiperplano de separación para obtener fronteras de decisión no lineales sobre el espacio original. 8. 5 Kernel trick - Las expansiones de las variables con polinomios, especialmente aquellos con grandes dimensiones, son computacionalmente costosos. Existe una solución más elegante y controlada de introducir no-linealidad que es utilizada en las máquinas vector de soporte por medio del uso de kernels. - El uso de kernels permite obtener fronteras de decisión no lineales por medio de transformaciones matemáticas sin necesidad de tener que realizar transformaciones con polinomios. - El Kernel de base radial (rbf) tiene el parámetro “gamma”, que a medida que aumenta, el hiperplano de separación se ajusta más a los datos pudiendo producirse sobreajuste. Tema 9. Aprendizaje supervisado: regresión y clasificación con redes de neuronas 9.2 Neuronas Artificiales Conceptos básicos - Inputs Datos de entrada - Valores de salida Continuos (i.e. precio de una determinada compra) Binarios (i.e. padece una enfermedad o no) Categóricos (i.e. la marca de coche más vendida el próximo año) - Pesos Cada valor de entrada/sinapsis tendrá asignado un peso (importancia de la señal) El ajuste de los pesos es la tarea fundamental (para el entrenamiento) Un diagrama de red define las re laci ones entre las señales de entrada (variables x) y la señal de salida (variable y). La señal de cada dendrita es ponderada (pesos w de acuerdo a su importancia. Las señales de entrada se suman en la neurona y la señal es enviada utilizando una función de activación (f) **9.3 Arquitectura de una red de neuronas: capas, funciones de activación
- Algoritmo de entrenamiento: específica como se establecen la conexiones de los pesos para inhibir y/o excitar neuronas en proporción a la señal de entrada. 9.4 Algoritmo de entrenamiento: backpropagation - Se propaga la entrada hasta la salida (propagación hacia delante), se calcula el error, y se propaga hacia atrás modificando los pesos (propagación hacia atrás) - Backpropagation hace uso de la derivada parcial de la función de coste C con respecto a cualquier peso (o sesgo) en la red. 9.5 Cosas a tener en cuenta sobre las redes de neuronas - El número de nodos de entrada viene determinado por el número de features en los datos de entrada. - El número de nodos de salida viene determinado por el número de salidas a modelar o el número de niveles de la clase. - No hay una regla para determinar el número de neuronas de cada capa. - En general, redes más complejas con un mayor número de conexiones permiten aprender problemas más complejos. - La regla práctica es empezar con pocas neuronas e ir subiendo el número. - Son modelos de caja negra - El valor de alpha indica la tasa de aprendizaje o impulso (entre 0 y 1) Tema 10. Técnicas de aprendizaje no supervisado: agrupamiento 10.2. Introducción al aprendizaje no supervisado - Modelos de aprendizaje no supervisado. - El clustering consiste en la división de los datos en grupos de objetos similares. - Los objetos que están en el mismo grupo tienen propiedades similares, mientras que los objetos de diferentes grupos deberían tener propiedades no similares. - Medir similitud entre objetos.
Divisivos Descendentes, constituyen el proceso inverso al anterior. Comienzan con un conglomerado que engloba a todos los casos tratados y, a partir de este grupo inicial, a través de sucesivas divisiones, se van formando grupos cada vez más pequeños. Al final del proceso se tienen tantas agrupaciones como casos han sido tratados.
- Los métodos jerárquicos permiten la construcción de un árbol de clasificación, que recibe el nombre de dendrograma. Tema 11. Técnicas de detección de anomalías 11.2. Introducción a la detección de anomalías - El valor atípico/ outlier se define como una observación que se desvía demasiado de otras observaciones. - Todos los patrones que no siguen el funcionamiento esperado son conocidos como anomalías y su detección permite la prevención de nuevos ataques, malos funcionamientos, así como la detección a tiempo de tumores. 11.3. Aplicación del aprendizaje automático a la detección de anomalías Funcionamiento general - Partimos de un conjunto de datos que contiene registros normales, o la gran mayoría de ellos lo son. - Objetivo: utilizar este conjunto como referencia y observar si existen nuevos ejemplos anómalos. - Se construye un modelo que indica la probabilidad de que un ejemplo sea normal.
queramos tener.
Tipos de detección de anomalías
1. Outlier detection: Los datos de entrenamiento contienen valores atípicos que se definen como observaciones que están lejos de las demás. 2. Novelty detection: Los datos de entrenamiento no están contaminados por valores atípicos y estamos interesados en detectar si una nueva observación es un valor atípico. - Se utilizan métodos estadísticos y de Machine Learning para identificar observaciones que parecen ser raras o poco probables dados los datos disponibles. Algoritmo base - Elegir variables x i que consideres son buenos indicadores del comportamiento anómalo. - Ajustamos los parámetros (media y desviación estándar) - Calculamos la probabilidad gaussiana de aparición de P(x). - Tenemos una anomalía si la probabilidad es menor que un umbral. Retos - Definir región normal. - El límite entre lo “normal” y el “outlier ” a veces no está claramente definido. - La noción de outlier es diferente para distintos dominios. - Disponibilidad de datos para “aprender”. **Tema 12. Aprendizaje por refuerzo y control
Tema 13. Parametrización automática y optimización de algoritmos 13.2. Concepto de hiperparámetros
- La optimización de hiperparámetros depende más de los resultados experimentales que de la teoría. - La mejor forma de obtener los hiperparámetros es probar diferentes combinaciones y evaluarlos. - El ajuste de hiperparámetros, también denominado optimización de hiperparámetros es el proceso de encontrar la configuración de hiperparámetros que produzca el mejor rendimiento. - Los hiperparámetros permiten reducir o controlar el overfitting o sobre ajuste. - En la fase de entrenamiento es común ir iterando sobre los datos de entrenamiento e ir comparando los resultados sobre el conjunto de test. - Cuando estos resultados no son satisfactorios una forma de mejorarlos es por medio de la modificación de los hiperparámetros. 13.3. Búsqueda cartesiana de hiperparámetros - Se especifican una serie de valores para cada uno de los parámetros del modelo que desean optimizar. - Se entrena un modelo para cada una de las combinaciones de los valores de los hiperparámetros. - Se trata de una búsqueda exhaustiva de un subconjunto de hiperparámetros. - Útil si no hay muchos parámetros que ajustar y si los datos de entrenamiento son pocos. Problemas - GridSearch sufre la maldición de la dimensionalidad: la cantidad de veces que debe evaluar el modelo durante la optimización de hiperparámetros crece exponencialmente en la cantidad de parámetros. - Además, ni siquiera está garantizado encontrar la mejor solución, a menudo usando solapamiento sobre la mejor configuración. 13.4. Búsqueda aleatoria de hiperparámetros - Se establece un rango para los parámetros, - Se realiza un muestreo uniforme sobre las posibles combinaciones. - No probaremos secuencialmente todas las combinaciones. En su lugar, intentamos combinaciones aleatorias entre el rango de valores especificados para los hiperparámetros - Inicialmente especificamos el número de configuraciones aleatorias que queremos probar en el espacio de parámetros.
- La principal ventaja es que podemos probar un rango más amplio de valores o hiperparámetros dentro del mismo tiempo de cálculo que la búsqueda de cuadrícula, o probar los mismos en mucho menos tiempo. - Sin embargo, no tenemos la garantía de identificar la mejor combinación, ya que no se probarán todas las combinaciones. - Varianza innecesariamente alta.