Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Resumen de Aprendizaje Automático, Resúmenes de Introducción al Aprendizaje Automático

Universidad Internacional de La Rioja (UNIR)Introducción al Aprendizaje Automático

Tema 1. Introducción al aprendizaje automático Tema 2. Evaluación de algoritmos de regresión Tema 3. Evaluación de algoritmos de clasificación Tema 4. Aprendizaje supervisado: clasificación con Naive Bayes Tema 5. Aprendizaje supervisado: regresión y clasificación con árboles de decisión Tema 6. Aprendizaje supervisado: regresión y clasificación con random forests Tema 7. Combinación de clasificadores: bootstrapping, bagging, boosting Tema 8. Aprendizaje supervisado: clasificación con máquinas vector de soporte Tema 9. Aprendizaje supervisado: regresión y clasificación con redes de neuronas Tema 10. Técnicas de aprendizaje no supervisado: agrupamiento Tema 11. Técnicas de detección de anomalías Tema 12. Aprendizaje por refuerzo y control Tema 13. Parametrización automática y optimización de algoritmos

Tipo: Resúmenes

2021/2022

Subido el 31/03/2026

eduardo-urena-4 🇪🇸

2 documentos

1 / 17

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

- 1 -

Tema 1. Introducción al aprendizaje automático

Supervisado: se predice un dato a partir de otros conocidos (se conocen las posibles

clases).

No supervisado: divide los datos de entrada en grupos similares (no se conocen las

posibles clases).

1.2. Aprendizaje supervisado: problemas de regresión

1.3. Aprendizaje supervisado: problemas de clasificación

1.4. Conjuntos de entrenamientos, test y validación cruzada

1.5. Técnicas de agrupamiento

1.6. Técnicas de detección de anomalías

Tema 2. Evaluación de algoritmos de regresión

2.2. Algoritmos de regresión

Regresión lineal simple

𝑦=𝛽0+𝛽1𝑥

¿Cómo podemos saber que nuestros coeficientes calculados son apropiados?

Regla general: si el p-valor es menor que 0,05 podemos aceptar que existe una fuerte

relación entre la variable y el objetivo.

¿Cómo podemos saber que nuestro modelo es bueno?

Observamos los residuos:

• RSE (Residual Standard Error): cuanto más bajo, mejor se ajusta el modelo.

• R2: mide la proporción de variabilidad en el objetivo que puede ser explicada por X.

Por lo tanto, si X puede predecir el objetivo, la proporción es grande y el valor será

cercano a 1, en caso contrario será cercano a 0.

Nota: Las variables independientes deberán seguir una distribución normal para poder

aplicar este tipo de algoritmos.

Regresión lineal múltiple

𝑦=𝛽0+𝛽1𝑥1+𝛽2𝑥2+𝛽3𝑥3+⋯+𝛽𝑛𝑥𝑛

2.3. Métricas de error

• Error cuadrático medio, mean square error (MSE): se define como la media de la

diferencia entre el valor real y el valor predicho o estimado al cuadrado.

Descubre Resúmenes de Introducción al Aprendizaje Automático Universidad Internacional de La Rioja (UNIR)

Documentos relacionados

Aprendizaje Computacional: Tipos y Diferencias con Supervisado y No Supervisado

Investigación y Gestión de Proyectos en Inteligencia Artificial

Resumen sobre Machine learning

aprendizaje no supervisado

Análisis de la Evolución de Patrones de Aprendizaje Aplicada en la Inteligencia Artificial

Predictive Modeling con KNN: Aprendizaje Supervisado y Clasificación

Glosario de Términos de Inteligencia Artificial

Examen de entrada: Gestión de conocimientos - Estadística

Aprendizaje Automático: Optimización de Workflow y Aplicaciones a Machine Learning

IA: Aprendizaje y Árboles de Decisión en USB

Apuntes de Historia da Filosofía (en castelán) de PLATÓN

Regresión Logística: Un Método de Clasificación Binaria en Aprendizaje Supervisado

Vista previa parcial del texto

¡Descarga Resumen de Aprendizaje Automático y más Resúmenes en PDF de Introducción al Aprendizaje Automático solo en Docsity!

Tema 1. Introducción al aprendizaje automático Supervisado: se predice un dato a partir de otros conocidos (se conocen las posibles clases). No supervisado: divide los datos de entrada en grupos similares (no se conocen las posibles clases). 1.2. Aprendizaje supervisado: problemas de regresión 1.3. Aprendizaje supervisado: problemas de clasificación 1.4. Conjuntos de entrenamientos, test y validación cruzada 1.5. Técnicas de agrupamiento 1.6. Técnicas de detección de anomalías Tema 2. Evaluación de algoritmos de regresión 2.2. Algoritmos de regresión Regresión lineal simple

¿Cómo podemos saber que nuestros coeficientes calculados son apropiados? Regla general: si el p-valor es menor que 0,05 podemos aceptar que existe una fuerte relación entre la variable y el objetivo. ¿Cómo podemos saber que nuestro modelo es bueno? Observamos los residuos:

RSE (Residual Standard Error): cuanto más bajo, mejor se ajusta el modelo.
R^2 : mide la proporción de variabilidad en el objetivo que puede ser explicada por X. Por lo tanto, si X puede predecir el objetivo, la proporción es grande y el valor será cercano a 1, en caso contrario será cercano a 0. Nota: Las variables independientes deberán seguir una distribución normal para poder aplicar este tipo de algoritmos. Regresión lineal múltiple

2.3. Métricas de error

Error cuadrático medio, mean square error (MSE): se define como la media de la diferencia entre el valor real y el valor predicho o estimado al cuadrado.

Error absoluto medio, mean absolute error (MAE): se define como la diferencia en valor absoluto entre el valor real y el valor predicho.
Raíz del error cuadrático medio, root mean square error (RMSE): se define como la raíz cuadrada de la media de la diferencia entre el valor real y el valor predicho o estimado al cuadrado.
Logaritmo de la raíz del RMSE, root mean logarithmic square error (RMLSE): 2.4. Visualización de los errores Tema 3. Evaluación de algoritmos de clasificación 3.2. Algoritmos de clasificación Obtener la clase más probable para cada una de sus instancias (puede ser clasificación binaria o clasificación multi-clase). 3.3. Métricas de evaluación: matriz de confusión Accuracy: esta métrica también se conoce como ratio de éxito. Representa la proporción del número de predicciones correctas entre el número total de predicciones. Precision: proporción de ejemplos clasificados como positivos que son positivos

4.4. Independencia condicional en el clasificador Naive Bayes Naive Bayes asume que todas las variables que predicen la variable objetivo son independientes entre sí.

P(A|B) = P(A)
P (A, B) = P(A) P(B)
P(A,B|C) = P(A|C) P(B|C) 4.5. Clasificador Naive Bayes Particularidades
Asume independencia condicional.
Funciona mejor para variables categóricas que para variables numéricas.
Las variables numéricas se deben discretizar. Ventajas
Simple, rápido y efectivo.
Funciona muy bien con datos noisy y missing.
Requiere de pocos ejemplos para entrenar, pero puede usar muchos.
Es fácil obtener la probabilidad estimada para la predicción. Desventajas
Se basa en la suposición errónea de variables independientes e igual de importantes.
No es adecuado para datasets con un gran número de variables numéricas.
Tiene poca capacidad predictiva. Tema 5. Aprendizaje supervisado: regresión y clasificación con árboles de decisión 5.2 Introducción a los árboles de decisión Particularidades
Permiten resolver problemas de regresión y clasificación.
Dividen o segmentan el espacio de las variables predictoras en varias regiones.
Los valores de las características deben ser categóricos. Si los valores son continuos, se discretizan antes de construir el modelo.
Para predecir una observación se utiliza la mediana (para regresión) o la moda (para clasificación) de las observaciones que pertenecen a esa región.

Ventajas

Es fácil entender la forma en la que se han llevado a cabo las clasificaciones.
Se pueden analizar las consecuencias de llevar a cabo una alternativa específica.
Invariantes a las transformaciones de las variables:  No importa el escalado (no hace falta normalizar).  Son robustos frente a outliers.
Resistentes a variables irrelevantes. Desventajas
Las reglas de clasificación son muy sensibles a pequeños cambios en los datos.
No es fácil elegir un árbol óptimo.
Suelen requerir de bastantes datos para ofrecer resultados satisfactorios.
Tienden a la sobre-parametrización (overfitting).
Árboles grandes son difíciles de interpretar. 5.3 Best split: entropía, Gini index, ganancia de información El principal desafío en la implementación del árbol de decisión es identificar los atributos que consideramos como el nodo raíz y cada nivel de dicho árbol. Las dos medidas de selección de atributos más populares son: Ganancia de información
La ganancia de información es la disminución de la entropía.
La entropía mide el grado de incertidumbre de la muestra. Entropy(S) = ∑ −𝑝ⅈ 𝑐 ⅈ= 1 ∙ log 2 (𝑝ⅈ )

El resultado de los random forests es el voto de la mayoría para clasificación y la media para regresión. La construcción de un modelo de random forests comprende tres etapas:

- Creación del conjunto de datos para cada árbol. - Entrenar cada árbol utilizando el conjunto de datos apropiado e introducir aleatoriedad en la selección de características. - Repetir N veces. 6.4. Fortalezas y Debilidades Fortalezas - Modelo de propósito general que funciona bien en la mayoría de los problemas. - Puede gestionar datos noisy o missing y variables categóricas o continuas. - Se puede utilizar con datos que tienen un número grande de features o instancias. Debilidades - A diferencia de un árbol de decisión, el modelo no es fácilmente interpretable. - Puede ser necesario algo de trabajo para tunear el modelo. Tema 7. Combinación de clasificadores: bootstrapping, bagging, boosting 7.2. Introducción Los ensembles /conjuntos son métodos que combinan múltiples modelos de machine learning para crear modelos más potentes. 7.3. Técnica de bootstrapping Es un método estadístico para estimar la distribución de la muestra por medio de muestreo con reemplazamiento de la muestra original (Es útil para poblaciones con un número muy elevado de individuos).

7.4. Método bagging

- Bootstrap + aggregation = Bagging - Permite reducir la varianza de un método de machine learning. - Método para combinar varias instancias de estimadores de caja negra que se han construido sobre muestras aleatorias del conjunto de entrenamiento original y que agregan las predicciones individuales para obtener una predicción única. 7.5. Método boosting - Se puede aplicar a los modelos de regresión y de clasificación. - Cada árbol se construye secuencialmente con los errores de los árboles anteriores.

- Muchas veces las fronteras lineales siguen sin funcionar, independientemente del valor de coste C que se utilice. Una posible solución es aumentar la dimensión del hiperplano de separación para obtener fronteras de decisión no lineales sobre el espacio original. 8. 5 Kernel trick - Las expansiones de las variables con polinomios, especialmente aquellos con grandes dimensiones, son computacionalmente costosos. Existe una solución más elegante y controlada de introducir no-linealidad que es utilizada en las máquinas vector de soporte por medio del uso de kernels. - El uso de kernels permite obtener fronteras de decisión no lineales por medio de transformaciones matemáticas sin necesidad de tener que realizar transformaciones con polinomios. - El Kernel de base radial (rbf) tiene el parámetro “gamma”, que a medida que aumenta, el hiperplano de separación se ajusta más a los datos pudiendo producirse sobreajuste. Tema 9. Aprendizaje supervisado: regresión y clasificación con redes de neuronas 9.2 Neuronas Artificiales Conceptos básicos - Inputs  Datos de entrada - Valores de salida  Continuos (i.e. precio de una determinada compra)  Binarios (i.e. padece una enfermedad o no)  Categóricos (i.e. la marca de coche más vendida el próximo año) - Pesos  Cada valor de entrada/sinapsis tendrá asignado un peso (importancia de la señal)  El ajuste de los pesos es la tarea fundamental (para el entrenamiento) Un diagrama de red define las re laci ones entre las señales de entrada (variables x) y la señal de salida (variable y). La señal de cada dendrita es ponderada (pesos w de acuerdo a su importancia. Las señales de entrada se suman en la neurona y la señal es enviada utilizando una función de activación (f) **9.3 Arquitectura de una red de neuronas: capas, funciones de activación

Función de activación:** transforma las entradas de una neurona en la señal que se propaga por la red (Función escalón, Función sigmoide, Función rectificador, Función tangente hiperbólica) - Topología de la red: describe el número de neuronas en el modelo, así como el número de capas y la forma en que están conectadas.

- Algoritmo de entrenamiento: específica como se establecen la conexiones de los pesos para inhibir y/o excitar neuronas en proporción a la señal de entrada. 9.4 Algoritmo de entrenamiento: backpropagation - Se propaga la entrada hasta la salida (propagación hacia delante), se calcula el error, y se propaga hacia atrás modificando los pesos (propagación hacia atrás) - Backpropagation hace uso de la derivada parcial de la función de coste C con respecto a cualquier peso (o sesgo) en la red. 9.5 Cosas a tener en cuenta sobre las redes de neuronas - El número de nodos de entrada viene determinado por el número de features en los datos de entrada. - El número de nodos de salida viene determinado por el número de salidas a modelar o el número de niveles de la clase. - No hay una regla para determinar el número de neuronas de cada capa. - En general, redes más complejas con un mayor número de conexiones permiten aprender problemas más complejos. - La regla práctica es empezar con pocas neuronas e ir subiendo el número. - Son modelos de caja negra - El valor de alpha indica la tasa de aprendizaje o impulso (entre 0 y 1) Tema 10. Técnicas de aprendizaje no supervisado: agrupamiento 10.2. Introducción al aprendizaje no supervisado - Modelos de aprendizaje no supervisado. - El clustering consiste en la división de los datos en grupos de objetos similares. - Los objetos que están en el mismo grupo tienen propiedades similares, mientras que los objetos de diferentes grupos deberían tener propiedades no similares. - Medir similitud entre objetos.

Divisivos Descendentes, constituyen el proceso inverso al anterior. Comienzan con un conglomerado que engloba a todos los casos tratados y, a partir de este grupo inicial, a través de sucesivas divisiones, se van formando grupos cada vez más pequeños. Al final del proceso se tienen tantas agrupaciones como casos han sido tratados.

- Los métodos jerárquicos permiten la construcción de un árbol de clasificación, que recibe el nombre de dendrograma. Tema 11. Técnicas de detección de anomalías 11.2. Introducción a la detección de anomalías - El valor atípico/ outlier se define como una observación que se desvía demasiado de otras observaciones. - Todos los patrones que no siguen el funcionamiento esperado son conocidos como anomalías y su detección permite la prevención de nuevos ataques, malos funcionamientos, así como la detección a tiempo de tumores. 11.3. Aplicación del aprendizaje automático a la detección de anomalías Funcionamiento general - Partimos de un conjunto de datos que contiene registros normales, o la gran mayoría de ellos lo son. - Objetivo: utilizar este conjunto como referencia y observar si existen nuevos ejemplos anómalos. - Se construye un modelo que indica la probabilidad de que un ejemplo sea normal.

Donde ε es un umbral de probabilidad definido en función de qué nivel de certeza

queramos tener.

Tipos de detección de anomalías

1. Outlier detection: Los datos de entrenamiento contienen valores atípicos que se definen como observaciones que están lejos de las demás. 2. Novelty detection: Los datos de entrenamiento no están contaminados por valores atípicos y estamos interesados en detectar si una nueva observación es un valor atípico. - Se utilizan métodos estadísticos y de Machine Learning para identificar observaciones que parecen ser raras o poco probables dados los datos disponibles. Algoritmo base - Elegir variables x i que consideres son buenos indicadores del comportamiento anómalo. - Ajustamos los parámetros (media y desviación estándar) - Calculamos la probabilidad gaussiana de aparición de P(x). - Tenemos una anomalía si la probabilidad es menor que un umbral. Retos - Definir región normal. - El límite entre lo “normal” y el “outlier ” a veces no está claramente definido. - La noción de outlier es diferente para distintos dominios. - Disponibilidad de datos para “aprender”. **Tema 12. Aprendizaje por refuerzo y control

1 Introducción al aprendizaje por refuerzo -** El objetivo del aprendizaje por refuerzo es extraer qué acciones deben ser elegidas en los diferentes estados para maximizar la recompensa. - Buscamos que el agente aprenda lo que se llama una política , que formalmente podemos verla como una aplicación que dice en cada estado qué acción tomar.

Tema 13. Parametrización automática y optimización de algoritmos 13.2. Concepto de hiperparámetros

- La optimización de hiperparámetros depende más de los resultados experimentales que de la teoría. - La mejor forma de obtener los hiperparámetros es probar diferentes combinaciones y evaluarlos. - El ajuste de hiperparámetros, también denominado optimización de hiperparámetros es el proceso de encontrar la configuración de hiperparámetros que produzca el mejor rendimiento. - Los hiperparámetros permiten reducir o controlar el overfitting o sobre ajuste. - En la fase de entrenamiento es común ir iterando sobre los datos de entrenamiento e ir comparando los resultados sobre el conjunto de test. - Cuando estos resultados no son satisfactorios una forma de mejorarlos es por medio de la modificación de los hiperparámetros. 13.3. Búsqueda cartesiana de hiperparámetros - Se especifican una serie de valores para cada uno de los parámetros del modelo que desean optimizar. - Se entrena un modelo para cada una de las combinaciones de los valores de los hiperparámetros. - Se trata de una búsqueda exhaustiva de un subconjunto de hiperparámetros. - Útil si no hay muchos parámetros que ajustar y si los datos de entrenamiento son pocos. Problemas - GridSearch sufre la maldición de la dimensionalidad: la cantidad de veces que debe evaluar el modelo durante la optimización de hiperparámetros crece exponencialmente en la cantidad de parámetros. - Además, ni siquiera está garantizado encontrar la mejor solución, a menudo usando solapamiento sobre la mejor configuración. 13.4. Búsqueda aleatoria de hiperparámetros - Se establece un rango para los parámetros, - Se realiza un muestreo uniforme sobre las posibles combinaciones. - No probaremos secuencialmente todas las combinaciones. En su lugar, intentamos combinaciones aleatorias entre el rango de valores especificados para los hiperparámetros - Inicialmente especificamos el número de configuraciones aleatorias que queremos probar en el espacio de parámetros.

- La principal ventaja es que podemos probar un rango más amplio de valores o hiperparámetros dentro del mismo tiempo de cálculo que la búsqueda de cuadrícula, o probar los mismos en mucho menos tiempo. - Sin embargo, no tenemos la garantía de identificar la mejor combinación, ya que no se probarán todas las combinaciones. - Varianza innecesariamente alta.