Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Resumen BI Deep learning , Resúmenes de Introducción al E-Business

resumen para material de deep learning

Tipo: Resúmenes

2022/2023

Subido el 19/04/2024

1 / 3

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
DeepLearning
- Tiene el objetivo de hacerse cargo de los datos más sofisticados, agregando capas ocultas a la
arquitectura de red tradicional.
- Extrae los atributos de forma automática
o Extrae la imagen (que es un matriz) y la extracción de atributos se hace con varias capas de
neuronas
o Se combinan todos los datos de forma matricial (Tensor
1
)
o Los datos reciben ese tensor y aprende solo
o No se pierde información, ya que aprende mejor extrayendo atributos.
- El DL requiere aprender cosas más complejas, por lo que requiere más datos (más datos de entrada
DL funciona mejor)
Conceptos importantes:
Regulación Penaliza los pesos para tener redes más simples (elimina conexiones)
Dropout Elimina ciertas neuronas del modelo para crear diferentes redes simples y se combinan en 1
Estas dos, tratan de reducir el sobreajuste, pero está el riesgo de pasarse y caer en underfitting
Early Stopping Las redes de DL se entrenan con menos iteraciones (usa menos números de capas)
Vanishing Actualización de peso es 0
Exploding Gradient Actualización de peso se hace muy grande
Estos dos son solucionados mediante ReLU (derivada=1)
Gradiente de descenso estocástico No calcula el gradiente completo, sino que selecciona un subconjunto
de datos al azar para evaluar el gradiente en cada iteración.
Redes Convolucionales: Toma segmentos de
imágenes que les permite enfocarse en
diferentes partes y luego estas se van
resumiendo.
Redes Recurrentes: Agrega memoria
a cada neurona para usarla como
una entrada adicional en la próxima
ejecución
Atención y transformadores:
Imágenes en blanco y negro son una matriz e
Imágenes a color son 3 matrices (rojo, verde
y azul)
Capa de convolución: Toman grupos de
pixeles cercanos de imagen de entrada e
ir operando matemáticamente
(producto escalar) contra una pequeña
matriz llamada Kernel
Capas de muestreo (subsampling): Busca
reducir el tamaño de la próxima capa de
neuronas, preservando las
características más importantes
o Max Poding: Toma cuadrantes y
saca el máximo de esos cuadros
Tiene conexiones hacia atrás
(permite aprender secuencias).
Es difícil de usar, porque no sabe
priorizar cosas importantes. Si una
red no puede olvidar, no puede
aprender cosas nuevas
Soluciones:
1) Limitar la memoria neuronal
2) LSTM (memoria a corto y largo
plazo), no solo aprende
ponderaciones, sino también
para establecer estos
recordatorios
Transformadores: no requieren que las
secuencias sean procesadas en orden. Extiende
las bidireccional LSTM que entrenan 2 LSTM.
Atención: Como ponemos atención a
diferentes regiones de una imagen o
correlacionamos palabras
En DL se interpreta como un vector de
ponderadores de importancia.
Para predice una palabra estima que tan
correlacionada está con otro elemento.
BERT: método para interpretar texto
- Es bidireccional usa el concepto de
atención para predecir una palabra
- Aplica el NSP
- Tapa palabras y las predice
1
Tensor es una matriz de varias dimensiones
pf3

Vista previa parcial del texto

¡Descarga Resumen BI Deep learning y más Resúmenes en PDF de Introducción al E-Business solo en Docsity!

DeepLearning

  • Tiene el objetivo de hacerse cargo de los datos más sofisticados, agregando capas ocultas a la arquitectura de red tradicional.
  • Extrae los atributos de forma automática o Extrae la imagen (que es un matriz) y la extracción de atributos se hace con varias capas de neuronas o Se combinan todos los datos de forma matricial (Tensor^1 ) o Los datos reciben ese tensor y aprende solo o No se pierde información, ya que aprende mejor extrayendo atributos.
  • El DL requiere aprender cosas más complejas, por lo que requiere más datos (más datos de entrada→ DL funciona mejor) Conceptos importantes:
  • Regulación → Penaliza los pesos para tener redes más simples (elimina conexiones)
  • Dropout → Elimina ciertas neuronas del modelo para crear diferentes redes simples y se combinan en 1 Estas dos, tratan de reducir el sobreajuste, pero está el riesgo de pasarse y caer en underfitting
  • Early Stopping → Las redes de DL se entrenan con menos iteraciones (usa menos números de capas)
  • Vanishing → Actualización de peso es 0
  • Exploding Gradient → Actualización de peso se hace muy grande Estos dos son solucionados mediante ReLU (derivada=1)
  • Gradiente de descenso estocástico → No calcula el gradiente completo, sino que selecciona un subconjunto de datos al azar para evaluar el gradiente en cada iteración. Redes Convolucionales: Toma segmentos de imágenes que les permite enfocarse en diferentes partes y luego estas se van resumiendo. Redes Recurrentes: Agrega memoria a cada neurona para usarla como una entrada adicional en la próxima ejecución Atención y transformadores: Imágenes en blanco y negro son una matriz e Imágenes a color son 3 matrices (rojo, verde y azul)
  • Capa de convolución: Toman grupos de pixeles cercanos de imagen de entrada e ir operando matemáticamente (producto escalar) contra una pequeña matriz llamada Kernel
  • Capas de muestreo (subsampling): Busca reducir el tamaño de la próxima capa de neuronas, preservando las características más importantes o Max Poding: Toma cuadrantes y saca el máximo de esos cuadros Tiene conexiones hacia atrás (permite aprender secuencias). Es difícil de usar, porque no sabe priorizar cosas importantes. Si una red no puede olvidar, no puede aprender cosas nuevas Soluciones:
  1. Limitar la memoria neuronal
  2. LSTM (memoria a corto y largo plazo), no solo aprende ponderaciones, sino también para establecer estos recordatorios Transformadores: no requieren que las secuencias sean procesadas en orden. Extiende las bidireccional LSTM que entrenan 2 LSTM. Atención: Como ponemos atención a diferentes regiones de una imagen o correlacionamos palabras
  • En DL se interpreta como un vector de ponderadores de importancia.
  • Para predice una palabra estima que tan correlacionada está con otro elemento. BERT: método para interpretar texto
  • Es bidireccional usa el concepto de atención para predecir una palabra
  • Aplica el NSP
  • Tapa palabras y las predice (^1) Tensor es una matriz de varias dimensiones

REGRESIÓN: trata con problemas donde los valores son números (valores en un rango continuo).

  • Estudia el comportamiento temporal y dinámico de una variable
  • Se debe encontrar la mejor función que describa el fenómeno.
  • Hay una variable dependiente (Y), que es endógena y variables independientes (X) que es exógena. Y están las ficticias que son dummies o cualitativas. Regresión LinealSimpleMúltipleMuestral : Se quiere que la función sea lo más cercana a los datos originales (con dato muestral)
  • La función de la regresión muestral (FRM) es una aproximación de la función de regresión poblacional (FR)
  • Estimación en base a MCO Mismas ventajas que la regresión logística: Funciona bien a la primera, es interpretable, se puede aplicar la prueba a la blancura y sus desventajas son que no capta patrones no lineales y no es muy flexible. Arboles de Decisión: ▪ Es adaptable a regresión con algunos cambios ▪ Se usa MSE como medida para elegir el mejor atributo a ramificar (en vez de entropía o Gini) ▪ Se usa el promedio para la predicción en vez de la moda K vecinos más cercanos ▪ Se adapta fácilmente a regresión ▪ Para predecir se utiliza el promedio de los k vecinos en vez de la moda Random Forest ▪ Se adapta a regresión fácilmente ▪ Mismos parámetros (N° arboles y n° de variables en cada árbol) ▪ Se ensamblan arboles basados en MSE, en vez de entropía Redes neuronales ▪ Se pueden usar para regresión ▪ Son aproximadores universales o Una función continua y acotada puede ser aproximada con cualquier tolerancia por una red con una capa oculta o Una función continua general puede ser aproximada con cualquier tolerancia por una red con dos capas ocultas SVM
  • Se debe generalizar el concepto para clasificarlo y llevarlo a regresión
  • Tiene una tolerancia de desviación máxima, si no penaliza. Y minimiza la norma euclidiana de w,
  • Es importante decidir el kernel a utilizar