Resumen BI Deep learning | Resúmenes de Introducción al E-Business

DeepLearning

- Tiene el objetivo de hacerse cargo de los datos más sofisticados, agregando capas ocultas a la

arquitectura de red tradicional.

- Extrae los atributos de forma automática

o Extrae la imagen (que es un matriz) y la extracción de atributos se hace con varias capas de

neuronas

o Se combinan todos los datos de forma matricial (Tensor

)

o Los datos reciben ese tensor y aprende solo

o No se pierde información, ya que aprende mejor extrayendo atributos.

- El DL requiere aprender cosas más complejas, por lo que requiere más datos (más datos de entrada→

DL funciona mejor)

Conceptos importantes:

• Regulación → Penaliza los pesos para tener redes más simples (elimina conexiones)

• Dropout → Elimina ciertas neuronas del modelo para crear diferentes redes simples y se combinan en 1

Estas dos, tratan de reducir el sobreajuste, pero está el riesgo de pasarse y caer en underfitting

• Early Stopping → Las redes de DL se entrenan con menos iteraciones (usa menos números de capas)

• Vanishing → Actualización de peso es 0

• Exploding Gradient → Actualización de peso se hace muy grande

Estos dos son solucionados mediante ReLU (derivada=1)

• Gradiente de descenso estocástico → No calcula el gradiente completo, sino que selecciona un subconjunto

de datos al azar para evaluar el gradiente en cada iteración.

Redes Convolucionales: Toma segmentos de

imágenes que les permite enfocarse en

diferentes partes y luego estas se van

resumiendo.

Redes Recurrentes: Agrega memoria

a cada neurona para usarla como

una entrada adicional en la próxima

ejecución

Atención y transformadores:

Imágenes en blanco y negro son una matriz e

Imágenes a color son 3 matrices (rojo, verde

y azul)

• Capa de convolución: Toman grupos de

pixeles cercanos de imagen de entrada e

ir operando matemáticamente

(producto escalar) contra una pequeña

matriz llamada Kernel

• Capas de muestreo (subsampling): Busca

reducir el tamaño de la próxima capa de

neuronas, preservando las

características más importantes

o Max Poding: Toma cuadrantes y

saca el máximo de esos cuadros

Tiene conexiones hacia atrás

(permite aprender secuencias).

Es difícil de usar, porque no sabe

priorizar cosas importantes. Si una

red no puede olvidar, no puede

aprender cosas nuevas

Soluciones:

1) Limitar la memoria neuronal

2) LSTM (memoria a corto y largo

plazo), no solo aprende

ponderaciones, sino también

para establecer estos

recordatorios

Transformadores: no requieren que las

secuencias sean procesadas en orden. Extiende

las bidireccional LSTM que entrenan 2 LSTM.

Atención: Como ponemos atención a

diferentes regiones de una imagen o

correlacionamos palabras

• En DL se interpreta como un vector de

ponderadores de importancia.

• Para predice una palabra estima que tan

correlacionada está con otro elemento.

BERT: método para interpretar texto

- Es bidireccional usa el concepto de

atención para predecir una palabra

- Aplica el NSP

- Tapa palabras y las predice

Tensor es una matriz de varias dimensiones

Vista previa parcial del texto

¡Descarga Resumen BI Deep learning y más Resúmenes en PDF de Introducción al E-Business solo en Docsity!

DeepLearning

Tiene el objetivo de hacerse cargo de los datos más sofisticados, agregando capas ocultas a la arquitectura de red tradicional.
Extrae los atributos de forma automática o Extrae la imagen (que es un matriz) y la extracción de atributos se hace con varias capas de neuronas o Se combinan todos los datos de forma matricial (Tensor^1 ) o Los datos reciben ese tensor y aprende solo o No se pierde información, ya que aprende mejor extrayendo atributos.
El DL requiere aprender cosas más complejas, por lo que requiere más datos (más datos de entrada→ DL funciona mejor) Conceptos importantes:
Regulación → Penaliza los pesos para tener redes más simples (elimina conexiones)
Dropout → Elimina ciertas neuronas del modelo para crear diferentes redes simples y se combinan en 1 Estas dos, tratan de reducir el sobreajuste, pero está el riesgo de pasarse y caer en underfitting
Early Stopping → Las redes de DL se entrenan con menos iteraciones (usa menos números de capas)
Vanishing → Actualización de peso es 0
Exploding Gradient → Actualización de peso se hace muy grande Estos dos son solucionados mediante ReLU (derivada=1)
Gradiente de descenso estocástico → No calcula el gradiente completo, sino que selecciona un subconjunto de datos al azar para evaluar el gradiente en cada iteración. Redes Convolucionales: Toma segmentos de imágenes que les permite enfocarse en diferentes partes y luego estas se van resumiendo. Redes Recurrentes: Agrega memoria a cada neurona para usarla como una entrada adicional en la próxima ejecución Atención y transformadores: Imágenes en blanco y negro son una matriz e Imágenes a color son 3 matrices (rojo, verde y azul)
Capa de convolución: Toman grupos de pixeles cercanos de imagen de entrada e ir operando matemáticamente (producto escalar) contra una pequeña matriz llamada Kernel
Capas de muestreo (subsampling): Busca reducir el tamaño de la próxima capa de neuronas, preservando las características más importantes o Max Poding: Toma cuadrantes y saca el máximo de esos cuadros Tiene conexiones hacia atrás (permite aprender secuencias). Es difícil de usar, porque no sabe priorizar cosas importantes. Si una red no puede olvidar, no puede aprender cosas nuevas Soluciones:

Limitar la memoria neuronal
LSTM (memoria a corto y largo plazo), no solo aprende ponderaciones, sino también para establecer estos recordatorios Transformadores: no requieren que las secuencias sean procesadas en orden. Extiende las bidireccional LSTM que entrenan 2 LSTM. Atención: Como ponemos atención a diferentes regiones de una imagen o correlacionamos palabras

En DL se interpreta como un vector de ponderadores de importancia.
Para predice una palabra estima que tan correlacionada está con otro elemento. BERT: método para interpretar texto
Es bidireccional usa el concepto de atención para predecir una palabra
Aplica el NSP
Tapa palabras y las predice (^1) Tensor es una matriz de varias dimensiones

REGRESIÓN: trata con problemas donde los valores son números (valores en un rango continuo).

Estudia el comportamiento temporal y dinámico de una variable
Se debe encontrar la mejor función que describa el fenómeno.
Hay una variable dependiente (Y), que es endógena y variables independientes (X) que es exógena. Y están las ficticias que son dummies o cualitativas. Regresión Lineal ▪ Simple ▪ Múltiple ▪ Muestral : Se quiere que la función sea lo más cercana a los datos originales (con dato muestral)
La función de la regresión muestral (FRM) es una aproximación de la función de regresión poblacional (FR)
Estimación en base a MCO Mismas ventajas que la regresión logística: Funciona bien a la primera, es interpretable, se puede aplicar la prueba a la blancura y sus desventajas son que no capta patrones no lineales y no es muy flexible. Arboles de Decisión: ▪ Es adaptable a regresión con algunos cambios ▪ Se usa MSE como medida para elegir el mejor atributo a ramificar (en vez de entropía o Gini) ▪ Se usa el promedio para la predicción en vez de la moda K vecinos más cercanos ▪ Se adapta fácilmente a regresión ▪ Para predecir se utiliza el promedio de los k vecinos en vez de la moda Random Forest ▪ Se adapta a regresión fácilmente ▪ Mismos parámetros (N° arboles y n° de variables en cada árbol) ▪ Se ensamblan arboles basados en MSE, en vez de entropía Redes neuronales ▪ Se pueden usar para regresión ▪ Son aproximadores universales o Una función continua y acotada puede ser aproximada con cualquier tolerancia por una red con una capa oculta o Una función continua general puede ser aproximada con cualquier tolerancia por una red con dos capas ocultas SVM
Se debe generalizar el concepto para clasificarlo y llevarlo a regresión
Tiene una tolerancia de desviación máxima, si no penaliza. Y minimiza la norma euclidiana de w,
Es importante decidir el kernel a utilizar

Resumen BI Deep learning , Resúmenes de Introducción al E-Business

Documentos relacionados

Vista previa parcial del texto

¡Descarga Resumen BI Deep learning y más Resúmenes en PDF de Introducción al E-Business solo en Docsity!