
DeepLearning
- Tiene el objetivo de hacerse cargo de los datos más sofisticados, agregando capas ocultas a la
arquitectura de red tradicional.
- Extrae los atributos de forma automática
o Extrae la imagen (que es un matriz) y la extracción de atributos se hace con varias capas de
neuronas
o Se combinan todos los datos de forma matricial (Tensor
)
o Los datos reciben ese tensor y aprende solo
o No se pierde información, ya que aprende mejor extrayendo atributos.
- El DL requiere aprender cosas más complejas, por lo que requiere más datos (más datos de entrada→
DL funciona mejor)
Conceptos importantes:
• Regulación → Penaliza los pesos para tener redes más simples (elimina conexiones)
• Dropout → Elimina ciertas neuronas del modelo para crear diferentes redes simples y se combinan en 1
Estas dos, tratan de reducir el sobreajuste, pero está el riesgo de pasarse y caer en underfitting
• Early Stopping → Las redes de DL se entrenan con menos iteraciones (usa menos números de capas)
• Vanishing → Actualización de peso es 0
• Exploding Gradient → Actualización de peso se hace muy grande
Estos dos son solucionados mediante ReLU (derivada=1)
• Gradiente de descenso estocástico → No calcula el gradiente completo, sino que selecciona un subconjunto
de datos al azar para evaluar el gradiente en cada iteración.
Redes Convolucionales: Toma segmentos de
imágenes que les permite enfocarse en
diferentes partes y luego estas se van
resumiendo.
Redes Recurrentes: Agrega memoria
a cada neurona para usarla como
una entrada adicional en la próxima
ejecución
Atención y transformadores:
Imágenes en blanco y negro son una matriz e
Imágenes a color son 3 matrices (rojo, verde
y azul)
• Capa de convolución: Toman grupos de
pixeles cercanos de imagen de entrada e
ir operando matemáticamente
(producto escalar) contra una pequeña
matriz llamada Kernel
• Capas de muestreo (subsampling): Busca
reducir el tamaño de la próxima capa de
neuronas, preservando las
características más importantes
o Max Poding: Toma cuadrantes y
saca el máximo de esos cuadros
Tiene conexiones hacia atrás
(permite aprender secuencias).
Es difícil de usar, porque no sabe
priorizar cosas importantes. Si una
red no puede olvidar, no puede
aprender cosas nuevas
Soluciones:
1) Limitar la memoria neuronal
2) LSTM (memoria a corto y largo
plazo), no solo aprende
ponderaciones, sino también
para establecer estos
recordatorios
Transformadores: no requieren que las
secuencias sean procesadas en orden. Extiende
las bidireccional LSTM que entrenan 2 LSTM.
Atención: Como ponemos atención a
diferentes regiones de una imagen o
correlacionamos palabras
• En DL se interpreta como un vector de
ponderadores de importancia.
• Para predice una palabra estima que tan
correlacionada está con otro elemento.
BERT: método para interpretar texto
- Es bidireccional usa el concepto de
atención para predecir una palabra
- Aplica el NSP
- Tapa palabras y las predice
Tensor es una matriz de varias dimensiones