Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Redes Neuronales Artificiales, Resúmenes de Minería de Datos

Universidad Autónoma del Perú Minería de Datos

En esta charla se entrega una descripción de las características principales del funcionamiento de redes neuronales artificiales. En primer lugar, se presenta un modelo sencillo de red neuronal y las familias de problemas que pueden ser modeladas por ellas. Además, se describe esquemas simples de entrenamiento de redes orientadas al reconocimiento de patrones de información. Se presenta un ejemplo de aplicación de las redes al reconocimiento de texto.

Tipo: Resúmenes

2020/2021

Subido el 17/06/2021

StefannyJimenez18 🇵🇪

4.5

(2)

3 documentos

1 / 16

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Accelerat ing the world's rese arch.

Redes Neuronales Artiﬁciales

Daniel Guillermo Garcia Murillo

Relat ed papers

REDES NEURONALES

eduardo aguilera

Introducción a las redes neuronales aplicadas Concept os bás icos

Lalet Glezlo

Implem ent ación De Redes Neuronales Artiﬁciales en Hardware Para Aplicación en Dete cción Automát…

Claudio Verrast ro

Download a PDF Pack of the best related papers

Descubre Resúmenes de Minería de Datos Universidad Autónoma del Perú

Documentos relacionados

Redes Neuronales Artificiales: Introducción y Conceptos Básicos

Historia de las Redes Neuronales Artificiales

(1)

Algoritmo de Retropropagación (Back Propagation) en Redes Neuronales Artificiales

Introducción al Deep Learning y Redes Neuronales Artificiales

redes neuronales res

Apuntes sobre Redes Neuronales Artificiales (RNA)

Redes Neuronales Artificiales-Concepto-Tipos-Aplicación en un proceso Industrial.

(1)

Deber de Redes Neuronales

REDES NEURONALES, PROGRAMACION

REDES NEURONALES DOCUMENTO

Redes neuronales Actividad 7

Redes neuronales convolucionales

Vista previa parcial del texto

¡Descarga Redes Neuronales Artificiales y más Resúmenes en PDF de Minería de Datos solo en Docsity!

Accelerat ing t he world's research.

Redes Neuronales Artificiales

Daniel Guillermo Garcia Murillo

Related papers

REDES NEURONALES

eduardo aguilera

Int roducción a las redes neuronales aplicadas Concept os básicos Lalet Glezlo

Implement ación De Redes Neuronales Art ificiales en Hardware Para Aplicación en Det ección Aut omát … Claudio Verrast ro

Download a PDF Pack of t he best relat ed papers 

Redes Neuronales Artificiales

Fernando Izaurieta y Carlos Saavedra Departamento de Física, Universidad de Concepción, Concepción, Chile RESUMEN En esta charla se entrega una descripción de las características principales del funcionamiento de redes neuronales artificiales. En primer lugar, se presenta un modelo sencillo de red neuronal y las familias de problemas que pueden ser modeladas por ellas. Además, se describe esquemas simples de entrenamiento de redes orientadas al reconocimiento de patrones de información. Se presenta un ejemplo de aplicación de las redes al reconocimiento de texto.

1. Introducción.

Las actividades de investigación desarrolladas en torno al estudio de redes neuronales artificiales , simplemente redes neuronales o neuroredes, están motivadas en modelar la forma de procesamiento de la información en sistemas nerviosos biológicos. Especialmente, por la forma de funcionamiento del cerebro humano, que es completamente distinta al funcionamiento de un computador digital convencional. El cerebro humano corresponde al de un sistema altamente complejo, no-lineal y paralelo. En términos sencillos lo anterior equivale a decir que puede realizar muchas operaciones simultáneamente a diferencia de los computadores comunes que son de tipo secuencial , o sea, realizan sólo una operación a la vez. En este sentido, una neurored es un procesador de información, de distribución altamente paralela, constituido por muchas unidades sencillas de procesamiento llamadas neuronas. La neuroredes se caracterizan principalmente por:

² Tener una inclinación natural a adquirir el conocimiento a través de la experiencia, el cual es almacenado, al igual que en el cerebro, en el peso relativo de las conexiones interneuronales.

² Tienen una altísima plasticidad y gran adaptabilidad, son capaces de cambiar dinámicamente junto con el medio.

² Poseen un alto nivel de tolerancia a fallas, es decir, pueden sufrir un daño considerable y continuar teniendo un buen comportamiento, al igual como ocurre en los sistemas biológicos.

² Tener un comportamiento altamente no-lineal, lo que les permite procesar información procedente de otros fenómenos no-lineales.

Entre las motivaciones principales para el estudio del funcionamiento de las redes neuronales se encuentran los fenómenos neurológicos. Nuestro cerebro es un procesador de información muchísimo más eficiente que un computador. La clave de esto se encuentra en la inmensa plasticidad del cerebro, existen tareas cotidianas para el cerebro que sería impensable realizar mediante computación tradicional. Un ejemplo de esto es la capacidad reconocer a una persona en un tiempo de 100 a 200 ms. En ese breve lapso, el cerebro es capaz de procesar un patrón de información tridimensional,

por ejemplo, de una persona que quizás ha cambiado de aspecto (luce distinto o simplemente envejeció) en un paisaje cambiante (que puede contener muchos otros rostros). En la actualidad, tareas mucho más simples consumen días de trabajo de los computadores más veloces. La plasticidad se percibe también en la capacidad de responder de forma correcta frente a un estímulo nunca antes recibido. Esa capacidad hace que cuando nos presentan por primera vez a alguien, sepamos automáticamente que es una persona y no un objeto u otro ser biológico. Debido a estas características y muchas otras, las neuroredes se han convertido en una gran ayuda en el procesamiento de datos experimentales de comportamiento complejo. Además, su comportamiento iterativo no lineal las une de modo natural al caos y teorías de la complejidad. De hecho, las posibilidades son tan amplias que se empieza a hablar de un nuevo campo, aparte de la Biología, la Matemática y la Física: las Neurociencias. Como ya lo dijimos, lo que se desea inicialmente es imitar, al menos parcialmente, el funcionamiento del cerebro. Para hacerlo revisaremos, superficialmente, algunos conceptos básicos de neurobiología.

2. Neurobiología

Una neurona típica posee el aspecto y las partes que se muestran en la figura 1. Sin embargo, debemos observar que el dibujo no está a escala, el axón alcanza un largo típico de centímetros y a veces de varios metros, las dendritas también y las terminales sinápticas, son más largas, numerosas y tupidas.

Figura 1: Neurona y sus partes.

Típicamente, las neuronas son 6 ó 5 órdenes de magnitud más lentas que una compuerta lógica de silicio, los eventos en un chip de silicio toman alrededor de nanosegundos ( 10 ¡ 9^ s), mientras que en una neurona este tiempo es del

REDES NEURONALES ARTIFICIALES 3

3.1. Funciones de Activación.

Algunas funciones de activación típicas, no lineales, se presentan en las figuras 4 y 5.

y(in)

Figura 4: Escalón.

y(in)

Figura 5: Sigmoidea.

Estas funciones evidentemente transmiten la idea de “disparar sobre un umbral”. Las neuronas y sus funciones de activación se dividen en dos tipos: bipolares o antisimétricas y binarias. En las primeras, -a · yj · a, siendo generalmente a = 1 , y en las segundas, 0 · yj · 1. Además, a veces se suele usar como función de activación una relación lineal, generalmente la función identidad. Esta se usa por lo general para neuronas de entrada a la red o sensores. Esto se debe a que evidentemente, lo que esperamos de un sensor es que indique precisamente lo que está percibiendo. Si la función de activación de una neurona es lineal, decimos que es una neurona lineal , en caso contrario, decimos que es una neurona no lineal. Aquí, las neuronas lineales se las representa por un cuadrado, y a las no lineales por un círculo.

3.2. Umbrales e Inclinación.

Anteriormente, se explicó que una neurona se activa o “dispara” si su entrada total supera un cierto umbral. Ahora bien, muchas veces es deseable modificar este umbral, haciendo más difícil que la neurona dispare (subir el umbral) o más fácil (bajar el umbral). Es posible hacer esto directamente. Sin embargo, esto suele ser un poco engorroso al programar.

1= x 0

x 1 wj

wji

v1j

v2j

ϕϕϕϕ (y (^) j(in)^ )

Figura 6: Esquema con Inclinación.

Resulta mucho más compacto y práctico añadir lo que se llama una neurona de inclinación , x 0 , a la que se asigna un valor fijo de 1, y un peso sináptico wj 0. A la neurona yj le asignamos un umbral fijo de cero. Se ve claramente que esto es equivalente a que la neurona yj tenga un umbral de ¡ wj 0. Entonces se tiene que:

y ( i n ) j =

X^ n

i = 0

wj i xi ; con x 0 = 1. (3)

3.3. El Comienzo: McCulloch-Pitts.

Después de las definiciones previas, es conveniente revisar un ejemplo sencillo, pero muy instructivo, sobre el tema. Este consiste en el primer modelo que se creó de red neural, el año 1943, antes de que se construyeran los primeros computadores. McCulloch era un siquiatra y neuroanatomista y Pitts un matemático. El primero pasó 20 años estudiando sobre cuál era la representación de un evento en el sistema nervioso. Su modelo tiene las siguientes características:

Las neuronas son del tipo binario, [0; 1].
Los umbrales y las sinapsis se mantienen fijas.
La función de activación es del tipo escalón.

Ellos demostraron que todas las funciones lógicas se pueden describir mediante combinaciones apropiadas de neuronas de este tipo, y que por lo tanto, se podía crear, en principio, una red capaz de resolver cualquier función computable. Además, el modelo sirve para explicar algunos fenómenos biológicos sencillos. De esta forma es posible describir algunas funciones lógicas como:

4 F. IZAUTIRETA Y C. SAAVEDRA

x 1 1

x 2

x 1 x 2 y 1 1 1 0 1 0 1 0 0 0 0 0 Figura 7: Función And

x 1 2

x 2

x 1 x 2 y 1 1 1 0 1 1 1 0 1 0 0 0 Figura 8: Función Or

En todos estos ejemplos, se supone que el umbral de cada neurona no lineal es 2. O sea,

y =

0 si yi n^ < 2 1 si yi n^ ¸ 2

Ahora es muy fácil comprobar que las tablas de verdad efectivamente se cumplen^1 , por ejemplo, la primera línea de la tabla de verdad para el And :

1 £ 1 + 1 £ 1 = 2 = yi n^ ) y = 1

Veamos una función lógica más: el xOr u Or excluyente.

x 1 x 2 z

1 1 0

0 1 1

1 0 1

0 0 0

x 1

x 2

y 1

y 2 2

- -

fig 9: Función xOr.

Es fácil comprobar que la red mostrada efectivamente cumple con la tabla de verdad. Sin embargo, llama la atención el que su red sea más compleja que la de las funciones And u Or, pese a que sólo se diferencia de la función Or en la primera línea. Pudiéramos darnos el trabajo de buscar una red diferente para representar xOr , buscando algo más sencillo. Existen varias otras redes que también la representan, pero ninguna de ellas sencillas como la para And u Or. Fijémonos primero en que consiste la “complejidad”. En las redes And u Or las neuronas de entrada y la de salida están conectadas directamente, en cambio, se puede demostrar que para la función xOr habrá siempre por lo menos, una conexión indirecta. Para entender esta diferencia se debe incorporar dos nuevos conceptos: Problemas linealmente separables y Capas Neurales.

3.4. Problemas Linealmente Separables y Capas Neurales.

3.4.1. Problemas Linealmente Separables.

Volvamos a una red simple, como la del And u Or, pero más general, como la de la figura 10. En ella, hemos añadido una

neurona de inclinación, en vez de un umbral.

w 2

w 1

x 1

x 2

(^1) x 0 w 0

Figura 10: Función Lógica “simple”.

Sabemos que la entrada y( i n )^ estará dada por:

y(i n )^ = w 0 + w 1 x 1 + w 2 x 2 ; (5)

y la respuesta, por: (^1) Se asume que 1=Verdadero y 0=Falso.

6 F. IZAUTIRETA Y C. SAAVEDRA

w 10 wj 0 wn 0

x 0

w 11 wj 1 wn 1

x 1

w 1 m wjm wnm

w 1 i wji wni

xm yn

y 1

Entrada

Salida

Capa 0 Capa 1

Figura 14: Red Unicapa.

Se acostumbra no contabilizar la capa de entrada, por lo tanto se dice que la red de la figura 14 es “Unicapa”. Las sinapsis obviamente están ordenadas en una matriz wj i de n £ (m + 1). Evidentemente, de nuestro análisis anterior, tenemos que una red unicapa sólo puede resolver problemas linealmente separables. En una red unicapa, las neuronas de salida pueden ser lineales o no lineales. Pero es evidente que podemos seguir añadiendo capas, como se muestra en la figura 15.

u 10

uj 0

un 0

x 0

u 11

uj 1

un 1

x 1

u 1 m

ujm

unm

u 1 i

uji

uni

Entrada

Capa 0 Capa 1

v 10

vk 0

vp 0

v 11

vk 1

vp 1

w 1 n

wkn

wpn

v 1 i

vkj

vpj

y 0

z 1

Capa 2

Salida

y 1

Figura 15: Red Multicapa.

REDES NEURONALES ARTIFICIALES 7

En una red multicapa, las capas ocultas, que en nuestra figura corresponde a la Capa 2, siempre son no lineales. Se puede demostrar muy fácilmente que si se construye una red multicapa con capas ocultas lineales, ésta es equivalente a una red unicapa. Podemos ver fácilmente la idea de paralelismo al observar las capas de las redes. Cada neurona de una capa no necesita de las demás en su misma capa para trabajar, son capaces por lo tanto de trabajar simultáneamente. Esta cualidad se ha aprovechado al diseñar chips paralelos con la nueva tecnología VLSI ( V ery L arge S cale I ntegrated), en donde se han implementado varios tipos de neuroredes. Una red multicapa es capaz de resolver problemas más complejos, pero su proceso de aprendizaje también es más complicado.

4. Aprendizaje o Entrenamiento.

El aprendizaje es la clave de la plasticidad de una neurored y esencialmente es el proceso en el que se adaptan las sinapsis, para que la red responda de un modo distinto a los estímulos del medio. Recordemos que en una neurored, toda la información adquirida se guarda en el valor de cada peso sináptico. De hecho, las neuronas de la mayor parte de los seres vivos con sistema nervioso, desde un caracol hasta el hombre son esencialmente iguales. Lo que nos hace más inteligentes que un caracol es el número, organización y modo de cambio de las conexiones sinápticas. El aprendizaje se divide principalmente en dos tipos: Aprendizaje con Profesor o Supervisado y sin Profesor o No Supervisado. Nosotros sólo estudiaremos aprendizaje con profesor y algunas variantes de éste.

4.1. Aprendizaje con Profesor o Supervisado.

El proceso es completamente análogo a enseñarle algo a un niño, digamos por ejemplo, a reconocer las vocales. Los pasos del proceso son los siguientes:

El profesor dispone de un conjunto de N pares de entrenamiento, f xi (n); dj (n)gNn = 1, en donde xi (n) es la n-ésima entrada y dj (n) es la respuesta correcta a esa entrada. En nuestro ejemplo, significa que tenemos todas las vocales dibujadas en un papel ( xi (n) ) y que nosotros sabemos las respuestas correctas ( dj (n) ) a cada una de las figuras, los sonidos A,E,I,O,U.
Introducimos una de las entradas xi (n) y esperamos que nuestra red nos responda. Sería como mostrarle al niño la letra A y preguntarle: “Dime, ¿Qué letra es esta?”.

² La neurored responde mediante una salida oj (n). Digamos, el niño nos respondió “Esa es una E”. ² Luego comparamos ambas señales, la respuesta deseada dj (n) y la respuesta de la red oj (n), creando una señal de error, ej (n) = dj (n) ¡ oj (n). “Mmm... el niño no está tan despierto como esperaba...”.

² Luego, con la señal de error ej (n), corrijo las sinapsis de la red mediante algún algoritmo de los que se verá a continuación. “No hijo, esta no es una E, es una A...”.

dj (n)

xi (n)

ΣΣΣΣ

oj (n) -

ej (n)

Profesor

{ xi(n);dj(n) }

Neurored

Figura 16: Aprendizaje con Profesor o Supervisado.

La secuencia completa de los N pares de entrenamiento es conocida como una Época. En general, pueden haber muchas épocas, y el aprendizaje se detiene cuando la red responda correctamente a todos los pares de entrenamiento. En general, cuando adaptemos las sinapsis, la forma de hacerlo será mediante la siguiente ecuación:

wj i (n + 1) = wj i (n) + ¢ wj i (n) (7)

en donde wj i (n) son los pesos sinápticos con los que la red responderá al n-ésimo ejemplo. Esto equivale a no cambiar los pesos sinápticos en forma radical, sino que simplemente los variamos en una cantidad “pequeña” ¢ wj i (n) con respecto a su estado anterior. Lo que diferencia a los algoritmos o reglas de aprendizaje, es básicamente como encontrar ¢ wj i (n). El que hayan distintos algoritmos tiene cierta base biológica. Neuronas de distintas partes del cerebro aprenden de forma distinta también.

4.2. Regla de Hebb.

Esta es la más antigua y la más famosa de las reglas de aprendizaje, su base es completamente biológica. Fue encontrada por el neurofisiologo Hebb en 1949, quien descubrió que si dos neuronas a ambos lados de la sinapsis estaban activas (o inactivas) simultáneamente, entonces las sinapsis entre ellas se reforzaban, y si se activaban (o desactivaban) asincrónicamente, se debilitaban. Una forma de expresar esta idea de forma sencilla es la siguiente:

¢ wj i (n) = ´ yj (n)xi (n); ´ > 0; (8)

donde las capas de neuronas xi e yj están distribuidas como en la figura 14. A la constante de proporcionalidad ´ se le llama “razón de aprendizaje”. Para ver como funciona, supongamos que xi e yj son bipolares o antisimétricas, con a = 1. Si xi

REDES NEURONALES ARTIFICIALES 9

Paso 4: Si yj (n) 6 = dj (n), para algún j entre 1 y m 1 , entonces

wj i (n + 1) = wj i (n) + ´ dj (n)xi (n);

donde j = 1; :::; m 1 ; i = 0; :::; m 0. En caso contrario wj i (n + 1) = wj i (n)

Paso 5: Si los pesos sinápticos no cambian para cada patrón de entrenamiento durante la última vez que se realizó el paso 2, entonces parar, sino es así, continuar. Se ve claramente que en nuestro caso, ¢ wj i (n) = ´ dj (n)xi (n) o 0 , dependiendo de si hubo error o no. Podemos entender intuitivamente el algoritmo de la siguiente forma. Supongamos que la j -ésima neurona respondió de forma incorrecta, dijo -1 en vez de 1. Esto significa que y ( i n ) j (n)^ fue demasiado pequeño, debemos hacer que crezca haciendo que

más términos en la sumatoria

mP (^0) i = 0

wj i (n)xi (n) sean positivos

y lo máximo posible. O sea, si la i -ésima entrada, xi (n) es +1, entonces la i -ésima sinapsis, wj i (n), debiera ser positiva y lo más grande posible también: debemos hacerla crecer. Si por el contrario, xi (n) es -1, debemos hacer bajar a wj i (n). Eso es lo que se re eja en la forma en que hemos construido el ¢ wj i (n), si dj (n) es +1, entonces ¢ wj i (n) tiene el mismo signo que xi (n). En el caso contrario, es todo al revés. Es bastante evidente que si un problema es linealmente separable, existen infinitos pesos sinápticos que servirán para solucionar el problema. Basta con multiplicar por una

constante la ecuación

Pn i = 0

wj i xi = 0 y seguimos teniendo

el mismo hiperplano de separación, aunque distintos pesos sinápticos. Además, generalmente, no es un solo hiperplano el que nos podría delimitar bien la frontera, sino que más bien hay infinitos, como se muestra en la figura 18:

Clase 2

Clase 1

Espacio x

Figura 18: Infinitas Soluciones.

O sea, o no existe ninguna solución, o existen infinitas. Es posible demostrar que si existe solución, entonces el algoritmo perceptrónico convergerá a una de las infinitas soluciones en un número finito de pasos.

Experimentos Computacionales. A modo de ejemplo se incluyen dos experimentos (computacionales), ambos de clasificación de letras. Para el primero, usamos las siguientes entradas:

Figura 19: Patrones de entrenamiento para el Experimento 1

Cada imagen es de 7 £ 9 = 63 píxels, un píxel negro corresponde a un +1 y uno blanco a un -1, se usó ´ = 1. Las sinapsis se inicializaron con 0. Para construir el vector xi de entradas, simplemente ponemos una fila de la imagen después de la otra. Después del entrenamiento, algunos patrones que fueron clasificados correctamente fueron los siguientes:

10 F. IZAUTIRETA Y C. SAAVEDRA

A C D E K

Aquí observamos el funcionamiento de la red que se ha construido, que a pesar de ser muy simple, tiene plasticidad y es capaz de generalizar. A pesar de que nunca vio esos patrones con errores durante su entrenamiento, fue capaz de reconocer a qué letra correspondían. Para ampliar el experimento nos preguntamos: ¿Se podrá realizar con patrones más grandes? y, ¿Qué imagen podemos hacernos de cómo están distribuidas las sinapsis? Para responder esas preguntas, construimos un perceptrón que sólo clasificara entre X, O e I, pero con entradas de una resolución mucho mayor: 56 £ 72 = 4032 pixeles. Trabajamos exactamente del mismo modo que con el ejemplo anterior. Los patrones de entrenamiento ahora son los siguientes:

Figura 21: Patrones de entrenamiento, 2

Se necesitaron sólo tres épocas. Algunos patrones que fueron clasificados correctamente, son:

X O I

Nuevamente observamos la plasticidad. Pero, ¿cómo se distribuyen las sinapsis?. Para verlo de un modo gráfico, simplemente reordenamos en la misma forma de la imagen original a las sinapsis, obteniéndose 3 gráficas: Una para las sinapsis que se conectan con la neurona de la X, otra con la de la O y otra con la de la I.

X O I

Figura 23: Sinapsis para X,O e I.

Simplemente observando se puede entender cómo funcionan las sinapsis, y qué regiones son más cruciales que otras al reconocer el patrón. Pero dijimos que las sinapsis no eran únicas. Si empezamos con valores iniciales aleatorios llegamos a otro tipo de conexiones sinápticas, como estas:

X O I

Figura 24: Otras Sinapsis para X, O e I.

Ahora, pasaremos a otra tarea que realizan muy bien las neuroredes: predecir.

4.3.2. Regla Delta, o corrección de error.

Esta es una regla muy popular, en ella se usa una red de una sola capa, igual que la perceptrónica, pero la neurona de salida tiene una función de activación derivable, generalmente la función identidad o la tangente hiperbólica. Para esta regla, usamos un algoritmo más sencillo, simplemente calculamos el error ej (n) = dj (n) ¡ yj (n) correspondiente a cada entrada, y luego corregimos las sinapsis de la red mediante la regla:

¢ wj i (n) = ´ ej (n)' (^0) j (y( i n )j (n))xi (n) (10)

Si las neuronas de salida tienen a la identidad como función de activación, ' (^0) j (y( i n )j (n)) = 1, y entonces,

12 F. IZAUTIRETA Y C. SAAVEDRA

m 0 m 1 m 2 ... mL -2 mL -1 mL

Salida Entrada

Figura 27: Red Multicapa.

Supondremos que cada capa tiene sus neuronas de inclinación, que por lo general no dibujaremos en los diagramas. En general, las neuronas de cada capa están completamente conectadas con las de la siguiente. En el funcionamiento de nuestra red, nos encontraremos con dos tipos de señales: Señales de Función y Señales de error.

Señales de Función: Es el estímulo que entra en la capa 0, y pasa hacia adelante, capa por capa del modo tradicional, hasta la última capa, L , en donde se genera

la señal de salida.

Señales de Error: Luego de la etapa hacia adelante, viene la retropropagación del error, hacia atrás. Cuando corregimos las sinapsis, corregimos las de la capa L primero. Luego, observando las sinapsis de la capa L , corregimos las de la capa L ¡ 1 , y así sucesivamente hasta la primera capa. A esto se le llama señal de error, vamos desde las últimas capas hasta las primeras corrigiendo sinapsis. Esto es lo que se ilustra en la figura 28:

Señal de Función

Señal de Error

2 Etapas:

Figura 28: Etapas hacia adelante y hacia atrás.

4.4.2. Definiciones.

Error: Supongamos que la capa de salida está constituida por las neuronas zk. Entonces, el error cometido al presentarse el n-ésimo par de entrenamiento es:

ek (n) = dk (n) ¡ zk (n): (11)

“Energía” de error: La “energía” de error al presentarse el n-ésimo par de entrenamiento es:

" (n) =

X^ m^ L

k = 1

e^2 k (n) (12)

Esta no es una energía física, en la jerga de las neuroredes sólo se le llama así por su forma análoga a la energía cinética.

Muchos físicos han trabajado en este campo, y han empleado términos de la Física.

Energía promedio de error. Es el promedio de la energía de error durante una época completa de presentación de patrones.

"pro =

N

X^ N

n = 1

" (n) (13)

donde "(n) y " (^) pro son funciones de todas las sinapsis de la red. El objetivo del proceso de aprendizaje será minimizar "pro. Sea wj i una sinapsis cualquiera de la red. Es fácil ver que " (^) av(wj i ) y "(n)(wj i ) constituyen superficies de error. La idea del algoritmo será la del descenso paso a paso. Vamos a hacer una primera aproximación para aclarar conceptos.

REDES NEURONALES ARTIFICIALES 13

El gradiente de " (^) av señala su dirección de crecimiento. Evidentemente, viene dado por:

@j i "pro(wj i ) =

@" (^) pro @wj i

Si queremos minimizar "pro , deberíamos dirigirnos en contra del gradiente, como vemos en la siguiente relación:

wj i (p + 1) = wj i (p) ¡ ´

@" (^) pro @wj i (p)

En donde p simplemente señala que estamos en el p-ésimo paso. Lo que estamos haciendo es “esquiar” o “resbalarnos” sobre la superficie de error, tratando de llegar al mínimo global de la superficie. Sin embargo, haciendo esto, corremos el peligro de quedar atrapados en un minímo local de la superficie, y nunca alcanzar el mínimo global, como se ilustra en la figura 29.

εav

wji

Figura 29: Peligro de caer en mínimo local.

Se puede intentar evitar esto tratando de minimizar las " (n) en vez de " (^) pro, pero de un modo bien especial, como se explica en la siguiente sección.

4.4.3. Idea del Algoritmo.

Intentaremos minimizar " (^) av minimizando las " (n). Es decir, tendremos que:

wj i (n + 1) = wj i (n) ¡ ´

@" (n) @wj i (n)

Cada patrón que se presenta tiene una superficie de error "(n) diferente. Lo que hacemos es presentar el n- ésimo par de entrenamiento y corregir todas las sinapsis de la red. Es decir tenemos la n-ésima superficie y nos “resbalamos” un paso. Luego, presentamos el (n + 1)-ésimo par de entrenamiento y corregimos nuevamente todas las sinapsis de la red. O sea, cambiamos^ de superficie y nos “resbalamos” otro paso. Este constante cambio de superficie hace muy difícil quedar atrapado en un mínimo local. Una buena imagen mental sería estar esquiando en una montaña, ¡que está temblando alocadamente!. Evidentemente, tarde o temprano llegaremos al valle más profundo que exista. Este poceso se ilustra en la figura 30.

ε (n)

wji

ε (n+1)

wji

Figura 30: Esquivando Minímos Locales.

Lo que estamos suponiendo implícitamente es que el promedio de los cambios individuales en las sinapsis es un estimador del cambio que debiera ocurrir si minimizaramos directamente "pro.

Además, el orden de presentación de los pares de entrenamiento se randomiza de época en época. Esto hace que la trayectoria seguida sobre la superficie sea completamente estocástica. Supongamos que no randomizáramos el conjunto de entrenamiento. Entonces tendríamos que época tras época estaríamos repitiendo el

mismo procedimiento, llamémoslo F. Entonces estaríamos iterando :

wj i ((n + 1)-Época) = F (wj i (n-Época)) (17)

Desde Teoría de Caos, sabemos que procesos como estos pueden converger a estados metaestables, como ciclos límites. Para eliminar esta posibilidad se intenta randomizar el conjunto de entrenamiento, mediante:

REDES NEURONALES ARTIFICIALES 15

5. Conclusiones

Este trabajo ha pretendido realizar una pequeña introducción a algunas características de neuroredes conocidas. De hecho, aún los estudios más avanzados que existen hoy día sobre el tema están muy alejados de entender el funcionamiento del cerebro, que fue su motivación inicial. El tema en realidad es muy vasto. Sin embargo, pese a que hemos visto una parte ínfima del total, hemos podido apreciar algunas cualidades de este mecanismo de procesamiento de información.

En primer debemos lugar destacar que es posible modelar el funcionamiento de una neurona en forma extremadamente simple, y sin embargo, posee una gran capacidad, vemos la sencillez y la complejidad unidas de un modo maravilloso. Por ejemplo, de describió la posibilidad de procesar cantidades increíbles de información en forma paralela, de un modo sencillo y natural. Al poder establecerse las funciones lógicas mediante la combinación de neuronas vemos también la posibilidad de

poder construir computadoras con ellas, por lo menos en principio. Otra características fundamentales que no podemos olvidar son la Robustez y la Capacidad de Aprendizaje. Las neuronas son capaces de imitar y predecir el comportamiento de sistemas dinámicos sin usar ningún modelo explícito, y capaces de reconocer patrones, aunque éstos tengan errores. Además de todo eso, son muy interesantes para la Física, tanto para procesar información como en sí mismas. En cuanto a esto último, se han descubierto interesantes áreas que relacionan las neuroredes con la Teoría de la Información, el Caos, la Mecánica Estadística.

6. Bibliografía

[1] Laurene Fausett, Fundamentals of Neural Networks (Prentice-Hall, New Yersey, USA, 1994). [2] Simon Haykin, Neural Networks (Prentice-Hall, New Yersey, USA, 1999).