



Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una introducción a la percepción visual, desde la detección de bordes hasta la reconoción de objetos. Se abordan temas como la segregación de objetos, la localización en profundidad, la investigación en percepción de movimiento y las teorías de detección de rasgos. El texto también incluye información sobre la importancia de la información global y local en el procesamiento visual.
Tipo: Resúmenes
1 / 7
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




RESUMEN BLOQUE Percepción 1.Introducción La percepción de nuestro mundo es uno de los aspectos más llamativos de nuestra experiencia consciente. Abrir los ojos revela un complejo mundo de objetos, colores y movimiento que percibimos sin esfuerzo aparente. El sonido llega a nuestros oídos. Sentimos los objetos que nos tocan y la posición de nuestros brazos en el espacio. Somos capaces de detectar una variedad de olores que nos rodean. Y lo más sorprendente, aunque esta información proviene de diferentes órganos sensoriales, finalizamos con un sentido coherente del mundo. La percepción es un claro ejemplo en psicología cognitiva de lo que es fácil hacer para las personas pero es difícil para los ordenadores, y lo que es fácil para los ordenadores es arduo para las personas. Después de todo, los programas de ordenador han sido desarrollados para ser iguales que los jugadores de ajedrez, pero no hay ordenadores cercanos a la habilidad perceptual de un niño de 5 años. ¿En qué reside esta dificultad? Un problema importante es que existe demasiada ambigüedad en el mundo que el sistema perceptual debe resolver. Existen dos tipos de ambigüedad que son problemáticos. Uno, el mismo objeto puede ser visto desde diferentes ángulos y bajo diferentes condiciones de luminosidad (observar tu coche en diferentes situaciones y reconocerlo). Segundo, la imagen que ves proviene de la luz que se refleja en las superficies de los objetos del mundo, entra en tus ojos y activa la retina. La retina está localizada en el ojo y está compuesta de células sensibles a la luz que traducen fotones (paquetes físicos de luz) en señales eléctricas que pueden ser procesadas por el cerebro. La retina es una superficie bidimensional; con lo que tenemos que afrontar el problema de reconstruir el mundo externo tridimensional a partir de los patrones de luz en estas dos dimensiones. Esta reconstrucción es difícil, ya que hay un conjunto de objetos ilimitado que puede producir la misma imagen en la retina.
2. Percepción visual ¿Cuáles son los objetivos de la visión? Necesitamos tener un sentido de la estructura tridimensional del mundo exterior. Necesitamos saber qué objetos están ahí fuera. Necesitamos conocer dónde están localizados, para que podamos desplazarnos entre ellos y atraparlos. Necesitamos conocer cómo estos objetos están actuando. El sistema perceptual también debe tratar la información para que el conocimiento relevante de la memoria pueda tomar contacto con ella. Como veremos, la visión no supone un flujo de información pasivo desde el ojo hacia los procesos de más alto nivel. Más bien, la percepción es un proceso activo donde diferentes niveles de análisis interactúan para determinar lo que percibimos y entendemos. A grandes rasgos, podemos dividir la visión entre un nivel bajo y un nIvelalto, como se muestra en la Figura 1 (véase Marr, 1982). La visión de bajo nivel supone extraer información preliminar a partir de los patrones de luz que inciden en la retina. Por ejemplo, los objetos en el mundo a menudo tienen bordes afilados. Así, el sistema visual intenta encontrar discontinuidades en el patrón de luz que puedan señalar márgenes que pueden ser bordes de objetos. Por el contrario, la visión de alto nivel hace referencia a la percepción de elementos a gran escala como objetos totales o caras. Vamos a discutir la visión de bajo nivel, centrándonos en el modo en el que el sistema visual utiliza una variedad de pistas para construir una representación inicial del mundo visual. Después, nos centraremos en la visión de alto nivel.
Figura 1. Una división de la visión
3. Visión de bajo nivel El objetivo de la visión es capacitarnos para interactuar con nuestro medio tridimensional. Para ello, el sistema visual formará representaciones del mundo visual. Es importante tener en cuenta que el objetivo último de la visión no es solamente formar alguna representación interna de lo que hay en el mundo visual, sino más bien extraer información útil que nos permita interactuar con el medio. Gibson (1950) señaló que los sistemas perceptuales están diseñados para servir a los objetivos de la persona, así que el sistema visual fija información que ayudará a un individuo a conseguir sus objetivos. La sensibilidad a los objetivos puede ayudar a restringir el modo en que la información sobre el mundo visual es interpretada. La visión de bajo nivel ayuda a servir a los objetivos de las personas, extrayendo información que determina rasgos de los objetos en el mundo, dónde están localizados, y cómo se
Visión de bajo nivel Márgenes Movimiento Profundidad
Visión de alto nivel Reconocimiento de objetos Reconocimiento de caras
Input visual
están moviendo. A continuación, discutiremos la detección de márgenes como un ejemplo de información relevante de qué son los objetos. Examinaremos la segregación de objetos y la localización de objetos en profundidad como ejemplos de información relevante de dónde están los objetos. Finalmente, describiremos la investigación en percepción de movimiento como un ejemplo de información relevante de cómo los objetos actúan en el espacio.
3.1. Detección de bordes Para tener una idea de la complejidad del procesamiento de información visual sólo tenemos que explorar un estadio en detalle. Por ejemplo, ¿cómo sabemos dónde un objeto empieza o termina? Intuitivamente parece claro. Los objetos tienen límites claros, y así si encontramos los bordes de los objetos, seremos capaces de encontrar los objetos en el mundo. Resulta que la detección de márgenes en una imagen es una tarea complicada. La primera cuestión que necesitamos tratar en la detección de bordes es cómo separar bordes amplios (que pueden señalar límites de objetos) de los detalles de un objeto (que puede delimitar partes de un objeto). Considerar el ejemplo de un F compuesta de S en la figura 2. SSSSSSSSSSSSSSSSSSSSSSS S S SSSSSSSSSS S S S Figura 2. Tipo de estímulo empleado por Navon (1977) para estudiar el procesamiento de la información de detalle.
En la investigación sobre visión, los bordes que son marcados como los que componen la F se consideran detectables en base a información de frecuencia espacial baja. La frecuencia espacial es el número de líneas de un marcado uniforme que pueden encajar en una unidad particular de distancia. Cuanto más marcada la línea, menor situada en un espacio dado y menor su frecuencia espacial. Así, la información de frecuencia espacial baja en una imagen consiste en rasgos de objetos como líneas marcadas y forma total. Por el contrario, los bordes que componen la S minúscula requieren atención para detectar la información de frecuencia espacial alta. Esta información reside en líneas e información de detalle fino en las imágenes. El sistema visual tiene diferentes analizadores de frecuencia espacial que procesa la información de forma independiente (Graham, 1992). Se ha propuesto que las diferencias en las funciones de los hemisferios derecho e izquierdo del cerebro pueden ocurrir debido a que el hemisferio derecho prefiere procesar información de frecuencia espacial relativamente baja, a diferencia del izquierdo (Ivry& Robertson, 1998). A pesar de las posibles diferencias hemisféricas, la presencia de canales de frecuencia espaciales independientes implica que el proceso de detección de bordes puede darse en diferentes niveles de resolución (para información burda y detallada). Sin embargo, existe alguna evidencia que sugiere que el procesamiento de escenas normalmente comienza con información global y gradualmente incorpora información local. En un estudio clásico, Navon (1977) utilizaba objetos como F y S mostrados en la figura 2. Encontró evidencia para lo que denominó precedencia global , en que la letra F era más accesible al procesamiento que la letra S. No siempre se ha observado la precedencia global. Trabajos posteriores demostraron que el tamaño de la imagen (ángulo visual) es un factor importante, y con ángulos más grandes la precedencia local puede ser observada, al menos para estímulos de letras. Sin embargo, la detección de bordes no es sencilla. Los bordes están definidos por diferencias en brillo entre regiones, pero no se garantiza que estas diferencias sean claras o ser más o menos continuas. Una cosa que el sistema visual hace durante la detección de bordes es potenciar las diferencias entre regiones luminosas y oscuras para diferenciar los bordes. Por esta razón, la parte luminosa de un borde puede parecer más brillante de lo que realmente es, y la parte oscura puede parecer más oscura. (e.g., ilusiones de contorno).
4. Localización Para localizar objetos en nuestro medio, primero tenemos que segregar objetos entre ellos y del fondo. Asociado con esta tarea esté el problema de determinar la posición y el movimiento de objetos en el mundo. Segundo, debemos determinar cuán lejos está el objeto de nosotros. Finalmente, si el objeto se mueve, necesitamos percibir la dirección y velocidad de este movimiento, para que podamos predecir la localización del objeto en el futuro. Los 3 aspectos, segregación, fijar la distancia y determinar el movimiento, están estrechamente relacionados;
por los objetos en nuestro medio se mueven a través de la retina desde la derecha a la izquierda. Este movimiento relativo o paralaje de movimiento proporciona una clave de profundidad muy efectiva. Los objetos más cercanos parecen moverse más rápidamente que los objetos lejanos. Por ejemplo, cuando viajamos en coche.
4.2.4. Claves binoculares La distancia entre los dos ojos ofrece oportunidades para que el sistema visual proporcione información sobre la distancia de los objetos. Cuando un objeto está cercano al observador, el ángulo relativo que los ojos apuntan para fijarse en un objeto proporciona información geométrica sobre la distancia del objeto. Además, utilizando la estereopsis , el sistema visual es capaz de explotar el hecho de que los dos ojos recogen visiones un tanto diferentes del mundo. El cerebro es capaz de emparejar los elementos en la imagen de cada ojo. Al emparejar estos elementos, el cerebro puede entonces determinar qué partes de la imagen están aproximadamente en la misma localización relativa en ambas imágenes y qué partes están en localizaciones relativamente diferentes. Cuanto mayor sea la disparidad en las imágenes, más cercano está el objeto del observador. Muchas diferentes fuentes de información son utilizadas por el cerebro para emparejar aspectos de cada imagen. En principio, parece que la forma es la información más probable de ser utilizada para emparejar pares de imágenes. Sin embargo, es posible recoger información de profundidad incluso de pares de imágenes que parecen colecciones de puntos al azar, donde un conjunto de puntos en una imagen está desplazado una pequeña distancia de los puntos en la otra imagen. Tal configuración nos llevaría a la percepción de un grupo de puntos en frente de un fondo.
5. Visión de alto nivel Hasta ahora no hemos dicho nada sobre los procesos de alto nivel que dan lugar a la percepción del objeto y dela escena. Aquí, nos centraremos en los problemas más importantes y difíciles de la percepción: cómo identificamos objetos en el mundo basándonos en propiedades visuales como la forma. Vamos a considerar algunas ideas en relación con cómo se produce el reconocimiento. Cada una de estas ideas hace una propuesta diferente según cómo se represente la información sobre los objetos visuales.
5.1. Teorías de detección de rasgos La idea clave de los modelos de rasgos es que todos los objetos están compuestos de partes diferenciadas denominadas rasgos. Parece intuitivamente natural explicar la similitud entre objetos en términos de las propiedades que comparten. Además, los rasgos proporcionan un vocabulario para construir objetos. Igual que las letras del alfabeto pueden ser utilizadas para componer miles de palabras, un pequeño conjunto de rasgos visuales puede ser suficiente para describir un gran número de objetos. Incluso hay evidencia fisiológica de los rasgos. Lettvin et al (1959)determinaron que el sistema visual de la rana tiene 4 tipos diferentes de detectores de rasgos: detector de margen, que responde al borde entre regiones luminosas y oscuras; detectores de contraste de movimiento de rasgos, que responde cuando un margen se mueve; detectores de mosca o margen convexo, que responde cuando un punto oscuro, circular y pequeño, se mueve a través del campo de visión de la rana; detectores de oscuridad, que reaccionan cuando se reduce la iluminación total. Los detectores de rasgos en el sistema visual de la rana parecen ser innatos. Por el contrario, parece que las personas debemos tener un aprendizaje perceptual, permitiéndonos crear nuevos rasgos visuales. Por ejemplo, cuando aprendemos nuevas categorías, las personas parecen desarrollar nuevos rasgos visuales que nos permiten distinguir entre las categorías que están siendo aprendidas. De acuerdo con los modelos de rasgos, el reconocimiento de un objeto supone descomponer un estímulo complejo en sus rasgos y entonces emparejar los rasgos con los rasgos en las representaciones de objetos en MLP. Igual que cada letra del alfabeto tiene un conjunto único de rasgos, los objetos pueden tener también un único conjunto de rasgos. Por ejemplo, si todos los perros tienen los rasgos x,y,z y ningún otro objetos tiene estos 3 rasgos, cuando el sistema perceptual detecta estos rasgos debe concluir que el objeto es un perro. Sin embargo, los modelos de rasgos son incompletos como teorías del reconocimiento de objetos. Estos modelos normalmente ignoran las relaciones espaciales entre los rasgos. Las descripciones de rasgos pueden incluir componentes espaciales, pero ignoran sus relaciones espaciales. Describir la T como una letra con un segmento horizontal (_) y un segmento vertical (| ) no distingue entre una T y un +. Los modelos de rasgos se enfrentan con el denominado problema de anagrama; esto es, si las letras son rasgos de palabras, entonces ¿qué distingue ‘átomo’ de ‘moáto’?
Los modelos de rasgos también parecen presuponer que los objetos ya han sido identificados u aislados en escenas complejas, ya que de otro modo el sistema perceptual se perdería intentando componer rasgos de diferentes objetos en un objeto coherente. Incluso la segregación espacial no ayudaría mucho –una taza de café con una cucharilla dentro no es una único objeto. Pero si los objetos son aislados antes de que se aplique un análisis de rasgos, ¿cómo se da esta segregación? Los modelos de rasgos sólo tratan parte del problema de reconociendo de objetos o los detectores de rasgos sólo son un aspecto del sistema de reconocimiento de objetos.
5.2. Teorías estructurales Una limitación de los modelos de rasgos es que no tienen en cuenta las relaciones espaciales. Las teorías de descripción estructural se centran explícitamente en las relaciones espaciales. Las descripciones estructurales incluyen rasgos que describen partes de objetos y relaciones espaciales que describen cómo se conectan las partes. Estas descripciones estructurales de la T y el + son sólo un ejemplo. Existen muchas propuestas para descripciones estructurales que difieren en los detalles de los rasgos particulares que proponen son parte de la representación de un objeto y en el conjunto de relaciones que asumen son utilizadas para combinar dos o más rasgos (Barsalou, 1999, Marr, 1982). Una ventaja principal de estas teorías es que son capaces de dar cuenta de cómo podemos reconocer un gran número de objetos sin tener que asumir que conocemos un gran número de rasgos. Un ejemplo es la teoría de reconocimiento por componentes de Biederman (1987) de reconocimiento de objetos. Sugiere que nuestras representaciones de objetos están basadas en 36 formas básicas denominadas geones. Los geones son formas tridimensionales simples como cilindros, conos y bloques. Las descripciones estructurales de objetos complejos se construyen a partir de estos componentes utilizando relaciones espaciales. Así, un pequeño número de geones combinados con relaciones espaciales pueden ser utilizados para describir millones de objetos diferentes. Para que esta teoría funcione, debe haber algún modo de extraer información sobre los geones a partir de imágenes utilizando información de rasgos de bajo nivel. Biederman argumentaba que las formas básicas de los geones pueden ser reconocidas basadas en relaciones ’no accidentales’ entre los contornos en la imagen para determinar la descomposición de las partes. Se denominan no accidentales porque las combinaciones al azar de propiedades en una imagen no es probable que produzcan estas propiedades. Otras claves o propiedades no accidentales incluyen continuación suave, coterminación y tipos de simetría. La idea es que algunos patrones son mejores predictores que otros y que el sistema visual sintoniza con estos aspectos informativos de las escenas. La teoría de reconocimiento por componentes tiene algunas propiedades. Explica cómo los objetos pueden ser reconocidos utilizando sólo un número limitado de elementos básicos cuya presencia puede ser extraída de los elementos de nivel más bajo de la imagen visual. Además, la teoría ha sido implementada en un modelo de ordenador, que demuestra que es capaz de formar la base de un sistema de reconocimiento de objetos (Hummel&Biederman, 1992). De cualquier modo, la teoría también tiene limitaciones. Por un lado, la descomposición de un objeto en geones puede no ser lo suficientemente refinada para distinguir entre objetos que tienen más o menos las mismas partes (e.g., perro vs. lobo o gato). Por otro lado, algunos objetos (e.g., un trozo de pan) son difíciles de descomponer en partes que caracterizan al objeto y que son aplicables a una variedad de otros objetos. Por supuesto, uno podría utilizar más unidades y más pequeñas, pero el coste de añadir más unidades es que las descripciones estructurales serían mucho más complejas (más geones en objetos y más relaciones entre geones a ser codificadas). Hay que recordar que un postulado importante de la teoría es que las representaciones de objetos están basadas en un conjunto limitado de geones. Dos tipos de evidencia son necesarias para una teoría de descripción estructural: (i) debe haber evidencia que los objetos se descomponen en componentes, y especificar más el tipo de componente; (ii) que estos componentes se combinan utilizando relaciones.
5.3. Emparejamiento de plantilla y alineamiento La teoría de rasgos y la teoría de descripción estructural asumen que las representaciones de las personas de objetos visuales consisten en listas de elementos que describen la imagen. El enfoque de emparejamiento de plantilla asume que las representaciones de imágenes son realmente muestras bi-dimensionales de elementos de la imagen (o pixeles). Los escáneres ópticos que utilizan los bancos para leer números de cuenta de los cheques utilizan este tipo de emparejamiento de plantilla. Una plantilla es justo una copia de una imagen. Emparejar una plantilla supone encontrar los elementos que corresponden entre la imagen visual actual y la plantilla y determinar cómo de bien emparejan.
conexiones también pueden ser inhibitorias , en cuyo caso cuando un nodo está altamente activo, reduce el nivel de activación del nodo con el que está conectado. En el modelo de activación interactiva, los nodos del nivel de rasgos tienen conexiones excitatorias con los nodos del nivel de palabra que son consistentes con la presencia de este rasgo. Así, cuando un rasgo diagonal se presenta (y así está activo) hace más activo el nodo de la letra R, pero menos activo el nodo de la letra L. igualmente, el nodo de la letra T en la primera posición en la palabra tiene una conexión excitatoria con la palabra TILT, pero una conexión inhibitoria con la palabra HIRE. Los nodos para letras y palabras tienen conexiones inhibitorias con otras palabras y nodos en el mismo nivel. Estas conexiones reflejan que una determinada letra pueda ser T o L, pero no ambas, y que una palabra pueda ser WORD o WORK, pero no ambas. Finalmente, la activación fluye a lo largo de las conexiones en ambas direcciones. Así, si el nodo que corresponde a la letra T en la primera posición está activo, tiene a excitar la palabra TILT. Igualmente, cuando la palabra TILT está activa, tiende a excitar el nodo que representa a la T en primera posición. En este modelo el procesamiento empieza al activar los rasgos presentes en una palabra que se muestra al sistema. La activación entonces fluye a las letras conectadas con estos rasgos. A continuación, la activación fluye desde las letras a los nodos de palabra. Después de que algunos de los nodos de palabra son activados, la activación desde los nodos de palabra fluye hacia los nodos de letra (de aquí el nombre de activación interactiva). Los patrones de excitación e inhibición representan un conjunto de restricciones que necesitan ser satisfechas o fuentes de información que se integran. Lo que emerge son los candidatos de letra (y palabra) más plausibles, teniendo en cuenta la información total que está presente. El proceso parece caótico, pero los patrones de activación se estabilizan en poco tiempo. Esta activación de los nodos corresponde a la interpretación realizada del input. Este modelo predice una variedad de fenómenos que conciernen a los efectos de contexto en percepción de letras y palabras. Por ejemplo, el modelo es consistente con el efecto de superioridad de palabra ya que sin la retroalimentación del nivel de palabra, el procesamiento no elegiría la letra. Estas y otras observaciones proporcionan un fuerte apoyo a las ideas plasmadas en este modelo. El modelo original construía directamente letras y palabras en la red. En modelos de red más complejos, es posible aprender nuevas palabras o rasgos de alto nivel a partir de la experiencia (Seidenberg&McClelland, 1989).