







Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Atención, Percepción y Memoria, Profesor: Mauricio Iza Mikeleiz, Carrera: Psicología, Universidad: UMA
Tipo: Resúmenes
1 / 13
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!








RESUMEN BLOQUE Percepción
1.Introducción
La percepción de nuestro mundo es uno de los aspectos más llamativos de nuestra experiencia consciente. Abrir los ojos revela un complejo mundo de objetos, colores y movimiento que percibimos sin esfuerzo aparente. El sonido llega a nuestros oídos. Sentimos los objetos que nos tocan y la posición de nuestros brazos en el espacio. Somos capaces de detectar una variedad de olores que nos rodean. Y lo más sorprendente, aunque esta información proviene de diferentes órganos sensoriales, finalizamos con un sentido coherente del mundo.
La percepción es un claro ejemplo en psicología cognitiva de lo que es fácil hacer para las personas pero es difícil para los ordenadores, y lo que es fácil para los ordenadores es arduo para las personas. Después de todo, los programas de ordenador han sido desarrollados para ser iguales que los jugadores de ajedrez, pero no hay ordenadores cercanos a la habilidad perceptual de un niño de 5 años.
¿En qué reside esta dificultad? Un problema importante es que existe demasiada ambigüedad en el mundo que el sistema perceptual debe resolver. Existen dos tipos de ambigüedad que son problemáticos. Uno, el mismo objeto puede ser visto desde diferentes ángulos y bajo diferentes condiciones de luminosidad (observar tu coche en diferentes situaciones y reconocerlo). Segundo, la imagen que ves proviene de la luz que se refleja en las superficies de los objetos del mundo, entra en tus ojos y activa la retina. La retina está localizada en el ojo y está compuesta de células sensibles a la luz que traducen fotones (paquetes físicos de luz) en señales eléctricas que pueden ser procesadas por el cerebro. La retina es una superficie bidimensional; con lo que tenemos que afrontar el problema de reconstruir el mundo externo tridimensional a partir de los patrones de luz en estas dos dimensiones. Esta reconstrucción es difícil, ya que hay un conjunto de objetos ilimitado que puede producir la misma imagen en la retina.
2. Percepción visual
¿Cuáles son los objetivos de la visión? Necesitamos tener un sentido de la estructura tridimensional del mundo exterior. Necesitamos saber qué objetos están ahí fuera. Necesitamos conocer dónde están localizados, para que podamos desplazarnos entre ellos y atraparlos. Necesitamos conocer cómo estos objetos están actuando. El sistema perceptual también debe tratar la información para que el conocimiento relevante de la memoria pueda tomar contacto con ella. Como veremos, la visión no supone un flujo
de información pasivo desde el ojo hacia los procesos de más alto nivel. Más bien, la percepción es un proceso activo donde diferentes niveles de análisis interactúan para determinar lo que percibimos y entendemos.
A grandes rasgos, podemos dividir la visión entre un nivel bajo y un nIvel alto, como se muestra en la Figura 1 (véase Marr, 1982). La visión de bajo nivel supone extraer información preliminar a partir de los patrones de luz que inciden en la retina. Por ejemplo, los objetos en el mundo a menudo tienen bordes afilados. Así, el sistema visual intenta encontrar discontinuidades en el patrón de luz que puedan señalar márgenes que pueden ser bordes de objetos. Por el contrario, la visión de alto nivel hace referencia a la percepción de elementos a gran escala como objetos totales o caras. Vamos a discutir la visión de bajo nivel, centrándonos en el modo en el que el sistema visual utiliza una variedad de pistas para construir una representación inicial del mundo visual. Después, nos centraremos en la visión de alto nivel.
Figura 1. Una división de la visión
3. Visión de bajo nivel
El objetivo de la visión es capacitarnos para interactuar con nuestro medio tridimensional. Para ello, el sistema visual formará representaciones del mundo visual. Es importante tener en cuenta que el objetivo último de la visión no es solamente formar alguna representación interna de lo que hay en el mundo visual, sino más bien extraer información útil que nos permita interactuar con el medio. Gibson (1950) señaló que los sistemas perceptuales están diseñados para servir a los objetivos de la persona, así que el sistema visual fija información que ayudará a un individuo a conseguir sus objetivos. La sensibilidad a los objetivos puede ayudar a restringir el modo en que la información sobre el mundo visual es interpretada.
Visión de bajo nivel
Márgenes
Movimiento
Profundidad
Visión de alto nivel
Reconocimiento de objetos
Reconocimiento de caras
Input visual
En la investigación sobre visión, los bordes que son marcados como los que componen la F se consideran detectables en base a información de frecuencia espacial baja. La frecuencia espacial es el número de líneas de un marcado uniforme que pueden encajar en una unidad particular de distancia. Cuanto más marcada la línea, menor situada en un espacio dado y menor su frecuencia espacial. Así, la información de frecuencia espacial baja en una imagen consiste en rasgos de objetos como líneas marcadas y forma total.
Por el contrario, los bordes que componen la S minúscula requieren atención para detectar la información de frecuencia espacial alta. Esta información reside en líneas e información de detalle fino en las imágenes.
El sistema visual tiene diferentes analizadores de frecuencia espacial que procesa la información de forma independiente (Graham, 1992). Se ha propuesto que las diferencias en las funciones de los hemisferios derecho e izquierdo del cerebro pueden ocurrir debido a que el hemisferio derecho prefiere procesar información de frecuencia espacial relativamente baja, a diferencia del izquierdo (Ivry & Robertson, 1998). A pesar de las posibles diferencias hemisféricas, la presencia de canales de frecuencia espaciales independientes implica que el proceso de detección de bordes puede darse en diferentes niveles de resolución (para información burda y detallada). Sin embargo, existe alguna evidencia que sugiere que el procesamiento de escenas normalmente comienza con información global y gradualmente incorpora información local. En un estudio clásico, Navon (1977) utilizaba objetos como F y S mostrados en la figura 2. Encontró evidencia para lo que denominó precedencia global , en que la letra F era más accesible al procesamiento que la letra S. No siempre se ha observado la precedencia global. Trabajos posteriores demostraron que el tamaño de la imagen (ángulo visual) es un factor importante, y con ángulos más grandes la precedencia local puede ser observada, al menos para estímulos de letras.
Sin embargo, la detección de bordes no es sencilla. Los bordes están definidos por diferencias en brillo entre regiones, pero no se garantiza que estas diferencias sean claras o ser más o menos continuas. Una cosa que el sistema visual hace durante la detección de bordes es potenciar las diferencias entre regiones luminosas y oscuras para diferenciar los bordes. Por esta razón, la parte luminosa de un borde puede parecer más brillante de lo que realmente es, y la parte oscura puede parecer más oscura. (e.g., ilusiones de contorno).
4. Localización
Para localizar objetos en nuestro medio, primero tenemos que segregar objetos entre ellos y del fondo. Asociado con esta tarea esté el problema de determinar la posición y el movimiento de objetos en el mundo. Segundo, debemos determinar cuán lejos está el objeto de nosotros. Finalmente, si el
objeto se mueve, necesitamos percibir la dirección y velocidad de este movimiento, para que podamos predecir la localización del objeto en el futuro. Los 3 aspectos, segregación, fijar la distancia y determinar el movimiento, están estrechamente relacionados; además, existe evidencia fisiológica de que estas tres funciones son realizadas por la misma parte del sistema nervioso.
4.1. Segregación
Los primeros trabajos fueron realizados por los psicólogos de la Gestalt, que se centraron en la percepción de objetos como un todo y propusieron un número de principios sobre cómo el sistema perceptual organiza los objetos. Por ejemplo, estaban muy interesados en las relaciones figura-fondo. En una imagen, la figura es el principal objeto que es el foco de la percepción, y todo lo demás es el fondo. La figura se determina por regiones de contraste que están conectadas. La figura-fondo no está determinada por estímulo solo, como puede apreciarse en las figuras reversibles o ambiguas que permiten más que una organización (e.g., figura de la copa o las dos caras de perfil).
La Gestalt también identificó principios de agrupamiento para organizar figuras. Por ejemplo, cuanto más cerca están dos figuras, más probabilidad de ser agrupadas perceptualmente. Este principio de proximidad se aplica a la similaridad y membrecía en una región común.
El sistema perceptual también parece preferir contornos que continúan suavemente a lo largo de su curso. La organización por buena continuación no requiere que los contornos sean continuos.
4.2. Distancia
El sistema visual utiliza muchos tipos diferentes de información para determinar dónde están localizados los objetos. La imagen de la retina proporciona información sobre cómo las cosas están en relación unas con otras horizontal y verticalmente, de tal modo que el problema es determinar su distancia en profundidad. Aquí vamos a describir una serie de claves utilizadas para derivar la distancia de los objetos. Aunque percibir la profundidad de un objeto puede parecer sencillo, es un logro remarcable dado que la imagen de la retina es plana y no tiene profundidad. También, porque el sistema visual integra un número de diferentes piezas de información para determinar la distancia de un objeto. No tenemos experiencia consciente de combinar estas fuentes de información. En cambio, el sistema visual lo hace automáticamente.
retina desde la derecha a la izquierda. Este movimiento relativo o paralaje de movimiento proporciona una clave de profundidad muy efectiva. Los objetos más cercanos parecen moverse más rápidamente que los objetos lejanos. Por ejemplo, cuando viajamos en coche.
4.2.4. Claves binoculares
La distancia entre los dos ojos ofrece oportunidades para que el sistema visual proporcione información sobre la distancia de los objetos. Cuando un objeto está cercano al observador, el ángulo relativo que los ojos apuntan para fijarse en un objeto proporciona información geométrica sobre la distancia del objeto. Además, utilizando la estereopsis , el sistema visual es capaz de explotar el hecho de que los dos ojos recogen visiones un tanto diferentes del mundo. El cerebro es capaz de emparejar los elementos en la imagen de cada ojo. Al emparejar estos elementos, el cerebro puede entonces determinar qué partes de la imagen están aproximadamente en la misma localización relativa en ambas imágenes y qué partes están en localizaciones relativamente diferentes. Cuanto mayor sea la disparidad en las imágenes, más cercano está el objeto del observador.
Muchas diferentes fuentes de información son utilizadas por el cerebro para emparejar aspectos de cada imagen. En principio, parece que la forma es la información más probable de ser utilizada para emparejar pares de imágenes. Sin embargo, es posible recoger información de profundidad incluso de pares de imágenes que parecen colecciones de puntos al azar, donde un conjunto de puntos en una imagen está desplazado una pequeña distancia de los puntos en la otra imagen. Tal configuración nos llevaría a la percepción de un grupo de puntos en frente de un fondo.
5. Visión de alto nivel
Hasta ahora no hemos dicho nada sobre los procesos de alto nivel que dan lugar a la percepción del objeto y de la escena. Aquí, nos centraremos en los problemas más importantes y difíciles de la percepción: cómo identificamos objetos en el mundo basándonos en propiedades visuales como la forma. Vamos a considerar algunas ideas en relación con cómo se produce el reconocimiento. Cada una de estas ideas hace una propuesta diferente según cómo se represente la información sobre los objetos visuales.
5.1. Teorías de detección de rasgos
La idea clave de los modelos de rasgos es que todos los objetos están compuestos de partes diferenciadas denominadas rasgos. Parece intuitivamente natural explicar la similitud entre objetos en términos de las propiedades que comparten. Además, los rasgos proporcionan un vocabulario para construir objetos. Igual que las letras del alfabeto pueden ser utilizadas para componer miles de palabras, un pequeño conjunto de rasgos visuales puede ser suficiente para describir un gran número de objetos.
Incluso hay evidencia fisiológica de los rasgos. Lettvin et al (1959) determinaron que el sistema visual de la rana tiene 4 tipos diferentes de detectores de rasgos: detector de margen, que responde al borde entre regiones luminosas y oscuras; detectores de contraste de movimiento de rasgos, que responde cuando un margen se mueve; detectores de mosca o margen convexo, que responde cuando un punto oscuro, circular y pequeño, se mueve a través del campo de visión de la rana; detectores de oscuridad, que reaccionan cuando se reduce la iluminación total.
Los detectores de rasgos en el sistema visual de la rana parecen ser innatos. Por el contrario, parece que las personas debemos tener un aprendizaje perceptual, permitiéndonos crear nuevos rasgos visuales. Por ejemplo, cuando aprendemos nuevas categorías, las personas parecen desarrollar nuevos rasgos visuales que nos permiten distinguir entre las categorías que están siendo aprendidas.
De acuerdo con los modelos de rasgos, el reconocimiento de un objeto supone descomponer un estímulo complejo en sus rasgos y entonces emparejar los rasgos con los rasgos en las representaciones de objetos en MLP. Igual que cada letra del alfabeto tiene un conjunto único de rasgos, los objetos pueden tener también un único conjunto de rasgos. Por ejemplo, si todos los perros tienen los rasgos x,y,z y ningún otro objetos tiene estos 3 rasgos, cuando el sistema perceptual detecta estos rasgos debe concluir que el objeto es un perro.
Sin embargo, los modelos de rasgos son incompletos como teorías del reconocimiento de objetos. Estos modelos normalmente ignoran las relaciones espaciales entre los rasgos. Las descripciones de rasgos pueden incluir componentes espaciales, pero ignoran sus relaciones espaciales. Describir la T como una letra con un segmento horizontal (_) y un segmento vertical (|) no distingue entre una T y un +. Los modelos de rasgos se enfrentan con el denominado problema de anagrama; esto es, si las letras son rasgos de palabras, entonces ¿qué distingue ‘átomo’ de ‘moáto’?
Los modelos de rasgos también parecen presuponer que los objetos ya han sido identificados u aislados en escenas complejas, ya que de otro modo el sistema perceptual se perdería intentando componer rasgos de diferentes objetos en un objeto coherente. Incluso la segregación espacial no ayudaría mucho –una taza de café con una cucharilla dentro no es una
teoría ha sido implementada en un modelo de ordenador, que demuestra que es capaz de formar la base de un sistema de reconocimiento de objetos (Hummel & Biederman, 1992). De cualquier modo, la teoría también tiene limitaciones. Por un lado, la descomposición de un objeto en geones puede no ser lo suficientemente refinada para distinguir entre objetos que tienen más o menos las mismas partes (e.g., perro vs. lobo o gato). Por otro lado, algunos objetos (e.g., un trozo de pan) son difíciles de descomponer en partes que caracterizan al objeto y que son aplicables a una variedad de otros objetos. Por supuesto, uno podría utilizar más unidades y más pequeñas, pero el coste de añadir más unidades es que las descripciones estructurales serían mucho más complejas (más geones en objetos y más relaciones entre geones a ser codificadas). Hay que recordar que un postulado importante de la teoría es que las representaciones de objetos están basadas en un conjunto limitado de geones.
Dos tipos de evidencia son necesarias para una teoría de descripción estructural: (i) debe haber evidencia que los objetos se descomponen en componentes, y especificar más el tipo de componente; (ii) que estos componentes se combinan utilizando relaciones.
5.3. Emparejamiento de plantilla y alineamiento
La teoría de rasgos y la teoría de descripción estructural asumen que las representaciones de las personas de objetos visuales consisten en listas de elementos que describen la imagen. El enfoque de emparejamiento de plantilla asume que las representaciones de imágenes son realmente muestras bi-dimensionales de elementos de la imagen (o pixeles). Los escáneres ópticos que utilizan los bancos para leer números de cuenta de los cheques utilizan este tipo de emparejamiento de plantilla. Una plantilla es justo una copia de una imagen. Emparejar una plantilla supone encontrar los elementos que corresponden entre la imagen visual actual y la plantilla y determinar cómo de bien emparejan.
Este enfoque puede ser considerado demasiado simple para ser un candidato viable a explicar cómo las personas reconocen objetos. Después de todo, si rotamos un poco un objeto puede no coincidir con la plantilla, aunque las personas no suelen tener excesivo problema. O si podemos reconocer objetos que difieren en tamaño o si ocultamos algunas partes importantes del objeto.
Ullman (1996) ha intentado solventar estas críticas. Se asume que el reconocimiento de objeto consiste en dos estadios: (i) utilizando un conjunto de transformaciones para alinear el objeto presentado con las plantillas de objeto o modelos almacenados en memoria; (ii) buscar a través de estos modelos para encontrar el ‘mejor emparejamiento’ (modelo más similar) del objeto. La idea es que los objetos pueden ser representados utilizando
múltiples descripciones que corresponden a ver un objeto desde diferentes perspectivas.
Una virtud de los modelos de plantillas es que las representaciones de objeto pueden ser emparejadas basadas en las propiedades de las mismas imágenes. No necesitan procesos que extraigan propiedades de los objetos a partir de una imagen. Las teorías de descripción estructural requieren algún tipo de procesador que encuentre las propiedades de la imagen que serán utilizadas para representar la imagen. Además, el procesamiento de plantillas puede ser realizado eficientemente. Más que tener que intentar posibles combinaciones de componentes y relaciones, una teoría de plantilla sólo tiene que encontrar un pequeño número de puntos correspondientes entre las imágenes y entonces el resto de la imagen puede ser extraída y el grado de solapamiento de las imágenes puede ser calculado. Como las teorías de descripción estructural, las teorías de plantillas pueden ser difíciles de evaluar.
En resumen, los enfoques que hemos visto no son mutuamente exclusivos. La teoría de reconocimiento de componentes de Biederman emplea rasgos para construir geones, y los geones pueden ser vistos como rasgos de alto nivel. Similarmente, el enfoque de alineamiento de Ullman reside en rasgos al segmentar objetos y recoge puntos para alinear. En efecto, existe alguna razón para creer que el sistema visual utiliza ambos tipos de representaciones y puede incluso implementar estas teorías en diferentes hemisferios del cerebro.
Todos los sistemas propuestos para el reconocimiento de objeto utilizan información que viene de la visión de bajo y alto nivel. Sin embargo, hemos prestado poca atención a la cuestión de cómo las diferentes fuentes y niveles de información se combinan. Vamos a ver un modelo computacional específico que trata de integrar diferentes niveles de información en el reconocimiento. El modelo servirá para ilustrar un modo particular en el que se combinan información de bajo y alto nivel.
6. Niveles y la integración de información en efectos de contexto perceptuales
Hemos descrito que la percepción va en una única dirección desde la retina hacia los preceptos complejos. Pero la percepción de algunas unidades de información depende no sólo de los inputs de más bajo nivel sino también del contexto circundante. El procesamiento que comienza con información de bajo nivel y llega a información de alto nivel se denomina procesamiento de abajo-arriba. Existen también influencias arriba-abajo en percepción, donde el contexto influye cómo se perciben las cosas. El sistema perceptual integra una variedad de fuentes de información para desarrollar una interpretación de un estímulo visual.
En este modelo el procesamiento empieza al activar los rasgos presentes en una palabra que se muestra al sistema. La activación entonces fluye a las letras conectadas con estos rasgos. A continuación, la activación fluye desde las letras a los nodos de palabra. Después de que algunos de los nodos de palabra son activados, la activación desde los nodos de palabra fluye hacia los nodos de letra (de aquí el nombre de activación interactiva). Los patrones de excitación e inhibición representan un conjunto de restricciones que necesitan ser satisfechas o fuentes de información que se integran. Lo que emerge son los candidatos de letra (y palabra) más plausibles, teniendo en cuenta la información total que está presente. El proceso parece caótico, pero los patrones de activación se estabilizan en poco tiempo. Esta activación de los nodos corresponde a la interpretación realizada del input.
Este modelo predice una variedad de fenómenos que conciernen a los efectos de contexto en percepción de letras y palabras. Por ejemplo, el modelo es consistente con el efecto de superioridad de palabra ya que sin la retroalimentación del nivel de palabra, el procesamiento no elegiría la letra. Estas y otras observaciones proporcionan un fuerte apoyo a las ideas plasmadas en este modelo. El modelo original construía directamente letras y palabras en la red. En modelos de red más complejos, es posible aprender nuevas palabras o rasgos de alto nivel a partir de la experiencia (Seidenberg & McClelland, 1989).