











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Aprendizaje y Condicionamiento, Profesor: Pablo Adarraga, Carrera: Psicología, Universidad: UAM
Tipo: Ejercicios
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












3.1 Concepto y tipos de reforzadores positivos
Como ya se ha visto, un reforzador es un suceso que cuando sigue sistemáticamente a una respuesta, aumenta su fuerza, su probabilidad o su frecuencia futura. A estas alturas ya debe quedar claro que un refuerzo es un concepto definido a posteriori : lo es porque funciona como tal. Si probamos a reforzar una conducta con un determinado suceso y la conducta no aumenta, entonces ese suceso NO ha actuado como reforzador para ese organismo. Un refuerzo es un refuerzo porque refuerza.
Los R+ o recompensas pueden ser:
3.1.1. Reforzadores primarios y secundarios
Son reforzadores primarios los que actúan como reforzadores de manera general para todos los miembros normales de una especie, y lo hacen de forma esencialmente innata.
Comida, bebida, sueño, sexo, etc. No son muchos ni muy fáciles de manejar. En nuestra especie están muy matizados por el aprendizaje individual, cultural, etc.
Son reforzadores secundarios aquellos cuya capacidad de reforzar no se debe a razones innatas, sino a aprendizajes previos del organismo. Mucho más precisos que los primeros.
Algunos son reforzadores condicionados : han adquirido sus propiedades reforzadoras por condicionamiento clásico. Por ejemplo, el sonido de la palanca que presagia la comida, o el clicker utilizado en el adiestramiento de animales. Otros son secundarios pero no han sido aprendidos por condicionamiento. Por ejemplo, el dinero, la victoria en un juego o deporte, etc. Es el reforzador secundario por excelencia en el entrenamiento de muchos animales.
Permite señalar con precisión el momento en el que el organismo “se ha ganado el reforzador” con su conducta. Cuando el perro hace una conducta se hace click, y casi siempre comida después del click.
Otros son no condicionados como el dinero, la victoria en los juegos, etc.
3.1.2. Reforzadores particulares en Homo sapiens:
Algunos reforzadores actúan especialmente bien en los seres humanos por combinación de nuestras características etológicas (somos hipersociables, jerárquicos, etc.) y el influjo de la cultura y el contexto concreto en que nos desarrollemos. Por ejemplo:
Estos dos factores dependen del entorno social, no hay nada más social que el humano.
3.2 Entrenamiento de recompensa: Principales factores
Aunque son muchos los factores (variables independientes) que pueden influir en la efectividad del entrenamiento de recompensa, vamos a considerar sólo los más generalmente significativos. El más importante de ellos, el programa de refuerzo, lo tratamos con cierto detalle en último lugar, en punto aparte (3.3).
3.2.1. Magnitud del reforzador
Aumentos en la cantidad o calidad del reforzador mejoran la actuación del organismo en la situación de adquisición.
Aumentos en la cantidad de la recompensa mejoran la actuación del organismo en la situación de adquisición, pero no la persistencia de lo aprendido.
a por el regalo le vas diciendo: espera, que ya vamos a por el regalo, en seguida ves qué es, etc. Le recuerdas que el regalo le espera).
Estribillo: EL REFUERZO… YA
El condicionamiento funciona idealmente cuando el refuerzo (primario o secundario) es inmediato a la conducta, y pierde eficacia rápidamente al aumentar la demora.
3.2.3. Impulso
Se refiere al estado motivacional del organismo respecto a aquello que vamos a usar como recompensa (refuerzo positivo). Se define en términos de porcentaje del peso perdido, nº de horas de privación de agua, etc. El resultado general es que la actuación es tanto mejor cuanto mayor es el impulso (más peso perdido, más horas de privación, etc.), salvo en casos extremos. Por ejemplo : no es probable que funcionen recompensas alimentarias con un animal saciado. Es mejor que la rata tenga un poco de hambre si queremos experimentar aprendizaje. Si la rata no tiene hambre no va a querer darle a la palanca para que le salga comida. En el laboratorio se operativiza en términos de privación: gato 12 h sin beber, rata al 80% de su peso, etc. No confundir con motivadores típicamente humanos como incentivos, salarios, objetivos, metas vitales, etc. En humanos: muy importante asegurarlo, para no emplear “recompensas equivocadas”.
3.3. Programas de refuerzo
Hasta ahora hemos considerado sólo el caso en que la realización por parte del organismo de la conducta elegida va siempre seguida de la consecuencia establecida (la probabilidad del estímulo reforzador dada la respuesta operante es igual a 1). Esto (que constituye una contingencia total ) es lo que se denomina refuerzo continuo. Hay contingencia perfecta entre T y R+. Resumen:
Los casos en que la contingencia de refuerzo (la relación respuesta- consecuente) no es completa (es decir, no toda emisión de la respuesta va seguida del consecuente) se denominan situaciones de refuerzo parcial o intermitente. Resumen:
Es fácil ver que el refuerzo parcial es lo más común en situaciones naturales (ajenas al laboratorio o la clínica): en la vida real es extremadamente raro que las conductas normales de un organismo tengan éxito (=obtengan reforzador) en el 100% de los casos.
Un programa de refuerzo es una regla que especifica bajo qué condiciones la emisión de la respuesta va a ser seguida del reforzador, es decir, la pauta con la que las respuestas son reforzadas.
El programa de refuerzo es, según muchos autores, una de las variables independientes más poderosas de la psicología, en el sentido de que conociendo el programa concreto recibido por un organismo, se pueden predecir confiablemente muchas cosas respecto a la conducta adquirida.
Como es evidente por su definición, es posible una infinidad de programas de refuerzo diferentes. Aquí veremos sólo algunos de los más importantes, que se pueden clasificar en los siguientes tipos:
3.3.1. Programas básicos.
Los programas básicos (también llamados "simples") pueden ser
De razón: se recibe la recompensa sólo tras la emisión de un número determinado de respuestas.
3.3.1.2. Razón variable
Los programas de razón variable son especialmente importantes, ya que (dentro de los simples) son los que más se aproximan a las situaciones naturales.
Un programa RV especifica que el reforzador se administra tras un número de respuestas que varía a cada vez. Así, por ejemplo, en un RV-5 la recompensa se puede administrar tras 7, 3, 11, 2, 3, 5... respuestas, de forma que el promedio total sea 5 respuestas a lo largo de la sesión.
Los programas RV son los que generan la tasa de respuesta más alta (lo que se manifiesta en el registro acumulativo por una gran pendiente) y constante (no aparecen pausas sistemáticas).
Como RF, pero numero variable de Rs para darle cada recompensa. El organismo no puede cogerle el tranquilo, no puede saber cuándo le toca recompensa. Al final la media aritmética de las recompensas exigidas es 5 (en una RV-5). Por ejemplo: En una RV-5 damos la primera recompensa a la 7ª respuesta, luego a la 3ª luego a la 6ª, etc. Estos programas generan incertidumbre y en eso se basa su éxito. Un programa de RV-1 es un refuerzo continuo. TR muy alta (incluso más que con RF), tanto más alta cuanto mayor sea la razón. Muy difíciles de extinguir a veces se cronifica, TR MUY ESTABLE. No pausas post-reforzamiento salvo en valores altísimos y a veces ni así.
3.3.1.3. Intervalo fijo
En los programas IF se administra el reforzador a la primera emisión de la respuesta una vez transcurrido un intervalo desde la anterior emisión del reforzador, el cual intervalo tiene siempre la misma duración (de ahí lo de “fijo”). Cada reforzador, por tanto, inicia un intervalo (siempre igual) en el cual las Rs no son recompensadas.
Se recompensa la primera R emitida por el organismo una vez transcurrido un intervalo desde la última recompensa administrada. Tras cada recompensa hay un “tiempo muerto” Notación: IF-5, IF-30, IF-90, etc. Las bromas, las intervenciones en clase, etc. Un profesor recompensa a un alumno por participar, pero no le recompensa si levanta la mano una vez tras otra. Los refuerzos que se dan cuando la conducta está espaciada. TR no muy alta y tanto más baja cuanto mayor sea el valor del intervalo Con adquisiciones prolongadas, aparece el efecto de festoneado (el organismo aprende a concentrar todas sus respuestas cerca del fin del intervalo. Es como si hubiera “cogido el tranquillo al programa”.
El organismo aprende a anticipar cuándo aproximadamente va a estar disponible el siguiente reforzador, y progresivamente disminuye su tasa de respuestas al principio del intervalo y la aumenta hacia el final del mismo. Por ello, estos programas terminan por producir un característico efecto de festoneado en el registro acumulativo :
Por este motivo, es un programa idóneo para establecer Rs que se van a emplear como línea base de ulteriores tratamientos o experimentos (en particular, se emplean muy a menudo para establecer líneas base de conducta para ulteriores intervenciones). Es como IF, pero la duración del intervalo es diferente para cada recompensa (oscilando en torno a un promedio) Por ejemplo, en un IV-10 podría suceder o siguiente:
En líneas generales, cabe formular las siguientes conclusiones sobre los cuatro programas básicos:
3.3.2.- Otros programas de refuerzo (no básicos)
Vamos a ver sólo algunos ejemplos:
3.3.2.1.- Programas RDB
Significa “Reforzamiento Diferencial de Tasas Bajas”. Se da recompensa a una R sólo si no ha habido otra anterior en un determinado tiempo. Cada vez que el organismo da una respuesta sin que haya transcurrido el periodo exigido, éste se "reinicia". Es decir, el "periodo muerto" comienza con cada respuesta dada por el organismo. En esto es muy importante distinguirlos de los programas de intervalo, en los que dicho periodo se cuenta a partir de la última recompensa administrada.
El efecto de los RDB es que se consigue mantener la respuesta, pero a tasas tan bajas como se quiera.
Bastante empleados en intervenciones clínicas y educativas.
Administrar la recompensa solo si no ha habido otra en un periodo anterior de una duración dada. Cada vez que el organismo responde dentro del intervalo, se pone a 0 el intervalo, cada nueva respuesta dentro del intervalo te acaba alargando el momento de recibir la recompensa. Las respuestas dadas fuera de intervalo en este tipo de programa son nocivas. Cada respuesta vuelve a iniciar el tiempo muerto. NO CONFUNDIR CON LOS DE INTERVALO.
3.3.2.2.- Programas de duración
Se recompensa la conducta si se mantiene constante y sin interrupción durante un determinado periodo de tiempo.
Por ejemplo, podemos recompensar a un perro por caminar al lado de su amo o entrenador durante 3 minutos sin adelantarse, atrasarse o separarse.
Son muy importantes en la práctica, ya que a menudo el objetivo de intervención es lograr conductas persistentes (prestar atención en clase, mantenerse en la tarea, etc.)
Recompensamos una conducta solo si se mantiene sin interrupción por un tiempo determinado. Permiten implantar conductas sostenidas Bastante utilizados en intervención educativa y adiestramiento de animales Por ejemplo, la atención en clase, el “junto” de los perros, etc.
3.3.2.3.- Programas concurrentes
Dos o más respuestas distintas, accesibles al organismo al mismo tiempo, sometidas cada una de ellas a un programa de refuerzo distinto. En el caso típico de laboratorio se emplean cajas de Skinner modificadas, con dos o más palancas.
Reflejan el hecho de que los organismos, en condiciones naturales, tienen normalmente más de una respuesta posible ante una situación, sometidas cada una de ellas a diferentes contingencias de reforzamiento_. La "elección" de un operante por parte de un organismo no depende sólo de las contingencias de refuerzo asociadas a ese operante, sino también de las respuestas alternativas y sus respectivas contingencias._
Dos palancas, cada una de ellas sometida a un programa de IV distinto. Por ejemplo: IV-5, IV- A la larga el organismo responde a ambos operantes en proporción a la tasa de refuerzo que ofrecen. Esto se conoce como Ley de Igualación: en este tipo de situaciones, los organismos tienden a igualar la tasa relativa de respuesta a la tasa relativa de refuerzo.
3.4. Extinción
La extinción, como hemos visto, es el procedimiento por el cual se deja de administrar el consecuente a continuación de una R. Su efecto general termina por ser la reducción o desaparición de la R.
La extinción es un fenómeno que reviste especial importancia en al menos los siguientes aspectos:
La resistencia a la extinción de una R aprendida mediante un cierto procedimiento de adquisición es un indicio del poder a largo plazo de ese procedimiento para esa R ; se ha comprobado que no suele haber coincidencia entre los procedimientos de adquisición cuyo efecto es más poderoso a corto plazo (e.g., que generan en seguida una alta tasa de respuestas) con aquellos cuya persistencia temporal es mayor una vez que se suspende la contingencia.
El procedimiento de extinción es por sí mismo una técnica de aprendizaje que puede contribuir a eliminar respuestas inapropiadas de un organismo cuando se pueden eliminar las contingencias que las mantienen. De hecho, a veces constituye el método más eficaz para suprimir una R indeseada aprendida.
Proceso muy importante por sí mismo:
3.4.1. Curso temporal de la extinción.
El procedimiento de extinción no produce sólo un efecto de atenuación progresiva de la R. En realidad, es característico que en el proceso ocurra además lo siguiente:
Al principio de la fase de extinción de una R previamente condicionada se produce un aumento de tasa de respuesta.
La intensidad de la RC aumenta notablemente al principio de la extinción (por ejemplo, el animal hace más fuerza sobre la palanca).
La morfología de la R se hace progresivamente más variable , es decir, cuando el organismo emite la RC lo hace con movimientos cada vez menos homogéneos.
Se produce un aumento de frecuencia de conductas alternativas a la R en extinción que ya estaban presentes al principio de la adquisición y se habían reducido en el curso de ésta. En lo que se refiere a este punto y al anterior, la evolución de la conducta durante la extinción es justamente opuesta a la que ocurre durante la adquisición.
RESUMEN
Fases típicas de la extinción.
3.4.2. Factores de la extinción.
Castigo de la R de evitación : resulta a veces moderadamente eficaz, aunque puede en ocasiones provocar el efecto contrario. En todos los casos produce niveles muy altos de ansiedad. Por tanto, no suele ser un procedimiento recomendable.
Inundación o exposición con prevención de respuesta : Forzar al organismo a permanecer en presencia de las claves de miedo (ED^ ), impidiéndole realizar la R de evitación y sin administrar el E. aversivo. Es decir, demostrarle que "no pasa nada". Es en general un método más eficaz, y constituye la base de algunas técnicas terapéuticas (técnicas de exposición, desensibilización sistemática, etc.).
La eficacia de la inundación es mayor cuando, durante la misma, se obliga al organismo a realizar alguna conducta alternativa. Por otra parte, se han constatado respuestas residuales de miedo en sujetos sometidos a inundación: aunque la R de evitación se haya eliminado, siguen manteniéndose a distancia de los dispositivos involucrados, y se observan indicadores fisiológicos de ansiedad cuando se les fuerza a permanecer cerca de ellos.
3.5. Casos particulares de condicionamiento
3.5.1. Conducta supersticiosa
Este fenómeno fue descubierto por Skinner en 1948. Al dejar a palomas, deprivadas hasta el 75% de su peso, en una caja experimental individual y alimentarlas (un trocito de comida) a intervalos regulares (15 sg.) con independencia de su conducta (hicieran lo que hicieran, daba igual, SIEMPRE recibían comida) , muchas de ellas (seis de ocho) resultaron aparentemente condicionadas, de forma que la conducta que estuvieran realizando en el momento anterior a la administración de comida resultaba reforzada. Así, un sujeto aprendió a dar vueltas, otro a balancear la cabeza; otro a introducir la cabeza en un ángulo de la caja, etc. Los animales se comportaban exactamente como si la conducta causara la administración de comida, y de ahí la denominación de "conducta supersticiosa". Muchos prefieren, sin embargo, el nombre más sobrio de “condicionamiento accidental.
Parece plausible que este fenómeno tenga alguna relación con la persistencia de algunas conductas erróneas (prejuicios, rituales, supersticiones...). En el caso humano, sin embargo, no constituye ni mucho menos la única explicación, ya que muchas supersticiones comunes se deben a la transmisión cultural, y no a que el individuo haya experimentado una situación comparable a la del experimento de Skinner.
Los animales creían que como cuando hacían el movimiento y les salía la comida había contingencia entre ambos sucesos, pero no era verdad. Se produce una contingencia sin querer, sin que haya habido una intención previa de que haya una contingencia.
3.5.2. Efectos de interferencia en evitación/escape (CI)
Este efecto se ha probado, por ejemplo, aplicando a perros descargas muy intensas y largas. Para parte de los sujetos (control), las descargas son evitables mediante alguna respuesta. Para otros (grupo experimental), no hay posibilidad de evitación o escape (se traga las descargas sí o sí, hagan lo que hagan, es muy cruel, los animales intentan con todos sus recursos evitar las descargas, pero nada sirve). Tras un periodo de 24 horas, los mismos animales son expuestos a un procedimiento de evitación-escape en una caja de lanzadera. Se comprueba que los sujetos que habían sido sometidos a descargas incontrolables no aprenden. Esto es lo que se denomina efecto de interferencia.
En el caso de organismos muy jóvenes, la conducta de evitación- escape puede llegar a aprenderse, pero con mucha más dificultad.
La máxima interferencia (incluso permanente) se consigue con descargas de larga duración e intensidad media.
Este fenómeno está en la base del concepto de indefensión aprendida , propuesto por Seligman: el animal ha aprendido que no hay manera de defenderse de las descargas, y este aprendizaje “bloquea” el de posteriores respuestas de evitación y escape. El animal se bloquea, entra en una especie de estado de depresión y termina por no hacer nada porque ha aprendido que no hay nada que hacer. Existe evidencia de que este mismo principio explica algunas de las manifestaciones características de ciertos trastornos del estado de ánimo en sujetos humanos.
3.5.3. Aversión adquirida al sabor (CC)
PROCEDIMIENTO: Se presenta al organismo una sustancia con algún sabor bien definido (e.g. agua azucarada) que no haya probado anteriormente. Al cabo de un tiempo se le administra alguna sustancia que provoque malestar visceral (por ejemplo: se le inyecta sales de litio, o mediante rayos X produces una indigestión muy fuerte) (EI) A efectos adaptativos de la evolución, podemos decir que seguramente este efecto sirva para prevenirnos de intoxicaciones posteriores.
Sin embargo, es posible utilizar estímulos que no son neutros como ECs. Para el contracondicionamiento e EC no es neutro, ya es apetitivo o aversivo para el organismo. Consiste en cambiar esa aversión por apetición o esa apetición por aversión.
Contracondicionamiento : cualquier procedimiento de CC en el que se emplea como EC un estímulo que previamente tiene para el organismo un signo motivacional opuesto. Es decir, se trata de utilizar un EC asociado a una R apetitiva como EC en una nueva adquisición en la que se asocia a un EI aversivo ( contracondicionamiento aversivo ), o a la inversa ( contracondicionamiento apetitivo ).
Por ejemplo:
El contracondicionamiento aversivo se ha aplicado con éxito en el tratamiento de problemas como el abuso de sustancias y algunos problemas sexuales.
Tomando como ejemplo el tratamiento del alcoholismo, Voegtlin demostró, ya en los años 40, que se podía ayudar a personas en proceso de desintoxicación invirtiendo el signo motivacional de los estímulos asociados al alcohol (olor, color, aspecto, etc.).
Los resultados fueron que al cabo de un año el 60% de los sujetos continuaban sin haber probado el alcohol. Esta proporción descendía al 40% al cabo de dos años, y al 20% al cabo de 6 años.
En tratamiento, este fenómeno sirve para: