Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Condicionamiento operante, Apuntes de Psicología del Aprendizaje

Condicionamiento operante con la Ley del efecto de Thorndike, los diferentes métodos para la medición de la respuesta, los tipos de condicionamiento con sus respectivos programas de reforzamiento y los factores que afectan a la eficacia de dichos programas. Por último se trata la extinción y sus factores

Tipo: Apuntes

2018/2019

Subido el 07/01/2019

Blanchpach
Blanchpach 🇪🇸

4.6

(26)

18 documentos

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
T. 6-Condicionamiento operante
El condicionamiento pavloviano nos sirve para predecir aquello que va a ocurrir. No sirve para
cambiar la probabilidad de lo que va a ocurrir.
El condicionamiento operante también llamado condicionamiento instrumental sirve para
aprender a cambiar la probabilidad de lo que va a ocurrir en el futuro, es decir, la probabilidad
de la aparición del EI.
La investigación sobre el condicionamiento operante comenzó con los experimentos realizados
por el profesor Edward Thorndike, quien desarrolló un programa de investigación pensado para
superar las limitaciones de la psicología comparada del momento. Thorndike realizó los
primeros experimentos controlados sobre condicionamiento operante, estos son los
experimentos de las cajas problema.
Thorndike propuso que una manera objetiva de medir la inteligencia de los sujetos era medir la
latencia de la respuesta de escape, es decir, el tiempo que tardaba el sujeto en escapar de la caja.
A menor tiempo empleado en escapar significaría que el sujeto es más inteligente. El tiempo
sería el índice de medición del aprendizaje.
En el caso del aprendizaje operante hay que distinguir dos tipologías de respuesta:
1. Experimentos en los que el sujeto sólo debe encontrar la respuesta correcta. Estos
procedimientos son llamados de ensayo discreto.
2. Experimentos en los que el sujeto debe encontrar la respuesta correcta y realizarlo
repetidas veces. Este procedimiento es llamado de operante libre: Repetir la respuesta
un determinado número de veces.
Este condicionamiento no sirve para preparase sino para obtener una recompensa.
1 Ley del efecto
A partir de los experimentos de Thorndike propuso como ley fundamental del aprendizaje
operante la Ley del Efecto. La ley del efecto dice que si a un sujeto se le presenta un estímulo y
el sujeto da una respuesta ante ese estímulo, esa respuesta puede ir seguida de consecuencias
agradables o desagradables.
Agradable
E R C
Desagradable
Si la consecuencia de la respuesta es agradable la asociación entre el estímulo y la respuesta se
refuerza.
Gato en caja, si tira de la palanca sale, se fortifica la asociación entre tirar de la palanca y salir.
Por el contrario si la consecuencia de la respuesta es desagradable, la asociación entre el
estímulo y la respuesta se debilita.
2 Medición de la respuesta
Actualmente la medición de la respuesta no se realiza únicamente por la latencia, también se
mide la probabilidad, la magnitud. Existen dos métodos fundamentales de medición:
2.1 Método de ensayo discreto
Psicología del aprendizaje. T6 Blanca Mora Braceros
1
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Condicionamiento operante y más Apuntes en PDF de Psicología del Aprendizaje solo en Docsity!

T. 6-Condicionamiento operante

El condicionamiento pavloviano nos sirve para predecir aquello que va a ocurrir. No sirve para cambiar la probabilidad de lo que va a ocurrir.

El condicionamiento operante también llamado condicionamiento instrumental sirve para aprender a cambiar la probabilidad de lo que va a ocurrir en el futuro, es decir, la probabilidad de la aparición del EI.

La investigación sobre el condicionamiento operante comenzó con los experimentos realizados por el profesor Edward Thorndike, quien desarrolló un programa de investigación pensado para superar las limitaciones de la psicología comparada del momento. Thorndike realizó los primeros experimentos controlados sobre condicionamiento operante, estos son los experimentos de las cajas problema.

Thorndike propuso que una manera objetiva de medir la inteligencia de los sujetos era medir la latencia de la respuesta de escape, es decir, el tiempo que tardaba el sujeto en escapar de la caja. A menor tiempo empleado en escapar significaría que el sujeto es más inteligente. El tiempo sería el índice de medición del aprendizaje.

En el caso del aprendizaje operante hay que distinguir dos tipologías de respuesta:

  1. Experimentos en los que el sujeto sólo debe encontrar la respuesta correcta. Estos procedimientos son llamados de ensayo discreto.
  2. Experimentos en los que el sujeto debe encontrar la respuesta correcta y realizarlo repetidas veces. Este procedimiento es llamado de operante libre : Repetir la respuesta un determinado número de veces.

Este condicionamiento no sirve para preparase sino para obtener una recompensa.

1 Ley del efecto

A partir de los experimentos de Thorndike propuso como ley fundamental del aprendizaje operante la Ley del Efecto. La ley del efecto dice que si a un sujeto se le presenta un estímulo y el sujeto da una respuesta ante ese estímulo, esa respuesta puede ir seguida de consecuencias agradables o desagradables.

Agradable

E → R → C

Desagradable

Si la consecuencia de la respuesta es agradable la asociación entre el estímulo y la respuesta se refuerza.

Gato en caja, si tira de la palanca sale, se fortifica la asociación entre tirar de la palanca y salir.

Por el contrario si la consecuencia de la respuesta es desagradable, la asociación entre el estímulo y la respuesta se debilita.

2 Medición de la respuesta

Actualmente la medición de la respuesta no se realiza únicamente por la latencia, también se mide la probabilidad, la magnitud. Existen dos métodos fundamentales de medición:

2.1 Método de ensayo discreto

Psicología del aprendizaje. T6 Blanca Mora Braceros

El objetivo es evaluar si el sujeto ha aprendido a dar la respuesta correcta. El sujeto debe dar una respuesta y el ensayo finaliza cuando esta respuesta se da. Se mide a través de los laberintos de Thorndike.

  • Laberinto en T : Cuando la rata llega a la zona donde está la comida debe decidir si girar a la izquierda o a la derecha. En los laberintos en T se da un fenómeno llamado “Tendencia a la alternancia espontánea”: Tendencia innata a no volver al sitio donde ya comió (puesto que en la naturaleza en ese lugar ya no habrá más comida). Es una gran dificultad del laberinto en T con las ratas, ya que contradice lo más elemental de su naturaleza que es no volver al mismo sitio. El laberinto en T se usa en estudios de memoria.
  • En el corredor recto solo se puede medir el tiempo que tarda en llegar al final.

2.2 Método operante libre. Su objetivo es medir la evolución del aprendizaje mediante la tasa de respuesta. Se mide con la caja de Skinner, donde la respuesta que debe dar el sujeto es apretar la palanca para obtener comida.

  1. En primer lugar hay que hacerle establecer una asociación entre el dispensador con la comida (el hueco).
  2. En segundo lugar se debe establecer una asociación entre el ruido que hace el dispensador de la comida y la aparición de la comida. Es necesario porque el intervalo de tiempo entre la presión de la palanca y la aparición de la comida es excesivo, por lo que se necesita un estímulo intermedio. En realidad lo que la rata hace es apretar la palanca para escuchar el ruido.
  3. El sonido del dispensador asociado a apretar la palanca es aprendizaje Pavloviano. La rata aprende que apretando la palanca aparece la señal que anuncia la comida.

diferencia entre los laberintos de Thorndike y la caja de Skinner

  • Los métodos de Thorndike son “ensayos discretos” donde el sujeto sólo puede dar una respuesta en cada ensayo. Se mide si esta respuesta es correcta o no.
  • La caja de Skinner es un “método operante libre” se puede dar más de una respuesta en cada ensayo. Lo que se mide es la tasa de respuestas.

El primer problema que se plantea en el condicionamiento operante es que damos por hecho que el sujeto va a dar la respuesta buscada, por ejemplo, en la caja de Skinner damos por sentado que la rata apretará la palanca para obtener comida pero, ¿Cómo se consigue que apriete la palanca? Para ello utilizamos el procedimiento del Moldeamiento, también llamado método de las aproximaciones positivas.

3 Moldeamiento El moldeamiento o el método de aproximaciones sucesivas consiste en el establecimiento de una escala de aproximaciones sucesivas a través de refuerzos para llegar a la conducta deseada. Se refuerza las conductas que poco a poco se vayan pareciendo a la conducta deseada.

En el caso de la caja de Skinner:

  • Primera fase se premia a la rata por estar en el lado cercano a la palanca. Al estar cerca de la palanca por puro azar es probable que presione la caja.
  • (^) La fase 2 sería premiar a la rata únicamente al rozar la palanca.

Psicología del aprendizaje. T6 Blanca Mora Braceros

Entra en el parcial I hasta aquí.

  1. Programas de refuerzo o de reforzamiento

Los programas de refuerzo son las reglas que voy a imponer para determinar cuando la respuesta va a ir seguida del reforzador, o cuando va a desaparecer (en caso de correlación negativa). Normas que pongo para que determinadas respuestas vayan seguidas de un refuerzo.

Ejemplo: Cada 5 respuestas aparece un reforzador.

6.1 Tipos de programas

Los programas de refuerzo son fundamentalmente 4 que resultan de la combinación de los siguientes elementos:

  • (^) Programas de razón: Programa en el que la aparición del reforzador depende del nº de respuestas que dé el sujeto. El nombre técnico del programa es reforzamiento continuo (RFC). Especifica cuantas respuestas hay que dar para obtener el reforzador. Ej: 1 refuerzo cada 5 respuestas. El nº de reforzadores depende de la respuesta, es decir, del sujeto.
  • (^) Programas de intervalo: Programas en los que se obtiene el reforzador cuando ha pasado un determinado lapso de tiempo y se ha emitido la respuesta. El número de reforzadores depende del tiempo, no de las respuestas.
  • Programas fijos: El nº de respuestas que tiene que dar el sujeto o el tiempo es un nº fijo.
  • Programas variables: El número de respuestas que tiene que dar el sujeto varía o varía el intervalo temporal.

Por lo tanto los cuatro tipos de programas son:

6.1.1 Programa de razón fija El reforzador se obtendrá si el sujeto cumple con un número de respuestas fijo. El patrón conductual de estos programas sería que el sujeto presenta una alta tasa de respuestas y de forma constante ya que cuanto más responda más reforzadores tendrá. Ocurre un fenómeno

llamado p ausas posreforzamiento , sobre todo en programas de razón fija muy exigentes. Las pausas posreforzamiento es la tasa cero de respuestas que ocurre justo después de cada reforzamiento. Esto ocurre porque el sujeto se prepara para una nueva serie de repuestas (carrera de la razón). A mayores requisitos de razón más largas las pausas posreforzamiento.

  • Programa de razón fija “5”: El sujeto tiene que dar “5” respuestas.

6.1.2 Programa de razón variable El número de respuestas para obtener el reforzador varía, aunque siempre dentro de un determinado promedio.

El sujeto responde mucho y de forma constante ya que no sabe de forma exacta el número de respuestas que debe emitir para la obtención del reforzador. Como no es posible predecir el número de respuestas requeridas por cada reforzamiento, las pausas en la tasa de respuestas son mucho menos probables que en los de razón fija.

  • Programa de razón variable “5”: El sujeto tiene que dar como media “5” respuestas. (Puede dar 5, 6, 7…)

Diferencia razón fija y razón variable: RF patrón de respuesta pausa-carrera. RV patrón estable.

6.1.3 Programa de intervalo fijo

La cantidad de tiempo que tiene que pasar antes que una respuesta sea reforzada se mantiene constante de un ensayo a otro. El sujeto SI RESPONDE es recompensado después del intervalo de tiempo.

En este programa se da un efecto llamado Scallop effect, efecto festoneado o festón del intervalo fijo, Es un patrón de respuestas en el que cuando se acerca el momento del refuerzo el sujeto da más respuestas y tras el reforzador disminuye las respuestas.

Como nunca se refuerza al inicio del intervalo los sujetos aprenden a esperar y responder únicamente cundo se acerca el reforzador.

6.1.4 Programa de intervalo variable

El refuerzo está disponible después de un tiempo que varía aleatoriamente, pero alrededor de un promedio. Al igual que en los de intervalo fijo el sujeto tiene que realizar la respuesta para obtener el reforzador.

El intervalo es una media para la recompensa

¿Por qué no se produce el efecto festoneado? Porque el sujeto no sabe cuándo se acerca el momento en el que puede ser reforzado.

Por lo tanto el patrón de repuesta es constante y no muy elevado ya que el sujeto responde de forma continua pues no sabe cuándo se le va a reforzar y no muchas veces puesto que no aumentan los refuerzos por responder mucho.

Cada uno de los tipos de programa produce una respuesta diferente.

  • En los programas de razón e intervalo variables el sujeto responde de forma estable puesto que no sabe cuándo se le va a reforzar o cuantas supresiones tiene que realizar por lo que produce que el sujeto responda de forma estable.
  • En los programas de razón la respuesta crece más rápidamente puesto que depende del número de respuestas que dé el sujeto
  • Programas variables= Patrones estables
  • Programas fijos = Pausas tras el refuerzo.

Además de estos 4 programas fundamentales existen otros programas llamados programa de refuerzo diferencial de tasas.

6.1.5 Programas de refuerzo diferencial de tasas Son programas de reforzamiento en los que al sujeto se le va a pedir un determinado número de respuestas dentro de un intervalo específico de tiempo para obtener el reforzador. Hay dos tipos:

II. Marcado: Hacer que cuando el sujeto da la respuesta, esa respuesta para el sujeto le resulte llamativa, de forma que preste atención a lo que acaba de hacer. Esto supone que cuando el sujeto realiza la asociación entre la Respuesta y el reforzador el estímulo sorprendente hará más fácil su asociación. Se llama así puesto que se marca cual es la conducta importante.

  1. Influencia en el aprendizaje instrumental de la magnitud de la recompensa.

Como principio fundamental, a mayor recompensa el aprendizaje resulta más rápido y eficaz.

Crespi descubrió el efecto de contraste, que supone que la magnitud física de una recompensa no es lo mismo que la magnitud psicológica de esa recompensa.

La cantidad de la recompensa no depende solamente de la cantidad física de recompensa sino también de cómo percibe el sujeto esa recompensa.

El experimento de Crespi y el efecto de contraste:

Tenemos 4 grupos de ratas a las que entrenamos simplemente para correr por un corredor recto para obtener comida.

Fase1:

  • Dos grupos de los cuatro reciben en la fase 1 una gran cantidad de recompensa.
  • A los otros dos grupos en la fase 1 se les da una cantidad de recompensa pequeña.
  • (^) Los que reciben una gran cantidad de recompensa tienen un nivel de rendimiento mucho mayor que los que obtienen una pequeña recompensa.

Fase 2 (fase de contraste):

  • A uno de los dos grupos que recibían una recompensa grande se le pasa a una recompensa pequeña.
  • (^) A uno de los dos grupos que recibían una recompensa pequeña se le pasa a una recompensa grande.
  • A los otros dos grupos se les deja igual.

Si el comportamiento de los sujetos se ajustara psicológicamente a la cantidad física de recompensa que recibe, los sujetos que pasan de la cantidad grande a la cantidad pequeña deberían ver reducido su rendimiento hasta el nivel del grupo con recompensa pequeña. E igualmente pero a la inversa con los del grupo que recibe una cantidad pequeña de recompensa.

No obstante, Crespi descubrió que los sujeto que recibían una recompensa pequeña y pasaban a la recompensa grande superaban el rendimiento de los sujetos que siempre recibían una recompensa grande y a la inversa los sujetos que recibían una recompensa grande y pasan a recibir una pequeña presentan una caída de rendimiento por debajo de los sujetos que siempre habían recibido una recompensa pequeña.

Efecto de contraste/Crespi : Diferencia entre el nivel que alcanza el sujeto cuando se le cambia y el nivel que tenían los sujetos que siempre han recibido esa recompensa.

RefER

Esto demuestra que la percepción de la magnitud de la recompensa no depende únicamente de la cantidad sino también de la experiencia previa.

Poco a poco el efecto de contraste se iguala con el grupo de control, por lo que el efecto de contraste es transitorio.

El efecto de contraste negativo siempre suele ser más fuerte que el efecto de contraste positivo.

  1. Extinción de la conducta operante. Cuando hablamos de aprendizaje de extinción significa que el sujeto aprende una relación nueva, no que el sujeto olvida o destruya lo aprendido anteriormente.

Eliminación o supresión de una respuesta causada por la no aparición del refuerzo.

El procedimiento para extinguir la respuesta operante es que ante la respuesta no se le presenta recompensa.

Hay factores en el modo en el que adquirimos la respuesta operante que modifican la facilidad o dificultad para extinguir la respuesta. La extinción depende del modo en el que experimentamos la adquisición.

EFECTOS

7.1. Influencia de la magnitud de la recompensa en la adquisición para la

facilidad/dificultad de la extinción.

Rata que recorre un corredor 500 veces y siempre recibe recompensa.

El sujeto que ha practicado mucho más que el otro pierde la respuesta más rápidamente que el otro

Consecuencia Apetitiva Aversiva C or rel ac ió n

Recompensa :

Correlación positiva entre la respuesta y el estímulo y la consecuencia es agradable. Aumenta la probabilidad de la respuesta

Castigo :

Correlación positiva entre la respuesta y el estímulo y la consecuencia es aversiva, desagradable. Disminuye la probabilidad de la respuesta.

Omisión

Correlación negativa entre la aparición del estímulo y la respuesta y la consecuencia es positiva. Disminuye la probabilidad de la respuesta.

Escape / Evitación

Correlación negativa entre la aparición del estímulo y la respuesta y la consecuencia es negativa. Aumenta la probabilidad de la respuesta.

  • +/AP = Presionar la palanca y que salga comida únicamente al presionar la palanca.
  • +/AV = Presionar la palanca y que se dé un shock únicamente al presionar la palanca.
  • -/AP = Si no aprieto la palanca recibo comida, únicamente si no se aprieta.
  • -/AV = Si no aprieto la palanca no hay shock, pero si aprieto la palanca si.

El último tipo de condicionamiento recibe el nombre de escape evitación porque se agrupan dos tipos de aprendizaje distintos en esta categoría. La diferencia básica es:

♦ En el escape doy una respuesta para que desaparezca un estímulo desagradable. La rata salta al otro lado de la caja para que no le den el shock.

♦ En la evitación doy una respuesta para que no aparezca el estímulo desagradable. Es un proceso más complejo que el del mero escape. La rata aprende que cuando se enciende una luz roja y aprieta la palanca no recibe el shock. Si no aprieta la palanca sí hay shock.

Ejemplos:

  • Recompensa. Si hago los deberes me dan chuches y si no los hago no me las dan.
  • Castigo. Si rompo algo mi mamá me da un azote y si no lo rompo me lo dan. Si pongo la mano en una superficie caliente, si no la pongo no me quemo.
  • Apje por omisión. Si dejo de saltar en la cama me dan chuches, si salto no me dan.
  • Escape / Evitación Si no escupo las acelgas no recojo la cocina, si las escupo recojo. Si me tomo un medicamento dejo de sentirme mal. Tengo mono y fumo=

Ante un estímulo aversivo reaccionamos o evitando o escpaando.