Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Programas de Reforzamiento y Conducta de Elección: Razón Fija y Variable - Prof. José Anto, Resúmenes de Psicología

Los programas de reforzamiento, específicamente de razón fija y variable, y cómo afectan la conducta de elección de un organismo. Se discuten conceptos como tasa de respuesta, tasa relativa de respuesta y reforzamiento, y se comparan los patrones de respuesta observados en cada tipo de programa.

Tipo: Resúmenes

2010/2011

Subido el 09/01/2011

menshyta
menshyta 🇪🇸

4.1

(20)

15 documentos

1 / 11

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 6: PROGRAMAS DE REFORZAMIENTO
Y CONDUCTA DE ELECCIÓN
Un programa de reforzamiento es un programa, o regla, que determina cómo y cuándo la
ocurrencia de una respuesta irá seguida de un reforzador.
1. PROGRAMAS SIMPLES DE REFORZAMEINTO INTERMITENTE
Los procesos que organizan y dirigen la ejecución instrumental se activan de diferentes formas por los
distintos programas de reforzamiento. En los programas ‘simples’, un solo factor determina qué
ocurrencia de la respuesta instrumental se refuerza.
Programas de razón
La característica denitoria de un programa de razón es que el reforzamiento depende sólo del número
de respuestas que el organismo realiza. Si este número es uno, cada ocurrencia de la respuesta
instrumental provocará la entrega del reforzador. Este tipo de programa se denomina técnicamente
reforzamiento continuo (RFC).
Las situaciones en las que la respuesta se refuerza sólo alguna vez involucran un
reforzamiento parcial o intermitente.
Razón ja
Ejemplo: consideremos la entrega de un reforzador después de cada décima respuesta de
presión de palanca en un estudio con ratas de laboratorio. En un programa como éste, hay
una razón ja entre el número de respuestas que la rata realiza y el número de
reforzadores que consigue. Esto convierte al procedimiento en un programa de razón
ja. Especícamente, el procedimiento podría denominarte programa de reforzamiento de
razón ja 10 (RF10).
Se da una tasa constante y alta una vez que la conducta se ha iniciado, pro se puede
tardar un tiempo antes de comenzar el número requerido de respuestas. Estas
características de la respuesta se muestran con claridad en un registro acumulativo de la
conducta. Un registro acumulativo es una forma especial de representar la forma de
repetirse una respuesta a lo largo del tiempo.
BY ZOEN
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Programas de Reforzamiento y Conducta de Elección: Razón Fija y Variable - Prof. José Anto y más Resúmenes en PDF de Psicología solo en Docsity!

Tema 6: PROGRAMAS DE REFORZAMIENTO

Y CONDUCTA DE ELECCIÓN

Un programa de reforzamiento es un programa, o regla, que determina cómo y cuándo la ocurrencia de una respuesta irá seguida de un reforzador.

1. PROGRAMAS SIMPLES DE REFORZAMEINTO INTERMITENTE

Los procesos que organizan y dirigen la ejecución instrumental se activan de diferentes formas por los distintos programas de reforzamiento. En los programas ‘simples’, un solo factor determina qué ocurrencia de la respuesta instrumental se refuerza.

Programas de razón

La característica definitoria de un programa de razón es que el reforzamiento depende sólo del número de respuestas que el organismo realiza. Si este número es uno, cada ocurrencia de la respuesta instrumental provocará la entrega del reforzador. Este tipo de programa se denomina técnicamente reforzamiento continuo (RFC).

Las situaciones en las que la respuesta se refuerza sólo alguna vez involucran un reforzamiento parcial o intermitente.

  • Razón fija Ejemplo: consideremos la entrega de un reforzador después de cada décima respuesta de presión de palanca en un estudio con ratas de laboratorio. En un programa como éste, hay una razón fija entre el número de respuestas que la rata realiza y el número de reforzadores que consigue. Esto convierte al procedimiento en un programa de razón fija. Específicamente, el procedimiento podría denominarte programa de reforzamiento de razón fija 10 (RF10).

Se da una tasa constante y alta una vez que la conducta se ha iniciado, pro se puede tardar un tiempo antes de comenzar el número requerido de respuestas. Estas características de la respuesta se muestran con claridad en un registro acumulativo de la conducta. Un registro acumulativo es una forma especial de representar la forma de repetirse una respuesta a lo largo del tiempo.

La tasa cero de respuesta que se observa justo después del reforzamiento se denomina pausa posreforzamiento. La tasa de respuesta alta y estable que completa cada requerimiento de la razón se denomina carrera de la razón.

Si el requerimiento de la razón se incrementa un poco, la tasa de respuesta puede permanecer igual durante la carrera de la razón. Con mayores requerimientos de tasa, tienden a ocurrir pausas posreforzamiento más largas. Si el requerimiento de la razón sufre un incremento súbito y significativo es probable que el animal realice una pausa periódica cada vez que completa la razón requerida. Este efecto se denomina tensión de la razón. En casos extremos, la tensión de la razón puede ser tan grande que el animal deje completamente de responder.

  • Razón variable En un programa de razón fija, se requiere un número predecible de respuestas por cada reforzador. Esta predictibilidad puede eliminarse mediante la variación en e número de respuestas requerido para el reforzamiento de una ocasión a la siguiente. Este tipo de procedimiento todavía es un programa de razón, porque el reforzamiento aún depende del número de respuestas que realiza el organismo. Un procedimiento en el que se necesita un número de respuestas distinto para la entrega de cada recompensa se denomina procedimiento de razón variable.

Ejemplo. Entrenar a una paloma para realizar 10 respuestas para conseguir la primera recompensa, 13 para conseguir la segunda, 7 para la próxima, y así sucesivamente. El valor numérico del programa de RV indica que el número medio de respuestas requerido para conseguir el reforzador. En consecuencia, en este caso el procedimiento sería un programa de RV 10.

  • Debido a que el número de respuestas necesario para conseguir el reforzamiento no es predecible, las pausas predecibles en la tasa de respuesta son menos probables con los programas RV que con los programas RF. Los organismos suelen responder a una tasa claramente estable en los programas RV
  • Aunque pueden darse pausas posreforzamiento en los programas de RV, éstas son más largas y prominentes con los programas de RF.
  • La tasa de respuesta en los programas de RF y RV es similar siempre y cuando, como promedio, se reunieran números similares de respuestas.
  • Sin embargo, la tasa global de respuesta tiende a distribuirse en un patrón de pausa – carrera con los programas de RF, mientras que se observa un patrón más estable de respuesta con los programas de RV.

Programas de intervalo

del laboratorio existe una restricción en cuanto al tiempo que permanece el reforzador disponible. A esto se le llama espera limitada.

Comparación de los programas de razón y de intervalo

Semejanzas

  • Tanto en los programas de RF como los de IF producen una pausa posreforzamiento después de la administración de cada reforzador.
  • Tanto los programas de RF como los de IF producen altas tasas de respuesta justo antes de la administración del siguiente reforzador.
  • Los programas de RV y de IV mantienen tasas estables de respuesta, sin pausas predecibles.

Diferencias

  • Los programas de RV motivan conductas instrumentales mucho más vigorosas que los programas de IV.
  • Reforzamiento diferencial del tiempo interrespuesta ¿Por qué los programas de razón son capaces de producir tasas de respuesta más altas que los programas de intervalo? Un factor crítico es el espaciamiento entre respuestas que se da justo antes del reforzamiento: tiempo interrespuesta o TIR.
  • Si se refuerzan TIRs cortos, será más probable que el sujeto realice TIRs cortos. Idem con TIRs largos.
  • (^) Un sujeto que produce sobre todo TIRs cortos responderá a una tasa alta. Si un sujeto produce TIRs largos, responderá a una tasa baja.

¿Cómo determinan los programas de intervalo y de razón el reforzamiento de los TIRs?

  • En un programa de razón, no existen restricciones acerca de cuando cuentas las respuestas para conseguir el reforzador. De hecho, cuanto más rápido complete el sujeto el requerimiento de la razón, más rápido recibirá el reforzador. Por tanto, un programa de razón favorece TIRs cortos.
  • Los programas de intervalo favorecen TIRs largos. Si un sujeto espera un largo tiempo entre respuestas (emitiendo TIRs largos) es más probable que su respuesta ocurra después de que el reforzador esté disponible, y en consecuencia sea reforzada.

Programas de reforzamiento de tasas de respuesta

A pesar de que los programas de razón producen tasas de respuesta mayores que los programas de intervalo, ni uno ni otro requieren una tasa específica de respuesta para conseguir el reforzamiento. Sin

embargo, los programas de tasas de respuestas requieren específicamente que el organismo responda a una tasa particular para obtener el reforzador.

En el reforzamiento diferencial de tasas altas o RDA una respuesta se refuerza sólo si ocurre antes de que haya transcurrido cierta cantidad de tiempo tras la respuesta precedente. Fomentan que los sujetos respondan rápidamente.

En el reforzamiento diferencial de tasas bajas o RDB se refuerza una respuesta sólo si ocurre después de que haya transcurrido cierta cantidad de tiempo desde la respuesta previa. Estos programas fomentan que los sujetos respondan lentamente.

  1. CONDUCTA DE ELECCIÓN: PROGRAMAS CONCURRENTES

La conducta es algo más que la repetición de respuestas individuales. La situación de elección más simple consta de dos respuestas alternativas, cada una de éstas seguida por un reforzador de acuerdo con su propio programa de reforzamiento.

Las aproximaciones recientes al estudio de la conducta de elección utilizan cajas de Skinner equipadas con dos manipulandos, como dos teclas de picoteo. En el experimento típico, responder en cada tecla es reforzado según algún programa de reforzamiento. Los dos programas funcionan al mismo tiempo (o concurrentemente), y el sujeto es libre de cambiar de una tecla de respuesta a la otra. Este tipo de procedimiento se denomina programa concurrente. Éste permite una medición continua de la elección porque el organismo el libre para cambiar de un lado a otro entre las alternativas.

Medidas de la conducta de elección

La conducta de elección de un individuo en un programa concurrente se refleja en la distribución de su conducta entre dos respuestas alternativas. Esto se puede medir de varias formas. Una técnica común es calcular la tasa relativa de respuesta de cada alternativa. La tasa relativa de respuesta en la tecla A, por ejemplo, se calcula dividiendo la tasa de respuesta en la tecla A por la tasa de respuesta total (la tasa en la tecla A más la tasa en la tecla B):

R (^) A / (R (^) A + RB )

Donde R (^) A es la tasa de respuesta en la tecla A y RB es la tasa de respuesta en la tecla B.

Ejemplo: Si una paloma picotea igualmente en las dos teclas de respuesta, esta razón será 0,5. Si la tasa de respuesta en la tecla A es mayor que en la B, la razón será mayor que 0,5. Por el

de elección no se corresponde perfectamente con la relación de igualación pueden acomodarse añadiendo dos parámetros, b y s , a la ecuación:

R (^) A / R (^) B = b (rA / rB) s

  • (^) El parámetro s : representa la sensibilidad de la conducta de elección a las tasas relativas de reforzamiento para las alternativas de respuesta. Cuando ocurre una igualación perfecta, s es igual a 1,0, en cuyo caso las tasas relativas de respuesta son una función directa de las tasas relativas de reforzamiento. Un tipo de desviación de la igualación perfecta incluye una sensibilidad reducida de la conducta de elección a las tasas relativas de reforzamiento. Estos resultados se refieren a la infraigualación. En otros casos, la tasa relativa de respuesta es más sensible a la tasa relativa de reforzamiento de lo que se predice para una igualación perfecta. Estos resultados se denominan supraigualación.
  • El parámetro b : representa el sesgo de la respuesta. En el experimento original de Herrnstein, los animales eligen entre dos respuestas del mismo tipo (picotear una tecla de respuesta), y cada respuesta se refuerza con el mimo tipo de reforzador (un corto período de acceso a la comida). Los sesgo de respuesta influyen en la elección cuando las alternativas de respuesta son diferentes. El parámetro b es también importante cuando el reforzador proporcionado para las dos respuestas es diferente. En ausencia de sesgos, b es igual a 1,0. Dependiendo de la naturaleza del sesgo o la preferencia, b será mayor o menor que 1,0.
  • La ley de la igualación y el valor del reforzador Las características de un reforzador como su cantidad, palatabilidad y demora, puede considerarse aspecto de su valor general. Cuanto mayores, más sabrosos y mas inmediatos sean los reforzadores, presumiblemente serán de un mayor valor.
  • La ley de igualación y los programas simples de reforzamiento ¿Cómo puede una ley que describe la distribución de respuesta entre varias alternativas ser aplicada a una sola respuesta? Supongamos que RA representa la tasa de la respuesta operante especificada por el programa. R (^) O representa la tasa de las otras actividades del animal, r (^) A es la tasa de reforzamiento explícito programado, y r (^) O es la tasa de reforzamiento intrínseco por las otras actividades:

RA / (RA + RO ) = rA / (r (^) A + r (^) O ) F 0 E 8 R (^) A = (R (^) A + R (^) O ) rA / (r (^) A + r (^) O)

Esta ecuación puede simplificarse si el investigador presupone que es igual a una constante que no guarda relación con el reforzador utilizado:

RA = k r (^) A / (r (^) A + r (^) O )

Esta ecuación predice que la tasa de respuesta (R (^) A) estará directamente relacionada con la tasa de reforzamiento para esa respuesta de una forma negativamente acelerada.

Mecanismos de la ley de la igualación

La ley de la igualación describe cómo los organismo distribuyen sus respuestas en una situación de elección pero no explica qué mecanismos son responsables de esta distribución de respuestas.

  • Igualación y maximización de las tasas de reforzamiento Las explicaciones más extensamente investigadas de la conducta de elección están basadas en la idea intuitivamente razonable de que los organismos distribuyen sus acciones entre las alternativas de respuesta para recibir la máxima cantidad de reforzamiento posible en la situación.
    1. Maximización molecular De acuerdo con las teorías moleculares de la maximización, los organismos siempre eligen cualquier alternativa de respuesta con mejores probabilidades de que sea reforzada en ese momento.

Ejemplo: una paloma trabajando en un programa concurrente IV – IV. A medida que la paloma picotea en A, el contador que controla el reforzamiento para la tecla B también está funcionando. Cuanto más tiempo permanezca la paloma en la tecla A, más probabilidad habrá de que transcurra el requisito del intervalo para la tecla B y que el reforzamiento esté disponible por el picoteo de B. Al alternar, la paloma puede obtener el reforzador en la tecla B. Ahora, cuanto más tiempo continúe picoteando la tecla B, más probable será que la tecla A esté lista para el reforzamiento.

  1. Maximización molar Las teoría molares de la maximización presuponen que el organismo distribuye sus respuestas entre las varias alternativas a fin de maximizar la cantidad de reforzamiento que consiguen a la larga.

Ejemplo: En un programa concurrente RF20 – RF10, el organismo es probable que responda sólo en la alternativa RF10. De esta forma maximiza su tasa de reforzamiento con el mínimo esfuerzo. La maximización molar no puede explicar por qué la conducta de elección se distribuye de forma cercana a la relación de igualación en los programas concurrentes IV – IV y no de otras formas igualmente efectivas.

Dadas las diferencias entre RV y IV, para el máximo beneficio en un programa concurrente RV – IV, los sujetos deberían concentrar sus repuestas en la alternativa de RV y responder sólo

  • Eslabón de elección: se permite al participante elegir entre dos programas alternativos realizando una de dos respuestas.
  • Eslabón terminal: la oportunidad para el reforzamiento sucede sólo después de que la elección inicial haya sido realizada y el sujeto se encuentre en esta fase.

Una característica importante del programa concurrente encadenado es que una vez que el participante ha realizado la elección, está comprometido con esa elección hasta el final del eslabón terminal del programa. Por tanto, los programas concurrentes encadenados implican elección con compromiso.

Ejemplo: si la paloma selecciona la alternativa A, su patrón de picoteo durante el componente terminal será semejante al patrón normal de respuesta para un programa de RV10. Si la paloma selecciona la alternativa B, su patrón de picoteo durante el componente terminal será característico de un programa de RF10.

Los estudios de este tipo han mostrado que los sujetos prefieren la alternativa de RV. La preferencia por este programa está guiada por el hecho de que ocasionalmente un programa de RV proporciona reforzamiento por un número relativamente pequeño de respuestas.

La consecuencia inmediata de una respuesta en un eslabón inicial es un estímulo que está asociado con el eslabón terminal elegido. Como este estímulo está presente cuando se proporciona el reforzador primario, el estímulo del eslabón terminal se convierte en un reforzador condicionado. Por tanto, se puede caracterizar un programa concurrente como aquél en que las respuestas al eslabón inicial se refuerzan por la presentación de un reforzador condicionado. Las diferencias en le valor del reforzador condicionado determinarán entonces la tasa relativa de cada respuesta de elección en el eslabón inicial.

Estudios de autocontrol

  • El autocontrol es a menudo cuestión de elegir una recompensa grande demorada sobre una recompensa pequeña inmediata.
  • El autocontrol es más fácil si la alternativa tentadora no está tan claramente disponible.
  • Las preferencias cambian a favor de cualquier recompensa grande demorada si se requiere que los participantes esperen más tiempo para recibir cualquier recompensa tras realizar su elección.
  • Si las recompensas se entregan rápidamente tras una respuesta de elección, los sujetos generalmente prefieren una recompensa pequeña inmediata más que una recompensa grande demorada.
  • Sin embargo, si se añade una demora constante a la entrega de ambas recompensas, es más probable que los individuos muestren autocontrol y prefieren la recompensa grande demorada.
  • Explicaciones del autocontrol Un principio general que es la clave de las explicaciones conductuales del autocontrol, a saber, que el valor de un reforzador se reduce en función de cuánto tiempo se tiene que esperar para obtenerlo. La función matemática que describe esta disminución en el valor se denomina función descontadora del valor. El consenso actual es que el valor de un reforzador (V) está directamente relacionado con la magnitud de la recompensa (M) e inversamente relacionado con la demora de la recompensa (D):

V = M / (1 + KD)

Donde K es el parámetro de la tasa descontadora. Esta ecuación se denomina función del decaimiento hiperbólico. De acuerdo con esta ecuación, si el reforzador es entregado sin demora (D = 0), el valor del reforzador está directamente relacionado con su magnitud (los reforzadores más grandes tiene valores mayores). Cuanto más se demora el reforzador, menor es su valor.

  • (^) ¿Puede entrenarse el autocontrol? Una persona que no puede tolerar esperar el tiempo necesario para obtener recompensas grandes tiene que olvidarse de obtener esos reforzadores. El autocontrol, o la preferencia por una recompensa grande demorada frente a una recompensa pequeña inmediata, es a menudo una estrategia sensible. De hecho, algunos han sugerido que el autocontrol es un componente crítico de la socialización y del ajuste emocional. Afortunadamente, el autocontrol se puede entrenar.