RFTConducta gobernada por reglasEstudio experimental2026

Prompt carefully! ChatGPT displays rule-based insensitivity to contingencies

Ver artículo completo DOI: 10.1016/j.jcbs.2026.101012

Autores

Ruiz, F. J., Cardona-Betancourt, V.

Revista

Journal of Contextual Behavioral Science

Resumen

Estudio experimental que aplicó un paradigma de reversión de contingencias para examinar el comportamiento gobernado por reglas en cuatro modelos de lenguaje de gran tamaño (LLMs) de frontera: GPT 5.2, Claude Opus 4.5, Grok 4.1 Fast y Gemini 3 Flash. En un diseño factorial 2×2 (Regla × Razonamiento) con 640 sesiones, los modelos jugaron una tarea de aprendizaje de discriminación cuyas contingencias se invertían sin aviso en el ensayo 41. Los cuatro LLMs mostraron insensibilidad a las contingencias basada en reglas —replicando el fenómeno documentado en humanos—: recibir una regla aceleraba la adquisición pero reducía la adaptación tras la reversión. La magnitud varió notablemente (Claude mantuvo mayor sensibilidad, 56%; GPT 5.2 y Grok apenas adaptaron, 5-9%), diferencias que los autores interpretan a la luz de los procedimientos de alineamiento (plianza vs. rastreo). El razonamiento extendido tuvo un impacto limitado. Primer estudio en demostrar insensibilidad a las contingencias en LLMs.

Resumen Detallado

¡Prompt con cuidado! ChatGPT muestra insensibilidad a las contingencias basada en reglas

Referencia completa: Ruiz, F. J., & Cardona-Betancourt, V. (2026). Prompt carefully! ChatGPT displays rule-based insensitivity to contingencies. Journal of Contextual Behavioral Science, 41, 101012. https://doi.org/10.1016/j.jcbs.2026.101012

Tipo de estudio: Estudio experimental con Modelos de Lenguaje de Gran Tamaño (LLMs) — paradigma de reversión de contingencias para el estudio del comportamiento gobernado por reglas.

Contexto y objetivos

El comportamiento gobernado por reglas (RGB) es un pilar del análisis de la conducta. Skinner (1966, 1969) distinguió el RGB —controlado por antecedentes verbales— del comportamiento moldeado por las contingencias, que se desarrolla mediante el contacto directo con las consecuencias. Las reglas aportan ventajas evidentes (transmiten repertorios eficaces con rapidez y guían la acción hacia consecuencias demoradas), pero pueden tener efectos perjudiciales cuando las contingencias cambian. Un hallazgo central en el análisis experimental del RGB es que el seguimiento de reglas suele mostrar una sensibilidad reducida a los cambios en las contingencias de reforzamiento: fenómeno conocido como insensibilidad a las contingencias. Dos clases funcionales de seguimiento de reglas se han vinculado diferencialmente a este efecto: la plianza (seguir reglas por consecuencias socialmente mediadas y arbitrarias), que incrementa la insensibilidad, y el rastreo (seguir reglas por consecuencias naturales y no arbitrarias), que favorece la sensibilidad.

Los autores conectan esta tradición con el comportamiento de los LLMs. Los usuarios interactúan con los LLMs principalmente mediante prompts, que desde una perspectiva analítico-conductual pueden concebirse como reglas: antecedentes verbales que guían la conducta del modelo sin requerir contacto previo con las consecuencias. Los LLMs se entrenan para seguir instrucciones mediante procedimientos de alineamiento. El artículo propone un paralelismo funcional: el Aprendizaje en Contexto (In-Context Learning) —la capacidad del modelo de ajustar sus salidas según el historial de contingencias de la conversación actual— sería un análogo del condicionamiento operante, mientras que el alineamiento por RLHF (Reinforcement Learning from Human Feedback) se asemejaría al desarrollo de la plianza (reforzamiento mediado por preferencias humanas arbitrarias), y la IA Constitucional (Constitutional AI) se aproximaría más al rastreo (el criterio de reforzamiento es la correspondencia entre la salida y unos principios explícitos).

Los autores subrayan que se trata de una perspectiva funcional, no mecanicista: los LLMs no son organismos, sus parámetros permanecen fijos durante una sesión y la adaptación se limita a la ventana de contexto. La pregunta experimental es si, cuando un modelo recibe una regla (prompt) inicial pero la retroalimentación ambiental cambia después, rastreará las nuevas contingencias (vía In-Context Learning) o persistirá en seguir la regla inicial (por su historia de alineamiento). Hasta donde saben los autores, ningún estudio previo había explorado esta cuestión. Se predijo que la provisión de una regla aceleraría la adquisición inicial pero induciría insensibilidad a las contingencias, y se exploró si el razonamiento extendido (cadena de pensamiento) atenuaría ese efecto.

Método

Modelos

Se seleccionaron cuatro LLMs de frontera disponibles en enero de 2026: GPT 5.2 (OpenAI), Claude Opus 4.5 (Anthropic), Grok 4.1 Fast (xAI) y Gemini 3 Flash (Google). Los autores se refieren a ellos como "modelos" y no "participantes", coherentemente con el enfoque funcional. Los criterios de selección fueron: (a) disponibilidad de razonamiento extendido, (b) accesibilidad mediante APIs comerciales, y (c) representación de proveedores distintos. Los modelos difieren en sus procedimientos de alineamiento: GPT usa principalmente RLHF; Claude, IA Constitucional; Gemini combina RLHF con datos sintéticos de preferencias; y Grok, RLHF con técnicas novedosas de modelado de recompensa.

Diseño experimental

Se empleó un diseño factorial 2 × 2 con cuatro replicaciones (una por modelo). Los factores fueron Razonamiento (estándar vs. extendido) y Regla (con regla vs. sin regla), ambos manipulados entre sesiones. Cada modelo completó 40 sesiones independientes por celda del diseño Razonamiento × Regla, lo que arroja 160 sesiones por modelo y 640 sesiones en total. Mediante contrabalanceo, en la mitad de las sesiones Sam era el oponente inicialmente óptimo y en la otra mitad lo era Alex. El análisis de potencia (paquete pwr de R; Champely, 2020), con α = .05 (bilateral) y potencia ≥ 0.95, indicó que dentro de cada replicación (n = 160) los efectos principales (n = 80 por nivel) podían detectar efectos de d ≥ 0.57, mientras que la interacción y las comparaciones por celdas (n = 40 por celda) podían detectar d ≥ 0.82.

La variable dependiente principal fue el Índice de Sensibilidad Normalizado (NSI), definido como (Acq − Rev)/Acq, donde Acq es la proporción de selecciones del oponente óptimo durante la Fase de Adquisición y Rev es la proporción de selecciones del oponente inicialmente óptimo (ahora subóptimo) durante la Fase de Reversión. El NSI varía de 0 (sin adaptación) a 1 (reversión completa). La variable dependiente secundaria fue la proporción de selecciones del oponente óptimo durante la Fase de Adquisición (indicador del In-Context Learning en las condiciones sin regla y de adherencia a la regla en las condiciones con regla).

Materiales y aparatos

El experimento se realizó con un software propio, "PsychoLab: Web-Based Platform for Contingency Learning Research", una aplicación web full-stack construida con Python (FastAPI) en el backend, React en el frontend y una base de datos PostgreSQL. La integración con los LLMs se gestionó mediante las APIs específicas de cada proveedor. Todos los modelos se accedieron por API en enero de 2026, con parámetros de muestreo estandarizados para preservar el comportamiento estocástico por defecto de cada modelo (Tabla Suplementaria S2). El razonamiento extendido se habilitó o deshabilitó según la configuración recomendada de cada proveedor.

Procedimiento

La tarea fue un juego de piedra-papel-tijera modificado en el que, en cada ensayo, el modelo seleccionaba un oponente (Sam o Alex) y luego una jugada (piedra, papel o tijera). Los resultados se determinaban probabilísticamente en función del oponente elegido (no de la jugada), convirtiendo el juego en un paradigma de aprendizaje de discriminación. Durante la fase de adquisición (ensayos 1-40), el oponente óptimo proporcionaba un 70% de victorias, 15% de empates y 15% de derrotas, mientras que el subóptimo ofrecía la distribución inversa (15% victorias, 15% empates, 70% derrotas). En el ensayo 41, las contingencias se invertían sin aviso: el oponente antes óptimo pasaba a ser subóptimo y viceversa. La fase de reversión abarcaba los ensayos 41-80. La retroalimentación de los resultados se entregaba como texto añadido al historial de la conversación, funcionando como contexto acumulado.

En la condición sin regla, el prompt inicial instruía al modelo a jugar varias rondas eligiendo primero oponente y luego jugada. En la condición con regla, el prompt era idéntico salvo por la adición de la frase "Sam/Alex is not very good at this game" ("Sam/Alex no es muy bueno en este juego"), diseñada para ser mínimamente específica pero indicar claramente qué oponente era más fácil de vencer, en paralelo a las instrucciones usadas en la investigación humana sobre RGB (Hayes et al., 1986). Si la respuesta no seguía el formato requerido, se volvía a solicitar. El historial completo se mantenía dentro de cada sesión; las sesiones eran independientes entre sí.

Análisis de datos

Todos los análisis se realizaron en JASP 0.95.4.0. Para examinar si los efectos de insensibilidad basada en reglas se generalizaban entre modelos, se llevaron a cabo ANOVAs 2 (Regla) × 2 (Razonamiento) por separado para cada LLM, tratando cada modelo como una replicación independiente. Los tamaños del efecto se informan como eta-cuadrado parcial (η²p), interpretados según Cohen (1988): 0.01 = pequeño, 0.06 = mediano, 0.14 = grande. El nivel de significación se fijó en α = .05.

Resultados

Fase de Adquisición. Como se esperaba, todos los LLMs rindieron en el techo o cerca de él en las condiciones con regla (proporciones medias de selección óptima entre 0.98 y 1.00). El rendimiento sin regla también fue alto para la mayoría (M > 0.92), con la excepción notable de Grok 4.1 Fast en la condición sin razonamiento (M = 0.61). El efecto principal de Regla fue estadísticamente significativo para los cuatro modelos, con tamaños del efecto grandes (η²p de 0.26 a 0.87), lo que indica que la provisión de la regla mejoró la adquisición. El efecto del Razonamiento fue significativo solo para Claude Opus 4.5 (η²p = .14) y Grok 4.1 Fast (η²p = .76). La interacción Regla × Razonamiento fue significativa únicamente para Grok 4.1 Fast (η²p = .75): sin regla, habilitar el razonamiento extendido mejoró la adquisición.

Fase de Reversión. El efecto de insensibilidad a las contingencias basada en reglas se replicó visualmente en los cuatro LLMs, aunque con amplias diferencias entre ellos. Los valores del NSI fueron menores en las condiciones con regla que en las sin regla en todos los modelos. El efecto principal de Regla fue significativo para los cuatro modelos, confirmando que la provisión de la regla redujo la sensibilidad a los cambios de contingencia; todos los tamaños del efecto fueron grandes pero variaron considerablemente, desde Claude Opus 4.5 (η²p = .16) hasta GPT-5.2 (η²p = .53). El efecto del Razonamiento fue significativo solo para Grok 4.1 Fast (η²p = .11), en el que el razonamiento extendido redujo la insensibilidad. La interacción Regla × Razonamiento fue significativa únicamente para GPT 5.2 (η²p = .05): el razonamiento extendido mejoró la sensibilidad cuando había regla, pero la empeoró cuando no la había.

Comparación entre modelos. Aunque todos los modelos mostraron insensibilidad significativa basada en reglas, su magnitud varió notablemente. En la condición con regla, GPT 5.2 y Grok 4.1 Fast exhibieron la insensibilidad más fuerte, con una adaptación casi nula (NSI M = 0.05 y M = 0.09, respectivamente), es decir, una persistencia casi completa en seleccionar el oponente ahora subóptimo. Gemini 3 Flash mostró un patrón similar pero menos extremo (M = 0.21). En cambio, Claude Opus 4.5 mantuvo una sensibilidad sustancialmente mayor incluso con la regla (M = 0.56), lo que sugiere una mayor flexibilidad ante el cambio de contingencias.

Discusión y conclusiones

Los autores concluyen que los cuatro LLMs de frontera exhibieron insensibilidad a las contingencias basada en reglas, replicando el fenómeno documentado en humanos, y que el razonamiento extendido tuvo un impacto limitado en reducirla. La Fase de Adquisición reveló la ventaja clásica del RGB: al indicar que un oponente no era bueno, los modelos lo elegían de inmediato. Sin regla, el aprendizaje fue más lento pero ocurrió, confirmando el papel del In-Context Learning. El hallazgo clave surgió en la reversión: los modelos con regla continuaron eligiendo el oponente ahora subóptimo significativamente más que sin regla, aunque con diferencias marcadas (Claude adaptó bien, con un 56% de sensibilidad; GPT 5.2 y Grok apenas adaptaron, 5-9%; Gemini quedó en un nivel intermedio, 21%).

Los autores interpretan estas diferencias a la luz del análisis funcional de los procedimientos de alineamiento. Claude Opus 4.5, entrenado con IA Constitucional, mostró la mayor sensibilidad incluso con regla, lo que se asemejaría al rastreo (el criterio de reforzamiento es la correspondencia con principios explícitos). En contraste, GPT 5.2 y Grok 4.1 Fast, entrenados predominantemente con RLHF, mostraron una insensibilidad casi completa con regla, coherente con el desarrollo de plianza (seguimiento de reglas bajo control de consecuencias socialmente mediadas y arbitrarias). El razonamiento extendido mejoró modestamente la sensibilidad en algunos modelos (GPT 5.2, Grok 4.1 Fast) pero no en otros (Claude, ya sensible; Gemini).

Entre las limitaciones reconocidas figuran: el uso de una única tarea y configuración de contingencias; una regla breve e indirecta; la rápida evolución de los LLMs (los hallazgos podrían no generalizarse a modelos futuros); el carácter tentativo de la interpretación que vincula alineamiento y sensibilidad (las empresas no revelan sus procesos de entrenamiento y los modelos difieren en muchas dimensiones); la diferencia entre la retroalimentación probabilística y la del mundo real; y el hecho de que la regla inicial correspondía a la respuesta óptima, por lo que la persistencia podría reflejar persistencia basada en la historia más que insensibilidad basada en reglas. Los autores señalan que un estudio de seguimiento con una condición de regla incorrecta confirmó que la insensibilidad basada en reglas persiste incluso cuando la regla contradice la retroalimentación desde el primer ensayo (Ruiz & Martínez-Carrillo, 2026).

Relevancia para la ciencia conductual contextual

Este estudio es el primero en demostrar insensibilidad a las contingencias en LLMs, extendiendo el alcance de los principios conductuales sobre el RGB más allá de los organismos. Sugiere que la insensibilidad a las contingencias basada en reglas no es exclusivamente humana, sino que puede emerger en cualquier sistema entrenado para seguir instrucciones verbales, con independencia del mecanismo de aprendizaje subyacente. Para la ciencia conductual contextual, ofrece una vía complementaria de "muestreo de silicio" (silicon sampling) que podría informar estudios posteriores con humanos, dados los retos metodológicos de estudiar experimentalmente las clases funcionales del seguimiento de reglas. Para la investigación en IA, aporta un marco analítico-conductual —plianza, rastreo, sensibilidad a las contingencias— para comprender cómo los procedimientos de alineamiento moldean el comportamiento de los LLMs, y una implicación práctica directa: los prompts muy detallados pueden inducir rigidez en situaciones dinámicas donde la adaptación a la retroalimentación cambiante es esencial.

Este resumen ha sido generado con Inteligencia Artificial y podría contener errores. Se recomienda consultar el artículo original.

Ver artículo completoDOI: 10.1016/j.jcbs.2026.101012