General Health Questionnaire-12 validity in Colombia and factorial equivalence between clinical and nonclinical participants

Referencia completa: Ruiz, F. J., García-Beltrán, D. M., & Suárez-Falcón, J. C. (2017). General Health Questionnaire-12 validity in Colombia and factorial equivalence between clinical and nonclinical participants. Psychiatry Research, 256, 53-58. https://doi.org/10.1016/j.psychres.2017.06.020

Tipo de estudio: Validación transcultural y análisis de invarianza de medida

Contexto y objetivos

El Cuestionario General de Salud-12 (GHQ-12) es uno de los instrumentos de cribado más utilizados a nivel mundial para detectar trastornos emocionales en población adulta. Desarrollado originalmente por Goldberg y Williams (1988) a partir de una versión de 60 ítems, el GHQ-12 ha ganado amplia aceptación debido a su brevedad y buenas propiedades psicométricas. Aunque existen múltiples traducciones al español con propiedades psicométricas variables, la evidencia sobre su validez en contextos colombianos resulta limitada. El estudio de Campos-Arias (2007) en Colombia encontró un coeficiente alfa de .78, relativamente bajo comparado con estudios en otras poblaciones hispanohablantes que reportan alfas entre .86 y .90. Adicionalmente, ningún estudio previo había evaluado la equivalencia factorial del GHQ-12 entre muestras clínicas y no clínicas, lo que resulta crítico para justificar comparaciones de puntuaciones entre estos grupos.

Método

Participantes

El estudio incluyó tres muestras diferenciadas:

Muestra 1 (n=925): Estudiantes de pregrado de siete universidades de Bogotá, con edades entre 18 y 63 años (M=21.37, DE=3.83). El 56% estudiaba Psicología, y el 66% eran mujeres. El 30.9% reportó haber recibido tratamiento psicológico o psiquiátrico en algún momento, aunque solo el 5.4% estaba en tratamiento activo al momento del estudio. El 2.9% consumía medicación psicotrópica.

Muestra 2 (n=372): Participantes de la población general colombiana reclutados a través de una encuesta en línea distribuida por internet y redes sociales institucionales. Las edades oscilaban entre 18 y 89 años (M=26.65, DE=9.81), con 62% mujeres. El 49.2% había completado educación primaria o media, el 33.4% era estudiante o profesional, y el 16.4% tenía o cursaba posgrado. El 40% reportó haber recibido tratamiento psicológico o psiquiátrico, pero solo el 7.5% estaba en tratamiento activo. El 4.3% consumía medicación psicotrópica.

Muestra 3 (n=344): Pacientes clínicos evaluados en un centro de consulta psicológica institucional (91%) o en consultorios privados (9%) de Bogotá, con edades entre 18 y 67 años (M=28.41, DE=11.23) y 67.7% mujeres. El 79.7% reportó síntomas emocionales como motivo de consulta, el 9% presentaba disfunciones sexuales, y el 11.3% otras problemáticas. Solo el 7.1% consumía medicación psicotrópica.

Instrumento(s) evaluado(s)

El GHQ-12 es una escala de 12 ítems con respuestas en formato Likert de 4 puntos. Contiene 6 ítems con redacción positiva y 6 con redacción negativa. Se utilizaron dos métodos de puntuación: el método Likert (0-1-2-3) y el método GHQ (0-0-1-1). Puntuaciones más altas indican mayor nivel de malestar psicológico.

Se administraron instrumentos de validación convergente: la DASS-21 (Escala de Depresión, Ansiedad y Estrés-21) para evaluar síntomas emocionales, el AAQ-II (Cuestionario de Aceptación y Acción-II) para medir evitación experiencial e inflexibilidad psicológica, y la SWLS (Escala de Satisfacción con la Vida) en la Muestra 1 para medir bienestar autopercibido.

Análisis de datos

Previo a la administración principal, se realizaron dos estudios piloto. Primero, se administró el GHQ-12 a 64 estudiantes de psicología clínica para evaluar comprensibilidad de los ítems, sin reportarse problemas. Segundo, se solicitó a 3 expertos en trastornos emocionales que evaluaran la representatividad, comprensibilidad, interpretación y claridad de los ítems, obteniéndose V de Aiken por encima del umbral de .50 para todos los ítems.

La Muestra 1 respondió a los cuestionarios en aulas de clase al inicio de una sesión regular. La Muestra 2 completó una encuesta anónima en línea (www.typeform.com) titulada "Encuesta de Salud Emocional en Colombia". La Muestra 3 respondió a los cuestionarios durante entrevistas de evaluación clínica al inicio del tratamiento. Todos los participantes proporcionaron consentimiento informado y recibieron debriefing al finalizar.

Análisis de Datos

Se utilizó LISREL 8.71 para análisis factoriales confirmatorios (AFC) con estimación Robust DWLS y correlaciones policóricas. Se evaluaron modelos de uno y dos factores mediante índices de bondad de ajuste: RMSEA, CFI, NNFI, ECVI y SRMR. Para análisis de invarianza de medida (métrica y escalar) se compararon modelos encajados según criterios de Cheung y Rensvold (2002) y Chen (2007). Se calcularon coeficientes alfa de Cronbach con intervalos de confianza del 95%, correlaciones ítem-total corregidas, correlaciones de Pearson y curvas de características operativas del receptor (ROC). Los análisis restantes se realizaron en SPSS 20.

Resultados

Calidad Psicométrica de los Ítems

Todos los ítems mostraron buena discriminación, con correlaciones ítem-total corregidas que oscilaban entre .43 y .68 en Muestra 1, entre .44 y .78 en Muestra 2, y entre .55 y .74 en Muestra 3. El coeficiente alfa del GHQ-12 varió entre .88 (Muestra 1) y .91 (Muestras 2 y 3), con un alfa general de .90 (IC 95%: .89 a .91). Se encontraron diferencias significativas de género solo en Muestra 1, donde las mujeres presentaban puntuaciones más altas (t=-3.55, p<.001), pero no en Muestras 2 y 3.

Estructura Factorial

El modelo de un factor mostró un ajuste aceptable: S-Bχ²(54)=603.98, p<.01; CFI=.98, NNFI=.98, SRMR=.05, RMSEA=.079 (IC 90%: .073 a .085). El modelo de dos factores (ítems positivos y negativos en factores separados) presentó mejor ajuste (RMSEA=.066, CFI=.99, NNFI=.98), pero la correlación entre factores fue .90, sugiriendo que la mejora en ajuste representaba principalmente un efecto de método. Por parsimonia teórica, se seleccionó el modelo unidimensional.

Invarianza de Medida

Se demostró invarianza tanto métrica como escalar entre muestras (clínica versus no clínicas) y entre géneros. Los cambios en RMSEA fueron inferiores a .01, y las diferencias en CFI y NNFI fueron mayores que -.01, satisfaciendo criterios de invarianza. Esto indica que el GHQ-12 mide el mismo constructo a través de participantes clínicos y no clínicos, y en hombres y mujeres, validando las comparaciones de puntuaciones entre grupos.

Validez Convergente

El GHQ-12 mostró correlaciones teoricamente coherentes con otras variables. Se encontraron correlaciones positivas fuertes entre GHQ-12 y síntomas emocionales (DASS-21 Depresión: r entre .66 y .79; DASS-21 Ansiedad: r entre .47 y .62; DASS-21 Estrés: r entre .56 y .70) y evitación experiencial (AAQ-II: r entre .57 y .75). Se observaron correlaciones negativas moderadas a fuertes entre GHQ-12 y satisfacción con la vida (SWLS: r=-.44 en Muestra 1).

Validez de Criterio

Las puntuaciones promedio del GHQ-12 diferenciaron significativamente entre muestras: los participantes clínicos (M=16.54, DE=7.86) obtuvieron puntuaciones significativamente más altas que Muestra 1 (M=11.08, DE=6.37; t=-11.54, p<.001) y Muestra 2 (M=11.87, DE=7.47; t=-8.13, p<.001).

Curvas ROC y Puntos de Corte

Las curvas ROC indicaron que el GHQ-12 funcionó mejor que el azar identificando trastornos emocionales. El área bajo la curva fue .80 (IC 95%: .77 a .83) para el método Likert y .78 (IC 95%: .75 a .81) para el método GHQ. Un punto de corte de 11/12 en el método Likert fue óptimo (sensibilidad=.82, especificidad=.63), mientras que 2/3 en el método GHQ fue adecuado (sensibilidad=.80, especificidad=.64). Estos puntos de corte coincidieron con los hallados por Goldberg et al. (1997) en la mayoría de países.

Discusión y conclusiones

El GHQ-12 en su versión española de Rocha et al. (2011) constituye un instrumento de cribado válido para la salud mental en Colombia. Demuestra excelente consistencia interna, estructura factorial unidimensional coherente, invarianza de medida entre muestras clínicas y no clínicas que justifica comparaciones de puntuaciones, validez convergente con medidas de síntomas emocionales y evitación experiencial, y validez de criterio adecuada. Los autores reconocen varias limitaciones: no se recopiló información sistemática sobre diagnósticos en participantes clínicos; algunos aspectos de validez no fueron evaluados como sensibilidad a cambios por tratamiento; el porcentaje de mujeres fue mayor que el de hombres aunque se mitigó por el hallazgo de invarianza de medida entre géneros; finalmente, las curvas ROC utilizaron pertenencia a muestra clínica versus no clínica como criterio, no siendo un estándar de oro.

Importancia y contribución

Este estudio contribuye a la validación transcultural del GHQ-12 proporcionando evidencia sólida de su validez como instrumento de cribado de salud mental en contextos colombianos. Al demostrar invarianza de medida entre muestras clínicas y no clínicas, y proporcionar puntos de corte empíricos específicos (11/12 para método Likert, 2/3 para método GHQ), el trabajo amplía la aplicabilidad del instrumento en evaluación y cribado en poblaciones hispanohablantes. Los hallazgos sobre estructura factorial unifactorial y validez convergente con síntomas emocionales sugieren que el GHQ-12 es una medida transcultural relevante para evaluación clínica.