Validez del Penn State Worry Questionnaire-11 en Colombia e Invarianza Factorial entre Género y Muestras Clínicas y No Clínicas

Referencia completa: Ruiz, F. J., Monroy-Cifuentes, A., & Suárez-Falcón, J. C. (2018). Penn State Worry Questionnaire-11 validity in Colombia and factorial equivalence across gender and nonclinical and clinical samples. Anales de Psicología, 34(3), 451–457. https://doi.org/10.6018/analesps.34.3.30281

Tipo de estudio: Validación de medida psicométrica; Análisis de invarianza factorial; Estudio de propiedades de medición

Contexto y objetivos

El Penn State Worry Questionnaire (PSWQ) es considerado el estándar de oro para medir la preocupación relacionada con el trastorno de ansiedad generalizada (TAG). Sin embargo, existe debate sobre la estructura factorial del instrumento: algunos estudios han encontrado un mejor ajuste con una estructura de un factor (preocupación patológica), mientras que otros han reportado dos factores. Esta discrepancia es especialmente relevante en contextos hispanohablantes, donde las versiones traducidas han presentado propiedades psicométricas inconsistentes.

Un problema importante en la investigación del PSWQ es el uso de ítems redactados negativamente (ej., "no me preocupa que..."), que han mostrado carecer de utilidad práctica y no correlacionar adecuadamente con otras variables psicológicas. Algunos autores han sugerido usar solo los 11 ítems positivamente redactados del instrumento (PSWQ-11), generando mejor comprensión en hablantes de español y mejores propiedades psicométricas.

Este estudio tuvo dos objetivos principales: (1) explorar la validez y propiedades psicométricas del PSWQ-11 en muestras colombianas noclínicas y clínicas, y (2) examinar la invarianza de medición (equivalencia factorial) del instrumento entre género y estatus clínico/no clínico. La investigación se enmarca en la premisa de que un instrumento válido debe medir el mismo constructo de manera consistente a través de diferentes grupos de población.

Método

Participantes

El estudio incluyó dos muestras separadas. La Muestra 1 consistió en 710 participantes no clínicos (71.4% mujeres), con edades entre 18 y 89 años (M = 27.51, DE = 10.18). El nivel educativo relativo fue diverso: 44.8% tenían educación de escuela secundaria o media, 34.9% eran estudiantes de pregrado o egresados de educación técnica, y 20.3% tenían grado de postgrado. El 7.4% de participantes reportó recibir tratamiento psicológico/psiquiátrico, y el 3.7% reportó consumo de algún medicamento psicotrópico. Todos los participantes eran colombianos y respondieron una encuesta anónima distribuida por internet a través de redes sociales, Facebook, y sitios institucionales.

La Muestra 2 consistió en 335 participantes clínicos (74% mujeres), con edades entre 18 y 63 años (M = 27.40, DE = 9.93). Estos participantes fueron evaluados en un centro de consulta psicológica institucional en Bogotá durante consultorías de psicología clínica. La mayoría de participantes clínicos reportó síntomas emocionales como razón principal de consulta (91%), mientras que el 7.2% reportó problemas de habilidades sociales. Solo el 7.2% reportó consumo de medicamentos psicotrópicos.

Diseño experimental

El estudio empleó un diseño transversal correlacional para evaluar propiedades psicométricas y un análisis de invarianza factorial multigrupo. Se examinó la estructura factorial del PSWQ-11, se evaluó la consistencia interna, y se analizó la invarianza de medición a nivel configural, métrico y escalar. Las variables de agrupación fueron género (hombre/mujer) y estatus clínico (clínico/no clínico), permitiendo examinar si la estructura del instrumento se mantenía equivalente entre estos grupos.

Materiales y aparatos

Penn State Worry Questionnaire-11 (PSWQ-11). Versión del PSWQ que incluye solo los 11 ítems redactados positivamente, eliminando los 5 ítems negativamente redactados. El PSWQ original fue diseñado para evaluar la preocupación permanente y no específica característica del TAG, con puntuaciones que oscilan de 16 a 80. La versión en español utilizada fue sugerida por Sandín et al. (2009) tras encontrar que los ítems negativamente redactados eran difíciles de comprender para hablantes hispanohablantes y mostraban propiedades psicométricas deficientes.

Depression, Anxiety, and Stress Scales-21 (DASS-21). Instrumento de autoinforme de 21 ítems con escala Likert de 4 puntos que evalúa síntomas de depresión, ansiedad y estrés. Se utilizó la traducción al español del DASS-21 para evaluar síntomas emocionales negativos y correlaciones con el PSWQ-11. El instrumento ha mostrado buenas propiedades psicométricas en muestras colombianas (Ruiz, García-Martín, Suárez-Falcón, & Odriozola-González, 2017).

Generalized Anxiety Disorder-7 (GAD-7). Instrumento de autoinforme de 7 ítems con escala Likert de 4 puntos diseñado como medida diagnóstica y de severidad del TAG. Se utilizó la traducción al español para evaluar síntomas de ansiedad relacionados con preocupación.

Ruminación and Rumination Response Scale - Short Form (RRS-SF). Instrumento que mide la tendencia a rumiar sobre síntomas de depresión. Se utilizó para evaluar correlaciones esperadas con el PSWQ-11.

Los datos fueron analizados usando el software LISREL (versión 8.71) para análisis factoriales confirmatorios (AFC) y SPSS 20 para estadísticas descriptivas y correlaciones.

Procedimiento

Los participantes de la Muestra 1 respondieron a una encuesta anónima distribuida por internet a través de redes sociales, páginas web institucionales, perfiles de Facebook, y correos electrónicos. La encuesta se llamó "Encuesta de Salud Emocional en Colombia" y fue respondida en línea en el sitio web www.encuestasalud.com. Después de completar la recolección de datos, se envió un formulario general a los participantes explicando los propósitos del estudio.

Los participantes de la Muestra 2 respondieron los cuestionarios al inicio del tratamiento en una clínica de psicología clínica. Todos los participantes proporcionaron consentimiento informado y confirmaron su voluntad de participación de forma anónima.

Además del PSWQ-11, los participantes de la Muestra 1 respondieron al DASS-21, RRS-SF, y una sección de DASS-21 seleccionada. Otros participantes respondieron al PSWQ-11, DASS-21, y RRS-SF (N = 370), mientras que otros respondieron al GAD-7 (N = 340).

Análisis de datos

Se empleó análisis de imputación de datos faltantes mediante el método de estimación de máxima verosimilitud (WLS) usando correlaciones policóricas, recomendado para muestras grandes con más de 20 ítems (Holaday, Chacón, Micheo, Barbero-García, & Vila-Abad, 2010). Se analizó la normalidad bivariada mediante prueba de chi-cuadrado y RMSEA, con valores RMSEA menores a 0.1 en todas las correlaciones (apoyando el uso de matrices de correlaciones policóricas).

Se ejecutaron análisis factoriales confirmatorios (AFC) de un factor para evaluar la validez de estructura interna. Se compararon modelos utilizando diferencias en RMSEA (Δ RMSEA < .01), diferencias en CFI (Δ CFI ≥ -.01), y diferencias en NNFI (Δ NNFI ≥ -.01) según criterios de Cheung y Rensvold (2002) y Chen (2007). Se calcularon intervalos de confianza (IC) bootstrap al 95% para explorar la consistencia interna del PSWQ-11 en Muestras 1 y 2, así como en la muestra general.

Para examinar invarianza de medición, se siguieron procedimientos estándar (Cheung & Rensvold, 2002; Millsap & Yun-Tein, 2004) analizando tres modelos: modelo de línea base multigrupo (sin restricciones), modelo de invarianza métrica (restricciones de igualdad en cargas factoriales entre grupos), y modelo de invarianza escalar (restricciones de igualdad en cargas factoriales e interceptos). Se examinó invarianza métrica y escalar entre género y entre participantes clínicos y no clínicos usando cambios en RMSEA, CFI, y NNFI como criterios de decisión.

Resultados

Calidad psicométrica descriptiva de los ítems

La Tabla 1 presenta estadísticos descriptivos y correlaciones corregidas entre cada ítem y la puntuación total para ambas muestras. Todos los ítems mostraron correlaciones significativas con la puntuación total, con valores de correlación corregida oscilando de .67 a .88 en la Muestra 1 y de .65 a .85 en la Muestra 2, indicando excelente discriminación de ítems.

Respecto a consistencia interna, la Tabla 2 reporta coeficientes alfa y omega con intervalos de confianza (IC) del 95%. En la Muestra 1 no clínica (n = 710), el alfa fue .949 (IC [.942, .954]) y omega fue .949 (IC [.943, .954]). En la Muestra 2 clínica (n = 335), el alfa fue .933 (IC [.920, .942]) y omega fue .934 (IC [.921, .944]). En la muestra total (n = 1045), el alfa fue .951 (IC [.946, .955]) y omega fue .952 (IC [.947, .956]). Estos valores indican consistencia interna excelente en todos los casos, bien por encima del umbral mínimo aceptable de .70.

Las puntuaciones medias fueron M = 27.47 (DE = 10.44) en la Muestra 1 no clínica y M = 36.29 (DE = 10.13) en la Muestra 2 clínica, mostrando diferencia estadísticamente significativa entre participantes clínicos y no clínicos (t = -12.80, p < .001).

Validez de estructura interna: Dimensionalidad

Los resultados de la prueba de chi-cuadrado para explorar normalidad bivariada mostraron que este supuesto fue aceptado en el 22% de las correlaciones. Sin embargo, los valores de RMSEA fueron menores a 0.1 en todas las correlaciones, apoyando el uso de matrices de correlaciones policóricas para conducir el AFC.

El modelo unifactorial del PSWQ-11 mostró excelente ajuste a los datos. Los valores de bondad de ajuste fueron χ²(44) = 430.73, p < .01; CFI = .99; NNFI = .98; y RMSEA = .092, IC [.084, .099]. El CFI y NNFI por encima de .95 indican ajuste muy bueno, mientras que el RMSEA = .092 se considera aceptable según directrices de Kelloway (1998), aunque fue ligeramente más alto que el estándar más riguroso de Hu y Bentler (1999). Globalmente, el ajuste del modelo unifactorial fue muy satisfactorio.

Las cargas factoriales estandarizadas oscilaron de .72 a .94 según la Figura 1, mostrando que todos los ítems contribuyeron significativamente al constructo de preocupación patológica. Los ítems 7 y 6 presentaron cargas más altas (.94 y .89, respectivamente), mientras que el Item 10 mostró la carga más baja (.79).

Validez de medición: Invarianza factorial

La Tabla 3 presenta resultados de análisis de invarianza métrica y escalar entre grupos clínicos y no clínicos, y entre géneros.

Invarianza entre muestras clínica y no clínica: El modelo de línea base multigrupo sin restricciones mostró RMSEA = .0955, CFI = .984, NNFI = .984. El modelo de invarianza métrica (cargas factoriales restringidas a ser iguales) mostró RMSEA = .0952 (Δ RMSEA = -.0003), CFI = .983 (Δ CFI = -.001), NNFI = .981 (Δ NNFI = -.000), satisfaciendo todos los criterios de cambios mínimos. El modelo de invarianza escalar (cargas factoriales e interceptos restringidos) mostró RMSEA = .1010 (Δ RMSEA = .0058), CFI = .979 (Δ CFI = -.004), NNFI = .078 (Δ NNFI = -.003), también satisfaciendo criterios de cambios menores a .01.

Invarianza entre géneros: El modelo de línea base mostró RMSEA = .0893, CFI = .985, NNFI = .985. El modelo de invarianza métrica mostró RMSEA = .0884 (Δ RMSEA = .0009), CFI = .984 (Δ CFI = -.001), NNFI = .982 (Δ NNFI = .001). El modelo de invarianza escalar mostró RMSEA = .0861 (Δ RMSEA = .0023), CFI = .983 (Δ CFI = -.001), NNFI = .983 (Δ NNFI = .001), satisfaciendo todos los criterios.

Estos resultados indican que el PSWQ-11 mide el mismo constructo (preocupación patológica) de manera equivalente entre participantes clínicos y no clínicos, y entre hombres y mujeres.

Validez basada en relaciones con otras variables

El PSWQ-11 mostró correlaciones significativas con todas las escalas de criterio concurrente examinadas (Tabla 4). Correlaciones positivas fueron encontradas con el DASS-21 Depresión (r = .58, n = 710, p < .001), DASS-21 Ansiedad (r = .46, n = 242, p < .001), DASS-21 Estrés (r = .67, n = 710, p < .001), y GAD-7 (r = .73, n = 340, p < .001). Correlaciones positivas también fueron encontradas con RRS-SF Rumiación (r = .65, n = 370, p < .001) y RRS-SF Reflexión (r = .49, n = 370, p < .001). Una correlación negativa fue encontrada con la Escala de Aceptación y Acción (AAQ; r = -.33, n = 370, p < .001), consistente con la relación esperada entre preocupación y rechazo experiencial. Las magnitudes de estas correlaciones fueron generalmente moderadas a grandes, apoyando la validez convergente del instrumento.

Respecto a discriminación clínica, el PSWQ-11 discriminó significativamente entre participantes clínicos y no clínicos. Los participantes clínicos mostraron puntuaciones significativamente más altas (M = 36.29, DE = 10.13) que participantes no clínicos (M = 27.47, DE = 10.44), t = -12.80, p < .001. No hubo diferencias estadísticamente significativas en puntuaciones del PSWQ-11 entre hombres y mujeres en ninguna de las muestras, sugiriendo que el instrumento funciona equivalentemente entre géneros.

Discusión y conclusiones

Este estudio proporciona evidencia sólida de que la versión abreviada del PSWQ en español (PSWQ-11) es un instrumento válido y confiable para medir preocupación patológica en muestras colombianas. Los hallazgos respaldan las recomendaciones previas de Sandín et al. (2009) de utilizar únicamente los 11 ítems positivamente redactados, eliminando los 5 ítems negativamente redactados que demostraron carecer de utilidad práctica en poblaciones hispanohablantes.

Un hallazgo particularmente importante fue la equivalencia factorial del PSWQ-11 entre género y participantes clínicos/no clínicos. Estos resultados de invarianza de medición son críticos porque justifican la comparación válida de puntuaciones entre estos grupos. En ausencia de datos que apoyen la equivalencia factorial del PSWQ, no sería legítimo comparar puntuaciones entre muestras de hombres y mujeres, o entre participantes clínicos y no clínicos. El actual estudio extiende hallazgos previos de Brown (2003) a contextos hispanohablantes y poblaciones clínicas, confirmando que el PSWQ mide el mismo constructo entre estos grupos.

Algunas limitaciones merecen mención. Primero, la información sistemática sobre estatus diagnóstico fue obtenida solo de participantes clínicos. Segundo, ciertos aspectos de validez no fueron analizados completamente en el estudio actual (ej., validez divergente, sensibilidad a efectos de tratamiento, etc.). Tercero, debido a restricciones de tiempo, no todos los participantes completaron todos los cuestionarios, resultando en tamaños de muestra ligeramente reducidos para algunos análisis de correlación. Cuarto, la muestra fue predominantemente femenina (aproximadamente 300 participantes hombre/mujer en ambas categorías), aunque esto fue suficiente para conducir análisis de invarianza factorial robustos. Finalmente, aunque todos los participantes pudieron responder a todos los cuestionarios, algunos decidieron no completar ciertos cuestionarios por lo que se usaron solo los datos de quienes completaron todas las medidas.

En conclusión, la versión abreviada en español del PSWQ (PSWQ-11) sugerida por Sandín et al. (2009) puede ser utilizada como una medida válida de preocupación relacionada con el TAG en Colombia. El instrumento demuestra consistencia interna excelente (α = .95), estructura unifactorial aceptable, e invarianza de medición a nivel métrico y escalar entre género y participantes clínicos/no clínicos. Además, el PSWQ-11 mostró validez evidente basada en relaciones con medidas de síntomas emocionales (depresión, ansiedad, estrés) y rumiadoras (rumiación y reflexión). Los datos de invarianza de medición encontrados en este estudio a través de múltiples contextos justifican la comparación de puntuaciones entre hombres y mujeres, y entre participantes clínicos y no clínicos.

Importancia y contribución

Este estudio contribuye significativamente al campo de la medición de la preocupación en contextos hispanohablantes, específicamente en Colombia. Al demostrar que la versión abreviada del PSWQ (PSWQ-11) proporciona propiedades psicométricas sólidas y equivalencia factorial entre géneros y estatus clínico, el trabajo valida el uso de este instrumento en investigación y práctica clínica. Esto tiene implicaciones importantes para evaluación diagnóstica en el TAG, investigación clínica sobre mecanismos de preocupación, y evaluación de cambio terapéutico en protocolos de intervención basados en aceptancia y compromiso y otros enfoques psicoterapéuticos dirigidos a la reducción de preocupación patológica. El hallazgo de que la versión positivamente redactada muestra mejores propiedades que la versión original con ítems negativos también tiene implicaciones para traducción y adaptación de instrumentos psicométricos a idiomas hispanohablantes.

Penn State Worry Questionnaire-11 Validity in Colombia and Factorial Equivalence Across Gender and Nonclinical and Clinical Samples

Full reference: Ruiz, F. J., Monroy-Cifuentes, A., & Suárez-Falcón, J. C. (2018). Penn State Worry Questionnaire-11 validity in Colombia and factorial equivalence across gender and nonclinical and clinical samples. Annals of Psychology, 34(3), 451–457. https://doi.org/10.6018/analesps.34.3.30281

Study type: Psychometric measure validation; Factorial invariance analysis; Measurement property study

Background and objectives

The Penn State Worry Questionnaire (PSWQ) is considered the gold standard measure for assessing worry related to generalized anxiety disorder (GAD). However, debate exists regarding the factor structure of the instrument: some studies have found better fit with a one-factor structure (pathological worry), while others have reported two factors. This discrepancy is particularly relevant in Spanish-speaking contexts, where translated versions have shown inconsistent psychometric properties.

A significant problem in PSWQ research is the use of negatively worded items (e.g., "it does not worry me that..."), which have demonstrated lack of practical utility and fail to correlate adequately with other psychological variables. Some authors have suggested using only the 11 positively worded items (PSWQ-11), which generates better comprehension in Spanish speakers and improved psychometric properties.

This study had two primary objectives: (1) to explore the validity and psychometric properties of the PSWQ-11 in Colombian nonclinical and clinical samples, and (2) to examine measurement invariance (factorial equivalence) of the instrument across gender and clinical/nonclinical status. The research is framed on the premise that a valid instrument must measure the same construct consistently across different population groups.

Method

Participants

The study included two separate samples. Sample 1 consisted of 710 nonclinical participants (71.4% female), with ages ranging from 18 to 89 years (M = 27.51, SD = 10.18). Educational level varied: 44.8% had secondary school education, 34.9% were undergraduate students or technical education graduates, and 20.3% held graduate degrees. 7.4% of participants reported receiving psychological/psychiatric treatment, and 3.7% reported psychotropic medication consumption. All participants were Colombian and responded to an anonymous online survey distributed through social media, Facebook, and institutional websites.

Sample 2 consisted of 335 clinical participants (74% female), with ages ranging from 18 to 63 years (M = 27.40, SD = 9.93). These participants were evaluated at an institutional psychological consultation center in Bogotá during clinical psychology consultations. Most clinical participants reported emotional symptoms as the primary reason for consultation (91%), while 7.2% reported social skills deficits. Only 7.2% reported psychotropic medication consumption.

Experimental design

The study employed a cross-sectional correlational design to evaluate psychometric properties and multigroup factorial invariance analysis. The factor structure of the PSWQ-11 was examined, internal consistency evaluated, and measurement invariance analyzed at configural, metric, and scalar levels. The grouping variables were gender (male/female) and clinical status (clinical/nonclinical), allowing examination of whether the instrument's structure remained equivalent across these groups.

Materials and apparatus

Penn State Worry Questionnaire-11 (PSWQ-11). Version of the PSWQ including only the 11 positively worded items, eliminating the 5 negatively worded items. The original PSWQ was designed to assess the persistent and nonspecific worry characteristic of GAD, with scores ranging from 16 to 80. The Spanish version used was recommended by Sandín et al. (2009) after finding that negatively worded items were difficult for Spanish speakers to understand and showed poor psychometric properties.

Depression, Anxiety, and Stress Scales-21 (DASS-21). A 21-item self-report instrument with 4-point Likert scale assessing depression, anxiety, and stress symptoms. The Spanish translation was used to evaluate negative emotional symptoms and correlations with the PSWQ-11. The instrument has shown good psychometric properties in Colombian samples (Ruiz, García-Martín, Suárez-Falcón, & Odriozola-González, 2017).

Generalized Anxiety Disorder-7 (GAD-7). A 7-item self-report instrument with 4-point Likert scale designed as a diagnostic and severity measure of GAD. The Spanish translation was used to evaluate anxiety symptoms related to worry.

Ruminación and Rumination Response Scale - Short Form (RRS-SF). An instrument measuring the tendency to ruminate over depression symptoms. Used to evaluate expected correlations with the PSWQ-11.

Data were analyzed using LISREL software (version 8.71) for confirmatory factor analysis (CFA) and SPSS 20 for descriptive statistics and correlations.

Procedure

Sample 1 participants responded to an anonymous online survey distributed through social media, institutional web pages, Facebook profiles, and emails. The survey was titled "Survey of Emotional Health in Colombia" and was completed online at www.encuestasalud.com. After data collection, a general form was sent to participants explaining the study's purposes.

Sample 2 participants completed questionnaires at the beginning of treatment at a clinical psychology clinic. All participants provided informed consent and confirmed their voluntary participation anonymously.

In addition to the PSWQ-11, Sample 1 participants completed the DASS-21, RRS-SF, and selected DASS-21 sections. Other participants completed the PSWQ-11, DASS-21, and RRS-SF (N = 370), while others completed GAD-7 measures (N = 340).

Data analysis

Missing data imputation was conducted using weighted least squares (WLS) estimation with polychoric correlations, recommended for large samples with more than 20 items (Holaday, Chacón, Micheo, Barbero-García, & Vila-Abad, 2010). Bivariate normality was analyzed via chi-square test and RMSEA, with RMSEA values below 0.1 in all correlations (supporting polychoric correlation matrices).

Confirmatory factor analysis (CFA) of a one-factor model was conducted to evaluate internal structure validity. Models were compared using RMSEA differences (Δ RMSEA < .01), CFI differences (Δ CFI ≥ -.01), and NNFI differences (Δ NNFI ≥ -.01) per Cheung and Rensvold (2002) and Chen (2007) criteria. Ninety-five percent bootstrap confidence intervals (CI) were calculated to explore internal consistency of the PSWQ-11 in Samples 1 and 2, as well as the overall sample.

To examine measurement invariance, standard procedures (Cheung & Rensvold, 2002; Millsap & Yun-Tein, 2004) were followed, analyzing three models: unconstrained multigroup baseline model, metric invariance model (equality constraints on factor loadings across groups), and scalar invariance model (equality constraints on factor loadings and intercepts). Metric and scalar invariance were examined across gender and across clinical/nonclinical participants using RMSEA, CFI, and NNFI changes as decision criteria.

Results

Descriptive psychometric quality of items

Table 1 presents descriptive statistics and corrected item-total correlations for both samples. All items showed significant correlations with total scores, with corrected correlations ranging from .67 to .88 in Sample 1 and .65 to .85 in Sample 2, indicating excellent item discrimination.

Regarding internal consistency, Table 2 reports alpha and omega coefficients with 95% confidence intervals (CI). In Sample 1 nonclinical (n = 710), alpha was .949 (CI [.942, .954]) and omega was .949 (CI [.943, .954]). In Sample 2 clinical (n = 335), alpha was .933 (CI [.920, .942]) and omega was .934 (CI [.921, .944]). In the total sample (n = 1045), alpha was .951 (CI [.946, .955]) and omega was .952 (CI [.947, .956]). These values indicate excellent internal consistency across all cases, well above the minimum acceptable threshold of .70.

Mean scores were M = 27.47 (SD = 10.44) in Sample 1 nonclinical and M = 36.29 (SD = 10.13) in Sample 2 clinical, showing statistically significant difference between clinical and nonclinical participants (t = -12.80, p < .001).

Validity evidence based on internal structure: Dimensionality

Results of the chi-square test for bivariate normality showed this assumption was accepted in 22% of correlations. However, RMSEA values were below 0.1 in all correlations, supporting the use of polychoric correlation matrices to conduct CFA.

The one-factor PSWQ-11 model showed excellent fit. Goodness-of-fit values were χ²(44) = 430.73, p < .01; CFI = .99; NNFI = .98; and RMSEA = .092, CI [.084, .099]. CFI and NNFI above .95 indicate very good fit, while RMSEA = .092 is considered acceptable per Kelloway (1998) guidelines, though slightly higher than the stricter standard of Hu and Bentler (1999). Overall, the one-factor model fit was highly satisfactory.

Standardized factor loadings ranged from .72 to .94 as shown in Figure 1, indicating all items contributed significantly to the pathological worry construct. Items 7 and 6 showed the highest loadings (.94 and .89, respectively), while Item 10 showed the lowest loading (.79).

Measurement validity: Factorial invariance

Table 3 presents results of metric and scalar invariance analyses across clinical/nonclinical groups and genders.

Invariance across clinical and nonclinical samples: The unconstrained multigroup baseline model showed RMSEA = .0955, CFI = .984, NNFI = .984. The metric invariance model (factor loadings constrained equal) showed RMSEA = .0952 (Δ RMSEA = -.0003), CFI = .983 (Δ CFI = -.001), NNFI = .981 (Δ NNFI = -.000), satisfying all minimal change criteria. The scalar invariance model (factor loadings and intercepts constrained) showed RMSEA = .1010 (Δ RMSEA = .0058), CFI = .979 (Δ CFI = -.004), NNFI = .078 (Δ NNFI = -.003), also satisfying minimal change criteria below .01.

Invariance across genders: The baseline model showed RMSEA = .0893, CFI = .985, NNFI = .985. The metric invariance model showed RMSEA = .0884 (Δ RMSEA = .0009), CFI = .984 (Δ CFI = -.001), NNFI = .982 (Δ NNFI = .001). The scalar invariance model showed RMSEA = .0861 (Δ RMSEA = .0023), CFI = .983 (Δ CFI = -.001), NNFI = .983 (Δ NNFI = .001), satisfying all criteria.

These results indicate the PSWQ-11 measures the same construct (pathological worry) equivalently across clinical and nonclinical participants, and across males and females.

Validity evidence based on relationships with other variables

The PSWQ-11 showed significant correlations with all concurrent criterion scales examined (Table 4). Positive correlations were found with DASS-21 Depression (r = .58, n = 710, p < .001), DASS-21 Anxiety (r = .46, n = 242, p < .001), DASS-21 Stress (r = .67, n = 710, p < .001), and GAD-7 (r = .73, n = 340, p < .001). Positive correlations were also found with RRS-SF Rumination (r = .65, n = 370, p < .001) and RRS-SF Reflection (r = .49, n = 370, p < .001). A negative correlation was found with the Acceptance and Action Questionnaire (AAQ; r = -.33, n = 370, p < .001), consistent with the expected relationship between worry and experiential avoidance. The magnitudes of these correlations were generally moderate to large, supporting convergent validity of the instrument.

Regarding clinical discrimination, the PSWQ-11 significantly discriminated between clinical and nonclinical participants. Clinical participants showed significantly higher scores (M = 36.29, SD = 10.13) than nonclinical participants (M = 27.47, SD = 10.44), t = -12.80, p < .001. There were no statistically significant differences in PSWQ-11 scores between males and females in any sample, suggesting the instrument functions equivalently across genders.

Discussion and conclusions

This study provides strong evidence that the abbreviated Spanish version of the PSWQ (PSWQ-11) is a valid and reliable instrument for measuring pathological worry in Colombian samples. Findings support previous recommendations by Sandín et al. (2009) to use only the 11 positively worded items, eliminating the 5 negatively worded items that demonstrated lack of practical utility in Spanish-speaking populations.

A particularly important finding was the factorial equivalence of the PSWQ-11 across gender and clinical/nonclinical participants. These measurement invariance results are critical because they justify valid score comparison across these groups. In the absence of data supporting PSWQ factorial equivalence, it would not be legitimate to compare scores between male and female samples, or between clinical and nonclinical participants. The current study extends previous findings by Brown (2003) to Spanish-speaking contexts and clinical populations, confirming the PSWQ measures the same construct across these groups.

Several limitations merit mention. First, systematic diagnostic status information was obtained only from clinical participants. Second, certain validity aspects were not fully analyzed in the current study (e.g., discriminant validity, sensitivity to treatment effects, etc.). Third, due to time constraints, not all participants completed all questionnaires, resulting in slightly reduced sample sizes for some correlation analyses. Fourth, the sample was predominantly female (approximately 300 male/female participants in each category), though this was sufficient to conduct robust factorial invariance analyses. Finally, although all participants could respond to all questionnaires, some chose not to complete certain questionnaires, so only data from those completing all measures were used.

In conclusion, the abbreviated Spanish version of the PSWQ (PSWQ-11) recommended by Sandín et al. (2009) can be used as a valid measure of worry related to GAD in Colombia. The instrument demonstrates excellent internal consistency (α = .95), acceptable one-factor structure, and measurement invariance at metric and scalar levels across gender and clinical/nonclinical participants. Additionally, the PSWQ-11 showed validity evidence based on relationships with measures of emotional symptoms (depression, anxiety, stress) and ruminative processes (rumination and reflection). The measurement invariance data found in this study across multiple contexts justifies comparison of scores between males and females, and between clinical and nonclinical participants.

Significance and contribution

This study contributes significantly to the field of worry measurement in Spanish-speaking contexts, specifically in Colombia. By demonstrating that the abbreviated PSWQ version (PSWQ-11) provides solid psychometric properties and factorial equivalence across genders and clinical status, this work validates the use of this instrument in research and clinical practice. This has important implications for diagnostic assessment in GAD, clinical research on worry mechanisms, and assessment of therapeutic change in acceptance and commitment therapy protocols and other psychotherapeutic approaches targeting pathological worry reduction. The finding that the positively worded version shows better properties than the original version with negative items also has implications for translation and adaptation of psychometric instruments to Spanish-speaking languages.

Penn State Worry Questionnaire-11 validity in Colombia and factorial equivalence across gender and nonclinical and clinical samples

Autores

Revista

Resumen

Resumen Detallado