Fundamentos de Psicometría: Medición, Fiabilidad y Validez en Evaluación Psicológica

Enviado por Chuletator online y clasificado en Magisterio

Escrito el 24 de Junio de 2026 en español con un tamaño de 11,17 KB

Conceptos Fundamentales de Medición Psicológica

Medición: Se define como la asignación de valores numéricos a una variable psicológica. Un proceso es fiable cuando es estable y consistente, mientras que es válido cuando mide correctamente el constructo que pretende evaluar.

Instrumento: Es una herramienta estandarizada y objetiva diseñada para medir o cuantificar variables específicas.

Niveles de Medición

Escala: Valores ordenados (por ejemplo, un test de inteligencia).
Nominal: Clasifica categorías (por ejemplo, un cuestionario de personalidad).

Teoría Clásica de los Tests (TCT)

La TCT diferencia la puntuación verdadera (valor real) de la observada (medida falible), ya que esta última posee un margen de error (la medida se desvía del valor real). Según Spearman, no se puede acceder directamente al valor real de un atributo psicológico. Esta teoría se utiliza para analizar la confiabilidad, validez y calidad de los instrumentos.

Error estándar de medida: Es la desviación estándar de los puntajes en una administración repetida bajo condiciones idénticas.

El Concepto de Error

El error es el resultado de todo factor (proveniente de la persona, la situación o relativos a la composición del test) que hace que la puntuación observada se aleje de su valor esperado, implicando un cambio en la puntuación. Existen diversas fuentes de error:

Factores transitorios: Modificaciones en la respuesta que cambian de una aplicación a otra y afectan por igual a todos los ítems. Se detectan mediante un re-test.
Especificidad: Cambios por el contenido de los ítems. Se detecta en el rendimiento de la persona en distintas partes del test.
Factores aleatorios: Inconsistencia en la respuesta que no se debe al contenido ni a otros factores de la persona o situación.

Resguardos Éticos en la Evaluación

Consentimiento Informado

Es un proceso fundamentado en una conversación entre el entrevistador y el probando. Este incluye:

Forma: Documento que entrega la información necesaria para obtener el consentimiento del probando; debe ser claro y preciso, evitando el lenguaje técnico.
Contenido: Debe explicitar los objetivos, criterios de reclutamiento, destino final del material, frecuencia y tiempo de demanda, asegurar el acceso a los resultados, beneficios potenciales o reales (propios y a terceros), riesgos y costos.
Garantías: Debe asegurar la confidencialidad y el anonimato, e integrar medios de contacto, nombre y comité de ética. Por otro lado, debe asegurar la posibilidad de retirarse declarando la voluntariedad y entregar una copia al interesado. Se debe informar si se realizará una grabación.

Situaciones Especiales

Sujetos incompetentes: Requieren la firma de un familiar responsable.
Niños, Niñas y Adolescentes (NNA): Los menores de 14 años utilizan un asentimiento informado sumado al consentimiento firmado por un adulto.
Pueblos originarios: Se solicita el consentimiento individual y la aprobación de la comunidad.

Estructura y Construcción de Instrumentos

Orden Jerárquico

Constructo: Ejemplo: Memoria.
Dimensión: Variable de un aspecto de un constructo (ejemplo: memoria a corto plazo).
Indicador: Retención de información verbal.
Ítem: Capacidad de listar palabras luego de escucharlas.

Escala de Grado de Acuerdo (Likert)

Se recomiendan 5 categorías, la presencia de una categoría central y etiquetas que abarquen todo el continuo de respuesta.

Confiabilidad o Fiabilidad

Evalúa la varianza y la precisión en el margen de error. Busca que los resultados sean consistentes, estables y reproducibles en el tiempo (replicabilidad). Es el grado de coherencia de puntaje entre aplicaciones repetidas. Posee tres fuentes principales:

a) Equivalencia: Obtención de los mismos resultados con distintos instrumentos.
b) Estabilidad: Resultados estables en el tiempo con el mismo instrumento. Se basa en la Correlación de Pearson (cercana a 1 indica mayor estabilidad) y el Coeficiente Test-Retest.
c) Consistencia: Concordancia de puntuaciones o correlación entre ítems. Se basa en:
- Coeficiente Alfa de Cronbach: Promedio de correlación; se sugiere sobre 0.80 (Nunnally, 1987).
- Coeficiente Jerárquico Omega de McDonald: Cargas factoriales sobre 0.71 se consideran buenas y sobre 0.81 muy buenas (Colorado et al., 2024).
- KR-20 (Kuder-Richardson): Utilizado con variables dicotómicas o binarias.

Consideraciones Importantes

El Alfa de Cronbach puede complejizar la interpretación si el test no es unidimensional. Además, tiene limitaciones con el número de ítems, número de alternativas y proporción de varianza. El Omega posee mayor precisión y estabilidad y no depende del número de ítems.
A mayor confiabilidad, las decisiones no se revierten con facilidad.
Una confiabilidad modesta permite decisiones iniciales erróneas que son fáciles de corregir.

Estrategias de Búsqueda de Confiabilidad

Formas paralelas: Dos versiones equivalentes del test que evalúan lo mismo pero con distintos ítems.
Intra/Inter Evaluador (Concordancia interobservador):
- Intra: Coherencia de calificación por el mismo evaluador en aplicaciones repetidas.
- Inter: Grado de acuerdo entre observadores que evalúan el mismo fenómeno. Usa porcentaje de acuerdo, CCI o Kappa de Cohen (fuerza entre -1 y +1; 0.81-1.00 es casi perfecta).
Test-Retest: Mismo test aplicado a la misma persona en dos momentos distintos para evaluar estabilidad.
Consistencia interna: Grado de relación entre ítems para asegurar que midan lo mismo.

Validez de los Instrumentos

Validez: Es la capacidad de un test para medir aquello que pretende medir (exactitud). Contrasta la evidencia acumulada con la teoría para interpretar los puntajes.

Validación: Proceso de interpretación de puntuaciones con un objetivo específico. Consta de dos fases:

Argumento interpretativo: Identifica y diferencia el constructo (ejemplo: burnout laboral vs. académico) e indica cómo se usarán las puntuaciones.
Argumento de validez: Reúne y evalúa las evidencias empíricas para validar el argumento interpretativo.

Fuentes de Evidencia de Validez

a) Contenido

Analiza el constructo (definición, dimensiones, indicadores e ítems), el objetivo, la población y la proporcionalidad mediante el juicio de expertos.

Evaluación de jueces: Opinión argumentada de personas con trayectoria sobre la valoración de la prueba.
Elaboración de reactivos: Evalúa calidad y grado de conducta relacionada.
Requisitos de los jueces: Experiencia, entrenamiento, reputación, imparcialidad y disponibilidad.
Exigencias: Medición fiable, rango de aplicabilidad, mediciones válidas y protocolo del instrumento.

b) Criterio

Asociación de puntuaciones con variables externas. Existen dos tipos:

Validez concurrente: Centrada en el presente; compara escalas simultáneamente (ejemplo: BAI vs. DASS-21).
Validez predictiva: Evalúa la capacidad de predecir puntuaciones futuras (ejemplo: PAES vs. notas universitarias) mediante regresión.

c) Estructura Interna o Constructo

Determina qué tanto un ítem pertenece a una dimensión. Utiliza el Análisis Factorial (AF):

AF Exploratorio (AFE): Se usa cuando no existe una estructura clara; ideal para el desarrollo de instrumentos.
AF Confirmatorio (AFC): Confirma si la estructura teórica se mantiene en la muestra empírica. Utiliza indicadores de ajuste:
- Incrementales: CFI, GFI y TLI.
- Absolutos: RMSEA y SRMR.

d) Basada en las Consecuencias

Considera los efectos e implicancias del uso del instrumento en la toma de decisiones, evaluando si estas son apropiadas.

Valores para la Interpretación de Tablas

Correlación de Pearson: 0.00-0.10 (nula); 0.20-0.30 (débil); 0.30-0.50 (moderada); 0.50-1.00 (fuerte).
Regresión: R² > 60%; Error estándar < 1.0; p < 0.05.
CFI: ≥ 0.95 (o 0.90 según criterios menos estrictos).
GFI: ≥ 0.89 (100 casos) o 0.93 (más casos).
TLI: > 0.90.
RMSEA: ≤ 0.05 para un ajuste adecuado.
SRMR: ≤ 0.09 (100 casos) o < 0.08 (más casos).
Alfa de Cronbach: 0.70-0.90 (bueno).
Omega: 0.71-0.80 (buena); 0.81-0.90 (muy buena); > 0.90 (excelente).

Análisis de Tablas de AF Confirmatorio (AFC)

El valor p debería ser no significativo (> 0.05).
Los valores correctos indican un buen ajuste del modelo (la estructura teórica coincide con los datos observados).
Resultados con menor fiabilidad pueden usarse para investigación, pero no para decisiones individuales de alta relevancia.
Si el RMSEA está sobre 0.05, el ajuste no es adecuado. Si algunos indicadores ajustan y otros no, se debe interpretar con cautela y revisar la confiabilidad.

Información Adicional

La aplicación de Pearson en dos momentos a la misma persona es un indicador de estabilidad temporal.
Ética profesional: Aplicar instrumentos sin validez ni confiabilidad puede conducir a diagnósticos erróneos y vulnerar principios profesionales.
Adaptación cultural: Si un test es válido en otro país, debe ser validado y adaptado a las características culturales, lingüísticas y sociales de la nueva población.

Entradas relacionadas:

Etiquetas: