Estadística inferencial y descriptiva: niveles de medida, depuración de datos y pruebas estadísticas
Enviado por Chuletator online y clasificado en Magisterio
Escrito el en
español con un tamaño de 5,99 KB
Conceptos básicos sobre estadística
Pregunta: ¿Cómo se denomina la rama de la Estadística que se ocupa de realizar inferencias sobre una población a partir de una muestra? Estadística inferencial.
Niveles de medida
Si asignamos números para identificar a diferentes distritos policiales, pero estos números no tienen un orden, estamos trabajando con un nivel de medida nominal.
Una variable medida en rangos (como "bajo", "medio", "alto") tiene un nivel de medida ordinal.
Descriptiva vs. inferencial
Cuando utilizamos gráficos para describir la distribución de los datos de una muestra, estamos utilizando estadística descriptiva.
Clasificación de variables
Clasifica:
- Edad de los detenidos: cuantitativa.
- Opinión sobre la seguridad en el barrio (escala: inseguro, seguro, muy seguro): cualitativa ordinal.
- Número de patrullas nocturnas en una semana: cuantitativa (discreta).
- Género: cualitativa nominal.
Clasifica:
- Nota obtenida en un examen (sobre 100): intervalo (cuantitativa continua o discreta según la escala).
- Clasificación de sospechosos según peligrosidad: ordinal.
- Código postal de barrios de la ciudad: nominal.
- Temperatura media diaria en grados Celsius: intervalo (cuantitativa continua).
Identificación de tipos
Identifica:
- Resultado de una detención: dicotómica (por ejemplo: detenido/no detenido).
- Estado civil: politómica (varias categorías: soltero, casado, etc.).
- Tipo de delito: politómica (varias categorías).
- Presencia de antecedentes penales: dicotómica (sí/no).
Fases necesarias para llevar a cabo una investigación
Describir fases necesarias para llevar a cabo investigación:
- Tener un objetivo.
- Hacer una encuesta para ver opiniones.
- Analizar el Excel.
- Limpiar el Excel.
- Pasarlo a SPSS.
- Hacer tablas, gráficos, correlaciones y sacar conclusiones.
¿Por qué es importante depurar los datos antes de analizarlos?
Porque el análisis no podría realizarse correctamente; si no limpiamos primero los datos, los programas pueden dar error o producir resultados incorrectos que no se detectan fácilmente. También hay que limpiarlos porque pueden existir errores humanos: por ejemplo, en vez del nombre completo de una calle se ponen las primeras letras o iniciales.
Ejemplo práctico: relación entre nivel de estrés y rendimiento académico
Problema: Investigar la relación entre el nivel de estrés y el rendimiento académico.
Teniendo en cuenta que los datos del nivel de estrés y del rendimiento académico se valorarán de 0 a 100 o cualquier variable numérica con la posibilidad de decimales, se clasifican ambas variables como cuantitativas continuas.
Podríamos usar el coeficiente de correlación de Pearson para analizar la relación entre las variables, ya que Pearson evalúa la fuerza y la dirección de una relación lineal entre variables cuantitativas. Antes de aplicarlo, se debería verificar si existe una tendencia lineal en los datos y si se cumplen las asunciones (normalidad, homocedasticidad). Como herramienta gráfica para explorar la relación, se podría usar un diagrama de dispersión. Un histograma es útil para describir la distribución de cada variable por separado.
Factores para determinar si un tema es adecuado y relevante
- Relevancia social: por ejemplo, aumento de la delincuencia o la violencia.
- Originalidad: aportar algo nuevo al campo.
- Factibilidad: posibilidad de encontrar y acceder a los datos.
- Interés personal y profesional: que despierte interés en el investigador y aporte valor.
Elección de pruebas según el tipo de variables
Si queremos comprobar si existe una relación significativa entre la frecuencia de patrullajes nocturnos (variable nominal) y el índice de incidentes reportados (variable nominal), debemos usar pruebas de asociación para variables categóricas, por ejemplo la prueba chi-cuadrado de independencia o coeficientes de asociación como phi o Cramér's V, en lugar del coeficiente de Pearson.
Cuando hablamos de una correlación positiva perfecta, decimos que las dos variables aumentan en la misma proporción y el coeficiente de correlación sería +1.
Para evaluar la relación entre el nivel de estrés (ordinal) y el tiempo de respuesta policial (continuo), es preferible usar un coeficiente no paramétrico como Spearman (rho) si el nivel de estrés se considera ordinal o no se cumplen las asunciones de Pearson.
Contrastes de hipótesis y p-valor
En un contraste de hipótesis, ¿qué significa un valor p < 0,05? Significa que, con un nivel de significación del 5%, se rechaza la hipótesis nula. Es decir, la probabilidad de obtener los datos observados (o más extremos) asumiendo que la hipótesis nula es verdadera es menor que 5%.
Notas finales
- Corrige y documenta siempre tu proceso de depuración de datos para asegurar reproducibilidad.
- Elige las pruebas estadísticas en función del tipo de variable y de las asunciones requeridas.
- Utiliza representaciones gráficas apropiadas: histogramas para distribuciones univariadas y diagramas de dispersión para relaciones entre variables cuantitativas.