Etapas de un proyecto de análisis estadístico y conceptos básicos
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 9,52 KB
1. ¿Cuáles son las diversas etapas implicadas en un proyecto de análisis estadístico?
- Comprender el problema de investigación
- Explorar los datos
- Preparar los datos para el modelado mediante la detección de valores atípicos, el tratamiento de los valores perdidos, la transformación de las variables, etc.
- Ejecutar el modelo y analizar el resultado
- Validar el modelo utilizando un nuevo conjunto de datos
- Empezar a aplicar el modelo y realizar un seguimiento de los resultados para analizar el rendimiento del modelo durante un período de tiempo
2. ¿En qué consiste la estadística descriptiva?
Tiene por objeto fundamental describir y analizar las características de un conjunto de datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas.
3. ¿En qué consiste la inferencia estadística?
Es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (una muestra).
4. ¿Por qué la limpieza de datos juega un papel vital en el análisis estadístico?
La limpieza de datos incluye encontrar, corregir o eliminar datos erróneos de una base de datos.
5. ¿Qué es la regresión lineal?
La regresión lineal es una técnica estadística donde se busca establecer una relación lineal entre una variable dependiente y una o más variables independientes.
6. ¿Qué es mejor tener buenos datos o buenos modelos? Y ¿cómo se define "bueno"?
Una buena información de partida (datos) es sin duda más importante que los buenos modelos. Si la calidad de los datos no es buena, se requerirá mucho tiempo para la limpieza y procesamiento previo de los datos. "Bueno" se define como datos pertinentes para el proyecto y un modelo pertinente en relación con el proyecto y/o que se generaliza con conjuntos de datos externos.
7. ¿Necesitamos el término de intersección en un modelo de regresión?
- Garantiza que los residuos tienen una media de cero
- Garantiza que las estimaciones mínimos cuadrados sean imparciales
- La línea de regresión se mueve hacia arriba y hacia abajo, mediante el ajuste de la constante, a un punto en el que la media de los residuales es cero
8. ¿Cuáles son los supuestos requeridos para la regresión lineal?
- Los datos utilizados en el ajuste del modelo son representativos de la población
- La verdadera relación subyacente entre X e Y es lineal
- La varianza de los residuos es constante
9. ¿Qué es una "distribución normal"?
Los datos se distribuyen generalmente de diferentes maneras con un sesgo hacia la izquierda o hacia la derecha, etc. Sin embargo, hay casos en los que los datos se distribuyen alrededor de un valor central sin ningún sesgo de distribución, formando una curva en forma de campana.
10. ¿Qué es la colinealidad y qué hacer con él? ¿Cómo eliminar la multicolinealidad?
Colinealidad / Multicolinealidad:
- En la regresión múltiple: cuando dos o más variables están altamente correlacionadas
- Proporcionan información redundante
- Los errores estándar de los coeficientes de regresión de las variables afectadas tienden a ser grandes
- La prueba de hipótesis de que el coeficiente es igual a cero puede conducir a un error de rechazar falsamente la hipótesis nula de ningún efecto explicativo (error tipo II)
- Lleva a sobreajuste
Cómo eliminar la multicolinealidad:
- Eliminar algunas de las variables afectadas
- Utilizar regresión con componentes principales: da predictores no correlacionados
- Combinar las variables afectadas
- Utilizar la regresión contraída (ridge)
- Utilizar la regresión parcial por mínimos cuadrados (PLS)
19. ¿Qué es la potencia estadística?
* Capacidad de una prueba para detectar un efecto, si el efecto existe realmente
* A medida que aumenta la potencia, las posibilidades de error de tipo II (falso negativo) disminuyen
20. ¿En qué consiste una muestra?
Es un subconjunto limitado extraído de una población con el objeto de reducir el campo de experiencias. Las propiedades que obtengamos se harán extensivas a toda la población.
21. ¿Qué es el muestreo?
En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población. Esto no es más que el procedimiento empleado para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener una o más muestras de población.
22. ¿Qué es un individuo en Estadística?
Cada uno de los elementos del colectivo (la población) que es objeto de estudio.
23. ¿Qué es una población en Estadística?
El conjunto de todos los individuos que son objeto de interés desde un punto de vista estadístico.
24. ¿Qué se entiende por probabilidad?
La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables.
25. ¿Qué se entiende por una población homogénea?
Es una población que comparte unas mismas características entre sí.
26. ¿Qué se entiende por un parámetro estadístico?
Se llama parámetro estadístico, medida estadística o parámetro poblacional a un valor representativo de una población, como la media aritmética, la proporción de individuos que presentan determinada característica, o la desviación típica. Un parámetro es un número que resume la gran cantidad de datos que pueden derivarse del estudio de una variable estadística.
27. ¿Qué se entiende por un estimador?
Se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.
28. ¿Qué se entiende por error de estimación?
Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán incluirse en la muestra estudiada.
29. ¿Qué se entiende por error de muestreo?
Es la imprecisión que se comete al estimar una característica de la población de estudio (parámetro) mediante el valor obtenido a partir de una parte o muestra de esa población (estadístico).
30. ¿Qué se entiende por una estimación robusta?
La estadística robusta es una aproximación alternativa a los métodos estadísticos clásicos. El objetivo es producir estimadores que no sean afectados indebidamente por valores atípicos (outliers) o por variaciones pequeñas respecto a las hipótesis de los modelos.
31. ¿Cuáles son las principales debilidades de la media aritmética?
- Es sensible a los valores extremos
- No es recomendable emplearla en distribuciones muy asimétricas
- Si se emplean variables discretas o cuasi-cualitativas, la media aritmética puede no pertenecer al conjunto de valores de la variable. Es la media aritmética que se utiliza cuando a cada valor de la variable se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable.
32. ¿Qué se entiende por una variable?
Una variable es una característica que es medida en diferentes individuos y que es susceptible de adoptar diferentes valores.
33. ¿En qué consiste una variable cualitativa?
Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente, corresponden a categorías o niveles. Sí se pueden etiquetar las categorías, es decir, convertir a valores numéricos antes de que se trabaje con ellos.
34. ¿En qué consiste una variable cuantitativa?
Son aquellas variables que se pueden expresar numéricamente y se obtienen a través de mediciones y conteos.
35. ¿Qué son las variables dependiente e independiente?
- Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo.
- Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes