Estadística Aplicada con R: Pruebas de Hipótesis y Modelos de Regresión

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 7,43 KB

Pruebas de Hipótesis con la Distribución T de Student

Evaluación de Concentraciones de Bioetanol

A continuación, se presenta el código para realizar una prueba T de una sola muestra para las concentraciones de bioetanol:

concentraciones_bioetanol = c(3, 6.5, 6, 5.5, 20.5, 7.5, 12, 20.5, 11.5, 17.5)
?t.test
t.test(concentraciones_bioetanol, alternative = "greater", mu = 14)
qnorm(1.44)
pnorm(1.44)

Cálculo del valor crítico para la distribución T con 9 grados de libertad:
qt(0.95, df = 9)

Comparación de Dos Colas: Concentraciones de Plomo

En este caso, evaluamos si la media de las concentraciones de plomo difiere significativamente de un valor mu específico:

# Prueba de dos colas, mu = media

concentraciones_plomo = c(3, 6, 6.5, 5.5, 20.5, 7.5, 12, 20.5, 11.5, 17.5)
?t.test
t.test(concentraciones_plomo, alternative = "two.sided", mu = 14)

# Cálculo de alfa/2
qt(0.025, 9)

Prueba de una cola (superior):
t.test(concentraciones_plomo, alternative = "greater", mu = 14)
qt(0.05, 9)
qt(0.95, 9)

Metodología de Superficie de Respuesta (RSM)

Implementación del paquete rsm para el diseño y análisis de experimentos:

install.packages("rsm")
library(rsm)
?ccd
a = ccd(basis = 2, n0 = 2, randomize = FALSE, coding = list(x1 ~ (Tiempo - 85) / 10, x2 ~ (Temperatura - 175) / 5), oneblock = TRUE)
b = coded.data(a, x1 ~ (Tiempo - 85) / 10, x2 ~ (Temperatura - 175) / 5)
print(b, decode = FALSE)

Modelado del Rendimiento

# Agregar vector con resultados de la variable de respuesta
rendimiento = c(80.5, 81.5, 82, 83.5, 83.9, 84.3, 84, 79.7, 79.8, 79.5, 81.7, 80.5)
# Construcción del modelo de regresión
?rsm
c = rsm(rendimiento ~ SO(x1, x2), data = b)
summary(c)

Interpretación de Resultados:

  • R² bajo: Se observa un coeficiente de determinación de apenas 0.34, lo que indica que solo el 34% de la variación es explicada por el modelo. Por lo tanto, no se considera un buen modelo para predicción o estimación.
  • Valor P: El valor P es de 0.69, el cual es mayor a α. Esto implica que el modelo no es estadísticamente significativo, debido a que ninguno de los términos aportó información relevante.
  • Falta de ajuste (Lack of fit): El valor P para la falta de ajuste es de 0.39, indicando que no es significativa.

Diseños Factoriales Fraccionados: Plackett-Burman

Uso del paquete FrF2 para identificar factores principales:

install.packages("FrF2")
library(FrF2)
?pb
d = pb(8, 6, factor.names = c("Tipo Levadura", "Inoculo", "pH", "Temperatura", "Aire", "Tiempo"), randomize = FALSE)

Construcción del modelo de regresión:
actividad_enzimatica = c(5.4, 2.3, 10.4, 15.5, 3.4, 7.8, 5.9, 8.4)
e = add.response(d, actividad_enzimatica)
f = lm(e)
summary(f)

Comparación de Varianzas y Medias Independientes

Procedimiento para comparar dos grupos independientes (Placebo vs. H-cloro):

install.packages("readxl")
library(readxl)
a = read_xlsx("ejercicio_1.xlsx", sheet = 1)
attach(a)

Paso 1: Prueba de Varianzas (Distribución F de Fisher)

Hipótesis: H₀: σ₁² = σ₂² frente a H₁: σ₁² ≠ σ₂².

a = read_xlsx("Dos_independientes.xlsx", sheet = 1)
attach(a)
b = var(Placebo) # Varianza: 303.2545
c = var(`H-cloro`) # Varianza: 458.8545
c / b # F calculado: 1.5131

?var.test
var.test(`H-cloro`, Placebo, alternative = "two.sided")

Paso 2: Valores Críticos y Decisión

Para α = 0.01 y α/2 = 0.005 con grados de libertad (gl = n - 1):

qf(0.005, 10, 10) # 0.1710 (Límite inferior)
qf(0.995, 10, 10) # 5.8466 (Límite superior)

Conclusión de varianza: Como el valor F (1.51) se encuentra entre los valores críticos, se acepta la H₀; las varianzas son iguales (homocedasticidad). El p-value (0.5244) es mayor a α.

Paso 3: Prueba T para Medias Independientes

t.test(Placebo, `H-cloro`, alternative = "two.sided", var.equal = TRUE)
Cálculo de grados de libertad: gl = n1 + n2 - 2 = 11 + 11 - 2 = 20.

qt(0.005, 20)
qt(0.995, 20)

Resultado: El p-value (0.009289) es menor que α (0.01). Se rechaza H₀ y se acepta H₁.
Conclusión: Existe evidencia suficiente para rechazar la hipótesis nula; por lo tanto, existe una diferencia significativa en la presión sistólica media entre los tratamientos.

Prueba de una cola (Placebo < H-cloro):
t.test(Placebo, `H-cloro`, alternative = "less", var.equal = TRUE)
qt(0.01, 20)
Conclusión: No hay evidencia suficiente para afirmar que la presión generada por el placebo sea menor.

Conceptos Clave en Diseño Experimental

Ejemplo de aplicación: Optimización de la producción de etanol en un biorreactor mediante la variación de temperatura, pH y concentración de sustrato.

Definición de Diseño Fraccionado: Es un tipo de diseño experimental en el que se evalúa solo una fracción del total de combinaciones posibles de factores. Su objetivo es reducir el número de corridas experimentales sin perder información relevante sobre los efectos principales.

Modelos de Regresión Lineal y Cuadrática

Regresión Lineal Múltiple

library(readxl)
a = read_xlsx("Regresion_multiple.xlsx", sheet = 1)
attach(a)
?lm
b = lm(Precio ~ `Area de vivienda` + Pisos + Dormitorios + Baños)
summary(b)

Regresión de Primer y Segundo Orden

c = read_xlsx("Regresion_multiple.xlsx", sheet = 2)
attach(c)

Modelo Lineal General (Primer Orden):
d = lm(`Valor agregado hora de trabajo y` ~ `Tamaño de tienda x`)
summary(d)

Modelo Cuadrático (Segundo Orden):
Tamaño_a_la2 = `Tamaño de tienda x`^2
e = lm(`Valor agregado hora de trabajo y` ~ `Tamaño de tienda x` + Tamaño_a_la2)
summary(e)

Entradas relacionadas: