Fundamentos de Quimiometría: Procesamiento y Modelado de Datos Químicos
Enviado por Programa Chuletas y clasificado en Matemáticas
Escrito el en español con un tamaño de 6,66 KB
Quimiometría: Fundamentos y Aplicaciones en Datos Químicos
La Quimiometría es la rama de la Química Analítica (QA) encargada de aplicar la estadística al diseño de experimentos y al tratamiento de datos químicos para simplificar y obtener información relevante del problema en estudio. Los problemas cuya solución depende de varias variables son multivariantes y se resuelven con métodos estadísticos multivariantes, los cuales ofrecen 3 niveles de información:
- Cualitativo
- Cuantitativo
- Clasificatorio
Matriz Objeto-Variable: Estructura de Datos Quimiométricos
En Quimiometría, la Matriz Objeto-Variable es fundamental. Los objetos son los distintos entes materiales sobre los que queremos obtener información, y las variables son las propiedades o características de dichos objetos.
Tipos de Variables en Quimiometría
Variables Categóricas
No tienen una escala numérica de valores, sino que indican pertenencia a un grupo. Se dividen en:
- Nominales
- Ordinales
- Ordinales codificadas
Variables de Valores (Numéricas)
Tienen una escala numérica y poseen un mayor valor informativo. Se dividen en:
- Variables de intervalo
- Variables de razón (estas últimas son las más informativas)
Preprocesado de Datos: Mejora de Resultados Quimiométricos
Las técnicas de preprocesado de datos son esenciales para preparar las matrices y mejorar la calidad y fiabilidad de los resultados. Incluyen:
Relleno de Huecos (Missing Data)
Son datos no disponibles para uno o más objetos o variables y es necesario rellenarlos. Puede ser:
- Al azar: Se sustituye por otro dato de su intervalo posible.
- Por promedio: El dato se sustituye por una media.
Es importante destacar que el relleno de huecos siempre introduce distorsiones.
Centrado
Traslada el origen de coordenadas al centroide para filas, columnas o ambos, facilitando la interpretación de la variabilidad.
Escalado
Cambia la escala de los datos para dar la misma importancia a todas sus variables, independientemente de su magnitud. Los métodos comunes son:
- Escalado por Intervalos: Consiste en asignar el menor valor a la variable en el origen y dividir los valores por el intervalo abarcado por la variable.
- Autoescalado (Autoscaling): Es la técnica más frecuente y consiste en la tipificación Z multidimensional, trasladando el origen de coordenadas al centroide.
En ocasiones, también se puede normalizar un vector de datos igualando su longitud a la unidad.
Además, se deben eliminar los valores anómalos (outliers) que impedirán obtener conclusiones válidas. Se debe prestar especial atención a los anómalos niveladores.
Matrices Clave en Quimiometría
Matriz de Varianza-Covarianza
Los elementos diagonales son las varianzas de las variables y el resto son las covarianzas. Valores altos de covarianza indican correlación positiva (+) o negativa (-) entre dos variables, mientras que valores pequeños indican que no covarían.
Matriz de Correlaciones
Se obtiene dividiendo cada término de la covarianza por las desviaciones estándar, proporcionando una medida estandarizada de la relación lineal entre variables.
Técnicas Quimiométricas Multivariantes: Clasificación y Aplicaciones
Las técnicas quimiométricas multivariantes se suelen clasificar en función del objeto de estudio:
Exploración de Datos (Análisis Exploratorio)
Incluye el análisis de clúster (cluster analysis) o el análisis de componentes principales (PCA). Estas técnicas permiten:
- Agrupar objetos de forma natural.
- Visualizar gráficamente la estructura de los datos.
- Detectar datos anómalos.
- Reducir la dimensionalidad.
Se aplican a variables escaladas.
Clasificación (Análisis Clasificatorio)
Permite la clasificación o no de objetos en clases prefijadas. Utiliza variables de escala categórica.
Diseño Experimental y Optimización
Estudia la importancia de las variables y busca combinaciones de estas para maximizar o minimizar una función. Utiliza variables de escala codificadas.
Regresión Multivariante
Se enfoca en la modelización y calibración de relaciones entre variables. Utiliza variables de escala.
Dendrograma: Visualización de Similitudes en Datos
Un Dendrograma es un esquema en el que, atendiendo a las similitudes, se agrupan los objetos o variables en grupos jerarquizados. Tiene un tronco común compuesto por todos los objetos y constituye el grupo de mayor rango.
Construcción de un Dendrograma
Para construir un dendrograma, se siguen los siguientes pasos:
- Se debe decidir qué explorar: similitudes entre objetos o variables.
- Se debe decidir si se escalan o no los datos.
- Se eligen los criterios de similitud, que pueden ser correlaciones o distancias, las cuales se subdividen en diferentes tipos.
La distancia indica proximidad en el espacio, mientras que la correlación se relaciona con el ángulo formado por dos puntos. Finalmente, se elige el algoritmo para la formación del clúster.
Tipos de Distancias como Criterio de Similitud
Existen distintos tipos de distancias utilizadas como criterio de similitud en Quimiometría:
Distancia Euclidiana
Generalmente la más usada. La distancia entre dos puntos es la distancia en línea recta entre ellos.
Distancia de Minkowski
Consiste en una generalización de la distancia euclidiana. Un caso particular es la distancia de ciudad (Manhattan), que es la suma de las distancias paralelas a los ejes (término 'r' de Minkowski = 1).
Distancia de Mahalanobis
Mide la distancia entre puntos descontando el efecto de la correlación entre ejes, lo que la hace útil en datos correlacionados.
Es importante recordar que las distancias son medidas de disimilitud y se pueden transformar en similitudes para su interpretación.