Conceptos Esenciales de Estadística y Machine Learning para Científicos de Datos

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 4,47 KB

Fundamentos de Estadística Relacional

Covarianza

La covarianza (Sxy) mide el grado de variación conjunta de dos variables aleatorias, X e Y. Indica cómo se relacionan sus desviaciones respecto a sus respectivas medias.

Regresión Lineal

La regresión lineal es un modelo estadístico que describe la relación lineal entre dos variables, una dependiente (Y) y una independiente (X). Permite inferir el valor de Y a partir de los valores de X, incluso para aquellos no observados en la muestra, y predecir tendencias.

Coeficiente de Correlación de Pearson

Al igual que la covarianza, el coeficiente de correlación de Pearson (Rxy) indica la fuerza y dirección de la relación lineal entre dos variables aleatorias, X e Y. Su valor, que oscila entre -1 y 1, es adimensional y no está vinculado a las unidades de medida de las variables.

Coeficiente de Determinación

El coeficiente de determinación (r²) es una medida estadística que representa la proporción de la varianza de la variable dependiente que es predecible a partir de la(s) variable(s) independiente(s). Ofrece un conjunto de interpretaciones y diversas aplicaciones, según el escenario de modelado.

ANOVA (Análisis de Varianza)

El ANOVA es una técnica estadística utilizada para comparar las medias de tres o más grupos, determinando si las diferencias observadas entre ellos son estadísticamente significativas. Permite establecer si las condiciones o factores diferenciales aplicados tienen un impacto real sobre la variable de respuesta.

Introducción al Machine Learning

Machine Learning / Aprendizaje Automático

El Machine Learning, o Aprendizaje Automático, es una rama de la inteligencia artificial que se ocupa del diseño y desarrollo de algoritmos que permiten a los sistemas informáticos aprender de los datos, detectar patrones y hacer predicciones, sin ser programados explícitamente para cada tarea. Busca que los ordenadores adquieran conocimiento para ser utilizados en sus algoritmos.

Fases Clave en el Aprendizaje Automático

  • El Entrenamiento

    Es el procedimiento mediante el cual se capacita al sistema para aprender, ajustando los parámetros del modelo a partir de un conjunto de datos de entrenamiento.

  • El Testeo

    Es el procedimiento que permite evaluar la eficacia y la capacidad de generalización del modelo predictivo, utilizando un conjunto de datos independiente que no fue usado en el entrenamiento.

Tipos de Aprendizaje Automático

  • Aprendizaje Supervisado

    Se basa en descubrir la relación existente entre unas variables de entrada (características) y unas variables de salida (etiquetas). Requiere un conjunto de datos de entrenamiento etiquetados. Ejemplos de algoritmos incluyen clasificadores (lineales, paramétricos, no paramétricos, no métricos) y modelos de regresión.

  • Aprendizaje No Supervisado

    Solo utiliza variables de entrada, sin etiquetas predefinidas. Su objetivo es encontrar estructuras o patrones ocultos en los datos. Incluye técnicas como el Clustering (que consiste en identificar grupos a partir de elementos de similitud), la estimación de densidad y la reducción de dimensiones.

Métricas de Evaluación de Modelos Predictivos

Exactitud (Accuracy)

La exactitud indica la proporción de casos en los que el clasificador predice correctamente (tanto positivos como negativos) respecto al número total de casos.

Precisión (Precision)

La precisión indica la capacidad del clasificador de identificar correctamente los casos positivos entre todos los que predice como positivos.

Sensibilidad (Recall / Exhaustividad)

La sensibilidad indica la capacidad del clasificador de predecir casos positivos entre el total de casos realmente positivos.

Especificidad (Specificity)

La especificidad indica la capacidad del clasificador de predecir casos negativos entre el total de casos realmente negativos.

Matriz de Confusión

La matriz de confusión es una tabla que permite visualizar el rendimiento de un algoritmo de clasificación. Determina el número de aciertos y errores de un clasificador, diferenciando su tipo: verdaderos positivos (VP), verdaderos negativos (VN), falsos positivos (FP) y falsos negativos (FN).

Entradas relacionadas: