Fundamentos de Minería de Datos y Gestión de Bases de Datos

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 2,98 KB

Características de la Minería de Datos

La minería de datos se caracteriza por los siguientes aspectos:

  • Es aplicable a cualquier tipo de datos (variabilidad de rango).
  • Es agnóstica respecto al tipo de datos (científicos, postulados, etc.).
  • Es la única disciplina capaz de trabajar con millones de datos de forma eficiente.

Etapas del Análisis Exploratorio de Datos

  • Preparación de los datos: Hacerlos accesibles para cualquier técnica estadística.
  • Examen gráfico y descriptivo: Realizar un análisis de la naturaleza de las variables individuales mediante herramientas como summary y plot.
  • Identificación de casos atípicos: Evaluar el impacto que pueden ejercer en análisis estadísticos posteriores.
  • Evaluación de datos ausentes: Determinar el impacto de la falta de información.

Tipos de Bases de Datos

Bases de Datos Relacionales

Se basan en el uso de relaciones. Estas podrían considerarse en forma lógica como conjuntos de datos llamados tuplas. Durante su diseño, esta base de datos pasa por un proceso conocido como normalización.

Bases de Datos Transaccionales

Son bases de datos cuyo único fin es el envío y recepción de datos a grandes velocidades. Son poco comunes y están dirigidas en su mayoría al análisis de calidad, datos de producción industrial, etc. Su objetivo es recolectar y recuperar los datos lo más rápido posible y pueden enlazarse con bases de datos relacionales.

Bases de Datos Espaciales

Manejan datos existentes en un espacio geográfico o físico. Ejemplos incluyen índices o inflación. Implica un proceso de abstracción para pasar de la complejidad del mundo real a una representación simplificada que un computador pueda procesar.

Base de Datos Temporal

Es aquella que almacena tanto datos históricos como actuales.

Bases de Datos Heterogéneas

Poseen un subconjunto de bases de datos de diferentes tipos integradas en un mismo sistema.

Preparación y Transformación de los Datos

  1. Limpieza de los datos: Gestión de datos ausentes, valores NA y datos anómalos.
  2. Integración de los datos: Conversión de datos (de numéricos a categóricos), normalización y correlación múltiple.
  3. Agrupación o análisis de componentes principales:
    • Técnicas de regresión: Estudio de relaciones entre variables dependientes e independientes.
    • Técnicas de análisis factorial.
    • Técnicas de correlación.
  4. Transformación de los datos: Aplicación de técnicas estadísticas como la normalización.

Entradas relacionadas: