Metodología CRISP-DM: Fases y Aplicación en Proyectos de Datos

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 4,58 KB

CRISP-DM (Cross-Industry Standard Process for Data Mining) es una metodología de desarrollo de sistemas de explotación de información. Los datos deben ser extraídos, depurados y preparados para su uso e interpretación. Este método se divide en 6 fases: conocimiento del negocio, conocimiento de los datos, preparación de los datos, modelización, evaluación y desarrollo.

1. Comprensión del Negocio

Esta fase implica comprender el proyecto desde una perspectiva de negocio, equilibrando objetivos y restricciones, e investigando detalladamente todos los recursos y limitaciones.

  • Listar los recursos disponibles para el proyecto.
  • Utilizar una terminología adecuada (por ejemplo, “Aumentar la venta por Internet a clientes existentes” en lugar de “Predecir cuántos productos de perfumería comprará un cliente, considerando sus compras durante los tres años pasados, información demográfica relevante y el precio de los artículos”).
  • Definir los objetivos de negocio de forma clara y medible.
  • Establecer los criterios de éxito del proyecto.

2. Comprensión de los Datos

Esta fase se centra en la obtención, descripción y evaluación de la calidad de los datos originales.

  • Obtener los datos.
  • Elaborar un informe sobre las bases de datos utilizadas.
  • Evaluar la calidad de los datos originales.
  • Analizar los problemas de calidad en los datos.
  • Analizar las propiedades de las variables más importantes.
  • Incluir tablas y gráficos que describan las características o puntos de interés.

3. Preparación de los Datos

En esta fase, se corrigen errores, se seleccionan los datos relevantes y se transforman para su posterior análisis.

  • Corrección de errores en las variables.
  • Describir las acciones realizadas en la depuración de datos.
  • Decidir los datos que van a ser finalmente utilizados en el análisis.
  • Ordenar la muestra de datos utilizando un campo indexado (por ejemplo, en bases de datos espaciales: código provincial, municipal o de comunidad autónoma; en bases de datos de empresas: campo numérico).
  • Transformar variables si es necesario.
  • Realizar tareas de combinación de tablas.
  • Integrar datos de diferentes fuentes.
  • Formatear los datos para las herramientas de modelado.

4. Modelización

Esta fase implica la selección y aplicación de técnicas de modelización, así como la definición de un procedimiento para probar la calidad y validez de los resultados.

  • Registrar técnicas de modelización estadístico-econométrica.
  • Decidir las técnicas apropiadas.
  • Conocimiento profundo de cada técnica de modelización.
  • Tener en cuenta las restricciones no sólo técnicas, sino políticas o legales.
  • Definición de un procedimiento para probar la calidad y validez de los resultados.
  • Aplicar varios modelos posibles a un mismo conjunto de datos.
  • Generar modelos y evaluar su rendimiento.
  • Ajustar los parámetros del modelo para optimizar los resultados.

5. Evaluación

En esta fase, se evalúa el grado en que el modelo cumple los objetivos de negocio y se revisa el proceso.

  • Evaluar el grado en que el modelo encuentra los objetivos de negocio.
  • El informe final de resultados debe obedecer a: RESULTADOS = MODELOS + CONCLUSIONES.
  • Determinar de qué modo el proyecto ha sido capaz de responder a los objetivos propuestos.
  • Llevar a cabo una revisión del proceso anterior.
  • Evaluar los resultados en relación con los criterios de éxito definidos.
  • Determinar los siguientes pasos: implementar el modelo, realizar más análisis o finalizar el proyecto.

6. Desarrollo (Implementación)

Esta fase final se centra en la implementación de los resultados en el negocio, la supervisión y el mantenimiento de la estrategia de desarrollo.

  • Definir una estrategia para el desarrollo de los resultados en el negocio.
  • Supervisión y mantenimiento de la estrategia de desarrollo.
  • Informe definitivo:
    • Resultados más importantes.
    • Presentación de técnicas y modelos.
    • Estrategia para el desarrollo de los objetivos.
    • Anexo metodológico.
  • Planificar la implementación del modelo en los sistemas de producción.
  • Planificar el monitoreo y mantenimiento del modelo.
  • Documentar el proyecto completo.
  • Comunicar los resultados a las partes interesadas.

Entradas relacionadas: