Metodología CRISP-DM: Fases y Aplicación en Proyectos de Datos
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 4,58 KB
CRISP-DM (Cross-Industry Standard Process for Data Mining) es una metodología de desarrollo de sistemas de explotación de información. Los datos deben ser extraídos, depurados y preparados para su uso e interpretación. Este método se divide en 6 fases: conocimiento del negocio, conocimiento de los datos, preparación de los datos, modelización, evaluación y desarrollo.
1. Comprensión del Negocio
Esta fase implica comprender el proyecto desde una perspectiva de negocio, equilibrando objetivos y restricciones, e investigando detalladamente todos los recursos y limitaciones.
- Listar los recursos disponibles para el proyecto.
- Utilizar una terminología adecuada (por ejemplo, “Aumentar la venta por Internet a clientes existentes” en lugar de “Predecir cuántos productos de perfumería comprará un cliente, considerando sus compras durante los tres años pasados, información demográfica relevante y el precio de los artículos”).
- Definir los objetivos de negocio de forma clara y medible.
- Establecer los criterios de éxito del proyecto.
2. Comprensión de los Datos
Esta fase se centra en la obtención, descripción y evaluación de la calidad de los datos originales.
- Obtener los datos.
- Elaborar un informe sobre las bases de datos utilizadas.
- Evaluar la calidad de los datos originales.
- Analizar los problemas de calidad en los datos.
- Analizar las propiedades de las variables más importantes.
- Incluir tablas y gráficos que describan las características o puntos de interés.
3. Preparación de los Datos
En esta fase, se corrigen errores, se seleccionan los datos relevantes y se transforman para su posterior análisis.
- Corrección de errores en las variables.
- Describir las acciones realizadas en la depuración de datos.
- Decidir los datos que van a ser finalmente utilizados en el análisis.
- Ordenar la muestra de datos utilizando un campo indexado (por ejemplo, en bases de datos espaciales: código provincial, municipal o de comunidad autónoma; en bases de datos de empresas: campo numérico).
- Transformar variables si es necesario.
- Realizar tareas de combinación de tablas.
- Integrar datos de diferentes fuentes.
- Formatear los datos para las herramientas de modelado.
4. Modelización
Esta fase implica la selección y aplicación de técnicas de modelización, así como la definición de un procedimiento para probar la calidad y validez de los resultados.
- Registrar técnicas de modelización estadístico-econométrica.
- Decidir las técnicas apropiadas.
- Conocimiento profundo de cada técnica de modelización.
- Tener en cuenta las restricciones no sólo técnicas, sino políticas o legales.
- Definición de un procedimiento para probar la calidad y validez de los resultados.
- Aplicar varios modelos posibles a un mismo conjunto de datos.
- Generar modelos y evaluar su rendimiento.
- Ajustar los parámetros del modelo para optimizar los resultados.
5. Evaluación
En esta fase, se evalúa el grado en que el modelo cumple los objetivos de negocio y se revisa el proceso.
- Evaluar el grado en que el modelo encuentra los objetivos de negocio.
- El informe final de resultados debe obedecer a: RESULTADOS = MODELOS + CONCLUSIONES.
- Determinar de qué modo el proyecto ha sido capaz de responder a los objetivos propuestos.
- Llevar a cabo una revisión del proceso anterior.
- Evaluar los resultados en relación con los criterios de éxito definidos.
- Determinar los siguientes pasos: implementar el modelo, realizar más análisis o finalizar el proyecto.
6. Desarrollo (Implementación)
Esta fase final se centra en la implementación de los resultados en el negocio, la supervisión y el mantenimiento de la estrategia de desarrollo.
- Definir una estrategia para el desarrollo de los resultados en el negocio.
- Supervisión y mantenimiento de la estrategia de desarrollo.
- Informe definitivo:
- Resultados más importantes.
- Presentación de técnicas y modelos.
- Estrategia para el desarrollo de los objetivos.
- Anexo metodológico.
- Planificar la implementación del modelo en los sistemas de producción.
- Planificar el monitoreo y mantenimiento del modelo.
- Documentar el proyecto completo.
- Comunicar los resultados a las partes interesadas.