Como aplicar minería de datos

Enviado por Programa Chuletas y clasificado en Economía

Escrito el en español con un tamaño de 509,38 KB

 

Minería de Datos

Diapositiva 1:


Las nuevas necesidades de información son:

  • Comprender las nuevas necesidades de información de las organizaciones y el concepto de minería de datos
  • Relacionar la minería de datos con otras disciplinas

El proceso de extracción del conocimiento, se debe identificar:

  • Las fases del proceso
  • Las actividades de la fase de integración y recopilación
  • Las actividades de la fase de selección, limpieza y transformación
  • Las actividades de la fase de minería de datos
  • Las actividades de la fase de evaluación e interpretación
  • Las actividades de la fase de difusión, uso y monitorización

Las principales técnicas de minería de datos

  • Conocer  la técnica de extracción de patrones
  • Conocer la técnica de reglas de asociación y dependencia
  • Conocer la técnica de métodos bayesianos
  • Conocer la técnica de arboles de decisión y sistemas de reglas
  • Conocer la técnica de redes neuronales

Implantación e impacto de la minería de datos

  • Identificar el impacto social de la minería de datos
  • Discutir cuestiones éticas y legales relacionadas
  • Identificar la escalabilidad en minería de datos
  • Conocer tendencias futuras
  • Identificar las necesidades y objetivos de negocio
  • Formular un programa: fases e implantación
  • Integrar el programa con las herramientas y proyectos de la organización
  • Identificar los recursos necesarios

APRENDIZAJE:


capacidad de adaptarse al entorno en que se vive

DATA-MINING

Definición Tradicional:


Proceso de extracción de información y patrones de comportamientos que permanecen ocultos entre grandes cantidades de información

Definición Empresarial:


Integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten.

Importancia

  1. Es necesario aprender de los datos para crear una relación “one-to-one” con los clientes
  2. Las empresas recogen datos de todos sus procesos
  3. Los datos se deben analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data
    Mining juega su papel importante.

Data Mining cuneta con tecnologías, las cuales son:

  • Estadística
  • Soporte de decisiones
  • Procesamiento en paralelo
  • Almacenamiento y gestión de bases de datos
  • Visualización
  • Aprendizaje automático

BUSINESS INTELLIGENCE:


Son las herramientas y sistemas que juegan un papel clave en el proceso estratégico de la planificación de una compañía. Estos sistemas permiten reunir, almacenar y analizar los datos corporativos siendo una importante ayuda en la toma de decisiones.

Diapositiva 2

DATABASE MARKETING:


Es una colección de datos que proporciona información para los expertos del negocio ayudándolos a tomar las mejores decisiones de trabajo cumpliendo con los objetivos del negocio. Mas especifico, puede definirse como reunir, guardar y utilizar la máxima cantidad de conocimientos de tus clientes y prósperos, para su beneficio y tu ganancia.

Algunas áreas tratadas:


  1. Clasificación:


    consiste en etiquetar los objetos y crear un modelo que los clasifique bajo algún criterio.

  2. Estimación o Regresión:

    es la asignación de un valor ausente en un campo, en función de los demás campos presentes en el registro o de los mismos registros existentes.

  3. Segmentación:

    consiste en fraccionar el conjunto de los registros (población) en subpoblaciones de comportamiento similar.

Problemas de Clasificación

  • Examinar las carácterísticas de un nuevo objeto y asignarlo a una clase dentro de un conjunto de clases predefinidos.

Clasificar personas que piden créditos como alto medio o bajo riesgo

Determinar el patrón de las quejas de seguros fraudulentas

  1. Patrón de los clientes que nos dejaran en los próximos 6 meses
  2. El problema consiste en construir un modelo que aplicado a un nuevo ejemplo sin clasificar lo clasifique
  3. Se tiene siempre un numero limitado de clases y se espera poder asignar cualquier nuevo objeto en una de esas clases
  4. Determinación de la pertenencia de un objeto a una cierta clase especifica
  5. Encontrar la mejor función que discrimine este fenómeno

Problemas de Regresión

  • La estimación trata con problemas donde el valor a clasificar puede tomar valores en un rango continuo (ingreso, balance de la tarjeta de crédito, probabilidad de que sea jugador)

Ejemplos: Estimar el numero de hijos de una familia, el tiempo de vida de un cliente, los ingresos totales de una familia

  • Estudiar el comportamiento temporal y dinámico de alguna variable
  • Encontrar la mejor función que describa este fenómeno y aplicar la función encontrada a la predicción de nuevos valores de la serie

Problema de Segmentación

  • Segmentar una población heterogénea en un numero de subgrupos homogéneos o clúster
  • No hay clase predefinidas
  • Registro agrupado en base a su similitud

Etapas del KDD

  • Limpieza de datos


    Eliminar ruido y datos inconsistentes
  • Integración de datos:
    de distintas fuentes
  • Selección de datos:
    recuperar de la BD los datos relevantes para la tarea de análisis
  • Transformación de datos:
    los datos se transforman o consolidan en forma apropiadas para su minería
  • Minería de datos:
    aplicación de métodos inteligentes con el objetivo de extraer patrones
  • Evaluación de patrones:
    identificar los patrones verdaderamente interesantes
  • Presentación del conocimiento:
    visualización y representación del conocimiento para presentar el conocimiento extraído del usuario

Interés

  • No hay inteligencia sin aprendizaje (adaptación, mejora, descubrimiento)

Nichos de aplicación

  • Minería de datos, uso de datos históricos para mejorar la toma de decisiones
  • Aplicaciones software que no se pueden programar con técnicas convencionales
  • Software personalizado

DATAWAREHOUSE Y OLAP

¿Qué es una solución BI/DW?

  • Estudiar la naturaleza del negocio
  • Diseñar la estructura de datos dimensional
  • Recuperar los datos de los sistemas operacionales, transformarlos y cargarlos en la estructura de datos diseñada
  • Usar herramientas para el análisis de los datos y la toma de decisiones

Planificación del proyecto


Definición de requisitos

  • Determinar indicadores
  • Definir reglas de navegación
  • Contemplar vistas particularizadas por usuarios/grupos
  • Fijar política de seguridad

Herramientas del mercado

  • ETL:


    AscentialDataStage, DB2 Warehouse
  • SGBD:
    SQL Server, Oracle
  • OLAP:
    Excel, AnalysisService, SAS
  • Data Mining:
    SAS, Analysis Service, Weka

Implantación de un Data Warehouse

VENTAJAS:

  • Aumento de la competitividad en el mercado
  • Aumento de la productividad de los técnicos de dirección
  • Rentabilidad de las inversiones realizadas para su creación:
  • Mejor calidad de información
  • Mejor explotación de la información
  • Datos disponibles para la organización, mejora de la comunicación

PROBLEMAS:

  • Infravaloración del esfuerzo necesario para su diseño
  • Infravaloración de los recursos necesarios para la captura, cargas y almacenamientos de los datos
  • Incremento continuo de los requerimientos de usuario

Diapositiva 3

Fases en el diseño dimensional

  1. Seleccionar los procesos a modelar:


    en función de las preguntas estratégicas a responder
  2. Decidir el grano:
    preferible información del máximo nivel de detalle
  3. Escoger las dimensiones
  4. Determinar los hechos que deben considerarse:


Diapositiva 4

Relación DM con otras disciplinas:


fase del KDD, fase que integra los métodos de aprendizajes y estadísticos para obtener hipótesis de patrones y modelos

La minería de datos


NO es una extensión de los sistemas de informes inteligentes o sistemas OLAP, la minería de datos aspira a más


Diapositiva 6

Técnicas de visualización


Se utilizan con dos objetivaos, aprovechar la capacidad humana, ayudar al usuario a comprender rápido y fácilmente los patrones descubiertos.

Visualización previa


Utilizada para ver tendencias y resúMenes de los datos extraídos.

Visualización posterior:


utilizada para validad y mostrar los resultados del KDD.

Entradas relacionadas: