Minería de datos

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 8,78 KB

 
Se define la minería de datos como el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos.
El modelo de los datos analizados:
Predictivos: Pretenden estimar valores futuros o desconocidos de variables de interés
Descriptivos: Identifican patrones que explican o resumen los datos, es decir, sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Se define el KDD como ?el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos?. El KDD es el proceso global de descubrir conocimiento útil desde las bases de datos mientras que la minería de datos se refiere a la aplicación de los métodos de aprendizaje y estadísticos para la obtención de patrones y modelos. La minería de datos es una de las fases del KDD.

Los almacenes de datos (data warehouses) pretenden proporcionar metodologías y tecnología para recopilar e integrar los datos históricos de una organización.


Es necesario distinguir dos usos diferentes del sistema de información: el procesamiento transaccional y el procesamiento analítico.
OLTP (Procesamiento Transaccional en Tiempo Real): Consiste en realizar transacciones, es decir, actualizaciones y consultas a la base de datos con un objetivo operacional.
OLAP (Procesamiento Analítico en Tiempo Real): Engloba un conjunto de
operaciones, exclusivamente de consulta, en las que se requiere agregar y cruzar gran cantidad de información, generalmente para el apoyo en la toma de decisiones.
BD TRANSACCIONALES ALMACÉN DE DATOS BD TRANSACCIONALES ALMACÉN DE DATOS
Propósito Operaciones diarias. Soporte a las aplicaciones. Recuperación de información, informes, análisis y minería de datos Propósito Operaciones diarias. Soporte a las aplicaciones. Recuperación de información, informes, análisis y minería de datos
Tipo de datos Datos de funcionamiento de la organización. Datos útiles para el análisis, la sumarización, etc. Tipo de datos Datos de funcionamiento de la organización. Datos útiles para el análisis, la sumarización, etc.
Características de los datos Datos de funcionamientos, cambiantes, internos, incompletos? Datos históricos, datos internos y externos, datos descriptivos? Características de los datos Datos de funcionamientos, cambiantes, internos, incompletos? Datos históricos, datos internos y externos, datos descriptivos?
Modelo de datos Datos normalizados. Datos en estrella, copo de nieve, parcialmente desnormalizados, multidimensionales? Modelo de datos Datos normalizados. Datos en estrella, copo de nieve, parcialmente desnormalizados, multidimensionales?
Número y tipo de usuarios Cientos/miles. Decenas. Número y tipo de usuarios Cientos/miles. Decenas.
Acceso SQL. Lectura y escritura SQL y herramientas propias. Lectura. Acceso SQL. Lectura y escritura SQL y herramientas propias. Lectura.
Un almacén de datos recoge, fundamentalmente, datos históricos, es decir, hechos, sobre el contexto en el que se desenvuelve la organización.

Los datos se organizan en torno a los hechos, que tienen unos atributos o medidas que pueden verse en mayor o menor detalle según ciertas dimensiones. La forma que tienen estos conjuntos de hechos y sus dimensiones hace que se llamen popularmente almacenes de datos en
?estrella simple? (cuando no hay caminos alternativos en las dimensiones) o de ?copo de nieve? (cuando sí hay caminos alternativos en las dimensiones). Cuando el número de dimensiones no excede de tres podemos representar cada combinación de niveles de agregación como un cubo. El cubo está formado por casillas, con una casilla para cada valor entre los posibles para cada dimensión a su correspondiente nivel de agregación. Sobre esta ?vista?, cada casilla representa un hecho.
No es posible, en general, la representación de todo el almacén de datos como una sola estrella. La idea general es que para cada subámbito de la organización se va a construir una estructura de estrella (datamart), por tanto, el almacén de datos estará formado por muchas estrellas (jerárquicas o no) formando una ?constelación?. La única dimensión que suele aparecer en todos los datamarts es la de tiempo, que es útil ya que el almacén guarda datos históricos.

Un modelo de datos se compone de unas estructuras y unos operadores sobre dichas estructuras; los operadores más importantes asociados al modelo multidimensional son:
-
Drill: Se trata de disgregar los datos (mayor nivel de detalle o desglose, menos sumarización) siguiendo los caminos de una o más dimensiones. Permite entrar más al detalle en el informe.
-
Roll: Se trata de agregar los datos (menor nivel de detalle o desglose, más sumarización o consolidación) siguiendo los caminos de una o más dimensiones. Es la inversa de dril y el objetivo es obtener información más agregada.
-
Slice & Dice: Se seleccionan y se proyectan los datos. Permite escoger parte de la información mostrada, no por agregación sino por selección.
-
Pivot: Se reorientan las dimensiones. Permite cambiar algunas filas por columnas.
Sólo pueden aplicarse sobre una consulta realizada previamente, así que permiten modificar una consulta pero sin realizar otra, es decir, modifican un informe en tiempo real, no generan otro.
Con los operadores
?-across? y ?-up?, que se usan exclusivamente cuando se hace una representación matricial o mixta:
-
Drill-down y roll-up: Representan agregaciones o disgregaciones dentro de una dimensión ya definida inicialmente en la consulta.
-
Drill-across y roll-across: Representan agregaciones o disgregaciones en otras dimensiones de las definidas inicialmente en la consulta o hacen desaparecer alguna de las dimensiones.

Los sistemas de almacenes de bases de datos pueden implementarse utilizando dos tipos de esquemas físicos:
-
ROLAP (Relational OLAP): físicamente, el almacén de datos se construye sobre una base de datos relacional. Se pueden utilizar directamente SGBD genéricos y herramientas asociadas. La formación y el coste necesario para su implementación es generalmente menor. Proporciona la realización de consultas OLAP de manera eficiente.
-
MOLAP (Multidimensional OLAP): físicamente, el almacén de datos se construye sobre estructuras basadas en matrices multidimensionales. Es más eficiente debido a su especialización, correspondencia entre el nivel lógico y el físico.
-
HOLAP: Sistema mixto entre los dos anteriores
Para construir una estructura ROLAP se construyen tres tipos de tablas:
Tablas copo de nieve: para cada nivel de agregación de una dimensión se crea una tabla.
Tabla de hechos: se crea una única tabla de hechos por datamart. En esta tabla se incluye un atributo para cada dimensión, que será clave ajena a cada una de las tablas copo de nieve de mayor detalle de cada dimensión.
Tablas estrella: para cada dimensión se crea una tabla que tiene un atributo para cada nivel de agregación diferente en la dimensión.

Podemos identificar cuatro pasos a la hora de diseñar un almacén (realmente, se han de seguir para cada datamart):

1. Elegir para modelar un ?proceso? o ?dominio? de la organización sobre el que se deseen realizar informes complejos frecuentemente, análisis o minería de datos.
2. Decidir el hecho central y el ?gránulo? (nivel de detalle) máximo que se va a necesitar sobre él. En general siempre se van a considerar gránulos finos.
3. Identificar las dimensiones que caracterizan el ?dominio? y su grafo o jerarquía de agregación, así como los atributos básicos de cada nivel. No se deben incluir demasiados atributos descriptivos, pero sí informativos. El tiempo suele ser al menos una de las dimensiones presentes.
4. Determinar y refinar las medidas y atributos necesarios para los hechos y las dimensiones.

Entradas relacionadas: