Base de datos interdependencia de los datos

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el 9 de Diciembre de 2019 en español con un tamaño de 9,58 KB

CONCEPTO DE BIG DATA Y MENCIONE 3 EJEMPLOS RELACIONADOS A LOS PRINCIPIOS SOBRE LOS QUE SE SUSTENTA

Big Data es el proceso de recolección de grandes cantidades de datos y su inmediato análisis para encontrar información oculta, patrones recurrentes, nuevas correlaciones, entre otros.

Principios

Volumen

El incremento de los datos fruto de las nuevas tecnologías y la facilidad de generar datos digitales. El volumen significa gran tamaño. Así, el volumen delimita el concepto de datos masivos no pudiéndose almacenar nunca en un simple ordenador, requiriendo tecnología específica para ello.

Velocidad

Cuando se toman decisiones en momentos críticos el tiempo es fundamental. Con el Big Data, el procesamiento de los datos debe hacerse en el menor tiempo posible e incluso en el tiempo real. El Big Data requiere velocidad para acceder a los datos pero también en relación a la visualización de los mismos, con el objeto de facilitar el análisis y extraer conclusiones.

Variedad

Si algo caracteriza al Big Data es las distintas tipologías y estructuras de los datos procediendo de fuentes muy diversas.. La clasificación más tradicional divide los datos en: estructurados, no estructurados y semi estructurados.

Veracidad

Controlar la integridad de los datos, ya que de esto dependerá del acierto de las decisiones. Una de la dimensiones más importantes señala a la fiabilidad de la información recogida eliminando cualquiera inexactitud o incertidumbre en la recopilación de los mismos.

Valor

Convertir la información en conocimiento debe ser el propósito de cualquier estrategia de Big Data y esto se consigue a través de la analítica que nos ayuda en la toma de decisiones.

DEFINA QUE ES DATA ESTRUCTURADA Y DATA NO ESTRUCTURADA (EJEMPLIFIQUE)

Datos no estructurados

Provienen de información contenida en imágenes, videos, audio, emails y documentos (PDF, Word, etcétera).

Datos estructurados

Bases de datos estructuradas (Oracle, MySQL, SQL Server, Access, etc), hojas de cálculo, ficheros xml, ficheros planos, APIs, etcétera.

LOS DRIVER DEL BIG DATA SON:

Automatización, Monetización & Consumidores

1. Consumidores cada vez más sofisticados

Es cierto que cada vez hay más productos a que el consumidor tiene acceso pero, también es verdad que, un 73% en mercados maduros y un 85% en emergentes no compran si un conocido ha tenido una mala experiencia, algo que demuestra la importancia del “social media”.

Exigen más información.
Son más desconfiados.
Basan sus criterios de decisión en la información que encuentran en el social media.

2. Automatización

La automatización, que es la capacidad de algunos procesos de cuantificar algo que no es tan sencillo de ponderar y donde, el mayor cambio, es la disposición para modificar la experiencia del cliente mediante políticas de software, procedimientos y personalización de sistemas self-service mucho más amigables.

Escalabilidad

. Se cuenta con capacidad para almacenar un increíble volumen de datos, y se necesita porque ya no se puede hacer manualmente. Algo que recuerda, por ejemplo a lo sucedido en los inicios de Google y Yahoo.
Granularidad
Se puede procesar toda la información recibida. Por ejemplo, almacenar todos los tweets y analizar cada uno de manera
Valor
. Automatizando se puede obtener valor, porque si no se puede procesar la información de que se dispone, su recolección y almacenamiento carecen de sentido, les falta el análisis.

3. Monetization

La información se ha vuelto una alternativa que permite obtener rentabilidad.
Es decir, que además del beneficio que supone para la organización el poder acceder a tanta información se puede ganar dinero con ello, si se sabe cómo y se tienen buenas ideas (data science), ya que estos datos pueden venderse a otras compañías. Ejemplo de ello serían las empresas de telecomunicaciones, como Telefónica que, gracias a los datos de cada usuario que almacenan al perfeccionar cada contrato.

EL CLIENTE MI UCEN DESEA INICIA PROYECTO DE BIG DATA, EN DONDE NO TIENE TODO EL CONOCIMIENTO EXPERTO PARA EXPLOTAR DATOS E INFORMACIÓN, ADEMAS NO TIENE NINGUNA Solución ORIENTADA AL Análisis DE DATOS (NI SIQUIERA REPORTES EXCEL) ¿QUE TIPO DE Implementación SERÍA ESTA?

Revolucionaria

GOBIERNO DE DATOS EN UN PROYECTO DE BIG DATA ES IMPORTANTE PORQUE:

Nos permite administrar toda la trazabilidad de los datos, desde sus orígenes hasta la utilización y explotación

BIG DATA ANALYTICS BUSCA COMO Solución:

Trabajar con millones de datos a la vez, disminuyendo su latencia en su explotación

LOS PRINCIPALES BENEFICIOS DE TRABAJAR EN AMBIENTES CLOUD CON BIG DATA

Escalabilidad Baja Latencia Elasticidad Facilidad en los deployment de nuevos servicios

EN UN MODELO CLOUD PARA BIG DATA, EN DONDE NUESTROS CLIENTES NO DESEAN TRABAJAR CON INFRAESTRUCTURA ADMINISTRADA ¿COMO ES LA RESPONSABILIDAD?

Es compartida en 50% tanto del proveedor como nosotros como clientes

. 100% del consumidor

¿QUE ES HADOOP?

Hadoop es un framework que permite guardar y procesar grandes conjuntos de datos en forma paralela y distribuida. Vertical Scaling. Horizontal Scaling lineal Procesos Batch y en tiempo real

HDFS (Hadoop Distributed File System)

Es un sistema de ficheros distribuido, escalable y portátil escrito en Java y creado especialmente para trabajar con ficheros de gran tamaño.
Una de sus principales carácterísticas es un tamaño de bloque muy superior al habitual (64 MB) para no perder tiempo en los accesos de lectura

¿QUE ES MAP REDUCE?

Es un modelo de programación para computación distribuida basado en Java, pero que también se puede desarrollar en otros lenguajes de programación. Contiene dos fases, aunque la segunda se subdivide en otras dos:

Map: Se encarga del mapeo y es aplicada en paralelo para cada ítem en la entrada de datos

Reduce: Barajado de datos y reducción de estos.

“MapReduce: Simplified DataProcessing on Large Clusters”.

MENCIONE UN ELEMENTO PARA ALMACENAMIENTO, UNO PARA INGESTA DE DATOS Y OTRO PARA EXPLOTACIÓN QUE PERTENEZCA AL ECOSISTEMA HADOOP

FLUME - SQOOP: Ingesta Datos

Kafka - rabbitMQ: Almacenamiento

SPARK - Storm: Explotación – procesamiento

Data ingestión (ingestión de datos) es el proceso de obtención de importación de datos para uso inmediato o almacenamiento en una base de datos.

Los datos pueden transmitirse en tiempo real o ingerirse en lotes (batch).

Apache Flume es un servicio distribuido que mueve de forma fiable y eficiente grandes cantidades de datos, especialmente logs.
Ideal para aplicaciones de analíticas en línea en entornos Hadoop.

Flume tiene una arquitectura sencilla y flexible basada en flujos de datos en streaming, que permite construir flujos de múltiples por donde viajan los eventos a través de diferentes agentes hasta que alcanzan el destino final.

Carácterísticas

● Perfectamente integrado en el ecosistema Hadoop.

● Permite la recolección y agregación de logs de forma sencilla.

● Pensado para eventos simples, no para eventos complejos.

● Simplifica el filtrado y transformación de datos gracias a los interceptores.

● Soporta canales efímeros basados en memoria y canales duraderos basados en ficheros.

● Los canales basados en ficheros no replican datos, por lo que están sujetos a errores de disco, para solventarlo se suelen replicar con Raíz o SAN.

Apache Sqoop

Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúMenes de datos de bases de datos relacionales a Hadoop (de ahí su nombre que viene de la fusión de SQ
L y Hadoop)
.

Concretamente transforma datos relacionales en Hive o HBase en una dirección y en la otra de HDFS a datos relacionales como MySQL, Oracle, Postgres o a un data warehouse.

El proceso de transferencia consiste leer fila por fila cada tabla de la base de datos e importarlas a HDFS, la salida de estos es un conjunto de ficheros que puede estar en formato CSV, Avro, binario o de secuencia.

Apache Kafka

Apache Kafka es un sistema de intermediación de mensajes basado en el modelo publicador/suscriptor.

Se considera un sistema persistente, escalable, replicado y tolerante a fallos. A estas carácterísticas se añade la velocidad de lecturas y escrituras que lo convierten en una herramienta excelente para comunicaciones en tiempo real (streaming).

Proporciona múltiples conectores para leer y almacenar desde cualquier fuente de datos.

Entradas relacionadas:

Etiquetas: