Big data

por adm · 1 julio, 2015

Los grandes datos (Big data), denotan conjuntos de datos que se vuelven tan grandes que se vuelven difíciles de trabajar con herramientas convencionales de gestión de base de datos o gestión de la información.

La explosión cuantitativa (a menudo redundante) de los datos digitales obligó nuevas formas de ver y analizar el mundo. Nuevas órdenes de magnitud respecto a la captura, almacenamiento, búsqueda, intercambio, análisis y visualización de datos. Las grandes perspectivas de procesamiento de datos son enormes y en parte todavía insospechado; a menudo evoca nuevas posibilidades para la exploración de la información difundida por los medios de comunicación, el conocimiento y la evaluación, análisis de tendencias y la previsión (climáticas, ambientales o socio-político, etc.) y la gestión de riesgos (comerciales, -seguro industrial, natural) y religioso, cultural, político, sino también en términos de la genómica y metagenómica, para la medicina (la comprensión de la función cerebral, la epidemiología, epidemiología panorámica …), la meteorología y la adaptación al cambio sistemas de gestión de la energía, climáticas complejas (redes inteligentes o por medio de una futura «Internet de la Energía» …) ecología (funcionamiento y el mal funcionamiento de las redes ecológicas, redes alimentarias con GBIF por ejemplo), o de la seguridad y la lucha contra el crimen. La multiplicidad de estas aplicaciones implica un ecosistema económico, ya los principales actores en el sector de tecnología de la información.

Algunos suponen que podrían ayudar a las empresas a reducir sus riesgos y facilitar la toma de decisiones, o cree una diferencia a través de análisis predictivo y la «experiencia del cliente» más personalizada y contextualizada.

Varios expertos, las grandes instituciones (como el MIT en los Estados Unidos), las administraciones y los especialistas en el campo de las tecnologías o prácticas consideran el fenómeno de datos grande como uno de los principales desafíos de TI de 2010 a 2020 e hicieron una sus nuevas prioridades para la investigación y el desarrollo.

Dimensiones del Big Data

Big Data se acompaña referido al desarrollo de aplicaciones de análisis, que los datos de proceso para derivar significado. Estos análisis se llaman Big Analytics o «Análisis de datos». Se centran en los datos cuantitativos complejos con métodos de computación distribuida.

En 2001, el informe de investigación de META Group (ahora Gartner) define los desafíos inherentes en el crecimiento de datos como ser en tres dimensiones: el análisis complejo de hecho responde a la regla conocida como «3V» (volumen, velocidad y variedad). Este modelo sigue siendo ampliamente utilizado hoy en día para describir este fenómeno.

Se espera que la tasa de crecimiento medio anual del mercado mundial de tecnología y servicios de datos grandes en el período 2011-2016 a ser el 31,7%. Se espera que este mercado para llegar a $ 23.8 mil millones en 2016 (según IDC marzo 2013).

Big Data también debe representar el 8% del PIB de la UE en 2020 (AFDEL febrero 2013).

Es una dimensión relativa: Big Data como señaló Lev Manovich en 2011 anteriormente definido «datos suficientemente grandes conjuntos de exigir supercomputadoras», pero rápidamente (en los años 1990 a 2000) fue posible utilizar software estándar en equipos de escritorio para analizar o compañero de analizar grandes conjuntos de datos.

El volumen de datos almacenado es la ampliación: los datos digitales creados en el mundo han aumentado de 1,2 zettabytes por año en 2010 a 1,8 zettabytes en 2011 y 2,8 zettabytes en 2012 y ascenderá a 40 zettabytes en 2020. Por ejemplo, Twitter genera en enero de 2013, 7 terabytes de datos cada día y 10 terabytes de Facebook.

Sin embargo, es de las instalaciones técnicas y científicas (meteorología, por ejemplo) que produciría la mayoría de los datos. Muchos proyectos de dimensiones faraónicas, están en marcha. El radiotelescopio «Conjunto del Kilómetro Cuadrado», por ejemplo, producirá 50 terabytes de datos analizados por día, a un ritmo de 7.000 terabytes de datos en bruto por segundo.

Variedad Big Data

El volumen de datos grandes pone el centro de datos a un desafío: la variedad de datos. No son datos relacionales tradicionales, estos datos son crudos, semiestructurados o no estructurados (pero los datos no estructurados deben, para su uso, ser estructurados). Estos son los datos complejos de la web (Web Mining) en formato de texto (text mining) y fotografías (Imagen Minería). Pueden ser público (Open Data, datos de la web), (direcciones IP) geo-demográfica por bloque, o subir la Propiedad de los consumidores (360 Perfiles).¿Qué los hace difícil de usar con herramientas tradicionales.

La proliferación de herramientas de recolección en las personas y los objetos siempre permite acumular más datos. Y el análisis es tanto más complejo que son cada vez más los vínculos entre los datos de diferentes tipos.

Velocidad Big Data

La velocidad representa tanto la frecuencia con la que se generan los datos, capturados y compartidos y actualizados.

Los flujos de datos en crecimiento deben ser analizados en tiempo casi real (flujos de minería de datos) para satisfacer las necesidades de los procesos de crono sensible. Por ejemplo, los sistemas creados por el mercado de valores y las empresas deben ser capaces de procesar los datos antes de que haya empezado un ciclo de nueva generación, con el riesgo de que el hombre pierde gran parte del control de la sistema cuando los operadores principales se convierten en «robots» capaz de poner en marcha las órdenes de compra o venta del nanosegundo (High Frequency Trading), sin tener todos los criterios de análisis para el mediano y largo plazo.

Diferencia con la decisión informática

Si la definición de Gartner es todavía ampliamente 3V recuperación (o incluso aumentó «V» en el fragor de servicios de marketing adicionales), la maduración del tema nos lleva a otro criterio más fundamental de la diferencia con la inteligencia y para los datos y su uso:

BI: Uso estadística descriptiva sobre los datos de alta densidad en información para medir los fenómenos, detectar tendencias …;
Big Data: el uso de la estadística inferencial, en los datos de baja densidad en la información que se puede inferir gran volumen de legislación (regresiones ….) Por lo tanto dando (con los límites de la inferencia) a las capacidades de predicción de datos grande.

Sintéticamente:

la inteligencia del ordenador «tradicional» entendida, se basa en un modelo del mundo;
Big Data es que el modelo matemático encuentra en los datos

Modelos Big Data

Bases de datos relacionales convencionales no permiten manejar grandes volúmenes de datos. Nuevos modelos de representación puede garantizar el rendimiento de volumetría. Estas tecnologías, denominado Business Analytics & Optimization (BAO) para administrar las bases de datos masivamente paralelos. Patrones arquitectónicos «arquitectura marco Big Data (BDAF)» son ofrecidos por los operadores del mercado como MapReduce desarrollado por Google y se utilizan en el marco de Hadoop. Con este sistema de consultas se separan y se distribuyen a los nodos paralelizados, y luego ejecutado en paralelo (el mapa). Los resultados se recogen y Retornados (Reducir). Teradata, Oracle y EMC (a través de la adquisición de Greenplum) también ofrecen este tipo de estructuras, los servidores basados ??en estándares con configuraciones se optimizan. Se enfrentan a la competencia de los proveedores como SAP y, más recientemente, Microsoft. Los participantes del mercado se basan en sistemas con alta escalabilidad horizontal y soluciones basadas en la NoSQL (MongoDB, Cassandra) en lugar de las bases de datos relacionales convencionales.

Almacenamiento Big Data

Para hacer frente a los desafíos sistemas de almacenamiento arquitectura Big Data deben ser repensadas y modelos de almacenamiento están aumentando en consecuencia.

La computación en nube: el acceso es a través de la red, los servicios están disponibles a la carta y de autoservicio en los recursos informáticos compartidos y configurables. Los servicios más populares son los de Google BigQuery, Big Data en Amazon Web Services, Microsoft Windows Azure.

Calculadoras súper híbridos: HPC para High Performance Computing.

Sistemas Distribuidos de archivos (DFS – sistema de cola distribuida): Los datos no se almacenan en una sola máquina como la cantidad que se almacena es demasiado importante. Los archivos de datos se «cortan» en trozos de un tamaño definido y cada pieza se envía a una máquina específica utilizando el almacenamiento local. Se prefiere el almacenamiento local para el almacenamiento SAN / NAS por razones cuellos de botella en la red y las interfaces de red SAN. Asimismo, el uso de un tipo de almacenamiento SAN es mucho más caro para un rendimiento mucho más bajo. En los sistemas de almacenamiento distribuidos para Big Data, hemos introducido el principio de «localidad de datos». Los datos se almacenan en el que puedan ser tratados.

Los grandes datos tienen aplicaciones en muchos campos: programas científicos del CERN (mastodontes), herramientas de negocio (IBM, Amazon Web Services, BigQuery, SAP HANA) veces especializada (Teradata, Jaspersoft, Pentaho …) o de puesta en marcha (aleph -a las redes, Bionatics, Hariba Médico, Safetyline, KwypeSoft, Vigicolis, PredicSis, así como en el campo de código abierto (Apache Hadoop, Infobright, Talend …) y los sistemas operativos abiertos (por ejemplo, con el software libre analizar H2O grandes datos (software)).

Investigación científica

Los datos tienen un gran potencial científico significativo. Por lo tanto, los experimentos de física del Gran Colisionador de Hadrones del CERN usan cerca de 150 millones de sensores que entregan datos de 40 millones de veces por segundo. Para 600 millones de colisiones por segundo, sigue siendo después de filtrar 100 colisiones de interés por segundo. Como resultado, 25 PB de datos es almacenar un año, y 200 Po después de la replicación. Las grandes herramientas de análisis de datos podrían redefinir el uso de estos datos.

Cuando el Sloan Digital Sky Survey (SDSS) comenzó a recopilar datos astronómicos en 2000, recogió un par de semanas más datos que cualquier recogido previamente en la historia de la astronomía. Sigue a un ritmo de 200 GB por noche, y en 10 años (2000-2010) almacena más de 140 terabytes de información. El Gran Telescopio Sinóptico previsto para 2015, debe reunir como cada cinco días.

Primero Anterior decodificar el genoma humano tomó 10 años, pero lleva menos de una semana: secuenciadores de ADN aumentó en un factor de 10.000 los últimos diez años, 100 veces la Ley de Moore (unos 100 más de 10 años). En biología, los enfoques basados ??en una masa de minería de datos lógicos y la investigación inductiva son legítimos y complementarios a los enfoques tradicionales basados?en la hipótesis inicial.

El Centro de la NASA para el Clima Simulación (NCCS) almacena 32 PB de datos y observaciones de simulaciones climáticas,

Sector privado

Walmart maneja más de un millón de transacciones de los clientes por hora, que se importan en las bases de datos que se estima para contener más de 2,5 información.

Facebook procesa 50 mil millones de fotos.

Exploración general de los datos Big Data permite el desarrollo de perfiles de clientes que no se presuponía.

El uso de datos Big Data entra ahora en la estrategia museo prestigioso como el Museo Guggenheim. El uso de transmisores electrónicos colocados en sus salas los visitantes se realiza un seguimiento a lo largo de su visita. El museo también puede determinar nuevo camino basado en las obras más populares o exposiciones.

Perspectivas y evolución

Uno de los principales retos de productividad Big Data en su desarrollo se centrará en la logística de información, es decir, sobre la forma de asegurar que la información relevante llegue al lugar correcto en el momento adecuado. Este es un enfoque micro. Su eficacia dependerá de y el de la combinación de enfoques micro y macroeconómicas a un problema.

Según un estudio de IDC, los datos digitales creados en el mundo llegaría a 40 zettabytes por 2020. En comparación, Facebook generaron cerca de 10 terabytes de datos por día a principios de 2013. El desarrollo de los datos de la vivienda masiva parece haber sido acelerado por varios fenómenos a la vez: la escasez de discos duros debido a las inundaciones en Tailandia en 2011, la explosión del mercado de los dispositivos móviles (incluidos los teléfonos inteligentes y tabletas), etc. Añadido a esto, la democratización de la nube de computación cada vez más estrecha, con herramientas como Dropbox, trae la gran información de la logística del centro de datos.

El modelado de datos

Los métodos actuales de los sistemas de modelado de datos y de gestión de base de datos se han diseñado para cantidades mucho menor de los datos. La minería de datos tiene características fundamentalmente diferentes y las tecnologías actuales no permiten a explotarlos. En el futuro será necesario el modelado de datos y lenguajes de consulta que permitan:

Una representación de los datos en conformidad con las necesidades de varias disciplinas científicas;
Describir aspectos específicos de una disciplina (modelos de metadatos);
Para representar la fuente de datos;
Para representar la información contextual acerca de los datos;
Para representar y apoyar a la incertidumbre;
Para representar la calidad de los datos.

Muchos otros temas de investigación están relacionadas con este tema, incluyendo incluyen: el modelo de reducción de EDP, la adquisición de imágenes comprimido en el estudio de los métodos numéricos de alto orden … Probabilidades, estadísticas, análisis numérico, ecuaciones deterministas y estocásticos parciales diferenciales, aproximación, computación de alto rendimiento, algorítmicas … Gran parte de la comunidad científica, particularmente en matemáticas aplicadas y ciencias de la computación, se ocupa de este tema prometedor.

Gestión De Datos Big Data

La necesidad de manejar datos extremadamente grandes es evidente y las tecnologías actuales no permiten hacerlo. Debemos repensar los conceptos básicos de la gestión de datos que se han determinado en el pasado. Para la investigación científica, por ejemplo, será necesario reconsiderar el principio de que una consulta en un DBMS proporciona una completa y correcta, independientemente del tiempo o recursos. De hecho, la dimensión exploratorio de la minería de datos que los científicos no necesariamente sabe lo que necesitan. Tendría sentido que el DBMS puede proporcionar respuestas rápidas y de bajo costo que podrían ser sólo una aproximación, pero que guiaría el científico en su investigación.

En el área de datos de los clientes, también hay un uso real de estas necesidades de información, sobre todo por el fuerte incremento de volumen en los últimos años. Los grandes datos y tecnologías asociadas proporcionan respuestas a diversas cuestiones tales como tiempos de aceleración de análisis de datos de los clientes, la capacidad de analizar todos los datos del cliente y no sólo una muestra de ellos o la recuperación y centralización de las nuevas fuentes de datos de clientes para ser analizada con el fin de identificar las fuentes de valor para la empresa.

Herramientas de gestión de datos Big Data

Las herramientas utilizadas en la actualidad no están en línea con los volúmenes de datos generados en la exploración de grandes datos. Es necesario desarrollar herramientas para visualizar mejor, analizar y catalogar los conjuntos de datos para permitir la investigación impulsada por los datos ópticos. La gran investigación de datos apenas comienza. La cantidad de datos está cambiando mucho más rápido que nuestro conocimiento de este campo.

Gestión de la entropía

La avalancha de datos que alimenta los datos grandes (algunas de las cuales son ilegales o no controlada) es a menudo comparado metafóricamente a la vez un flujo continuo de alimentos, el petróleo y la energía (que se alimenta de las empresas de minería de datos y en segundo lugar la empresa información) que expone el riesgo de sobrecarga de información y podría ser comparado con el equivalente de una «contaminación» del ciberespacio y la noosfera (metafóricamente, los grandes datos corresponden en parte a una especie de gran derrame de petróleo de información, o eutrofización difuso pero creciente y continua el mundo digital.
Riesgos de reputación a la privacidad y los derechos fundamentales

Existen varios tipos de riesgos se citan en la literatura:

El riesgo de deshumanización: En lo que Bruce Schneier llama «la edad de oro de la vigilancia,» la mayoría de las personas puede sentir deshumanizada y ya no puede proteger los datos personales que les conciernen o no, y se recogen, analizada y venden sin su conocimiento. Si bien es difícil de hacer sin la tarjeta de crédito, teléfono inteligente o consultar Internet, pueden tener la sensación de no poder escapar de la vigilancia constante para que la presión a la consumen, voto, etc .

El riesgo de violaciones de la seguridad de datos; en un mundo de cada vez más interconectado y vinculados a Internet, seguridad en línea se convierte en crucial para la protección de la privacidad, sino también para la economía (por ejemplo, en caso de problemas graves, existen riesgos de pérdida de confianza en la seguridad de los procesos de compra en línea, por ejemplo, podrían tener consecuencias económicas importantes);

El riesgo de «sometimiento de la investigación científica de las empresas comerciales y de sus servicios de marketing»

E riesgo de apofenia (deducciones no autorizadas); Los medios de acceso y la interpretación son numerosos («corpus no es más científica u objetiva, porque uno es capaz de succionar todos los datos de un sitio. Especialmente hay muchos sesgos (técnicas con las API, sino también de organización) en el mismo acceso a esos datos que no debe ser considerado como total. Este acceso es, de hecho, sobre la base de la buena voluntad de las corporaciones y los medios financieros tener investigadores y universidades) «;
Además, existe un sesgo de género: la gran mayoría de los expertos en informática los investigadores están ahora los hombres, historiadores y filósofos de la ciencia feministas oro han demostrado que el sexo de la persona que hace las preguntas a menudo determina los temas se le pedirá.

El riesgo malinterpretar algunos datos relacionados con la alteridad, con posibles consecuencias socio-psicológica, por ejemplo, y la incomprensión o la interpretación de la otra («el otro no es un hecho», recuerda D. Pucheu).
Otro riesgo es el de una «escasez de oportunidades de exposición humana a las cosas que no han sido pre-vistas para ellos, y por lo tanto de secado del espacio público (como el espacio para la deliberación, la formación proyectos no plegada competencia intereses individuales por sí solos), estos no pre-cosas que se ven, se constituye, precisamente, el espacio común, o público.

Riesgo de exacerbación de la brecha digital, ya que las herramientas de minería de datos disponibles para algunas empresas cada vez mayores y el acceso casi instantáneo a miles de millones de datos y documentos escaneados. Para los que saben cómo utilizar estos datos, y con algunas limitaciones, también ofrecen cierta capacidad para producir, clasificar o distinguir la información estratégica se considere, a fin de retener o de otro modo antes de soltar alguna otra información estratégica. Su acceso especial y muy transparente a la información puede promover situaciones de conflicto de intereses o abuso de información privilegiada. Hay un riesgo de aumento de las desigualdades en los datos y poder que estaba sobre ellos: y Manovich distingue tres categorías de grupos de interés, fundamentalmente desiguales en los datos, «los que crean los datos (ya sea consciente o dejar huellas digitales), los que tienen los medios para recoger ellos, y los que tienen la habilidad para analizar ellos «(2011).
Son pequeños en número, pero muy privilegiada (se utiliza a menudo por las empresas y otras entidades en las grandes datos y así tener el mejor acceso a los datos, sino que ayudan a producir o dirigir las reglas que enmarcarán el marco y la funcionamiento de Big Data. desigualdades institucionales son, a priori, inevitable, pero se puede minimizar y al menos debe ser estudiado porque dirigen los datos y los tipos de investigación y las aplicaciones que se traducirá.

Riesgos de monopolio apropiación de ciertos juegos megadatos recogidos por unas pocas empresas grandes (Google, Facebook …) o por herramientas públicas o secretas de grandes estados (por ejemplo PRISM) para «capturar la realidad de influir»); una enorme cantidad de datos es discreta (y sobre todo legal) recogidos por empresas especializadas o agencias estatales o de las agencias de inteligencia, incluyendo el comportamiento de compra y los intereses en Internet para todos grupos e individuos. Estos datos se almacenan, ya veces pirateadas (En 2003, durante una búsqueda de vulnerabilidades de seguridad de la empresa Acxiom, unos corredores de datos principales se dieron cuenta de que 1,6 mil millones de registros de consumo había sido hackeado mediante 137 ataques informáticos realizados de enero a julio de 200, la información robada incluye nombres, direcciones y direcciones de correo electrónico de varios millones de dólares de EE.UU.). Estos datos son entonces más o menos cambios, y eventualmente alquilado o vendido por el marketing y la publicidad dirigida, estudios científicos encuesta organizaciones, grupos de presión o de los partidos políticos (que puede ponerse en contacto con mayor facilidad a sus electores potencial), etc. Las personas cuyos datos de flujos y no suelen ser informadas, no dieron el consentimiento informado y se pueden verificar fácilmente o eliminar las bases de datos anteriores que almacenan durante un periodo potencialmente indefinido. Producción de riesgo de error y el mal uso existe (en el campo de los préstamos bancarios y de seguros, por ejemplo). Según el informe de F Lescalier titulado «Big Data: Los nuevos videntes» 92, 80% de los datos personales a nivel mundial están en manos de cuatro jugadores importantes que son (por orden alfabético): Amazon, Apple, Facebook y Google.