Inicio > BIGDATA > Hadoop y mapreduce

HADOOP Y MAPREDUCE

06/03/2016BIGDATA

 

Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos; cientos de terabytes, petabytes o incluso más. Hadoop surgió como iniciativa open source (software libre) a raiz de la publicación de varios papers de Google sobre sus sistemas de archivo, su herramienta de mapas y el sistema BigTable Reduce.Hadoop es un marco de programación libre que soporta el procesamiento de grandes conjuntos de datos en un entorno de computación distribuida.
La historia de Hadoop está necesariamente unida a la de Google. De hecho, podría decirse que Hadoop nace en el momento en que Google precisa urgentemente de una solución que le permita continuar procesando datos al ritmo que necesita, en una proporción que repentinamente ha crecido de forma exponencial.
MapReduce se basa en el concepto de dividir una tarea en tareas más pequeñas y procesarlas en paralelo. De esta forma se facilita la gestión. Los usuarios especifican una función de mapa que procesa un par de clave / valor para generar un conjunto de pares de clave / valor intermedio, y una función reductora que combina todos los valores intermedios asociados con la misma clave intermedia. Muchas de las tareas del mundo real son expresables en este modelo.
Todavía no he encontrado suficiente información para programar MapReduce en php pero cuando haya más sin duda lo probaré.