«Hadoop: The Definitive Guide» ahora en su cuarta edición

¡Es hora de celebrar, Apache Hadoop!

La tan esperada cuarta edición del clásico libro de O’Reilly Media de Tom White, “Hadoop: The Definitive Guide”, ya está disponible.

El ecosistema Hadoop, que bien sabemos es un framework de software que permite a las aplicaciones trabajar con miles de nodos y petabytes de datos, ha cambiado mucho desde la tercera edición. ¿Cómo son los cambios reflejados en esta nueva edición?

El núcleo del libro es sobre el proyecto Apache Hadoop, y desde la tercera edición, Hadoop 2 se ha estabilizado y se ha convertido en el más usado entre la gente. La tercera edición actualmente cubre ambos: Hadoop 1 (basado en el JobTracker) y Hadoop 2 (basado en YARN). En la  cuarta edición se cubrió únicamente Hadoop 2, lo cual simplifica las cosas de manera considerable. Además se le dio más espacio a YARN y ahora tiene un capítulo entero dedicado a él.

Esta actualización es la más grande desde la primera edición, y responde al feedback de los lectores. “Yo reorganicé los capítulos para simplificar la lectura”, comenta Tom White.

El ecosistema Hadoop ha estado creciendo más rápido con cada nueva edición, lo cual hace que sea imposible cubrir todo; incluso si quisiera, no habría espacio suficiente. El libro está dirigido principalmente a los usuarios que realizan el procesamiento de datos, por lo que en esta edición el autor ha añadido dos nuevos capítulos sobre los marcos de procesamiento (Apache Spark y Apache Crunch).

“También estoy muy contento con los dos nuevos estudios de caso en esta edición: uno sobre cómo se utiliza Hadoop para administrar registros en un sistema de salud (por Ryan Brush y Micah Whitacre), y el otro sobre la construcción del big data de genomics pipelines (por Matt Massie )” explica el autor.

Para leer la entrevista completa visita Cloudera