hadoop e` un progetto software open source che permette di analizzare enormi quantita` di dati distribuiti su cluster di computer e file system differenti. e progettato per essere completamente scalabile da un singolo server fino a migliaia di macchine. hadoop si occupa anche di gestire problemi e guasti a livello applicativo piuttosto che hardware e questo garantisce migliori e piu` accurate prestazioni. hadoop e` mantenuto da the apache software foundation e si basa sul linguaggio di programmazione java. questo libro e` dedicato a chi non conosce hadoop ma ha la necessita` di lavorare e gestire big data. l`approccio e` sia teorico che pragmatico e tutoriale. si parte dall`installazione e dalla configurazione di hadoop, per passare alla progettazione, l`implementazione e la gestione di sistemi complessi attraverso le varie componenti del software tra cui hdfs, yarn e mapreduce. passo dopo passo il lettore scoprira` i componenti di hadoop imparando a utilizzarli nella costruzione di soluzioni in grado di ottenere il massimo dai dati collezionati. |