Workshop H-grid247 di Institute Pertanian Bogor (IPB)

Workshop Big Data Hadoop, hands on H-Grid247 di Institut Pertanian Bogor (IPB), Darmaga. dihadiri oleh mahasiswa dan praktisi untuk mempelajari tahapan-tahapan dari tools Hadoop 247. bapak Solechoel Arifin dari Solusi247 menjelaskan beberapa tools, seperti HDFS (Hadoop Distibuted File System), Hadoop Cluster, Hadoop Component, MapReduce dan lainnya.


workshophgrid247IPB


Penjelasan Singkat Hadoop Distributed File System (HDFS)

HDFS ini pada dasarnya adalah sebuah tempat atau direktori di komputer dimana data hadoop disimpan. Meskipun direktori ini di “format” supaya bisa bekerja sesuai dengan spesifikasi dari Hadoop.

Meskipun namanya file system, HDFS ini tidak sejajar dengan jenis file system dari sistem operasi misalnya NTFS, FAT32. HDFS ini menumpang diatas file system milik sistem operasi linux atau windows.

Data di Hadoop disimpan di cluster. Cluster biasanya terdiri dari banyak node atau komputer/server. Setiap node di dalam cluster ini harus terinstall Hadoop untuk bisa jalan.

Kelemahan di HDFS hadoop versi pertama adalah jika name node mati. Maka seluruh cluster tidak bisa digunakan sampai name node baru dipasang di cluster. Hadoop juga bisa dijalankan dalam single node. Biasanya single node ini digunakan hanya untuk training atau development. Bukan untuk produksi.

Setiap data atau file yang disimpan di HDFS selalu memiliki lebih dari satu copy. Ini disebut Refplication Factor (RF). Secara default RF adalah 3. Artinya satu file disimpan di 3 data node sehingga jika ada satu data node yang rusak, maka data node yang lain bisa memberikan filenya. Setiap 3 detik sekali, data node mengirim sinyal, disebut heartbeat, ke name node untuk menunjukkan bahwa data node masih aktif. kalau dalam 10 menit name node tidak menerima heartbeat dari data node, maka data node tersebut dianggap rusak atau tidak berfungsi sehingga setiap request read/write dialihkan ke node lain. Secara umum begini penyimpanan data di name node dan data node.

nodes

Source :

Hadoop Distributed File System (HDFS)


Hadoop Cluster

Sebuah cluster Hadoop adalah tipe khusus cluster komputasi yang dirancang khusus untuk menyimpan dan menganalisa data dalam jumlah besar yang tidak terstruktur dalam lingkungan komputasi terdistribusi.

hadoop cluster

Source :

Hadoop Cluster


Map Reduce

MapReduce adalah model pemrograman rilisan Google yang ditujukan untuk memproses data berukuran raksasa secara terdistribusi dan paralel dalam cluster yang terdiri atas ribuan komputer. Dalam memproses data, secara garis besar MapReduce dapat dibagi dalam dua proses yaitu proses Map dan proses Reduce. Kedua jenis proses ini didistribusikan atau dibagi-bagikan ke setiap komputer dalam suatu cluster (kelompok komputer yang salih terhubung) dan berjalan secara paralel tanpa saling bergantung satu dengan yang lainnya.

map reduce

Proses Map bertugas untuk mengumpulkan informasi dari potongan-potongan data yang terdistribusi dalam tiap komputer dalam cluster. Hasilnya diserahkan kepada proses Reduce untuk diproses lebih lanjut. Hasil proses Reduce merupakan hasil akhir yang dikirim ke pengguna.

Untuk menggunakan MapReduce, seorang programer cukup membuat dua program yaitu program yang memuat kalkulasi atau prosedur yang akan dilakukan oleh proses Map dan Reduce. Jadi tidak perlu pusing memikirkan bagaimana memotong-motong data untuk dibagi-bagikan kepada tiap komputer, dan memprosesnya secara paralel kemudian mengumpulkannya kembali. Semua proses ini akan dikerjakan secara otomatis oleh MapReduce yang dijalankan diatas Google File System.

Source :

MapReduce