Dalam beberapa tahun terakhir Apache Hadoop telah muncul sebagai teknologi untuk memecahkan masalah Big Data dan untuk meningkatkan Analisis Bisnis . Salah satu contoh dari hal ini adalah h ow Sears Memegang telah pindah ke Hadoop dari tradisional Oracle Exadata, Teradata, sistem SAS. Peserta besar lain baru-baru ini ke kereta musik Hadoop adalah implementasi Hadoop Walmart .
Di blog kami sebelumnya, kami telah membahas, cara membuat Cluster Hadoop di AWS dalam 30 menit .
Selain itu, blog ini membahas tentang File Konfigurasi Cluster Hadoop yang penting.
Tabel berikut mencantumkan hal yang sama.
Mari kita lihat file dan penggunaannya satu per satu!
hadoop-env.sh
File ini menetapkan variabel lingkungan yang mempengaruhi JDK yang digunakan oleh Hadoop Daemon (bin / hadoop).
Karena kerangka kerja Hadoop ditulis di Java dan menggunakan lingkungan Java Runtime , salah satu variabel lingkungan penting untuk daemon Hadoop adalah $ JAVA_HOME di hadoop-env.sh . Variabel ini mengarahkan daemon Hadoop ke jalur Java di sistem.
Di mana nama host dan port adalah mesin dan port tempat daemon NameNode berjalan dan mendengarkan. Ini juga memberi tahu Node Nama tentang IP dan port mana yang harus diikat. Porta yang umum digunakan adalah 8020 dan Anda juga dapat menentukan alamat IP daripada nama host.
hdfs-site.sh
File ini berisi pengaturan konfigurasi untuk daemon HDFS; Node Nama, Node Nama Sekunder, dan node data.
Anda juga dapat mengkonfigurasi hdfs-site.xml untuk menentukan replikasi blok default dan pemeriksaan izin pada HDFS. Jumlah replikasi sebenarnya juga dapat ditentukan saat file dibuat. Default digunakan jika replikasi tidak ditentukan dalam waktu pembuatan.
Nilai “benar” untuk properti ‘dfs.permissions’ memungkinkan pemeriksaan izin di HDFS dan nilai “salah” menonaktifkan pemeriksaan izin. Beralih dari satu nilai parameter ke nilai lainnya tidak mengubah mode, pemilik, atau grup file atau direktori.
mapred-site.sh
File ini berisi pengaturan konfigurasi untuk daemon MapReduce; pelacak pekerjaan dan pelacak tugas . The mapred.job.tracker parameter adalah nama host (atau alamat IP) dan pelabuhan pasangan di mana Job Tracker mendengarkan untuk komunikasi RPC. Parameter ini menentukan lokasi Job Tracker ke Pelacak Tugas dan klien MapReduce.
Anda dapat mereplikasi keempat file yang dijelaskan di atas ke semua Data Nodes dan Secondary Namenode. File-file ini kemudian dapat dikonfigurasi untuk setiap konfigurasi spesifik node, misalnya dalam kasus JAVA HOME yang berbeda di salah satu Datanode.
Dua file berikut ‘master’ dan ‘slaves’ menentukan Node master dan salve di cluster Hadoop.
Master
File ini menginformasikan tentang lokasi Secondary Namenode ke hadoop daemon. File ‘ master ‘ di server Master berisi nama host server Secondary Name Node.
File ‘master’ pada Slave Nodes kosong.
slaves
File ‘ slaves’ di node Master berisi daftar host, satu per baris, yang menjadi host server Data Node dan Task Tracker.
File ‘ slave ‘ di server Slave berisi alamat IP node slave. Perhatikan bahwa file ‘slaves’ di node Slave hanya berisi alamat IP-nya sendiri dan bukan dari Data Node lainnya di cluster.