Prepare for your exams
Get points
Guidelines and tips
Sell on Docsity
Docsity AI

Prepare for your exams

Study with the several resources on Docsity

Earn points to download

Earn points by helping other students or get them with a premium plan

Guidelines and tips

Sell on Docsity

Docsity AI

Prepare for your exams

Study with the several resources on Docsity

Find documents

Prepare for your exams with the study notes shared by other students like you on Docsity

Search for your university

Find the specific documents for your university's exams

Docsity AINEW

Summarize your documents, ask them questions, convert them into quizzes and concept maps

Explore questions

Clear up your doubts by reading the answers to questions asked by your fellow students

Earn points to download

Earn points by helping other students or get them with a premium plan

Share documents

20 Points

For each uploaded document

Answer questions

5 Points

For each given answer (max 1 per day)

All the ways to get free points

Get points immediately

Choose a premium plan with all the points you need

Study Opportunities

Choose your next study program

Get in touch with the best universities in the world. Search through thousands of universities and official partners

Community

Ask the community

Ask the community for help and clear up your study doubts

Free resources

Our save-the-student-ebooks!

Download our free guides on studying techniques, anxiety management strategies, and thesis advice from Docsity tutors

Cài đặt Hadoop Cluster, Lab Reports of Data Acquisition

Ho Chi Minh City University of Technology and Education (HCMUTE)Data Acquisition

hướng dẫn Cài đặt Hadoop Cluster đơn giản dễ hiểu

Typology: Lab Reports

2023/2024

Uploaded on 04/14/2024

uyen-luong-thao 🇻🇳

1 document

1 / 17

This page cannot be seen from the preview

Don't miss anything!

Cài đặt Hadoop Eco System – Phần 2

- Ubuntu Server 22.04

- Hadoop 3.3.4

- Login với vai trò root (pass: root) để thực hiện những công việc sau

1. Thiết lập IP tĩnh cho master

- Kiểm tra các thiết bị mạng

# networkctl

- In trạng thái của từng địa chỉ IP trên hệ thống

# networkctl status

Nhấn phím q để thoát thông báo

- Cấu hình IP tĩnh

Discover Lab Reports of Data Acquisition Ho Chi Minh City University of Technology and Education (HCMUTE)

Partial preview of the text

Download Cài đặt Hadoop Cluster and more Lab Reports Data Acquisition in PDF only on Docsity!

Cài đặt Hadoop Eco System – Phần 2

Ubuntu Server 22.
Hadoop 3.3.
Login với vai trò root (pass: root) để thực hiện những công việc sau

1. Thiết lập IP tĩnh cho master

Kiểm tra các thiết bị mạng
networkctl
In trạng thái của từng địa chỉ IP trên hệ thống
networkctl status
Nhấn phím q để thoát thông báo
Cấu hình IP tĩnh

2. Cài đặt OpenJDK

Đã hoàn thành trong Phần 1

3. Cài đặt SSH

Đã hoàn thành trong Phần 1

3.1 Cấu hình SSH

Đã hoàn thành trong Phần 1

4. Cấu hình host/hostname

4.1 Kiểm tra ip của các máy master, slave

#ip addr show Ví dụ:

Master: 192.168.86.
Slave: 192.168.86.

4.2 Cấu hình host

vim /etc/hosts

Nhấn phím i để chuyển sang chế độ insert, bổ sung thêm 2 host master và slave như sau:

4.3 Cài đặt hostname cho master (thực hiện trên máy master)

vim /etc/hostname

Trong file này sẽ xuất hiện hostname mặc định của máy, xóa đi và đổi thành minhchau-master
Restart máy
reboot

4.4 Cài đặt hostname cho slave (thực hiện trên máy slave)

vim /etc/hostname

Trong file này sẽ xuất hiện hostname mặc định của máy, xóa đi và đổi thành minhchau-slave
Restart máy

reboot

5. Tạo user hadoop

Đã hoàn thành trong Phần 1

6. Cài đặt Hadoop 3.3.

Đã hoàn thành trong Phần 1

7. Cấu hình các thông số cho Hadoop

7.1 File .bashrc

vim ~/.bashrc

Thêm vào cuối file .bashrc nội dung như sau: export JAVA_HOME=/usr/lib/jvm/java-1.11.0-openjdk-amd export HADOOP_HOME=/home/hadoopminhchau/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

7.4 File mapred-site (chỉ cấu hình ở master)

cd ~/hadoop/etc/hadoop/

vim mapred-site.xml

Chỉnh sửa lại thông tin như sau:

mapreduce.application.classpath $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOO

P_MAPRED_HOME/share/hadoop/mapreduce/lib/*

mapreduce.jobtracker.address minhchau-master:9001 The host and port that the MapReduce job tracker runs at. If “local”, then jobs are run in-process as a single map and reduce task.

mapreduce.framework.name yarn The framework for running mapreduce jobs

yarn.app.mapreduce.am.env HADOOP_MAPRED_HOME=/home/hadoopminhchau/hadoop

mapreduce.map.env HADOOP_MAPRED_HOME=/home/hadoopminhchau/hadoop

mapreduce.reduce.env HADOOP_MAPRED_HOME=/home/hadoopminhchau/hadoop

7.5 File hdfs-site.xml

vim ~/hadoop/etc/hadoop/hdfs-site.xml

Chỉnh sửa lại thông tin cấu hình như sau:

dfs.replication 2 Default block replication. The actual

number of replications can be specified when the file is created. The default is used if replication is not specified in create time.

dfs.namenode.name.dir

/home/hadoopminhchau/hadoop/hadoop_data/hdfs/na menode Determines where on the local filesystem the DFS name node should store the name table(fsimage). If

minhchau-master:9002

yarn.resourcemanager.address minhchau-master:9003

yarn.resourcemanager.webapp.address minhchau-master:9004

yarn.resourcemanager.resource- tracker.address minhchau-master:9005

yarn.resourcemanager.admin.address minhchau-master:9006

8. Chỉ ra các máy slaves (chỉ cấu hình ở master)

vim ~/hadoop/etc/hadoop/workers

Thêm hostname của các máy slave: mỗi máy salve đặt trên 1 dòng

9. Tạo máy minhchau-slave

Tắt máy Master.
Copy Master ra, đổi tên thành Slave
Mở máy slave, chỉnh lại IP tĩnh và các thông số cho phù hợp: hosts, hostname…

Reboot máy

Lưu ý: o Một số lệnh cần phải có quyền root mới thực hiện được.

10. Cài đặt ssh key giữa các node

Thao tác này chỉ thực hiện trên master

Đăng nhập với hadoopminhchau
Tạo ssh key

ssh-keygen -t rsa -P ""

Nhấn Enter để chấp nhận giá trị mặc định

cat /home/hadoopminhchau/.ssh/id_rsa.pub >>

/home/hadoopminhchau/.ssh/authorized_keys

chmod 600 /home/hadoopminhchau/.ssh/authorized_keys

Share ssh key giữa master - master

ssh-copy-id -i ~/.ssh/id_rsa.pub minhchau-master

Share ssh key giữa master - slave

ssh-copy-id -i ~/.ssh/id_rsa.pub minhchau-slave

10.1 Test kết nối ssh

Test kết nối tới master

ssh hadoopminhchau@minhchau-master

Đăng xuất

logout

Test kết nối tới slave

Kiểm tra các máy slave còn hoạt động hay không

hdfs dfsadmin -report

Nếu thấy xuất hiện output như sau thì có nghĩa là máy slave vẫn đang hoạt động

13. Chạy thử

13.1 Tạo test

Ra thư mục gốc, tạo file test

cd ~

vim test.sh

Tạo nội dung như sau #!/bin/bash

test the hadoop cluster by running wordcount

create input files

Trong trường hợp bạn muốn test lại thì phải xóa kết quả cũ bằng lệnh sau

rm -rf input

hadoop fs -rm -r input

hadoop fs -rm -r output

rồi chạy lại lệnh

./test.sh

14. Một số lưu ý

Lệnh “hadoop namenode -format” chỉ thực hiện một lần duy nhất lúc cài hadoop. Nếu chạy lại lần 2 thì cả cụm (cluster) bị mất.

Nếu chỉ muốn làm sạch datanode thì dùng ssh đến node đó, sau đó có thể format data disk hoặc xóa dữ liệu. Cách an toàn hơn là chạy lệnh “rm -rf /data/disk1”, “rm -rf /data/disk2”, giả sử datanode lưu trữ dữ liệu tại /data/disk1 và /data/disk2.

15. Sửa lỗi khi không tìm thấy datanode

Kiểm tra lại các file cấu hình: file mapred-site.xml và slaves chỉ cấu hình ở master. Trên máy slave không chỉnh 2 file này.
Đảm bảo file hosts trên master và slave như nhau.
Sửa file /etc/hosts.allow trên 2 máy master và slave
Tắt firewall trên 2 máy master và slave sudo ufw disable
Cuối cùng, xóa thư mục namenode và datanode từ tất cả các node trong cluster $HADOOP_HOME/bin> hadoop namenode -format -force $HADOOP_HOME/sbin> start-dfs.sh $HADOOP_HOME/sbin> start-yarn.sh

Cài đặt Hadoop Cluster, Lab Reports of Data Acquisition

Related documents

Partial preview of the text

Download Cài đặt Hadoop Cluster and more Lab Reports Data Acquisition in PDF only on Docsity!

Cài đặt Hadoop Eco System – Phần 2

1. Thiết lập IP tĩnh cho master

networkctl

networkctl status

2. Cài đặt OpenJDK

3. Cài đặt SSH

3.1 Cấu hình SSH

4. Cấu hình host/hostname

4.1 Kiểm tra ip của các máy master, slave

4.2 Cấu hình host

vim /etc/hosts

4.3 Cài đặt hostname cho master (thực hiện trên máy master)

vim /etc/hostname

reboot

4.4 Cài đặt hostname cho slave (thực hiện trên máy slave)

vim /etc/hostname

reboot

5. Tạo user hadoop

6. Cài đặt Hadoop 3.3.

7. Cấu hình các thông số cho Hadoop

7.1 File .bashrc

vim ~/.bashrc

7.4 File mapred-site (chỉ cấu hình ở master)

cd ~/hadoop/etc/hadoop/

vim mapred-site.xml

7.5 File hdfs-site.xml

vim ~/hadoop/etc/hadoop/hdfs-site.xml

8. Chỉ ra các máy slaves (chỉ cấu hình ở master)

vim ~/hadoop/etc/hadoop/workers

9. Tạo máy minhchau-slave

10. Cài đặt ssh key giữa các node

ssh-keygen -t rsa -P ""

cat /home/hadoopminhchau/.ssh/id_rsa.pub >>

chmod 600 /home/hadoopminhchau/.ssh/authorized_keys

ssh-copy-id -i ~/.ssh/id_rsa.pub minhchau-master

ssh-copy-id -i ~/.ssh/id_rsa.pub minhchau-slave

10.1 Test kết nối ssh

ssh hadoopminhchau@minhchau-master

logout

hdfs dfsadmin -report

13. Chạy thử

13.1 Tạo test

cd ~

vim test.sh

test the hadoop cluster by running wordcount

create input files

rm -rf input

hadoop fs -rm -r input

hadoop fs -rm -r output

./test.sh

14. Một số lưu ý

15. Sửa lỗi khi không tìm thấy datanode