hadoop 入门笔记
valten Lv4

环境准备

配置静态ip

1
vim /etc/sysconfig/network-scripts/ifcfg-ens32

ifcfg-ens32

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 网络类型为以太网
TYPE=Ethernet
# 设置固定ip,dhcp 改为 static
# BOOTPROTU=dhcp
BOOTPROTU=static
# 网卡设备名,一定要跟文件名一致
DEVICE=ens32
# 网卡设备名,一定要跟文件名一致
NAME=ens32
# 设定网卡随网络服务启动
# ONBOOT=no
ONBOOT=yes
# 固定ip
IPADDR=192.168.40.91
# 网关
GATEWAY=192.168.40.254
# 子网掩码
NETMASK=255.255.255.0
# DNS地址
DNS1=8.8.8.8
DNS2=114.114.114.114

重启网络服务,使生效

1
2
# 重启网络服务
service network restart

修改主机名

1
vim /etc/hostname

hostname

1
hadoop91  # reboot重启生效

修改hosts文件

1
vim /etc/hosts

hosts

1
2
3
4
# ip要和网卡配置中的静态ip一致,域名要和hosts文件中的主机名一致
192.168.40.91 hadoop91
192.168.40.92 hadoop92
192.168.40.93 hadoop93

重启网络服务,使生效

1
2
# 重启网络服务
service network restart

关闭防火墙

1
2
3
4
5
6
7
8
# 关闭防火墙
service iptables stop
# 禁用防火墙,开机自启关闭
chkconfig iptables off
# 查看防火墙状态
service iptables status
# 查看开机自启列表
chkconfig --list iptables

在关闭防火墙到时候,出现:

1
2
Redirecting to /bin/systemctl stop  iptables.service
Failed to stop iptables.service: Unit iptables.service not loaded.

解决方法:

centos7开始默认用的是firewalld,这个是基于iptables的,虽然有iptables的核心,但是iptables的服务是没安装的。所以你只要停止firewalld服务即可:

1
2
3
4
5
6
7
8
# 安装防火墙
yum install firewalld firewall-config

# 停止防火墙
sudo systemctl stop firewalld

# 禁用防火墙,开机自启关闭
sudo systemctl disable firewalld

创建用户

1
2
3
4
# 添加用户
useradd hisign
# 设置密码
passwd hisign

配置用户root权限

修改/etc/sudoers

1
2
# 用户 haung 可以不用密码使用sudo
hisign ALL=(ALL) NOPASSWD: ALL

该文件为root用户的只读文件,可以在root用户修改完后强制保存

1
2
# ESC后,:wq! 强制保存
:wq!

创建文件夹

创建文件夹/opt/software、/opt/module用于存放安装包和安装软件

1
sudo mkdir /opt/software /opt/module

修改文件夹所有者

1
sudo chown hisign:hisign /opt/software /opt/module

安装jdk

首先到官网上下载你想要的jdk

1
2
3
4
5
# 进入目录
cd /opt/software

# 解压到指定目录
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module

配置环境变量

1
sudo vim /etc/profile

输入大写的 G 跳转到文件末尾,在最后面添加:

1
2
3
# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

执行profile文件

1
source /etc/profile

这样可以使配置不用重启即可立即生效。

检查新安装的jdk

1
java -version

显示:

1
2
3
java version "1.8.0_144"
Java(TM) SE Runtime Environment (build 1.8.0_144-b01)
Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode)

安装hadoop

hadoop历史版本下载地址

https://archive.apache.org/dist/hadoop/common/

1
2
3
4
5
# 进入目录
cd /opt/software

# 解压到指定目录
tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module

配置环境变量

1
sudo vim /etc/profile

输入大写的 G 跳转到文件末尾,在最后面添加:

1
2
3
# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行profile文件

1
source /etc/profile

这样可以使配置不用重启即可立即生效。

检查新安装的jdk

1
hadoop version

到此安装结束

hadoop目录结构

1
2
3
4
5
6
7
8
9
10
drwxr-xr-x. 2 hisign hisign   194 5月  22 2017 bin
drwxr-xr-x. 3 hisign hisign 20 5月 22 2017 etc
drwxr-xr-x. 2 hisign hisign 106 5月 22 2017 include
drwxr-xr-x. 3 hisign hisign 20 5月 22 2017 lib
drwxr-xr-x. 2 hisign hisign 239 5月 22 2017 libexec
-rw-r--r--. 1 hisign hisign 15429 5月 22 2017 LICENSE.txt
-rw-r--r--. 1 hisign hisign 91 5月 22 2017 NOTICE.txt
-rw-r--r--. 1 hisign hisign 1366 5月 22 2017 README.txt
drwxr-xr-x. 2 hisign hisign 4096 5月 22 2017 sbin
drwxr-xr-x. 4 hisign hisign 31 5月 22 2017 share

重要目录

bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
sbin目录:存放启动或停止Hadoop相关服务的脚本
share目录:存放Hadoop的依赖jar包、文档、和官方案例

hadoop运行模式

本地运行模式

官方Grep案例

  • 在hadoop-2.7.2文件下面创建一个input文件夹
1
mkdir input
  • 将Hadoop的xml配置文件复制到input
1
cp etc/hadoop/*.xml input
  • 执行share目录下的MapReduce程序
1
2
3
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
grep input output 'dfs[a-z.]+'
  • 查看输出结果
1
cat output/*

显示

1
1  dfsadmin

官方WordCount案例

  • 在hadoop-2.7.2文件下面创建一个wcinput文件夹
1
mkdir wcinput
  • 在wcinput文件下创建一个wc.input文件
1
touch wcinput/wc.input
  • 编辑wc.input文件
1
vi wcinput/wc.input

在文件中添加以下内容

1
2
3
4
hadoop yarn
hadoop mapreduce
atguigu
atguigu
  • 执行share目录下的MapReduce程序
1
2
3
4
5
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
wcinput \
wcoutput
  • 查看输出结果
1
cat wcoutput/*

显示

1
2
3
4
atguigu 2
hadoop 2
mapreduce 1
yarn 1

伪分布式运行模式

启动HDFS并运行程序

配置集群
  • 配置 hadoop-env.sh
1
vim etc/hadoop/hadoop-env.sh

hadoop-env.sh

1
export JAVA_HOME=/opt/module/jdk1.8.0_144
  • 配置 core-site.xml
1
vim etc/hadoop/core-site.xml

core-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop91:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>
  • 配置 hdfs-site.xml
1
vim etc/hadoop/hdfs-site.xml

hdfs-site.xml

1
2
3
4
5
6
7
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
启动集群
  • 格式化NameNode(第一次启动时格式化,以后就不要总格式化)
1
bin/hdfs namenode -format
  • 启动NameNode
1
sbin/hadoop-daemon.sh start namenode
  • 启动DataNode
1
sbin/hadoop-daemon.sh start datanode
查看集群

查看是否启动成功

1
2
3
4
[hisign@hadoop91 hadoop-2.7.2]$ jps
2807 NameNode
3098 Jps
2892 DataNode

注意:jps是JDK中的命令,不是Linux命令。不安装JDK不能使用jps

web端查看HDFS文件系统

http://hadoop91:50070/dfshealth.html#tab-datanode

如果能看,看hosts文件是否配置hadoop91

查看产生的Log日志

说明:在企业中遇到Bug时,经常根据日志提示信息去分析问题、解决Bug。

1
ls opt/module/hadoop-2.7.2/logs

思考:为什么不能一直格式化NameNode,格式化NameNode,要注意什么?

注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。

操作集群
  • 在HDFS文件系统上创建一个input文件夹
1
bin/hdfs dfs -mkdir -p /user/hisign/input
  • 将测试文件内容上传到文件系统上
1
bin/hdfs dfs -put wcinput/wc.input /user/hisign/input/
  • 查看上传的文件是否正确
1
2
3
bin/hdfs dfs -ls  /user/hisign/input/

bin/hdfs dfs -cat /user/hisign/input/wc.input
  • 运行MapReduce程序
1
2
3
4
5
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input/ \
/user/hisign/output
  • 查看输出结果
1
bin/hdfs dfs -cat /user/hisign/output/*

显示

1
2
3
4
atguigu 2
hadoop 2
mapreduce 1
yarn 1
  • 将测试文件内容下载到本地
1
bin/hdfs dfs -get /user/hisign/output/part-r-00000 ./wcoutput/
  • 删除输出结果
1
bin/hdfs dfs -rm -r /user/hisign/output

启动YARN并运行程序

配置集群
  • 配置 yarn-env.sh
1
vim etc/hadoop/yarn-env.sh

yarn-env.sh

1
export JAVA_HOME=/opt/module/jdk1.8.0_144
  • 配置 yarn-site.xml
1
vim etc/hadoop/yarn-site.xml

yarn-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
<configuration>
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop91</value>
</property>
</configuration>
  • 配置 mapred-env.sh
1
vim etc/hadoop/mapred-env.sh

mapred-env.sh

1
export JAVA_HOME=/opt/module/jdk1.8.0_144
  • 配置 mapred-site.xml
1
2
3
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

vim etc/hadoop/mapred-site.xml

mapred-site.xml

1
2
3
4
5
6
7
<configuration>
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
启动集群
  • 启动前必须保证NameNodeDataNode已经启动
1
2
3
4
5
6
7
8
9
10
11
# 查看是否启动
jps

2807 NameNode
8217 Jps
2892 DataNode

# 启动 NameNode
sbin/hadoop-daemon.sh start namenode
# 启动 DataNode
sbin/hadoop-daemon.sh start datanode
  • 启动ResourceManager
1
sbin/yarn-daemon.sh start resourcemanager
  • 启动NodeManager
1
sbin/yarn-daemon.sh start nodemanager
操作集群
  • YARN浏览器查看页面

http://hadoop91:8088/cluster

  • 删除HDFS文件系统上的output目录
1
bin/hdfs dfs -rm -R /user/hisign/output
  • 执行MapReduce程序
1
2
3
4
5
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input \
/user/hisign/output
  • 查看运行结果
1
bin/hdfs dfs -cat /user/hisign/output/*

显示

1
2
3
4
atguigu 2
hadoop 2
mapreduce 1
yarn 1

配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下

  • 配置 mapred-site.xml
1
vim etc/hadoop/mapred-site.xml

mapred-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
<configuration>
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop91:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop91:19888</value>
</property>
</configuration>
  • 启动历史服务器
1
sbin/mr-jobhistory-daemon.sh start historyserver
  • 查看历史服务器是否启动
1
jps
  • 查看JobHistory

http://hadoop91:19888/jobhistory

配置日志的聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager ResourceManagerHistoryServer

开启日志聚集功能具体步骤如下:

  • 配置 yarn-site.xml
1
vim etc/hadoop/yarn-site.xml

yarn-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
<configuration>
<!-- 日志聚集功能开启 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
</configuration>
  • 关闭NodeManager ResourceManagerHistoryServer
1
2
3
4
5
sbin/yarn-daemon.sh stop resourcemanager

sbin/yarn-daemon.sh stop nodemanager

sbin/mr-jobhistory-daemon.sh stop historyserver
  • 启动NodeManager ResourceManagerHistoryServer
1
2
3
4
5
sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

sbin/mr-jobhistory-daemon.sh start historyserver
  • 删除HDFS上已经存在的输出文件
1
bin/hdfs dfs -rm -R /user/hisign/output
  • 执行WordCount程序
1
2
3
4
5
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input \
/user/hisign/output
  • 查看日志

http://hadoop91:19888/jobhistory

完全分布式运行模式

虚拟机准备

vmware中的完整克隆是基于指定的虚拟机克隆出相同的一份出来,不必再安装。但是我们要保证三个地方不能一样,一个是主机名称(hostname),还有一个是ip地址,所以我们在克隆后要对这三个地方进行修改。这里以centos为例

1
2
3
4
5
6
7
8
9
10
11
12
# 修改主机名
vim /etc/hostname
##########################
# hadoop91
hadoop92

# 修改静态ip
vim /etc/sysconfig/network-scripts/ifcfg-ens32
##########################
# 修改静态ip
# IPADDR=192.168.40.91
IPADDR=192.168.40.92

重启生效

1
reboot

集群分布脚本

scp 安全拷贝
  • 定义:

scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)

基本语法

1
2
#命令 递归  要拷贝的文件路径/名称  目的用户@主机:目的路径/名称
scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname
  • 案例

1、在hadoop91上,将hadoop91中/opt/module目录下的软件拷贝到远程服务器hadoop92上。

1
[hisign@hadoop91 /]$ scp -r /opt/module root@hadoop92:/opt/module

2、在hadoop93上,将远程服务器hadoop91服务器上的/opt/module目录下的软件拷贝到本地。

1
[hisign@hadoop93 opt]$sudo scp -r hisign@hadoop91:/opt/module /opt/module

3、在hadoop93上操作将hadoop91中/opt/module目录下的软件拷贝到hadoop94上。

1
[hisign@hadoop93 opt]$ scp -r hisign@hadoop91:/opt/module root@hadoop94:/opt/module

注意:拷贝过来的/opt/module目录,别忘了在hadoop92、hadoop93、hadoop94上修改所有文件的,所有者和所有者组。

1
sudo chown hisign:hisign -R /opt/module

4、将hadoop91中/etc/profile文件拷贝到hadoop92的/etc/profile上。

1
[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop92:/etc/profile

5、将hadoop91中/etc/profile文件拷贝到hadoop93的/etc/profile上。

1
[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop93:/etc/profile

6、将hadoop91中/etc/profile文件拷贝到hadoop94的/etc/profile上。

1
[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop94:/etc/profile

注意:拷贝过来的配置文件别忘了 source /etc/profile 使生效。

rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。

  • 基本语法
1
2
# 命令 选项参数  要拷贝的文件路径/名称  目的用户@主机:目的路径/名称
rsync -av $pdir/$fname $user@hadoop$host:$pdir/$fname
  • 案例

把hadoop91机器上的/opt/software目录同步到hadoop92服务器的root用户下的/opt/目录

1
rsync -av /opt/software/ hadoop92:/opt/software
xsync 集群分布脚本

1、需求:循环复制文件到所有节点的相同目录下

2、需求分析:

  • rsync命令原始拷贝:
1
rsync -av   /opt/module        root@hadoop93:/opt/
  • 期望脚本:
1
xsync 要同步的文件名称
  • 说明:在/home/hisign/bin这个目录下存放的脚本,hisign用户可以在系统任何地方直接执行。

3、脚本实现

/home/hisign目录下创建bin目录,并在bin目录下xsync创建文件,文件内容如下:

1
2
3
4
mkdir -p  /home/hisign/bin
cd /home/hisign/bin
# 新建脚本
vim xsync

在该文件中编写如下代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=91; host<94; host++)); do
echo ------------------- hadoop$host --------------
rsync -av $pdir/$fname $user@hadoop$host:$pdir
done
  • 修改脚本 xsync 具有执行权限
1
chmod 777 xsync
  • 调用脚本形式:xsync 文件名称
1
xsync /home/hisign/bin

注意:如果将xsync放到/home/hisign/bin目录下仍然不能实现全局使用,可以将xsync移动到/usr/local/bin目录下。

1
sudo mv /home/hisign/bin/xsync /usr/local/bin

集群配置

集群部署规划
hadoop91 hadoop92 hadoop93
HDFS NameNode DataNode DataNode SecondaryNameNode DataNode
YARN NodeManager ResourceManager NodeManager NodeManager
配置集群
核心配置文件

配置core-site.xml

1
2
[hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop
[hisign@hadoop91 hadoop]$ vi core-site.xml

在该文件中编写如下配置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop91:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>

HDFS配置文件

配置hadoop-env.sh

1
[hisign@hadoop91 hadoop]$ vi hadoop-env.sh

hadoop-env.sh

1
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置hdfs-site.xml

1
[hisign@hadoop91 hadoop]$ vi hdfs-site.xml

在该文件中编写如下配置

1
2
3
4
5
6
7
8
9
10
11
12
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop93:50090</value>
</property>
</configuration>
YARN配置文件

配置yarn-env.sh

1
[hisign@hadoop91 hadoop]$ vi yarn-env.sh

yarn-env.sh

1
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml

1
[hisign@hadoop91 hadoop]$ vi yarn-site.xml

在该文件中增加如下配置

1
2
3
4
5
6
7
8
9
10
11
12
13
<configuration>
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop92</value>
</property>
</configuration>

MapReduce配置文件

配置mapred-env.sh

1
[hisign@hadoop91 hadoop]$ vi mapred-env.sh

mapred-env.sh

1
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置mapred-site.xml

1
2
[hisign@hadoop91 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hisign@hadoop91 hadoop]$ vi mapred-site.xml

在该文件中增加如下配置

1
2
3
4
5
6
7
<configuration>
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

在集群上分发配置好的Hadoop配置文件

1
xsync /opt/module/hadoop-2.7.2/

查看文件分发情况

1
2
3
4
cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/hdfs-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/mapred-site.xml

集群单点启动

如果集群是第一次启动,需要格式化NameNode

1
[hisign@hadoop91 hadoop-2.7.2]$ hdfs namenode -format

在hadoop91上启动NameNode

1
2
[hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start namenode
[hisign@hadoop91 hadoop-2.7.2]$ jps

显示

1
2
14849 Jps
14782 NameNode

在hadoop91、hadoop92以及hadoop93上分别启动DataNode

1
2
[hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop91 hadoop-2.7.2]$ jps

显示

1
2
3
4

14936 Jps
14873 DataNode
14782 NameNode
1
2
[hisign@hadoop92 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop92 hadoop-2.7.2]$ jps

显示

1
2
14013 DataNode
14045 Jps
1
2
[hisign@hadoop93 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop93 hadoop-2.7.2]$ jps

显示

1
2
13739 DataNode
13774 Jps

思考:每次都一个一个节点启动,如果节点数增加到1000个怎么办?

早上来了开始一个一个节点启动,到晚上下班刚好完成,下班?

SSH免密登录

原理:

https://www.cnblogs.com/haojun/p/11131432.html

工作原理如下图所示:

ssh免密登录

生成公钥和私钥:

1
[hisign@hadoop91 /]$ ssh-keygen -t rsa

然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

1
2
[hisign@hadoop91 /]$ cd ~/.ssh/
[hisign@hadoop91 .ssh]$ ll

显示

1
2
3
4
总用量 12
-rw-------. 1 hisign hisign 1675 11月 9 09:58 id_rsa
-rw-r--r--. 1 hisign hisign 397 11月 9 09:58 id_rsa.pub
-rw-r--r--. 1 hisign hisign 372 11月 9 09:15 known_hosts

将公钥拷贝到要免密登录的目标机器上

ssh-copy-id可以把本地主机的公钥复制到远程主机的authorized_keys文件上,ssh-copy-id命令也会给远程主机的用户主目录(home)和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限。

1
2
3
4
# 给用户hisign配置免密登录
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop91
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop92
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop93

注意:在hadoop92hadoop93上把上面的操作都再执行一遍,三台服务器就能互相之间进行免密登录了。如果想要其他用户也能进行免密登录,切换到其他用户执行上操作即可。

群起集群

配置slaves
1
2
[hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop
[hisign@hadoop91 hadoop]$ vim slaves

在该文件中增加如下内容:

1
2
3
hadoop91
hadoop92
hadoop93

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

同步所有节点配置文件

1
xsync slaves
启动集群

1、如果集群是第一次启动,需要格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenodedatanode进程,然后再删除datalog数据)

1
[hisign@hadoop91 hadoop-2.7.2]$ bin/hdfs namenode -format

2、启动HDFS

1
2
3
4
5
6
7
8
9
10
11
12
13
[hisign@hadoop91 hadoop-2.7.2]$ sbin/start-dfs.sh

[hisign@hadoop91 hadoop-2.7.2]$ jps
18627 DataNode
18836 Jps
18495 NameNode
[hisign@hadoop92 hadoop-2.7.2]$ jps
15957 Jps
15883 DataNode
[hisign@hadoop93 hadoop-2.7.2]$ jps
15891 SecondaryNameNode
15787 DataNode
15932 Jps

3、启动YARN

1
2
3
4
5
[hisign@hadoop92 hadoop-2.7.2]$ sbin/start-yarn.sh
16004 ResourceManager
16106 NodeManager
15883 DataNode
16205 Jps

注意NameNodeResourceManger如果不是同一台机器,不能在NameNode上启动 YARN,应该在ResouceManager所在的机器上启动YARN

4、Web端查看SecondaryNameNode

http://hadoop93:50090/status.html

查看集群

jps能查看当前节点的java进程,但是节点多了,得切换到别的节点去查看,所以写个shell脚本查看所有节点的java进程

  • 说明:在/home/hisign/bin这个目录下存放的脚本,hisign用户可以在系统任何地方直接执行。

/home/hisign目录下创建bin目录,并在bin目录下jpsall创建文件,文件内容如下:

1
2
3
4
mkdir -p  /home/hisign/bin
cd /home/hisign/bin
# 新建脚本
vim jpsall

在该文件中编写如下代码

1
2
3
4
5
6
#!/bin/bash
# 循环
for((host=91; host<94; host++)); do
echo ------------------- hadoop$host --------------
ssh hadoop$host "jps" | grep -v Jps
done
  • 修改脚本 jpsall 具有执行权限
1
chmod +x jpsall
  • 调用脚本形式:jpsall 文件名称
1
jpsall

注意:如果将xsync放到/home/hisign/bin目录下仍然不能实现全局使用,可以将jpsall移动到/usr/local/bin目录下。

1
sudo mv /home/hisign/bin/jpsall /usr/local/bin
集群基本测试

1、上传文件到集群

  • 上传小文件
1
2
[hisign@hadoop91 hdoop-2.7.2]$ hdfs dfs -mkdir -p /user/hisign/input
[hisign@hadoop91 hdoop-2.7.2]$ hdfs dfs -put wcinput/wc.input /user/hisign/input
  • 上传大文件
1
bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/hisign/input

2、上传文件后查看文件存放在什么位置

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-917863227-192.168.40.91-1604892333948/current/finalized/subdir0/subdir0/

3、查看HDFS在磁盘存储文件内容

1
2
3
4
5
6
7
8
9
10
11
12
13
14
[hisign@hadoop91 subdir0]$ ll
总用量 194552
-rw-rw-r--. 1 hisign hisign 45 11月 9 12:25 blk_1073741825
-rw-rw-r--. 1 hisign hisign 11 11月 9 12:25 blk_1073741825_1001.meta
-rw-rw-r--. 1 hisign hisign 134217728 11月 9 12:29 blk_1073741826
-rw-rw-r--. 1 hisign hisign 948583 11月 9 12:29 blk_1073741826_1002.meta
-rw-rw-r--. 1 hisign hisign 63439959 11月 9 12:29 blk_1073741827
-rw-rw-r--. 1 hisign hisign 495635 11月 9 12:29 blk_1073741827_1003.meta

[hisign@hadoop91 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce
atguigu
atguigu

4、拼接

1
2
[hisign@hadoop91 subdir0]$ cat blk_1073741825 >> tmp.file
[hisign@hadoop91 subdir0]$ cat blk_1073741827 >> tmp.file

5、下载

1
2
3
4
5
[hisign@hadoop91 subdir0]$ cd -
[hisign@hadoop91 hadoop-2.7.2]$ pwd
/opt/module/hadoop-2.7.2

bin/hadoop fs -get /user/hisign/input/hadoop-2.7.2.tar.gz ./

集群启动/停止

  • 各个服务组件逐一启动/停止

​ (1)分别启动/停止HDFS组件

1
hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode

​ (2)启动/停止YARN

1
yarn-daemon.sh start / stop resourcemanager / nodemanager
  • 各个模块分开启动/停止(配置ssh是前提)常用

​ (1)整体启动/停止HDFS

1
start-dfs.sh  / stop-dfs.sh

​ (2)整体启动/停止YARN

1
start-yarn.sh / stop-yarn.sh
  • sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager

  • sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager

  • sbin/start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode、DataNode

  • sbin/stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode

  • sbin/hadoop-daemons.sh start namenode 单独启动NameNode守护进程

  • sbin/hadoop-daemons.sh stop namenode 单独停止NameNode守护进程

  • sbin/hadoop-daemons.sh start datanode 单独启动DataNode守护进程

  • sbin/hadoop-daemons.sh stop datanode 单独停止DataNode守护进程

  • sbin/hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程

  • sbin/hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程

  • sbin/start-yarn.sh 启动ResourceManager、NodeManager

  • sbin/stop-yarn.sh 停止ResourceManager、NodeManager

  • sbin/yarn-daemon.sh start resourcemanager 单独启动ResourceManager

  • sbin/yarn-daemons.sh start nodemanager 单独启动NodeManager

  • sbin/yarn-daemon.sh stop resourcemanager 单独停止ResourceManager

  • sbin/yarn-daemons.sh stopnodemanager 单独停止NodeManager

  • sbin/mr-jobhistory-daemon.sh start historyserver 手动启动jobhistory

  • sbin/mr-jobhistory-daemon.sh stop historyserver 手动停止jobhistory

集群时间同步

时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。

时间服务器配置

必须root用户

1、检查ntp是否安装

1
2
3
[root@hadoop91 ~]# rpm -qa|grep ntp
ntp-4.2.6p5-29.el7.centos.2.x86_64
ntpdate-4.2.6p5-29.el7.centos.2.x86_64

如果没有安装,先安装

1
yum install ntp -y

2、修改ntp配置文件

1
[root@hadoop91 ~]# vi /etc/ntp.conf
  • 修改1,授权192.168.40.0-192.168.40.255网段上的所有机器可以从这台机器上查询和同步时间
1
2
3
# restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
  • 修改2,集群在局域网中,不使用其他互联网上的时间
1
2
3
4
5
6
7
8
9
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst为

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
  • 增加如下内容,当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
1
2
server 127.127.1.0
fudge 127.127.1.0 stratum 10

3、修改/etc/sysconfig/ntpd 文件

1
[root@hadoop91 ~]# vim /etc/sysconfig/ntpd

增加内容如下(让硬件时间与系统时间一起同步)

1
SYNC_HWCLOCK=yes

4、重新启动ntpd服务

1
2
3
4
5
6
7
8
9
10
11
# 查看服务状态
[root@hadoop91 ~]# service ntpd status

# 启动服务
[root@hadoop91 ~]# service ntpd start

# 停止服务
[root@hadoop91 ~]# service ntpd stop

# 重启服务
[root@hadoop91 ~]# service ntpd restart

5、设置ntpd服务开机自启

1
[root@hadoop91 ~]# chkconfig ntpd on
其他机器配置

必须root用户

1、在其他机器配置10分钟与时间服务器同步一次

1
[root@hadoop91 ~]#  crontab -e

编写定时任务如下:

1
*/10 * * * * /usr/sbin/ntpdate hadoop91

2、修改任意机器时间

1
[root@hadoop91 ~]#  date -s "2017-9-11 11:11:11"

3、十分钟后查看机器是否与时间服务器同步

1
[root@hadoop91 ~]#  date

说明:测试的时候可以将10分钟调整为1分钟,节省时间。

1
*/1 * * * * /usr/sbin/ntpdate hadoop91
  • 本文标题:hadoop 入门笔记
  • 本文作者:valten
  • 创建时间:2020-11-06 15:00:21
  • 本文链接:https://valtenhyl.github.io/大数据/hadoop/
  • 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
 评论