环境准备
配置静态ip
1 | vim /etc/sysconfig/network-scripts/ifcfg-ens32 |
ifcfg-ens32
1 | # 网络类型为以太网 |
重启网络服务,使生效
1 | 重启网络服务 |
修改主机名
1 | vim /etc/hostname |
hostname
1 | hadoop91 # reboot重启生效 |
修改hosts文件
1 | vim /etc/hosts |
hosts
1 | ip要和网卡配置中的静态ip一致,域名要和hosts文件中的主机名一致 |
重启网络服务,使生效
1 | 重启网络服务 |
关闭防火墙
1 | 关闭防火墙 |
在关闭防火墙到时候,出现:
1 | Redirecting to /bin/systemctl stop iptables.service |
解决方法:
centos7
开始默认用的是firewalld
,这个是基于iptables
的,虽然有iptables
的核心,但是iptables
的服务是没安装的。所以你只要停止firewalld
服务即可:
1 | 安装防火墙 |
创建用户
1 | 添加用户 |
配置用户root权限
修改/etc/sudoers
1 | 用户 haung 可以不用密码使用sudo |
该文件为root用户的只读文件,可以在root用户修改完后强制保存
1 | ESC后,:wq! 强制保存 |
创建文件夹
创建文件夹/opt/software、/opt/module用于存放安装包和安装软件
1 | sudo mkdir /opt/software /opt/module |
修改文件夹所有者
1 | sudo chown hisign:hisign /opt/software /opt/module |
安装jdk
首先到官网上下载你想要的jdk
1 | # 进入目录 |
配置环境变量
1 | sudo vim /etc/profile |
输入大写的 G
跳转到文件末尾,在最后面添加:
1 | JAVA_HOME |
执行profile文件
1 | source /etc/profile |
这样可以使配置不用重启即可立即生效。
检查新安装的jdk
1 | java -version |
显示:
1 | java version "1.8.0_144" |
安装hadoop
hadoop历史版本下载地址
https://archive.apache.org/dist/hadoop/common/
1 | # 进入目录 |
配置环境变量
1 | sudo vim /etc/profile |
输入大写的 G
跳转到文件末尾,在最后面添加:
1 | HADOOP_HOME |
执行profile文件
1 | source /etc/profile |
这样可以使配置不用重启即可立即生效。
检查新安装的jdk
1 | hadoop version |
到此安装结束
hadoop目录结构
1 | drwxr-xr-x. 2 hisign hisign 194 5月 22 2017 bin |
重要目录
bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
sbin目录:存放启动或停止Hadoop相关服务的脚本
share目录:存放Hadoop的依赖jar包、文档、和官方案例
hadoop运行模式
本地运行模式
官方Grep案例
- 在hadoop-2.7.2文件下面创建一个input文件夹
1 | mkdir input |
- 将Hadoop的xml配置文件复制到input
1 | cp etc/hadoop/*.xml input |
- 执行share目录下的MapReduce程序
1 | bin/hadoop jar \ |
- 查看输出结果
1 | cat output/* |
显示
1 | 1 dfsadmin |
官方WordCount案例
- 在hadoop-2.7.2文件下面创建一个wcinput文件夹
1 | mkdir wcinput |
- 在wcinput文件下创建一个wc.input文件
1 | touch wcinput/wc.input |
- 编辑wc.input文件
1 | vi wcinput/wc.input |
在文件中添加以下内容
1 | hadoop yarn |
- 执行share目录下的MapReduce程序
1 | bin/hadoop jar \ |
- 查看输出结果
1 | cat wcoutput/* |
显示
1 | atguigu 2 |
伪分布式运行模式
启动HDFS并运行程序
配置集群
- 配置 hadoop-env.sh
1 | vim etc/hadoop/hadoop-env.sh |
hadoop-env.sh
1 | export JAVA_HOME=/opt/module/jdk1.8.0_144 |
- 配置 core-site.xml
1 | vim etc/hadoop/core-site.xml |
core-site.xml
1 | <configuration> |
- 配置 hdfs-site.xml
1 | vim etc/hadoop/hdfs-site.xml |
hdfs-site.xml
1 | <configuration> |
启动集群
- 格式化NameNode(第一次启动时格式化,以后就不要总格式化)
1 | bin/hdfs namenode -format |
- 启动NameNode
1 | sbin/hadoop-daemon.sh start namenode |
- 启动DataNode
1 | sbin/hadoop-daemon.sh start datanode |
查看集群
查看是否启动成功
1 | [hisign@hadoop91 hadoop-2.7.2]$ jps |
注意:jps是JDK中的命令,不是Linux命令。不安装JDK不能使用jps
web端查看HDFS文件系统
http://hadoop91:50070/dfshealth.html#tab-datanode
如果能看,看hosts
文件是否配置hadoop91
查看产生的Log日志
说明:在企业中遇到Bug时,经常根据日志提示信息去分析问题、解决Bug。
1 | ls opt/module/hadoop-2.7.2/logs |
思考:为什么不能一直格式化NameNode,格式化NameNode,要注意什么?
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。
操作集群
- 在HDFS文件系统上创建一个input文件夹
1 | bin/hdfs dfs -mkdir -p /user/hisign/input |
- 将测试文件内容上传到文件系统上
1 | bin/hdfs dfs -put wcinput/wc.input /user/hisign/input/ |
- 查看上传的文件是否正确
1 | bin/hdfs dfs -ls /user/hisign/input/ |
- 运行MapReduce程序
1 | bin/hadoop jar \ |
- 查看输出结果
1 | bin/hdfs dfs -cat /user/hisign/output/* |
显示
1 | atguigu 2 |
- 将测试文件内容下载到本地
1 | bin/hdfs dfs -get /user/hisign/output/part-r-00000 ./wcoutput/ |
- 删除输出结果
1 | bin/hdfs dfs -rm -r /user/hisign/output |
启动YARN并运行程序
配置集群
- 配置 yarn-env.sh
1 | vim etc/hadoop/yarn-env.sh |
yarn-env.sh
1 | export JAVA_HOME=/opt/module/jdk1.8.0_144 |
- 配置 yarn-site.xml
1 | vim etc/hadoop/yarn-site.xml |
yarn-site.xml
1 | <configuration> |
- 配置 mapred-env.sh
1 | vim etc/hadoop/mapred-env.sh |
mapred-env.sh
1 | export JAVA_HOME=/opt/module/jdk1.8.0_144 |
- 配置 mapred-site.xml
1 | cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml |
mapred-site.xml
1 | <configuration> |
启动集群
- 启动前必须保证
NameNode
和DataNode
已经启动
1 | 查看是否启动 |
- 启动
ResourceManager
1 | sbin/yarn-daemon.sh start resourcemanager |
- 启动
NodeManager
1 | sbin/yarn-daemon.sh start nodemanager |
操作集群
- YARN浏览器查看页面
- 删除HDFS文件系统上的output目录
1 | bin/hdfs dfs -rm -R /user/hisign/output |
- 执行MapReduce程序
1 | bin/hadoop jar \ |
- 查看运行结果
1 | bin/hdfs dfs -cat /user/hisign/output/* |
显示
1 | atguigu 2 |
配置历史服务器
为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下
- 配置 mapred-site.xml
1 | vim etc/hadoop/mapred-site.xml |
mapred-site.xml
1 | <configuration> |
- 启动历史服务器
1 | sbin/mr-jobhistory-daemon.sh start historyserver |
- 查看历史服务器是否启动
1 | jps |
- 查看JobHistory
http://hadoop91:19888/jobhistory
配置日志的聚集
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS
系统上。
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动NodeManager
、ResourceManager
和HistoryServer
。
开启日志聚集功能具体步骤如下:
- 配置 yarn-site.xml
1 | vim etc/hadoop/yarn-site.xml |
yarn-site.xml
1 | <configuration> |
- 关闭
NodeManager
、ResourceManager
和HistoryServer
1 | sbin/yarn-daemon.sh stop resourcemanager |
- 启动
NodeManager
、ResourceManager
和HistoryServer
1 | sbin/yarn-daemon.sh start resourcemanager |
- 删除
HDFS
上已经存在的输出文件
1 | bin/hdfs dfs -rm -R /user/hisign/output |
- 执行WordCount程序
1 | bin/hadoop jar \ |
- 查看日志
http://hadoop91:19888/jobhistory
完全分布式运行模式
虚拟机准备
vmware中的完整克隆是基于指定的虚拟机克隆出相同的一份出来,不必再安装。但是我们要保证三个地方不能一样,一个是主机名称(hostname),还有一个是ip地址,所以我们在克隆后要对这三个地方进行修改。这里以centos为例
1 | 修改主机名 |
重启生效
1 | reboot |
集群分布脚本
scp 安全拷贝
- 定义:
scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)
基本语法
1 | 命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称 |
- 案例
1、在hadoop91上,将hadoop91中/opt/module目录下的软件拷贝到远程服务器hadoop92上。
1 | [hisign@hadoop91 /]$ scp -r /opt/module root@hadoop92:/opt/module |
2、在hadoop93上,将远程服务器hadoop91服务器上的/opt/module目录下的软件拷贝到本地。
1 | [hisign@hadoop93 opt]$sudo scp -r hisign@hadoop91:/opt/module /opt/module |
3、在hadoop93上操作将hadoop91中/opt/module目录下的软件拷贝到hadoop94上。
1 | [hisign@hadoop93 opt]$ scp -r hisign@hadoop91:/opt/module root@hadoop94:/opt/module |
注意:拷贝过来的/opt/module目录,别忘了在hadoop92、hadoop93、hadoop94上修改所有文件的,所有者和所有者组。
1 | sudo chown hisign:hisign -R /opt/module |
4、将hadoop91中/etc/profile文件拷贝到hadoop92的/etc/profile上。
1 | [hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop92:/etc/profile |
5、将hadoop91中/etc/profile文件拷贝到hadoop93的/etc/profile上。
1 | [hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop93:/etc/profile |
6、将hadoop91中/etc/profile文件拷贝到hadoop94的/etc/profile上。
1 | [hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop94:/etc/profile |
注意:拷贝过来的配置文件别忘了 source /etc/profile
使生效。
rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
- 基本语法
1 | 命令 选项参数 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称 |
- 案例
把hadoop91机器上的/opt/software目录同步到hadoop92服务器的root用户下的/opt/目录
1 | rsync -av /opt/software/ hadoop92:/opt/software |
xsync 集群分布脚本
1、需求:循环复制文件到所有节点的相同目录下
2、需求分析:
- rsync命令原始拷贝:
1 | rsync -av /opt/module root@hadoop93:/opt/ |
- 期望脚本:
1 | xsync 要同步的文件名称 |
- 说明:在
/home/hisign/bin
这个目录下存放的脚本,hisign用户可以在系统任何地方直接执行。
3、脚本实现
在/home/hisign
目录下创建bin
目录,并在bin目录下xsync创建文件,文件内容如下:
1 | mkdir -p /home/hisign/bin |
在该文件中编写如下代码
1 |
|
- 修改脚本 xsync 具有执行权限
1 | chmod 777 xsync |
- 调用脚本形式:xsync 文件名称
1 | xsync /home/hisign/bin |
注意:如果将xsync放到/home/hisign/bin
目录下仍然不能实现全局使用,可以将xsync移动到/usr/local/bin
目录下。
1 | sudo mv /home/hisign/bin/xsync /usr/local/bin |
集群配置
集群部署规划
hadoop91 | hadoop92 | hadoop93 | |
---|---|---|---|
HDFS | NameNode DataNode | DataNode | SecondaryNameNode DataNode |
YARN | NodeManager | ResourceManager NodeManager | NodeManager |
配置集群
核心配置文件
配置core-site.xml
1 | [hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop |
在该文件中编写如下配置
1 | <configuration> |
HDFS配置文件
配置hadoop-env.sh
1 | [hisign@hadoop91 hadoop]$ vi hadoop-env.sh |
hadoop-env.sh
1 | export JAVA_HOME=/opt/module/jdk1.8.0_144 |
配置hdfs-site.xml
1 | [hisign@hadoop91 hadoop]$ vi hdfs-site.xml |
在该文件中编写如下配置
1 | <configuration> |
YARN配置文件
配置yarn-env.sh
1 | [hisign@hadoop91 hadoop]$ vi yarn-env.sh |
yarn-env.sh
1 | export JAVA_HOME=/opt/module/jdk1.8.0_144 |
配置yarn-site.xml
1 | [hisign@hadoop91 hadoop]$ vi yarn-site.xml |
在该文件中增加如下配置
1 | <configuration> |
MapReduce配置文件
配置mapred-env.sh
1 | [hisign@hadoop91 hadoop]$ vi mapred-env.sh |
mapred-env.sh
1 | export JAVA_HOME=/opt/module/jdk1.8.0_144 |
配置mapred-site.xml
1 | [hisign@hadoop91 hadoop]$ cp mapred-site.xml.template mapred-site.xml |
在该文件中增加如下配置
1 | <configuration> |
在集群上分发配置好的Hadoop配置文件
1 | xsync /opt/module/hadoop-2.7.2/ |
查看文件分发情况
1 | cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml |
集群单点启动
如果集群是第一次启动,需要格式化NameNode
1 | [hisign@hadoop91 hadoop-2.7.2]$ hdfs namenode -format |
在hadoop91上启动NameNode
1 | [hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start namenode |
显示
1 | 14849 Jps |
在hadoop91、hadoop92以及hadoop93上分别启动DataNode
1 | [hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start datanode |
显示
1 |
|
1 | [hisign@hadoop92 hadoop-2.7.2]$ hadoop-daemon.sh start datanode |
显示
1 | 14013 DataNode |
1 | [hisign@hadoop93 hadoop-2.7.2]$ hadoop-daemon.sh start datanode |
显示
1 | 13739 DataNode |
思考:每次都一个一个节点启动,如果节点数增加到1000个怎么办?
早上来了开始一个一个节点启动,到晚上下班刚好完成,下班?
SSH免密登录
原理:
https://www.cnblogs.com/haojun/p/11131432.html
工作原理如下图所示:
生成公钥和私钥:
1 | [hisign@hadoop91 /]$ ssh-keygen -t rsa |
然后敲(三个回车),就会生成两个文件id_rsa
(私钥)、id_rsa.pub
(公钥)
1 | [hisign@hadoop91 /]$ cd ~/.ssh/ |
显示
1 | 总用量 12 |
将公钥拷贝到要免密登录的目标机器上
ssh-copy-id
可以把本地主机的公钥复制到远程主机的authorized_keys
文件上,ssh-copy-id
命令也会给远程主机的用户主目录(home
)和~/.ssh
, 和~/.ssh/authorized_keys
设置合适的权限。
1 | 给用户hisign配置免密登录 |
注意:在hadoop92和hadoop93上把上面的操作都再执行一遍,三台服务器就能互相之间进行免密登录了。如果想要其他用户也能进行免密登录,切换到其他用户执行上操作即可。
群起集群
配置slaves
1 | [hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop |
在该文件中增加如下内容:
1 | hadoop91 |
注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
同步所有节点配置文件
1 | xsync slaves |
启动集群
1、如果集群是第一次启动,需要格式化NameNode
(注意格式化之前,一定要先停止上次启动的所有namenode
和datanode
进程,然后再删除data
和log
数据)
1 | [hisign@hadoop91 hadoop-2.7.2]$ bin/hdfs namenode -format |
2、启动HDFS
1 | [hisign@hadoop91 hadoop-2.7.2]$ sbin/start-dfs.sh |
3、启动YARN
1 | [hisign@hadoop92 hadoop-2.7.2]$ sbin/start-yarn.sh |
注意:NameNode
和ResourceManger
如果不是同一台机器,不能在NameNode
上启动 YARN
,应该在ResouceManager
所在的机器上启动YARN
。
4、Web端查看SecondaryNameNode
http://hadoop93:50090/status.html
查看集群
jps
能查看当前节点的java进程,但是节点多了,得切换到别的节点去查看,所以写个shell
脚本查看所有节点的java进程
- 说明:在
/home/hisign/bin
这个目录下存放的脚本,hisign用户可以在系统任何地方直接执行。
在/home/hisign
目录下创建bin
目录,并在bin目录下jpsall创建文件,文件内容如下:
1 | mkdir -p /home/hisign/bin |
在该文件中编写如下代码
1 |
|
- 修改脚本 jpsall 具有执行权限
1 | chmod +x jpsall |
- 调用脚本形式:jpsall 文件名称
1 | jpsall |
注意:如果将xsync放到/home/hisign/bin
目录下仍然不能实现全局使用,可以将jpsall移动到/usr/local/bin
目录下。
1 | sudo mv /home/hisign/bin/jpsall /usr/local/bin |
集群基本测试
1、上传文件到集群
- 上传小文件
1 | [hisign@hadoop91 hdoop-2.7.2]$ hdfs dfs -mkdir -p /user/hisign/input |
- 上传大文件
1 | bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/hisign/input |
2、上传文件后查看文件存放在什么位置
/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-917863227-192.168.40.91-1604892333948/current/finalized/subdir0/subdir0/
3、查看HDFS在磁盘存储文件内容
1 | [hisign@hadoop91 subdir0]$ ll |
4、拼接
1 | [hisign@hadoop91 subdir0]$ cat blk_1073741825 >> tmp.file |
5、下载
1 | [hisign@hadoop91 subdir0]$ cd - |
集群启动/停止
- 各个服务组件逐一启动/停止
(1)分别启动/停止HDFS组件
1 | hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode |
(2)启动/停止YARN
1 | yarn-daemon.sh start / stop resourcemanager / nodemanager |
- 各个模块分开启动/停止(配置ssh是前提)常用
(1)整体启动/停止HDFS
1 | start-dfs.sh / stop-dfs.sh |
(2)整体启动/停止YARN
1 | start-yarn.sh / stop-yarn.sh |
sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager
sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager
sbin/start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode、DataNode
sbin/stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
sbin/hadoop-daemons.sh start namenode 单独启动NameNode守护进程
sbin/hadoop-daemons.sh stop namenode 单独停止NameNode守护进程
sbin/hadoop-daemons.sh start datanode 单独启动DataNode守护进程
sbin/hadoop-daemons.sh stop datanode 单独停止DataNode守护进程
sbin/hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程
sbin/hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程
sbin/start-yarn.sh 启动ResourceManager、NodeManager
sbin/stop-yarn.sh 停止ResourceManager、NodeManager
sbin/yarn-daemon.sh start resourcemanager 单独启动ResourceManager
sbin/yarn-daemons.sh start nodemanager 单独启动NodeManager
sbin/yarn-daemon.sh stop resourcemanager 单独停止ResourceManager
sbin/yarn-daemons.sh stopnodemanager 单独停止NodeManager
sbin/mr-jobhistory-daemon.sh start historyserver 手动启动jobhistory
sbin/mr-jobhistory-daemon.sh stop historyserver 手动停止jobhistory
集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。
时间服务器配置
必须root用户
1、检查ntp是否安装
1 | [root@hadoop91 ~]# rpm -qa|grep ntp |
如果没有安装,先安装
1 | yum install ntp -y |
2、修改ntp配置文件
1 | [root@hadoop91 ~]# vi /etc/ntp.conf |
- 修改1,授权192.168.40.0-192.168.40.255网段上的所有机器可以从这台机器上查询和同步时间
1 | restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap |
- 修改2,集群在局域网中,不使用其他互联网上的时间
1 | server 0.centos.pool.ntp.org iburst |
- 增加如下内容,当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
1 | server 127.127.1.0 |
3、修改/etc/sysconfig/ntpd 文件
1 | [root@hadoop91 ~]# vim /etc/sysconfig/ntpd |
增加内容如下(让硬件时间与系统时间一起同步)
1 | SYNC_HWCLOCK=yes |
4、重新启动ntpd服务
1 | 查看服务状态 |
5、设置ntpd服务开机自启
1 | [root@hadoop91 ~]# chkconfig ntpd on |
其他机器配置
必须root用户
1、在其他机器配置10分钟与时间服务器同步一次
1 | [root@hadoop91 ~]# crontab -e |
编写定时任务如下:
1 | */10 * * * * /usr/sbin/ntpdate hadoop91 |
2、修改任意机器时间
1 | [root@hadoop91 ~]# date -s "2017-9-11 11:11:11" |
3、十分钟后查看机器是否与时间服务器同步
1 | [root@hadoop91 ~]# date |
说明:测试的时候可以将10分钟调整为1分钟,节省时间。
1 | */1 * * * * /usr/sbin/ntpdate hadoop91 |
- 本文标题:hadoop 入门笔记
- 本文作者:valten
- 创建时间:2020-11-06 15:00:21
- 本文链接:https://valtenhyl.github.io/大数据/hadoop/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!