Hadoop大数据集群搭建​ 详细教程

一、虚拟机安装

1.安装VMWARE工作站

自行安装vmware 15/16版

2.创建hadoop虚拟机

新建虚拟机

Hadoop大数据集群搭建​ 详细教程

Hadoop大数据集群搭建​ 详细教程

选择典型模式创建

Hadoop大数据集群搭建​ 详细教程

先完成其他配置,后安装系统

Hadoop大数据集群搭建​ 详细教程

选择系统为对应的centos版本

Hadoop大数据集群搭建​ 详细教程

设置虚拟机名字为hadoop1,同时设置虚拟机的路径

Hadoop大数据集群搭建​ 详细教程

Hadoop大数据集群搭建​ 详细教程

分配空间

Hadoop大数据集群搭建​ 详细教程

自定义硬件,安装系统镜像

Hadoop大数据集群搭建​ 详细教程

Hadoop大数据集群搭建​ 详细教程

完成安装

完成虚拟机创建和配置

启动虚拟机,等待读条结束

选择系统语言为中文

Hadoop大数据集群搭建​ 详细教程

安装信息选择,软件选择(默认最小安装会没有可视化图形界面,如需可视化图形可以勾选为GNOME桌面,右侧除智能卡外全可以勾选)

Hadoop大数据集群搭建​ 详细教程

分区默认为自动分区(不会调整分区可以选择默认)

Hadoop大数据集群搭建​ 详细教程

网络配置(可视化图形配置比在终端配置简单,建议在这一步完成配置)

Hadoop大数据集群搭建​ 详细教程

详细网络设置:选择IPV4的DHCP更改为静态地址(手动模式)(IPADDR,GATEWAY,NETMASK,DNS不能照抄,要根据自己硬件网卡虚拟网卡配置)

Hadoop大数据集群搭建​ 详细教程

完成设置后退出到上一级,点击启动,如果出现连接受限或者网线已拔出则为配置错误,正常应如下图出现刚才设置的地址网关和掩码,完成网络配置。

Hadoop大数据集群搭建​ 详细教程

Hadoop大数据集群搭建​ 详细教程

保存退出后主页面出现已连接为成功

Hadoop大数据集群搭建​ 详细教程

点击开始安装,设置用户和超级管理员

默认超级管理员账户名为root,密码选择为root便于记忆

Hadoop大数据集群搭建​ 详细教程

用户设置(建议用户名为虚拟机名字hadoopxx以便区别,密码与用户名相同。因为会有多台hadoop虚拟机,设置不同密码,不利于记忆。可以将用户提升为管理员)

Hadoop大数据集群搭建​ 详细教程

完成设置后等待安装进度条读完(5-10分钟)

Hadoop大数据集群搭建​ 详细教程

完成后重启虚拟机

Hadoop大数据集群搭建​ 详细教程

重启完后,接受许可证协议,完成配置

Hadoop大数据集群搭建​ 详细教程

输入密码后进入系统(如果没装GNOME是直接进入终端黑窗口)

测试网络

Hadoop大数据集群搭建​ 详细教程

输入百度网址,测试网络是否连接

Hadoop大数据集群搭建​ 详细教程

没装GNOME的终端如下测试

Hadoop大数据集群搭建​ 详细教程

到这一步就完成了CENTOS7的安装和基本配置

3.配置CentOS7

关闭系统和内核自动更新

下载安装yum-cron

yum install yum-cron

安装完之后修改配置文件yum-cron.conf

sudo vi /etc/yum/yum-cron.conf

修改如下内容禁用应用更新

update_messages = no download_updates = no

添加如下代码可以禁用centos7的内核更新

exclude=kernel* exclude=centos-release*

关闭GNOME桌面的自动息屏

Hadoop大数据集群搭建​ 详细教程

Hadoop大数据集群搭建​ 详细教程

空白屏幕设置为从不

Hadoop大数据集群搭建​ 详细教程


二、Lunix(CentOS命令)

文件操作

改变权限

Hadoop大数据集群搭建​ 详细教程

sudo chmod -R (权限代码)文件/文件夹

创建文件夹

mkdir 文件夹

删除文件(文件夹)

rm -f 文件 rm -rf 文件夹

写入(创建)文件

sudo vi 文件名

目录

# 跳转到用户的home cd ~ # 跳转到根目录/ cd / # 跳转到上一级 cd .. # 进入当前目录的文件夹 cd ./文件夹 cd 文件夹 #/开头的路径表示绝对路径 非/开头的路径表示相对路径 ​ # 查看目录内所有文件和文件夹 ls # 查看目录内所有文件和文件夹的详细信息 ls -l # 查看目录内的隐藏文件 ls -a

应用卸载

yum -y remove 软件包

用户和组的创建和权限

创建用户和修改密码

useradd 用户名 passwd 用户名

为用户添加sudo权限

给sudoers添加可写权限

chmod -v u+w /etc/sudoers

在sudoers文件中添加用户信息(在## Allow root to run any commands anywher 下)

## Allow root to run any commands anywher root ALL=(ALL) ALL dev ALL=(ALL) ALL #新增用户信息

取消sudoers写入权限

chmod -v u-w /etc/sudoers

新建工作组

groupadd 组名

新建用户同时添加工作组,注:-g 所属组 -d 家目录 -s 所用的SHELL

useradd -g 组名 用户名

给已有用户添加组

usermod -G 组名 用户名 或者 gpasswd -a 用户名 组名

补充

查看用户和用户组的方法 用户列表文件:/etc/passwd 用户组列表文件:/etc/group 查看系统中有哪些用户:cut -d : -f 1 /etc/passwd 查看可以登录系统的用户:cat /etc/passwd | grep -v /sbin/nologin | cut -d : -f 1 查看某一用户:w 用户名 查看登录用户:who 查看用户登录历史记录:last 

防火墙

查看防火墙状态

systemctl status firewalld

关闭启用防火墙

systemctl stop firewalld systemctl start firewalld

关闭selinux

sudo vi /etc/selinux/config #SELINUX=enforcing SELINUX=disabled #关闭selinux

系统更新

下载yum-cron

sudo yum install yum-cron

启动yum-cron服务

sudo systemctl enable yum-cron.service sudo systemctl start yum-cron.service sudo systemctl status yum-cron.service

修改yum-cron配置文件

sudo vi /etc/yum/yum-cron.conf

关闭自动更新

update_messages = no download_updates = no

忽略内核更新

exclude=kernel* exclude=centos-release*

关机和重启

关机和取消关机

shutdown shutdown -c

重启

reboot

网络

查看网络信息

ifconfig

配置网络地址

cd /etc/sysconfig/network-scripts vi 网卡 systemctl restart network

ping命令

ping -c次数 ip地址 ping -c3 127.0.0.1

修改HOST

sudo vi /etc/hosts

进程监控

显示所有进程

ps -ef

查找指定进程

ps -ef|grep 搜索名称

杀死指定进程

kill -9 pid 

显示所有端口号以及程序的pid

netstat -anp

查找指定端口号的程序

netstat -anp|grep 端口号

下载安装FTP

查询是否安装ftp服务

rpm -qa|grep vsftpd

安装ftp服务

yum -y install ftp vsftpd

查看配置文件

rpm -qc vsftpd

拷贝配置文件

cd /etc/vsftpd sudo cp vsftpd.conf vsftpd.conf.origin

修改配置文件

sudo vi /etc/vsftpd/vsftpd.conf
1.默认配置: 1>允许匿名用户和本地用户登陆。 anonymous_enable=YES local_enable=YES 2>匿名用户使用的登陆名为ftp或anonymous,口令为空;匿名用户不能离开匿名 用户家目录/var/ftp,且只能下载不能上传。 3>本地用户的登录名为本地用户名,口令为此本地用户的口令;本地用户可以在自己家目录中进行读写操作;本地用户可以离开自家目录切换至有权限访问的其他目录,并在权限允许的情况下进行上传/下载。 write_enable=YES 4>写在文件/etc/vsftpd.ftpusers中的本地用户禁止登陆。 2.配置文件格式: vsftpd.conf 的内容非常单纯,每一行即为一项设定。若是空白行或是开头为#的一行,将会被忽略。内容的格式只有一种,如下所示 option=value 要注意的是,等号两边不能加空白。 3.匿名用户(anonymous)设置 anonymous_enable=YES/NO(YES) 控制是否允许匿名用户登入,YES 为允许匿名登入,NO 为不允许。默认值为YES。 write_enable=YES/NO(YES) 是否允许登陆用户有写权限。属于全局设置,默认值为YES。 no_anon_password=YES/NO(NO) 若是启动这项功能,则使用匿名登入时,不会询问密码。默认值为NO。 ftp_username=ftp 定义匿名登入的使用者名称。默认值为ftp。 anon_root=/var/ftp 使用匿名登入时,所登入的目录。默认值为/var/ftp。注意ftp目录不能是777的权限属性,即匿名用户的家目录不能有777的权限。 anon_upload_enable=YES/NO(NO) 如果设为YES,则允许匿名登入者有上传文件(非目录)的权限,只有在write_enable=YES时,此项才有效。当然,匿名用户必须要有对上层目录的写入权。默认值为NO。 anon_world_readable_only=YES/NO(YES) 如果设为YES,则允许匿名登入者下载可阅读的档案(可以下载到本机阅读,不能直接在FTP服务器中打开阅读)。默认值为YES。 anon_mkdir_write_enable=YES/NO(NO) 如果设为YES,则允许匿名登入者有新增目录的权限,只有在write_enable=YES时,此项才有效。当然,匿名用户必须要有对上层目录的写入权。默认值为NO。 anon_other_write_enable=YES/NO(NO) 如 果设为YES,则允许匿名登入者更多于上传或者建立目录之外的权限,譬如删除或者重命名。(如果anon_upload_enable=NO,则匿名用户 不能上传文件,但可以删除或者重命名已经存在的文件;如果anon_mkdir_write_enable=NO,则匿名用户不能上传或者新建文件夹,但 可以删除或者重命名已经存在的文件夹。)默认值为NO。 chown_uploads=YES/NO(NO) 设置是否改变匿名用户上传文件(非目录)的属主。默认值为NO。 chown_username=username 设置匿名用户上传文件(非目录)的属主名。建议不要设置为root。 anon_umask=077 设置匿名登入者新增或上传档案时的umask 值。默认值为077,则新建档案的对应权限为700。 deny_email_enable=YES/NO(NO) 若是启动这项功能,则必须提供一个档案/etc/vsftpd/banner_emails,内容为email address。若是使用匿名登入,则会要求输入email address,若输入的email address 在此档案内,则不允许进入。默认值为NO。 banned_email_file=/etc/vsftpd/banner_emails 此文件用来输入email address,只有在deny_email_enable=YES时,才会使用到此档案。若是使用匿名登入,则会要求输入email address,若输入的email address 在此档案内,则不允许进入。 4.本地用户设置 local_enable=YES/NO(YES) 控制是否允许本地用户登入,YES 为允许本地用户登入,NO为不允许。默认值为YES。 local_root=/home/username 当本地用户登入时,将被更换到定义的目录下。默认值为各用户的家目录。 write_enable=YES/NO(YES) 是否允许登陆用户有写权限。属于全局设置,默认值为YES。 local_umask=022 本地用户新增档案时的umask 值。默认值为077。 file_open_mode=0755 本地用户上传档案后的档案权限,与chmod 所使用的数值相同。默认值为0666。 5.欢迎语设置 dirmessage_enable=YES/NO(YES) 如果启动这个选项,那么使用者第一次进入一个目录时,会检查该目录下是否有.message这个档案,如果有,则会出现此档案的内容,通常这个档案会放置欢迎话语,或是对该目录的说明。默认值为开启。 message_file=.message 设置目录消息文件,可将要显示的信息写入该文件。默认值为.message。 banner_file=/etc/vsftpd/banner 当使用者登入时,会显示此设定所在的档案内容,通常为欢迎话语或是说明。默认值为无。如果欢迎信息较多,则使用该配置项。 ftpd_banner=Welcome to BOB's FTP server 这里用来定义欢迎话语的字符串,banner_file是档案的形式,而ftpd_banner 则是字符串的形式。预设为无。 6.控制用户是否允许切换到上级目录 在默认配置下,本地用户登入FTP后可以使用cd命令切换到其他目录,这样会对系统带来安全隐患。可以通过以下三条配置文件来控制用户切换目录。 chroot_list_enable=YES/NO(NO) 设置是否启用chroot_list_file配置项指定的用户列表文件。默认值为NO。 chroot_list_file=/etc/vsftpd.chroot_list 用于指定用户列表文件,该文件用于控制哪些用户可以切换到用户家目录的上级目录。 chroot_local_user=YES/NO(NO) 用于指定用户列表文件中的用户是否允许切换到上级目录。默认值为NO。 通过搭配能实现以下几种效果: ①当chroot_list_enable=YES,chroot_local_user=YES时,在/etc/vsftpd.chroot_list文件中列出的用户,可以切换到其他目录;未在文件中列出的用户,不能切换到其他目录。 ②当chroot_list_enable=YES,chroot_local_user=NO时,在/etc/vsftpd.chroot_list文件中列出的用户,不能切换到其他目录;未在文件中列出的用户,可以切换到其他目录。 ③当chroot_list_enable=NO,chroot_local_user=YES时,所有的用户均不能切换到其他目录。 ④当chroot_list_enable=NO,chroot_local_user=NO时,所有的用户均可以切换到其他目录。 7.数据传输模式设置 FTP在传输数据时,可以使用二进制方式,也可以使用ASCII模式来上传或下载数据。 ascii_upload_enable=YES/NO(NO) 设置是否启用ASCII 模式上传数据。默认值为NO。 ascii_download_enable=YES/NO(NO) 设置是否启用ASCII 模式下载数据。默认值为NO。 8.访问控制设置 两种控制方式:一种控制主机访问,另一种控制用户访问。 ①控制主机访问: tcp_wrappers=YES/NO(YES) 设 置vsftpd是否与tcp wrapper相结合来进行主机的访问控制。默认值为YES。如果启用,则vsftpd服务器会检查/etc/hosts.allow 和/etc/hosts.deny 中的设置,来决定请求连接的主机,是否允许访问该FTP服务器。这两个文件可以起到简易的防火墙功能。 比如:若要仅允许192.168.0.1—192.168.0.254的用户可以连接FTP服务器,则在/etc/hosts.allow文件中添加以下内容: vsftpd:192.168.0. :allow all:all :deny ②控制用户访问: 对于用户的访问控制可以通过/etc目录下的vsftpd.user_list和ftpusers文件来实现。 userlist_file=/etc/vsftpd.user_list 控制用户访问FTP的文件,里面写着用户名称。一个用户名称一行。 userlist_enable=YES/NO(NO) 是否启用vsftpd.user_list文件。 userlist_deny=YES/NO(YES) 决定vsftpd.user_list文件中的用户是否能够访问FTP服务器。若设置为YES,则vsftpd.user_list文件中的用户不允许访问FTP,若设置为NO,则只有vsftpd.user_list文件中的用户才能访问FTP。 /etc /vsftpd/ftpusers文件专门用于定义不允许访问FTP服务器的用户列表(注意:如果 userlist_enable=YES,userlist_deny=NO,此时如果在vsftpd.user_list和ftpusers中都有某个 用户时,那么这个用户是不能够访问FTP的,即ftpusers的优先级要高)。默认情况下vsftpd.user_list和ftpusers,这两个 文件已经预设置了一些不允许访问FTP服务器的系统内部账户。如果系统没有这两个文件,那么新建这两个文件,将用户添加进去即可。 9.访问速率设置 anon_max_rate=0 设置匿名登入者使用的最大传输速度,单位为B/s,0 表示不限制速度。默认值为0。 local_max_rate=0 本地用户使用的最大传输速度,单位为B/s,0 表示不限制速度。预设值为0。 10.超时时间设置 accept_timeout=60 设置建立FTP连接的超时时间,单位为秒。默认值为60。 connect_timeout=60 PORT 方式下建立数据连接的超时时间,单位为秒。默认值为60。 data_connection_timeout=120 设置建立FTP数据连接的超时时间,单位为秒。默认值为120。 idle_session_timeout=300 设置多长时间不对FTP服务器进行任何操作,则断开该FTP连接,单位为秒。默认值为300 。 11.日志文件设置 xferlog_enable= YES/NO(YES) 是否启用上传/下载日志记录。如果启用,则上传与下载的信息将被完整纪录在xferlog_file 所定义的档案中。预设为开启。 xferlog_file=/var/log/vsftpd.log 设置日志文件名和路径,默认值为/var/log/vsftpd.log。 xferlog_std_format=YES/NO(NO) 如果启用,则日志文件将会写成xferlog的标准格式,如同wu-ftpd 一般。默认值为关闭。 log_ftp_protocol=YES|NO(NO) 如果启用此选项,所有的FTP请求和响应都会被记录到日志中,默认日志文件在/var/log/vsftpd.log。启用此选项时,xferlog_std_format不能被激活。这个选项有助于调试。默认值为NO。 12.定义用户配置文件 在vsftpd中,可以通过定义用户配置文件来实现不同的用户使用不同的配置。 user_config_dir=/etc/vsftpd/userconf 设置用户配置文件所在的目录。当设置了该配置项后,用户登陆服务器后,系统就会到/etc/vsftpd/userconf目录下,读取与当前用户名相同的文件,并根据文件中的配置命令,对当前用户进行更进一步的配置。 例 如:定义user_config_dir=/etc/vsftpd/userconf,且主机上有使用者 test1,test2,那么我们就在user_config_dir 的目录新增文件名为test1和test2两个文件。若是test1 登入,则会读取user_config_dir 下的test1 这个档案内的设定。默认值为无。利用用户配置文件,可以实现对不同用户进行访问速度的控制,在各用户配置文件中定义local_max_rate=XX, 即可。 13.FTP的工作方式与端口设置 FTP有两种工作方式:PORT FTP(主动模式)和PASV FTP(被动模式) listen_port=21 设置FTP服务器建立连接所监听的端口,默认值为21。 connect_from_port_20=YES/NO 指定FTP使用20端口进行数据传输,默认值为YES。 ftp_data_port=20 设置在PORT方式下,FTP数据连接使用的端口,默认值为20。 pasv_enable=YES/NO(YES) 若设置为YES,则使用PASV工作模式;若设置为NO,则使用PORT模式。默认值为YES,即使用PASV工作模式。 pasv_max_port=0 在PASV工作模式下,数据连接可以使用的端口范围的最大端口,0 表示任意端口。默认值为0。 pasv_min_port=0 在PASV工作模式下,数据连接可以使用的端口范围的最小端口,0 表示任意端口。默认值为0。 14.与连接相关的设置 listen=YES/NO(YES) 设 置vsftpd服务器是否以standalone模式运行。以standalone模式运行是一种较好的方式,此时listen必须设置为YES,此为默 认值。建议不要更改,有很多与服务器运行相关的配置命令,需要在此模式下才有效。若设置为NO,则vsftpd不是以独立的服务运行,要受到xinetd 服务的管控,功能上会受到限制。 max_clients=0 设置vsftpd允许的最大连接数,默认值为0,表示不受限制。若设置为100时,则同时允许有100个连接,超出的将被拒绝。只有在standalone模式运行才有效。 max_per_ip=0 设置每个IP允许与FTP服务器同时建立连接的数目。默认值为0,表示不受限制。只有在standalone模式运行才有效。 listen_address=IP地址 设置FTP服务器在指定的IP地址上侦听用户的FTP请求。若不设置,则对服务器绑定的所有IP地址进行侦听。只有在standalone模式运行才有效。 setproctitle_enable=YES/NO(NO) 设置每个与FTP服务器的连接,是否以不同的进程表现出来。默认值为NO,此时使用ps aux |grep ftp只会有一个vsftpd的进程。若设置为YES,则每个连接都会有一个vsftpd的进程。 15.虚拟用户设置 虚拟用户使用PAM认证方式。 pam_service_name=vsftpd 设置PAM使用的名称,默认值为/etc/pam.d/vsftpd。 guest_enable= YES/NO(NO) 启用虚拟用户。默认值为NO。 guest_username=ftp 这里用来映射虚拟用户。默认值为ftp。 virtual_use_local_privs=YES/NO(NO) 当该参数激活(YES)时,虚拟用户使用与本地用户相同的权限。当此参数关闭(NO)时,虚拟用户使用与匿名用户相同的权限。默认情况下此参数是关闭的(NO)。 16.其他设置 text_userdb_names= YES/NO(NO) 设置在执行ls –la之类的命令时,是显示UID、GID还是显示出具体的用户名和组名。默认值为NO,即以UID和GID方式显示。若希望显示用户名和组名,则设置为YES。 ls_recurse_enable=YES/NO(NO) 若是启用此功能,则允许登入者使用ls –R(可以查看当前目录下子目录中的文件)这个指令。默认值为NO。 hide_ids=YES/NO(NO) 如果启用此功能,所有档案的拥有者与群组都为ftp,也就是使用者登入使用ls -al之类的指令,所看到的档案拥有者跟群组均为ftp。默认值为关闭。 download_enable=YES/NO(YES) 如果设置为NO,所有的文件都不能下载到本地,文件夹不受影响。默认值为YES。 

修改配置文件中的listen=YES 和 listen_ipv6=NO,同时禁用掉ftp日志模式,

chroot_local_user=YES ,chroot_list_enable=YES ,chroot_list_file=/etc/vsftpd/chroot_list

service vsftpd restart systemctl status vsftpd systemctl enable vsftpd.service 
pasv_enable=YES pasv_min_port=30000 pasv_max_port=30999 

设置防火墙对其他服务器来自30000-30999的请求接受

sudo /sbin/iptables -A INPUT -p tcp -s hadoop1 --dport 5021 -i ens33 -j ACCEPT sudo /sbin/iptables -A INPUT -p tcp -s hadoop1 --dport 30000:30999 -i ens33 -j ACCEPT

添加ftp用户

sudo useradd -m -d /home/ftpuser -s /sbin/nologin ftpuser sudo passwd ftpuser

windows远程传输

打开cmd输入ftp centos服务器地址 输入ftpuser 和密码ftpuser

ftp终端命令

1.进入ftp环境命令:ftp 2.打开连接:open 192.168.1.106 21 注:(断开连接,close相当于disconnect,但是没有关闭ftp环境) 3.输入用户名:(为空的话输入none) 4.输入密码:(none不用输入密码,直接回车) 注:如果此时用户名或密码错误,但是连接时打开的,可以使用命令 “user 用户名”进入登陆环节 5.查询远程服务器当前路劲:pwd 6.显示远程服务器当前路径下的文件: dir(ls -a和ls -l 也行,ls *通配符) 7.远程服务器切换目录:cd 8.二进制传输:bin 9.上传文件:put(可以直接把文件拖进命令框中,会自动带出文件路径,使用文件的绝对路径也可以上传) 10.下载文件:get 11.打开/关闭交互模式:prompt(批量下载或上传文件前执行该命令,否则上传或下载每个文件都要确 12.批量上传:mput *.txt 13.批量下载:mget * (所有文件)mget *.txt (所有.txt结尾的文件) 14.创建目录:mkdir 15.删除目录:rmdir 16.删除文件:delete 17.批量删除:mdelete *.txt/mdelete * 18.重命名文件:rename a.txt b.txt 19.查看本地当前所在路径,查看路径下的文件:dir (下载文件的本地保存路径) 20.切换本地路径:cd d:\ 结束ftp会话并退出ftp环境:bye(相当于quit) 

从windows的终端传输文件到centos

报错553

getsebool -a|grep ftp

如果tftp_home_dir ftpd_full_access 和ftpd_use_passive_mode不为on,使用下列命令修改为on

sudo setsebool ftpd_full_access on sudo setsebool ftpd_use_passive_mode on sudo setsebool tftp_home_dir on

解决ftpuser传输文件到自己home路径下,其他用户无法使用文件

  1. 将ftpuser和hadoop用户加入同一个工作组

    sudo usermod -G public hadoop1 sudo usermod -G public ftpuser
  2. 将/home/ftpuser的home文件夹所属组从默认的ftpuser改为public

    sudo chown ftpuser:public /home/ftpuser
  3. 查看ftpuser的home文件夹权限(默认为drwx------,该权限表示只有自己可读写)

    ls -l
  4. 将ftpuser的home文件夹权限改为小组可以读写(777表示最高权限,修改后为drwxrwxrwx)

    sudo chmod -R 777 ftpuser
  5. 此时就可以在hadoop1用户下访问ftpuser的home文件夹(可以读写)

SCP拷贝(linux之间)

1、向192.168.10.101推送数据 scp -r /home/swcode/test.txt test1@192.168.1.101:/home/swcode 2、从192.168.10.100拉取数据 scp -r swcode@192.168.1.101:/home/swcode/test.txt /home/swcode/ 3、在192.168.10.101上将192.168.10.100的数据拷贝到192.168.10.102上 scp -r swcode@192.168.1.100:/home/swcode/test.txt swcode@192.168.1.102:/home/swcode/ 

JAVA安装配置

查看是否有jdk(1.8以上版本)

rpm -qa|grep java

卸载自带的jdk(所有通过上面命令查出的都可以删除,删干净后查询java版本提示命令错误)

rpm -e -nodeps 软件 yum -y 软件

手动安装jdk

tar -zxvf java压缩包

修改文件夹名字

配置环境变量

sudo vi /etc/profile
#set java environment JAVA_HOME=/home/hadoop1/java #PATH=$JAVA_HOME/bin:$PATH:. PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin JRE_HOME=$JAVA_HOME/jre CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME PATH JRE_HOME 

刷新配置文件

source /etc/profile

查看jdk版本

java -version

查看JAVA_HOME路径

ls -lrt /etc/alternatives/java

部分java指令

# 显示所有java进程 jps 

wget下载器安装

sudo yum install wget

Hadoop安装配置

使用wget下载hadoop镜像(由于证书过期,需要以不安全形式连接)

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/stable2/hadoop-2.10.1.tar.gz --no-check-certificate

在/home/hadoop1/新建文件夹hadoop

mkdir hadoop

将下载的hadoop压缩包移动过去

sudo mv hadoop-2.10.1.tar.gz /home/hadoop1/hadoop

解压hadoop

tar -zxvf hadoop-2.10.1.tar.gz 

hadoop环境配置

  1. 全局环境变量(/etc/profile和/etc/bashrc)

    export HADOOP_HOME=/home/hadoop1/hadoop/hadoop-2.10.1 export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 
    sudo vi /etc/profile sudo vi /etc/bashrc #刷新配置文件 source /etc/profile source /etc/bashrc 

    输入hadoop version出现版本信息及配置全局环境成功

  2. 安装配置SSH免密远程登录

    • 修改端口(启用端口22)

      sudo vi /etc/ssh/sshd_config
    • 修改防火墙22端口

      sudo firewall-cmd --zone=public --add-port=22/tcp --permanent 重启防火墙 systemctl restart firewalld.service 重新载入配置 firewall-cmd --reload 查看 public 区域下所有已打开的端口 firewall-cmd --zone=public --list-ports
    • 重启服务

      sudo systemctl restart sshd
    • 生成密钥(回车)

      ssh-keygen -t rsa
    • 设置公钥(进入.ssh隐藏文件夹)

      cd /home/hadoop1/.ssh cat id_rsa.pub >> authorized_keys sudo chown root:root authorized_keys sudo chmod 600 authorized_keys
    • 将authorized_keys传输到其他的服务器对应的.ssh文件夹下接受id_rsa.pub,最后保证每台机器都有其余三台的公钥

      ssh root@hadoop2 cat ~/.ssh/id_rsa.pub>> authorized_keys # scp -r authorized_keys 用户名@host:存储文件地址 scp -r authorized_keys hadoop2@hadoop2:/home/hadoop2/.ssh
    • 修改文件夹和文件属性

      sudo chmod -R 700 .ssh sudo chmod -R 600 .ssh/authorized_keys
    • 测试

      #重启ssh后在hadoop1上ssh远程免密hadoop2(第一个hadoop2是用户,第二个是hadoop1的host里配置的hadoop2) ssh hadoop2@hadoop2 ssh hadoop2@192.168.136.132 #成功后exit退出 #如果提示要输入密码,请重复上一步修改文件夹和文件属性 
  3. 进入/home/hadoop1/hadoop/hadoop-2.10.1/etc/hadoop修改配置文件

    • 重点:xml注释里面不要带中文,否则可能会报错

    • hadoop-env.sh

      修改JAVA_HOME

      #hadoop-2.10.1 里面默认为 export JAVA_HOME=${JAVA_HOME} 可以不修改。 如果没有可以添加为export JAVA_HOME=/home/hadoop1/java sudo vi /home/hadoop1/hadoop/hadoop-2.10.1/etc/hadoop/hadoop-env.sh
    • core-site.xml

      <configuration> <!-- 指定hdfs的nameservice为myha01 --> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:8020</value> </property> <!-- 指定hadoop临时目录 --> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop1/hadoop/hadoop-2.10.1/data/hadoopdata/</value> </property> <!-- 指定zookeeper地址 --> <property> <name>ha.zookeeper.quorum</name> <value>hadoop2:2181,hadoop3:2181,hadoop4:2181</value> </property> <!-- hadoop链接zookeeper的超时时长设置 --> <property> <name>ha.zookeeper.session-timeout.ms</name> <value>1000</value> <description>ms</description> </property> </configuration> 
    • hdfs-site.xml

      <configuration> <!-- 指定副本数 --> <property> <name>dfs.replication</name> <value>2</value> </property> <!-- 配置namenode和datanode的工作目录-数据存储目录 --> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop1/hadoop/hadoop-2.10.1/data/hadoopdata/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop1/hadoop/hadoop-2.10.1/data/hadoopdata/dfs/data</value> </property> <!-- 启用webhdfs --> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <!--指定hdfs的nameservice为myha01,需要和core-site.xml中的保持一致 例如,如果使用"myha01"作为nameservice ID, 并且使用"nn1"和"nn2"作为NameNodes标示符--> <property> <name>dfs.nameservices</name> <value>hadoop1</value> </property> <!--dfs.ha.namenodes.[nameservice id]为在nameservice中每一个NameNode的唯一标识符 配置一个逗号分隔的NameNode ID列表,这将被DataNode识别为所有的NameNode myha01下面有两个NameNode,分别是nn1,nn2 --> <property> <name>dfs.ha.namenodes.hadoop1</name> <value>nn1,nn2</value> </property> <!-- nn1的RPC通信地址 --> <property> <name>dfs.namenode.rpc-address.hadoop1.nn1</name> <value>hadoop2:9000</value> </property> <!-- nn1的http通信地址 --> <property> <name>dfs.namenode.http-address.hadoop1.nn1</name> <value>hadoop2:50070</value> </property> <!-- nn2的RPC通信地址 --> <property> <name>dfs.namenode.rpc-address.hadoop1.nn2</name> <value>hadoop3:9000</value> </property> <!-- nn2的http通信地址 --> <property> <name>dfs.namenode.http-address.hadoop1.nn2</name> <value>hadoop3:50070</value> </property> <!-- 指定 NameNode 的 edits 元数据的共享存储位置。也就是 JournalNode 列表 该url的配置格式:qjournal://host1:port1;host2:port2;host3:port3/journalId journalId推荐使用nameservice,默认端口号是:8485 --> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/hadoop1</value> </property> <!-- 指定JournalNode在本地磁盘存放数据的位置 --> <property> <name>dfs.journalnode.edits.dir</name> <value>/home/hadoop1/hadoop/hadoop-2.10.1/data/journaldata</value> </property> <!-- 开启NameNode失败自动切换 --> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property> <!-- 配置失败自动切换实现方式 --> <property> <name>dfs.client.failover.proxy.provider.hadoop1</name> <value> org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider </value> </property> <!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行 --> <property> <name>dfs.ha.fencing.methods</name> <value> sshfence shell(/bin/true) </value> </property> <!-- 使用sshfence隔离机制时需要ssh免登陆 --> <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/home/hadoop1/.ssh/id_rsa</value> </property> <!-- 配置sshfence隔离机制超时时间 --> <property> <name>dfs.ha.fencing.ssh.connect-timeout</name> <value>30000</value> </property> <property> <name>ha.failover-controller.cli-check.rpc-timeout.ms</name> <value>60000</value> </property> </configuration> 
    • 先拷贝一份mapred-site.xml.template 成 mapred-site.xml

      sudo cp mapred-site.xml.template mapred-site.xml

      修改mapred-site.xml配置文件

      <configuration> <!-- 指定mr框架为yarn方式 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <!-- 指定mapreduce jobhistory地址 对应服务器的地址 --> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop1:10020</value> </property> <!-- 任务历史服务器的web地址 --> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop1:19888</value> </property> </configuration> 
    • yarn-site.xml

      <configuration> <!-- 开启RM高可用 --> <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> </property> <!-- 指定RM的cluster id --> <property> <name>yarn.resourcemanager.cluster-id</name> <value>yrc</value> </property> <!-- 指定RM的名字 --> <property> <name>yarn.resourcemanager.ha.rm-ids</name> <value>rm1,rm2</value> </property> <!-- 分别指定RM的地址 --> <property> <name>yarn.resourcemanager.hostname.rm1</name> <value>hadoop1</value> </property> <property> <name>yarn.resourcemanager.hostname.rm2</name> <value>hadoop4</value> </property> <!-- 客户端通过该地址向RM提交对应用程序操作 --> <property> <name>yarn.resourcemanager.address.rm1</name> <value>hadoop1:8032</value> </property> <!--ResourceManager 对ApplicationMaster暴露的访问地址。 ApplicationMaster通过该地址向RM申请资源、释放资源等。 --> <property> <name>yarn.resourcemanager.scheduler.address.rm1</name> <value>hadoop1:8030</value> </property> <!-- RM HTTP访问地址,查看集群信息--> <property> <name>yarn.resourcemanager.webapp.address.rm1</name> <value>hadoop1:8088</value> </property> <!-- NodeManager通过该地址交换信息 --> <property> <name>yarn.resourcemanager.resource-tracker.address.rm1</name> <value>hadoop1:8031</value> </property> <!--管理员通过该地址向RM发送管理命令 --> <property> <name>yarn.resourcemanager.admin.address.rm1</name> <value>hadoop1:8033</value> </property> <property> <name>yarn.resourcemanager.ha.admin.address.rm1</name> <value>hadoop1:23142</value> </property> <property> <name>yarn.resourcemanager.address.rm2</name> <value>hadoop4:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address.rm2</name> <value>hadoop4:8030</value> </property> <property> <name>yarn.resourcemanager.webapp.address.rm2</name> <value>hadoop4:8088</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address.rm2</name> <value>hadoop4:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address.rm2</name> <value>hadoop4:8033</value> </property> <property> <name>yarn.resourcemanager.ha.admin.address.rm2</name> <value>hadoop4:23142</value> </property> <!-- 指定zk集群地址 --> <property> <name>yarn.resourcemanager.zk-address</name> <value>hadoop2:2181,hadoop3:2181,hadoop4:2181</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>86400</value> </property> <!-- 启用自动恢复 --> <property> <name>yarn.resourcemanager.recovery.enabled</name> <value>true</value> </property> <!-- 制定resourcemanager的状态信息存储在zookeeper集群上 --> <property> <name>yarn.resourcemanager.store.class</name> <value> org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore </value> </property> </configuration> 
    • slaves文件

      hadoop1 hadoop2 hadoop3 hadoop4 
    • 从每个节点启动

      hadoop-daemon.sh start journalnode
    • 将下列端口的防火墙开放

      8020/tcp 2181/tcp -> sudo firewall-cmd --zone=public --add-port=2181/tcp --permanent 9000/tcp 50070/tcp 8485/tcp -> sudo firewall-cmd --zone=public --add-port=8485/tcp --permanent 10020/tcp 19888/tcp 8032/tcp 23142/tcp 8032/tcp 8030/tcp 8031/tcp 8033/tcp 23142/tcp 8088/tcp 2181/tcp sudo firewall-cmd --rel 
    • 查看JPS是否含有journalnode进程

      没有就去检查日志

    • 格式化namenode(只能在namenode上,即hadoop2和hadoop3)

      hadoop namenode -format

      如果报此类错误No Route to Host from hadoop2/192.168.136.132 to hadoop4:8485 failed,请开启防火墙各台服务器8485端口

    • 格式化zkfc (只能在namenode上,即hadoop2和hadoop3)

      hdfs zkfc -formatZK

      提示success及成功

      第二台机器格式化时可能会出现提示Proceed formatting /hadoop-ha/hadoop1? (Y or N) 22/02/28 09:50:43 INFO ha.ActiveStandbyElector: Session connected.

      输入Y进行下一步

    • 启动hdfs

      启动hdfs之前先确定zookeeper已启动

      zookeeper status

      启动整个集群

      start-dfs.sh

tomcat服务器安装和配置

在/home/hadoop1/中新建tomcat文件夹

mkdir tomcat

移动tomcat压缩包到tomcat文件夹内

mv apache-tomcat-10.1.0-M10.tar.gz /home/hadoop1/tomcat

解压

tar -zxvf apache-tomcat-10.1.0-M10.tar.gz

重命名

mv apache-tomcat-10.1.0-M10 tomcat-10.1

启动tomcat服务器

  1. 进入tomcat的bin目录

    cd /home/hadoop1/tomcat/tomcat-8.5/bin

    授权

    sudo chmod +x /home/hadoop1/tomcat/tomcat-8.5/bin/*.sh
  2. 开放8080端口

    为了能远程访问centos上的tomcat,需要开启防火墙的8080端口

    查看防火墙状态 firewall-cmd --state --zone=public 作用于公共域 --add-port=8080/tcp 添加tcp协议的端口8080 --permanent 永久生效,没有此参数,该命令只能维持当前服务生命周期 firewall-cmd --zone=public --add-port=8080/tcp --permanent 重启防火墙 systemctl restart firewalld.service 重新载入配置 firewall-cmd --reload 查看 public 区域下所有已打开的端口 firewall-cmd --zone=public --list-ports

    tomcat服务器配置

    sudo vi /etc/systemd/system/tomcat.service

    将下列配置写入tomcat.service

    [Unit] Description=Tomcat8.5 After=syslog.target network.target remote-fs.target nss-lookup.target [Service] Type=oneshot ExecStart=/home/hadoop1/tomcat/tomcat-8.5/bin/startup.sh ExecStop=/home/hadoop1/tomcat/tomcat-8.5/bin/shutdown.sh ExecReload=/bin/kill -s HUP $MAINPID RemainAfterExit=yes [Install] WantedBy=multi-user.target 
    sudo vi /home/hadoop1/tomcat/tomcat-8.5/bin/setenv.sh 
    # 设置JAVA_HOME export JAVA_HOME=/home/hadoop1/java export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH export CATALINA_HOME=/home/hadoop1/tomcat/tomcat-8.5 export CATALINA_BASE=/home/hadoop1/tomcat/tomcat-8.5 # 设置Tomcat的PID文件 CATALINA_PID="$CATALINA_BASE/tomcat.pid" # 添加JVM选项 JAVA_OPTS="-server -XX:PermSize=128M -XX:MaxPermSize=512m -Xms512M -Xmx512M -XX:MaxNewSize=128m" 
    sudo vi /usr/lib/systemd/system/tomcat.service 
    [Unit] Description=tomcat8.5 After=syslog.target network.target remote-fs.target nss-lookup.target [Service] Type=forking PIDFile=/home/hadoop1/tomcat/tomcat-8.5/tomcat.pid ExecStart=/home/hadoop1/tomcat/tomcat-8.5/bin/startup.sh ExecReload=/bin/kill -s HUP $MAINPID ExecStop=/bin/kill -s QUIT $MAINPID PrivateTmp=true [Install] WantedBy=multi-user.target 

    重载设置

    systemctl daemon-reload
  3. 启动tomcat服务

    ./startup.sh
  4. 访问tomcat测试

  5. 设置自启动

    配置bin/setclassPath.sh,bin/startup.sh,中的JAVA_HOME和JRE_HOME

    sudo vi /home/hadoop1/tomcat/tomcat-8.5/bin/setclasspath.sh sudo vi /home/hadoop1/tomcat/tomcat-8.5/bin/startup.sh export JAVE_HOME=/home/hadoop1/java export JRE_HOME=/home/hadoop1/java/jre

    新建bin/setenv.sh写入

    # tomcat的PID文件 CATALINA_PID="/home/hadoop1/tomcat/tomcat-8.5/tomcat.pid" # 添加JVM选项 JAVA_OPTS="-server -XX:PermSize=256M -XX:MaxPermSize=1024m -Xms512M -Xmx1024M -XX:MaxNewSize=256m"

    设置自启

    sudo systemctl enable tomcat.service

    查看是否自启

    systemctl list-unit-files | grep enabled

zookeeper安装配置(只安装配置三台非主节点)

下载解压安装包

wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/stable/apache-zookeeper-3.6.3-bin.tar.gz tar -zxvf apache-zookeeper-3.6.3-bin.tar.gz mv apache-zookeeper-3.6.3-bin zookeeper

修改配置文件

  1. 生成配置文件

    cd zookeeper/conf cp zoo_sample.cfg zoo.cfg
  2. 修改配置文件

    vi zoo.cfg

    修改dataDir路径为hadoop/data/zkdata和dataLogDir为hadoop/log/zklog

    • 新建hadoop/data/zkdata和hadoop/log/zklog

      mkdir /home/hadoop2/hadoop/hadoop-2.10.1/data/zkdata mkdir /home/hadoop2/hadoop/hadoop-2.10.1/log/zklog
    • 添加server.1,server.2,server.3的host和端口

      server.1=hadoop2:2888:3888 server.2=hadoop3:2888:3888 server.3=hadoop4:2888:3888
    • 进入dataDir路径,新建文件myid,添加本机id(server.1=hadoop2:2888:3888的1)

      cd /home/hadoop2/hadoop/hadoop-2.10.1/data/zkdata vi myid 或者 echo 1 > myid
      1 
    • 配置环境变量

      修改.bashrc(个人的)

      vi ~/.bashrc # Zookeeper export ZOOKEEPER_HOME=/home/hadoop2/zookeeper-3.6.3 export PATH=$PATH:$ZOOKEEPER_HOME/bin

      重启配置文件

      source ~/.bashrc

      开放端口2888和3888

      sudo firewall-cmd --zone=public --add-port=2888/tcp --permanent sudo firewall-cmd --zone=public --add-port=3888/tcp --permanent sudo firewall-cmd --reload

      启动三台服务器上的ZK

      #启动服务 zkServer.sh start #关闭服务 zkServer.sh stop #查看服务 zkServer.sh status #查看进程QuorumPeerMain jps |grep QuorumPeerMain

      如果有服务器无法启动可以先尝试启动其他的服务器

      启动成功后查看状态(1个Leader ,两个Follower)


三、Hadoop集群启动

流程

  1. 启动234服务器的zookeeper

  2. 启动1234服务器的hadoop

  3. 启动1服务器的hdfs

以上内容由“WiFi之家网”整理收藏!。

原创文章,作者:192.168.1.1,如若转载,请注明出处:https://www.224m.com/232194.html

(0)
192.168.1.1192.168.1.1
上一篇 2022年11月9日 09:51
下一篇 2022年11月9日 09:51

相关推荐