hadoop编程笔记 - 51Testing软件测试论坛

rpm -qa|grep java #查询安装的java环境
rpm -e --nodeps + 包名 #卸载相应的安装包，多个包名以空格隔开

复制代码

chmod u+x ./* #为安装文件夹设置可执行权限
tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/
#-C 指定解压的位置，默认是当前文件夹
cd /opt/modules/jdk1.7.0_67/
vi /etc/profile #编辑环境变量
export JAVA_HOME=/opt/modules/jdk1.7.0_67/
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile #使环境变量生效
#退出后重新登录
java -version
#bash: /opt/modules/jdk1.7.0_67/bin/java: cannot execute binary file
#赋值了权限以后还出现这样的问题就是linux版本出现了出现了问题> > 这里输入引用文本

复制代码

tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/
cd /opt/modules/hadoop-2.5.0/etc/hadoop
echo $JAVA_HOME #输出java环境变量
vi hadoop-env.sh
#查找 JAVA_HOME的位置
export JAVA_HOME=${JAVA_HOME}替换为JAVA_HOME=/opt/modules/jdk1.7.0_67
cd /opt/modules/hadoop-2.5.0
mkdir input
cp etc/hadoop/*.xml input/
#-rw-r--r--. 1 root root 3589 Mar 17 21:57 capacity-scheduler.xml
#-rw-r--r--. 1 root root 774 Mar 17 21:57 core-site.xml
#-rw-r--r--. 1 root root 9201 Mar 17 21:57 hadoop-policy.xml
#-rw-r--r--. 1 root root 775 Mar 17 21:57 hdfs-site.xml
#-rw-r--r--. 1 root root 620 Mar 17 21:57 httpfs-site.xml
#-rw-r--r--. 1 root root 690 Mar 17 21:57 yarn-site.xml

复制代码

mkdir input
cp etc/hadoop/*.xml input
vi etc/hadoop/hadoop-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_67
vi etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop.lilang.com:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.5.0/data/tmp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>604800</value>
</property>
</configuration>
vi etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop.jianxin.com:50090</value>
</property>
</configuration>
vi etc/hadoop/mapred-env.xml
export JAVA_HOME=/opt/modules/jdk1.7.0_67
vi etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop.jianxin.com:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop.jianxin.com:19888</value>
</property>
</configuration>
#配置yarn的环境变量
vi etc/hadoop/yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_67/
vi etc/hadoop/yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop.jianxin.com</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
<description>Amount of physical memory, in MB, that can be allocated
for containers.</description>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>4</value>
<description>Number of CPU cores that can be allocated
for containers.</description>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>640800</value>
</property>
vi etc/hadoop/slaves

复制代码

bin/hdfs namenode -format #格式化文件系统，如果启动失败Cannot remove currentdirectory一般是没有用管理员权限登录

复制代码

cd ~
cd .ssh
ssh-keygen -t rsa #指定加密算法
ssh-copy-id hadoop.jianxin.com #拷贝公钥到authorized_keys
sbin/start-all.sh #/opt/modules/hadoop-2.5.0
#默认情况下历史服务器是没有启动的
[root@hadoop hadoop-2.5.0]# jps
5993 Jps
5676 NodeManager
5180 NameNode
5583 ResourceManager
5440 SecondaryNameNode
#单独启动历史服务器
sbin/mr-jobhistory-daemon.sh start historyserver

复制代码

java.io.IOException: Incompatible clusterIDs in /opt/modules/hadoop-2.5.0/data/tmp/dfs/data: namenode clusterID = CID-e0ceb89a-d6ce-4c97-888c-32f68887d925; datanode clusterID = CID-a1ab5bc9-d4fc-4e4e-a4f6-e53da68f905a
at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:477)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:226)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:254)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:975)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:946)
at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:278)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:220)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:812)
at java.lang.Thread.run(Thread.java:745)

复制代码

sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

复制代码

# hdfs
sbin/hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode
# yarn
sbin/yarn-daemon.sh start|stop resourcemanager|nodemanager
# mapreduce
sbin/mr-historyserver-daemon.sh start|stop historyserver

复制代码