ITPub博客

首页 > 大数据 > Hadoop > Hadoop安装配置 hany

Hadoop安装配置 hany

Hadoop 作者:dawn0769 时间:2013-01-27 23:34:37 0 删除 编辑

1、安装虚拟机

下载虚拟机VirtualBox 4.4.4 r81684、Oracle_VM_VirtualBox_Extension_Pack-4.2.4-81684和Ubuntu 64位操作系统

按照步骤进行安装,安装结束后选择从硬盘启动,启动Ubuntu成功,创建ubuntu的用户为han。

建立Ubuntu与主机Windows操作系统的共享目录,方便进行文件的共享,在ubuntu系统下共享目录为/media/sf_share/

 

2、安装JDK

首先,确保建立网络连接

安装jdk   sudo apt-get install openjdk-6-jdk

 

3、配置SSH

安装SSH sudo apt-get install ssh

创建.ssh目录 mkdir /home/han/.ssh

ssh -keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

ssh -version

ssh localhost

 

4、Hadoop伪分布式配置

下载hadoop-1.1.0.tar.gz文件,使用tar命令解压缩,缺省解压缩目录是/home/han/hadoop-1.1.0

tar zxvf /media/sf_share/hadoop-1.1.0.tar.gz

 

进入Hadoop安装目录下的conf文件夹,修改配置文件hadoop-env.sh,指定jdk的安装位置

sudo gedit hadoop-env.sh

添加以下内容

export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64

export HADOOP_CLASSPATH=/home/han/hadoop-1.1.0

export PATH=$PATH:/home/han/hadoop-1.1.0/bin

 

配置core-site.xml

sudo gedit core-site.xml

 

<!-- Put site-specific property overrides in this file. -->

 

        

                   fs.default.name

                   hdfs://localhost:9000

        

        

                   hadoop.tmp.dir

                   /home/han/hadoop-1.1.0/tmpdir

        

 

配置hdfs-site.xml

 

<!-- Put site-specific property overrides in this file. -->

 

        

                   dfs.replication

                   1

        

        

                   dfs.name.dir

                   /home/han/hadoop-1.1.0/tmpdir/hdfs/name

        

        

                   dfs.data.dir

                   /home/han/hadoop-1.1.0/tmpdir/hdfs/data

        

 

配置mapred-site.xml

 

<!-- Put site-specific property overrides in this file. -->

 

        

                   mapred.job.tracker

                   localhost:9001

        

        

                   mapred.local.dir

                   /home/han/hadoop-1.1.0/tmpdir/mapred/local

        

        

                   mapred.system.dir

                   /home/han/hadoop-1.1.0/tmpdir/mapred/system

        

 

5、配置完成后,在第一次运行Hadoop前需要进行格式化

bin/hadoop namenode -format

bin/hadoop datanode -format

 

6、启动hadoop所有进程

bin/start-all.sh

在ubuntu的terminal终端中敲入jps命令查看hadoop进程启动情况,正常情况下应该有NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker。如果上面几项没有完全启动,可以使用单独启动命令

bin/start-dfs.sh

bin/start-mapred.sh

 

7、查看集群状态:bin/hadoop dfsadmin -report

 

8、运行hadoop自带的WordCount示例

在/home/han/hadoop-1.1.0创建目录test,在test下创建文本file1和file2,分别输入数个单词。

file1.txt

Hello World

Hello Hadoop

 

file2.txt

Hadoop

World

Hello World

 

在hdfs分布式文件系统创建目录input

bin/hadoop fs -mkdir input

之后可以使用bin/hadoop fs -ls查看

删除目录:bin/hadoop fs -rmr ***

删除文件:bin/hadoop fs -rm ***

 

离开hadoop的安全模式

bin/hadoop dfsadmin -safemode leave

 

将文本文件放入hdfs分布式文件系统中

bin/hadoop fs -put /home/han/hadoop-1.1.0/test/* input

 

执行Hadoop自己带的wordcount例子

bin/hadoop jar hadoop-mapred-exampls-1.1.0.jar wodcount input output

 

查看执行结果

bin/hadoop fs -cat output/*

 

9、用Eclipse编辑java程序,然后在Hadoop下编译运行

在本机Win 8操作系统环境下的Eclipse中编辑WordCount.java程序

在虚拟机ubuntu的Hadoop-1.1.0目录下建立WordCount目录

mkdir WordCount

通过虚拟机和本地主机Windows的共享目录,将WordCount.java程序拷贝到win8的共享目录中,这样可以在ubuntu下访问,在ubuntu的/media/sf_share/下可以看见WordCount.java。

编译WordCount程序

javac -classpath hadoop-core-1.1.0.jar:lib/commons-cli-1.2.jar -d WordCount /media/sf_share/WordCount.java

 

将编译结果打包成jar包

jar -cvf wordcount.jar -C WordCount/ .

注意WordCount/后面有一个空格,接着是一个“.”

运行WordCount程序,以input目录为输入目录,output目录作为输出目录

bin/hadoop jar wordcount.jar WordCount input output

 

查看输出结果

bin/hadoop fs -cat output/part-r-00000

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/21176952/viewspace-1120114/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-03-22