ITPub博客

首页 > 大数据 > 数据挖掘 > Hadoop 分布式配置——小结

Hadoop 分布式配置——小结

数据挖掘 作者:jimmymmjing 时间:2013-05-10 14:31:40 0 删除 编辑

Hadoop_分布式配置——小结

本文件由:商业智能和数据仓库爱好者中心提供。

     详细登陆:http://train.bihuman.com  

           更多知识技巧等你学

 

Hadoop 分布式配置小结

经过一群人几天的努力终于把Hadoop配置好,将14台计算机连成一个集群,用hadoop的wordcount计算一个1G的日志文件只用了2分16秒,很切身地体会到了分布式计算的强悍。大家都兴奋不已,虽然只是学会了搭建Hadoop环境,连入门都谈不上,不过这几天大家在一起学习,遇到很多问题,但有了前面几位同学的经历,很多问题都能很快解决,并且十多台电脑很快就配置好了,剩下就是调试。在讨论中也了解到了很多问题和问题的另一面。在这个过程中不仅仅得到了问题的答案,而且产生了更多的问题,更多的思考,我们本身就是集群强悍的体现。

 

好了,闲话扯到这,总结一下Hadoop的配置。当然如果有新到跟我一样的新手,不妨看一下。网上虽然有很多教程,我也是按照教程一步一步做的,但是并不是配置好了就明白了,所以在这讲解一些原理。

 

很多人都习惯先配置单节点,在配置分布式,其实单节点就是伪分布式,懂得如何分布式配置的原理之后,配置单节点是很容易的。

 

配置Hadoop总体来说分为4步:

1,安装Ubuntu

2,安装JDK

3,配置SSH

4,配置Hadoop

 

1     安装ubuntu首先Hadoop是运行在Linux环境上的,网上有Windows下搭建Hadoop环境的教程,其实是通过虚拟机来实现的,这样当然不如直接运行在Linux上来的方便,而且学会使用Linux也是很有用的。

 

安装Ubuntu有两种方法,比较简单的是用Wubi安装,这样安装的话,Ubuntu就是Windows下面的一个软件,并且可以直接在Windows下卸载。

将Ubuntu镜像文件下的wubi.exe解压到镜像文件同一目录,运行即可安装,但是最好把所有盘的名字改为英文。

 

另一种方法就是硬盘安装,有人觉得这样风险大,而且容易把电脑弄崩溃。但是其实很简单,至少我是没有把电脑弄崩溃过(至少是在安装Ubuntu的时候),并且在配置Hadoop时,可以比较方便地分配更多空间。

              硬盘安装Ubuntu教程

 

    安装JDK

       安装JDK也有两种方式,一种是从通过apt-get获取

              在终端输入sudo apt-get install sun-java6-jdk

        按TAB选OK

        默认会安装在/usr/lib/jvm目录下

 

如果要安装多台电脑,这样每次都下载会花很长的时间。可以直接从官网下载jdk安装文件

 

要执行这个文件要修改其权限,使其可以执行

打开终端,进到文件所在目录,输入

sudo chmod u+x jdk-6u23-linux-i586.bin

        chmod命令用于修改文件的访问权限,x是可以执行。然后输入

            ./ jdk-6u23-linux-i586.bin执行解压

        这样会解压在所在目录下

 

    然后要配置环境变量

            sudo gedit /etc/environment

        在其中添加

            $classpath=".:/usr/lib/jvm/java-6-sun/lib"

$JAVA_HOME="/usr/lib/jvm/java-6-sun"

        如果是第二种方式安装的,那么变量值就是jdk的目录和bin目录

 

    配置JVM

        如果是第一种方式安装,安装时会配置

            sudo gedit /etc/jvm

        添加jdk的目录

 

            sudo gedit /etc/profile

    添加

            export CLASSPATH=.:/usr/Java/jdk1.6.0_23/lib:/usr/Java/jdk1.6.0_23/jre/lib:$CLASSPATH

export PATH=.:/usr/Java/jdk1.6.0_23/bin:/usr/Java/jdk1.6.0_23/jre/bin:/usr/local/hadoop/bin:$PATH

 

    以上命令都是用gedit来打开编辑文件,应为编辑的是etc目录下面的文件所以要使用sudo

    如果之前没有安装java或者更新,那么就只有一个java.否则要设置java-6-sun为默认java

            sudo update-alternatives --config java

 

开启ssh

   首先安装openssh-server

    不过为方便起见,先添加用户组,这里要先做一些其他工作。

    已10台电脑为例,选择一台电脑为master来控制其他电脑,其他电脑都是slave。

 

 

本文件由:商业智能和数据仓库爱好者中心提供。

     详细登陆:http://train.bihuman.com  

           更多知识技巧等你学

 

 

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23381472/viewspace-1120640/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-02-22