ITPub博客

首页 > 大数据 > 可视化 > Mahout && Hadoop

Mahout && Hadoop

可视化 作者:eyes_on_you 时间:2012-03-27 00:28:45 0 删除 编辑

 

 

03.25周报 杨铭

 

 

 

 

 

 

摘要:  本周学习内容主要为在Ubuntu下实现MahoutHadoop的结合,将Hadoop实现一个伪集群,进行集群算法并在本地可以用监测页面观察。

 

 

 

1.       搭建Hadoop伪集群

PS:我的Hadoop是从http://mirror.bjtu.edu.cn/apache/hadoop/core/hadoop-0.20.204.0/ 下载的

PPS: Apache的相关软件都可从此页面下载 只需向上到相关目录

 

搭建Hadoop伪集群主要是为了测试,由于方法方式都与真正的分布式集群相似,所以测试的意义和效果还是非常显著的。

 

Mahout <wbr>&& <wbr>Hadoop

 

         路径相关的操作已经在之前的周报中说明 也可参照/etc/profile文件

        

 

1.1    修改三个配置文件(都在 $HADOOP_HOME/conf 下)

Mahout <wbr>&& <wbr>Hadoop


具体配置可以参考配置文件详细信息,当然这些只是在伪集群下的配置。

主要就是将端口和HDFS的数据备份数确定下来。

 

 

1.2    由于伪集群是本机连本机,但是在SSH通信情况下依然要通过密码访问,此时我们生成密钥保存在本机下,即可实现SSH无密码访问

 

$ ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa

                   此时我们在 ~ 进入.ssh文件夹 .pub密钥复制一份 命名为 authorized_keys

                   cp *.pub authorized_keys

Mahout <wbr>&& <wbr>Hadoop

再次尝试 ssh localhost

Mahout <wbr>&& <wbr>Hadoop

        

                   PS:由于Ubuntu没有SSH-SERVER的插件 所以要自己安一个 要不会出错

sudo apt-get install openssh-server

                   安完应该就可以正确执行以上操作了

 

 

1.3    在伪集群下有个小问题 就是ssh自己的时候 如果是自动化实现,JAVA_HOME会出现没有设置的错误,解决方法是修改一下hadoop的内置配置环境变量(正常分布式集群不用做这一步,如果做了,所有分布式集群的JAVA路径应该设置成一样的)

 Mahout <wbr>&& <wbr>Hadoop


 

1.4    格式化一下namenodehadoop namenode –format),启动hadoop应该没问题了

bin/start-all.sh

Mahout <wbr>&& <wbr>Hadoop


 

输入java process status(jps) 应该能看到如下几个进程(如果开了别的java进程 应该也会看到别的)

Mahout <wbr>&& <wbr>Hadoop


PS:简单介绍一下  namenode 是主节点(一个/masters datenode是辅助节点(可以有多个 slavessecondarynamenode是加速重启的小服务

        

2.       Hadoopk-means测试

2.1 下载数据:

           wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

           上传到HDFS:

           hadoop fs –mkdir testdata

           hadoop fs –put synthetic_control.data testdata

           hadoop fs –ls testdata

 

 

Mahout <wbr>&& <wbr>Hadoop

        

2.2 bin/hadoop jar $MAHOUT_HOME/mahout-examples-*-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job  指令来测试kmeans

Mahout <wbr>&& <wbr>Hadoop

Mahout <wbr>&& <wbr>Hadoop

 

         2.3 在浏览器中输入 http://localhost:50030/jobtracker.jsp

Mahout <wbr>&& <wbr>Hadoop

 

同时 HDFS 会多出一个output的文件夹 存储着结果

Mahout <wbr>&& <wbr>Hadoop

Mahout <wbr>&& <wbr>Hadoop

 

本周小结:

         本周主要学习了HADOOP下结合MAHOUT实现kmeans算法的例子,搭建中出现了很多的小bug,不过凭借着documents和搜索引擎,都一一得到了解决。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23957450/viewspace-1119534/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-05-22