DMINER(鼓捣数据的人)

涸辙遗鲋 旦暮成枯 人而无志 与彼何殊

  • 博客访问: 336132
  • 博文数量: 65
  • 用 户 组: 普通用户
  • 注册时间: 2015-06-30 14:17
  • 认证徽章:
个人简介

山东人在上海,专注于大数据领域,懂点数据处理,会点数据分析,熟悉分布式计算框架。技术方向:Hadoop、Zookeeper、Storm、Linux、C/C++、Java、Php

文章分类

全部博文(65)

发布时间:2016-07-26 15:02:58

NAS:网络附属存储  SAN:存储区域网络(Storage Area Network,简称SAN)采用光纤通道(Fibre Channel)技术,通过光纤通道交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。SAN经过十多年历史的发展,已经相当成熟,成为业界的事实标准。SAN存储采用的.........【阅读全文】

阅读(139) | 评论(0) | 转发(0)

发布时间:2016-06-22 15:28:28

 原理很简单:2)acker 对于每个 tuple 保存一个 ack-val 的校验值(一个64 bit数字),它的初始值是0。 然后每发射一个 tuple (即消息的创建),或者 ack 一个 tuple (即消息的被应答),那么 tuple 的 id 都要跟 ack-val 异或一下,并且把得到的值更新为 ack-val 的新值。假设每个发射出去的 tuple 都被 ack 了.........【阅读全文】

阅读(295) | 评论(0) | 转发(0)

发布时间:2016-06-22 15:14:02

一、一个消息被完整处理是什么意思?考虑如下的流式计算文章中单词个数的拓扑:TopologyBuilder builder = new TopologyBuilder(); builder.setSpout("sentences", new KestrelSpout("kestrel.backtype.com", 22133, "sentence_queue", new StringScheme())); .........【阅读全文】

阅读(199) | 评论(0) | 转发(0)

发布时间:2016-06-21 18:52:10

1.关于Storm并行,一些需要了解的概念  storm的supervisor运行的是topology中的spout/bolt task。  程序执行的最大粒度的运行单位是进程。在supervisor中,运行task的进程称作worker。  在worker中可以运行线程的,这些线程称作executor。在executor中,运行task。  总结一下,supervisor(节点).........【阅读全文】

阅读(197) | 评论(0) | 转发(0)

发布时间:2016-06-20 17:05:13

大数据系列分享第四期:《MapReduce分布式计算框架》......【阅读全文】

阅读(129) | 评论(0) | 转发(0)

发布时间:2016-06-16 19:19:51

本文转载自:http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html  作者:大圆那些事儿参考书目:《Storm实战》1. Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:.........【阅读全文】

阅读(457) | 评论(0) | 转发(0)

发布时间:2016-06-14 11:28:29

倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒.........【阅读全文】

阅读(847) | 评论(0) | 转发(0)

发布时间:2016-06-14 11:16:43

案例采用 MultipleInputs类 实现多路径输入的倒排索引。package test0820; import java.io.IOException; import java.lang.reflect.Method; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; .........【阅读全文】

阅读(701) | 评论(0) | 转发(0)

发布时间:2016-06-06 11:55:17

Yarn主要由四部分组成ResourceManage(RM) NodeManage(NM) ApplicationMaster(AM) ContainerYarn单点故障YARN的单点故障指的是ResourceManager单点问题,ResourceManager负责整个系统的资源管理和调度,内部维护了各个应用程序的ApplictionMaster信息,NodeManager信息,资源使用信息等。考虑到这些信息绝大多数可.........【阅读全文】

阅读(1133) | 评论(0) | 转发(0)

发布时间:2016-06-05 15:41:09

在公司近三年,一直从事数据方面的工作,逐渐也对数据充满了兴趣,立志职业生涯就扑在上面了。前段时间出于学习和练胆的目的,在公司内部搞了个《大数据系列技术分享》,基本将自己平时工作学习的内容都总结成了ppt,然后在公司所有项目前端和后台同事间分享。初始效果还是不错的,感兴趣的同事也比较多。我是两三周就.........【阅读全文】

阅读(907) | 评论(0) | 转发(0)

发布时间:2016-06-02 17:57:23

转载自:http://blog.sina.com.cn/s/blog_406127500102uxc6.html1.在linux中,用date查看时间的时候显示:     2013年 2月 17日 星期三 19:04:14 CST 世界协调时间(Universal Time Coordinated,UTC): GPS 系统中有两种时间区分,一为UTC,另一为LT(地方时)两者的区别为时区不同,UTC就是.........【阅读全文】

阅读(1087) | 评论(0) | 转发(0)

发布时间:2016-06-02 17:18:18

一、集群机器监控这通常用于那种对集群中机器状态,机器在线率有较高要求的场景,能够快速对集群中机器变化作出响应。这样的场景中,往往有一个监控系统,实时检测集群机器是否存活。过去的做法通常是:监控系统通过某种手段(比如ping)定时检测每个机器,或者每个机器自己定时向监控系统汇报"我还活着"。这种做法可行.........【阅读全文】

阅读(1274) | 评论(0) | 转发(0)

发布时间:2016-06-02 15:50:16

场景描述:发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。例如全局的配置信息,服务式服务框架的服务地址列表等就非常适合使用。使用ZooKeeper的发布与订阅模型,可以将应用中用到的一些配置信息放到ZK上进行集中管理。这类场.........【阅读全文】

阅读(1520) | 评论(0) | 转发(0)

发布时间:2016-06-02 13:24:02

Zookeeper的一大应用就是分布式锁,分布式锁在集群中的应用是很普遍的,它可以促进资源的合理分配,防止顺序错乱。分布式锁有分为排它锁和共享锁。回归正题,这里主要讲共享锁机制会出现的羊群效应。一般共享锁的实现逻辑zookeeper中节点的创建类型有4类,这里我们重点关注下临时顺序节点。这种类型的节点有几下几.........【阅读全文】

阅读(1098) | 评论(0) | 转发(0)

发布时间:2016-05-31 19:41:31

各位同学在执行Zookeeper程序的时候是不是会遇到一个问题,屏幕上打印出大量的Zookeeper日志,自己程序的日志被淹没在其中,很难调试程序。对zookeeper的配置进行如下更改,可解决以上问题首先修改: conf/log4j.properties: # Define some default values that can be overridden by system properties z.........【阅读全文】

阅读(1269) | 评论(0) | 转发(0)

发布时间:2016-05-26 16:11:24

习惯在debian用apt-get安装软件的朋友,忽然换到类似centos系统可能会不适用,其实centos系统的发行版本RedHat对软件安装的支持也很方便,那就是神器yum,下面就对yum常用命令做个总结。yum是一个用于管理rpm包的后台程序,用python写成,可以非常方便的解决rpm的依赖关系。在建立好yum服务器后,yum客户端可以通过 http.........【阅读全文】

阅读(1104) | 评论(0) | 转发(0)

发布时间:2016-05-26 15:07:46

工作中,发现部门内很多同学还不是很清楚,如何查看所用linux服务器的操作系统版本,或者只会一种,下面总结一下:一、查看Linux内核版本命令(两种方法):1、cat /proc/version[root@localhost ~]# cat /proc/versionLinux version 2.6.18-194.8.1.el5.centos.plus (mockbuild@builder17.centos.org) (gcc versi.........【阅读全文】

阅读(1289) | 评论(0) | 转发(0)

发布时间:2016-05-26 11:59:02

一、联系1. 两者构建的系统都有一个Leader角色,Leader进程负责协调多个Follower进程的运行2. Leader进程都会等待超过半数的Follower进程做出正确的分亏后,才会将一个提案进行提交3. 在ZAB协议中每个Proposal中都包含一个epoch值,用来代表当前的Leader周期;在Paxos算法中,同样存在这样一个标识(Ballot)二、区别.........【阅读全文】

阅读(2774) | 评论(0) | 转发(0)

发布时间:2016-05-25 22:05:38

          ZooKeeper为高可用的一致性协调框架,自然的ZooKeeper也有着一致性算法的实现,ZooKeeper使用的是ZAB协议作为数据一致性的算法,ZAB(ZooKeeper Atomic Broadcast )全称为:原子消息广播协议;ZAB可以说是在Paxos算法基础上进行了扩展改造而来的,ZAB协议设计了支.........【阅读全文】

阅读(2616) | 评论(0) | 转发(0)

发布时间:2016-05-23 20:07:33

关于paxos的通俗解释,大家可以去围观以下两个博客:用三国场景展现paxos原理博文1:http://blog.csdn.net/russell_tao/article/details/7244530博文2:http://blog.csdn.net/russell_tao/article/details/7238783一、paxos解决什么问题具体来说是这样:分布式系统中由于网络之间通讯可能会中断,虽然概率很低,但是.........【阅读全文】

阅读(1336) | 评论(0) | 转发(0)

发布时间:2016-05-19 18:00:25

介绍      云计算是一种计算模型,实现无处不在、便捷、可通过网络按需访问的可配置计算资源池(例如,网络、服务器、存储、应用程序、服务),这些资源可以快速调配,最小化管理开销或与服务提供商的交互。云计算模型有五个必要特性,三个服务模型以及四个部署模型。.........【阅读全文】

阅读(1574) | 评论(0) | 转发(0)

发布时间:2016-05-18 21:21:39

一、windows操作系统下主机IP地址try{         System.out.println("本机的IP = " + InetAddress.getLocalHost());} catch (UnknownHostException e){         e.printStackTrace();}二、linux操作系统下主机IP地址E.........【阅读全文】

阅读(1607) | 评论(0) | 转发(0)

发布时间:2016-05-17 14:57:35

GitHub的Readme文件可以让参与你的开源软件的人一眼就能知道你做的是个什么东东,有什么作用,具体怎么用,所以一个好的Readme文件需要一目了然,需要排版好看。GitHub上的Readme文件用的是markdown语言(一种编辑博客的语言),所以文件后缀名是md。GitHub支持的语法在标准markdown语法的基础上做了修改......【阅读全文】

阅读(1779) | 评论(0) | 转发(0)

发布时间:2016-05-12 14:17:29

前几天身份证竟然过期了,为了“重新做人”晚上就得飞奔回大山东补办良民证,希望朝廷手下留情,不要把我抓起来,因为我要以黑户的身份爬火车了。。。回归正题:话说hadoop是处理大数据的,一堆煤炭被分成N量车来拉,那这些车是怎么分配的呢?如果是两队煤炭同事需要拉又该怎么分配这些车呢?这就是作业调度的问.........【阅读全文】

阅读(1631) | 评论(0) | 转发(0)

发布时间:2016-05-12 11:46:29

GitHub使我们可以共享代码,开源学习,你的代码共享出来需要选择一个协议,具体协议的解释参考下表:下方表格中出现的用词的解释:协议和版权信息(License and copyright notice):在代码中保留作者提供的协议和版权信息声明变更(State Changes):在代码中声明对原来代码的重大修改及变更公开源.........【阅读全文】

阅读(2109) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册