ITPub博客

关于 “Hadoop” 的内容如下:

  • 如何在MapReduce中使用SequenceFile数据格式?

    本文作为《Hadoop从入门到精通》大型专题的第三章第三节,主要介绍如何在MapReduce中使用SequenceFile数据格式。我们在上一篇文章中提到了许多可与MapReduce大数据处理匹配的数据格式,本节将首先介绍SequenceFile数据格式。(往期文章可查看文末)

    赵钰莹 Hadoop 206 2018-09-19 16:09
  • MapReuce中对大数据处理最合适的数据格式是什么?

    在本章的第一章节介绍中,我们简单了解了Mapreduce数据序列化的概念,以及其对于XML和JSON并不友好。本节作为《Hadoop从入门到精通》大型专题的第三章第二节将教大家如何在Mapreduce中使用XML和JSON两大常见格式,并分析比较最适合Mapreduce大数据处理的数据格式。(本专题的其他章节阅读详见文末链接)3.2.1 XML XML自1998年诞生以来就作为一种数据格

    赵钰莹 Hadoop 1113 2018-09-17 17:07
  • Hanlp自然语言处理工具的使用演练

    Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点;提供词法分析(中文分词、磁性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

    adnb34g Hadoop 116 2018-09-19 11:36
  • hadoop不同版本有哪些

    假如说你有一个篮子水果,你想知道苹果和梨的数量是多少,那么只要一个一个数就可以知道有多少了。如果你有一个集装箱水果,这时候就需要很多人同时帮你数了,这相当于多进程或多线程。如果你很多个集装箱的水果,这时就需要分布式计算了,也就是Hadoop。

    adnb34g Hadoop 270 2018-09-18 10:53
  • hadoop商业版本选择对比

    当前hadoop的发行版本除了Apache的开元版本之外,华为发行版、Intel发行版以及Cloudera发行版等。上面说的这几个第三方的发行版已经有相对较长的一些时间,除此之外还有最近几年异军突起的DKhadoop商业发行版。

    adnb34g Hadoop 137 2018-09-14 16:29
  • MapReduce数据序列化读写概念浅析!

    MapReduce为处理简单数据格式(如日志文件)提供了简明的文档支持,但MapReduce已经从日志文件发展到更复杂的数据序列化格式(如文本,XML和JSON)处理,本章的目标是记录如何使用常见的数据序列化格式,以及检查更结构化的序列化格式,并比较它们与MapReduce的适用性。

    赵钰莹 Hadoop 942 2018-09-13 17:52
  • Hadoop生态系统各组件与Yarn的兼容性如何?

    作为Hadoop 2.0中出现的资源管理系统,Yarn总体上仍然是master/slave结构,在整个资源管理框架中,resourcemanager为master,nodemanager是slave。作为Hadoop生态系统的一部分,Yarn要想获得市场认可,必须学会与Hadoop生他系统中其他组件兼容。本文作为《Hadoop从入门到精通》大型专题的第二章第三节,主要介绍了Yarn如何与Hadoop生态系统中其他组件配合。

    赵钰莹 Hadoop 857 2018-09-11 15:40
  • 如何在Ubuntu-16.04上配置Apache Kafka集群!

    Apache Kafka是一个免费的开源流处理软件平台,由Apache软件基金会用Scala编写。它是一种分布式消息代理,专门用于有效处理大量实时信息。与其他消息代理系统(如ActiveMQ和RabbitMQ)相比,Apache Kafka具有更高的吞吐量。Apache Kafka基于提交日志,允许用户订阅并将数据发布到任意数量的系统或实时应用程序。

    赵钰莹 Hadoop 974 2018-09-11 15:40
  • hadoop发行版本之间的区别

    Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop的发行版除了有Apache hadoop外cloudera,hortonworks,mapR,华为,DKhadoop等都提供了自己的商业版本。商业发行版主要是提供了更为专业的技术支持,这对于大型企业更为重要,不同发行版都有自己的一些特点,本文就各发行版做简单对比介绍。

    adnb34g Hadoop 302 2018-09-11 10:56
  • 大数据系统框架中hadoop服务角色介绍

    翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在写DKHadoop运行环境部署的时候,遗漏了hadoop服务角色的内容,本篇特地补上这部分内容吧,不然总觉得不舒服。

    adnb34g Hadoop 381 2018-09-11 08:53
  • azkaban的安装和使用

    azkaban的安装和使用

    hgs19921112 Hadoop 267 2018-09-09 22:32
  • 学习hadoop需要什么基础?

    “学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难!

    adnb34g Hadoop 227 2018-09-07 15:50
  • MapReduce如何作为Yarn应用程序运行?

    本文作为《Hadoop从入门到精通》第二章的第二节,主要介绍Yarn出现之后,MapReduce体系架构发生的改变、其在Hadoop集群中的运行原理、如何配置以保证MapReduce可以作为Yarn之上的应用程序工作并保持向后兼容性等内容。

    赵钰莹 Hadoop 914 2018-09-06 21:28
  • 伍翀 :大数据实时计算Flink SQL解密

    SQL是数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。大数据批计算使用SQL很常见,但是支持SQL的实时计算并不多。Apache Flink是一款同时支持批和流计算的引擎,Flink SQL的实现完全遵循ANSI SQL标准,这是它和其他流处理框架(例如Kafka和Spark)在DSL上的一个重要的不同。阿里巴巴是Flink SQL最大的贡献者,Flink开源社区的一半以上的SQL功能都是阿里工程师开发的。

    赵钰莹 Hadoop 1089 2018-09-06 14:56
  • 年中大惠,阿里云多款安全产品7月发布价格调整,请悉知

    近段时间以来,网络数据安全事件频繁爆发,不少企业发生了用户数据泄露问题,这让人们开始对网络安全越发的关注。阿里云多款安全产品自7月起实行价格调整,通过病毒云查杀、数据外泄检测等功能,帮助用户扩大安全可见性,减少网络安全事件的发生。究竟有哪些安全产品价格调整了,快和小编看一看吧。态势感知全量日志按资产维度计费产品介绍全SaaS化的日志检索平台,免安装免维护,即开即用;支持逻辑(布尔表达式)检索,支持

    代码派就是我 Hadoop 249 2018-09-06 10:33
  • 学习Hadoop生态第一步:Yarn基本原理和资源调度解析!

    作为《Hadoop从入门到精通》专题的第二章,本章主要介绍如何从命令行开始使用Yarn以及如何解决使用过程中可能遇到的问题。一旦你开始了解Yarn,你就会发现MapReduce如何被重写为YARN应用程序(MapReduce 2或MRv2),并了解MapReduce的体系结构更改。

    赵钰莹 Hadoop 1062 2018-09-05 17:01
  • 第一章:Hadoop生态系统及运行MapReduce任务介绍!

    我们生活在大数据时代,日常工作需要处理的数据量超出了单个主机的存储和处理能力。大数据带来了两大基本挑战:存储和处理大量数据以及理解数据并将其转化为竞争优势。

    赵钰莹 Hadoop 1112 2018-09-04 17:29
  • hadoop的一些知识点 配置步骤

    hadoop的一些知识点 配置步骤

    hgs19921112 Hadoop 332 2018-09-03 19:37
  • hadoop 通过cachefile来避免数据倾斜

    hadoop 通过cachefile来避免数据倾斜

    hgs19921112 Hadoop 339 2018-09-03 09:24
  • hadoop mapreducez自定义分区

    hadoop mapreducez自定义分区

    hgs19921112 Hadoop 340 2018-09-03 09:06
点击加载更多下一页

成为大咖

联系我们
itpub
help@itpub.net
18603471036
扫描二维码联系客服
关于 广告服务 使用条款
京ICP备16024965号
经营性网站备案信息
网络110报警服务
中国互联网举报中心
北京互联网违法和不良信息举报中心