ITPub博客

关于 “Hadoop” 的内容如下:

  • 基于Hadoop生态系统的一种高性能数据存储格式CarbonData(性能篇)

    CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。?

    赵钰莹 Hadoop 2408 2018-07-09 19:36:04
  • HBase高性能随机查询之道 – HFile原理解析

    ?在各色数据库系统百花齐放的今天,能让大家铭记的,往往是一个数据库所能带给大家的差异化能力。正如梁宁老师的产品思维课程中所讲到的,这是一个数据库系统所能带给产品使用者的"确定性"。

    赵钰莹 Hadoop 4013 2018-07-04 18:11:57
  • CTO视角解读:国外企业选择Hadoop时到底在犹豫什么?

    随着“Hadoop是否已失宠”的选题调研进程过半,国内外企业以及厂商的观点确实存在很大分歧,有人认为是国外Hadoop厂商所提供的服务以及架构不如国内厂商完善,也有观点表明国外大部分企业的数据量根本达不到使用Hadoop的层级,因此对Hadoop比较冷漠。那么,事实到底是什么样的呢?

    赵钰莹 Hadoop 1897 2018-06-20 17:58:11
  • 技术解读:Hadoop、PostgreSQL与Storm正面比拼报告!

    在“Hadoop是否已失宠?”的选题调研中,笔者调查了银行、Hadoop发行商、Hadoop企业用户以及部分工程师的意见,所处环境、业务需求以及看问题角度的不同让这些组织或个人有着不同的意见。如果你的数据量和增长速度还未达到使用Hadoop的级别,你一定会认为Hadoop是十分不明智的选择;相反,当你已经从Hadoop生态受益良久时,你一定会认为这是大数据时代最佳解决方案之一,比如那些从PostgreSQL迁移至Hadoop的企业。

    赵钰莹 Hadoop 2348 2018-06-15 17:37:05
  • 苏宁易购:Hadoop失宠前提是出现更优秀的替代品!

    在笔者持续调研国内Hadoop生态系统生存现状的同时,KDnuggets发布的2018年数据科学和机器学习工具调查报告再次将“Hadoop失宠”言论复活。报告一出,“Hadoop被抛弃”几个字瞬时成为各大标题党的最爱,充斥在不同的新闻平台。这些报告和数据是否足以动摇Hadoop在国内大数据领域的事实标准地位?本身并不擅长处理OLAP计算和ms级延迟要求的流计算,这是否会成为企业弃用Hadoop的重要原因?对于繁多的组件和搭配,企业倾向于哪种组合方式呢?

    赵钰莹 Hadoop 4750 2018-06-13 16:43:03
  • 一条数据HBase之旅,简明HBase入门教程开篇

     这是HBase入门系列的第1篇文章,介绍HBase的数据模型、适用场景、集群关键角色、建表流程以及所涉及的HBase基础概念,本文内容基于HBase 2.0 beta2版本。本文既适用于HBase新手,也适用于已有一定经验的HBase开发人员。

    赵钰莹 Hadoop 4243 2018-06-12 18:08:24
  • 大数据分析系统Hadoop的13个开源工具!

    Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理,在要求实时性的场景下毫无用武之地。

    赵钰莹 Hadoop 3340 2018-06-08 09:01:00
  • 面对国产基础软件困境,进击的星环如何突围?

    5月3日,星环科技在上海举办了2018第二届前沿科技论坛暨星环用户大会,在此次大会上,星环宣布了众多的重磅消息:发布最新的系列产品、星环TDH平台通过TPC-DS基准测试、与新加坡人工智能核心项目签署了战略合作协议……

    tianxiaoxu Hadoop 3031 2018-06-06 17:27:17
  • 刘博宇:Druid在滴滴应用实践及平台化建设

    Druid是一款支持数据实时写入、低延时、高性能的OLAP引擎,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有特定的应用场景,是大数据基础架构建设中重要的一环。Druid在滴滴承接了包括实时报表、监控、数据分析、大盘展示等应用场景的大量业务,作为大数据基础设施服务于公司多条业务线。本次演讲我们将介绍Druid的核心特性与原理,以及在滴滴内部大规模使用中积累的经验。

    赵钰莹 Hadoop 3755 2018-06-06 10:09:12
  • 深度:Hadoop对Spark五大维度正面比拼报告!

    每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你?

    赵钰莹 Hadoop 2792 2018-06-06 10:07:46
  • hdfs默认数据存放路径详解

    hdfs默认数据存放路径详解

    computer19810 Hadoop 7 2018-07-21 01:19:09
  • Hadoop :

    Hadoop fs -put

    computer19810 Hadoop 7 2018-07-21 01:07:24
  • 123

    123123

    vcdtwo Hadoop 29 2018-07-20 09:45:42
  • YARN的Memory和CPU调优配置详解

    YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。内存配置YARN以及MAPREDUCE所有可用的内存资源应该要除去系统运行需要的以及其他的hadoop的一些程序,总共保留的内存...

    烙痕 Hadoop 169 2018-07-09 02:12:04
  • sqoop条件抽取报错distcp

    sqoop hadoop-distcp

    longer3281 Hadoop 165 2018-07-06 16:28:20
  • Hive 自定义函数(UDF)二 将自定义函数注册到hive源码中,并重新编译hive

    hive版本:    hive-1.1.0-cdh5.7.01 编写UDF函数    1.1 用户idea+maven创建项目,pom.xml文件的配置如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http...

    hz_ganwei Hadoop 167 2018-07-05 18:23:56
  • Linux常用命令补充

    1.找命令或者shell脚本[root@hadoop000 ~]# which java/usr/bin/java[root@hadoop000 ~]# locate java2.vi命令行模式:shift +$ 行尾尾行模式:      :/内容  n向下 N向上    行号    :set nu       显示行号&...

    烙痕 Hadoop 0 2018-06-30 17:02:17
  • Hive 自定义函数(UDF)一

    1 先创建函数类文件       1.1  使用IDEA创建maven项目,创建HelloUDF类        1.2  运行HelloUDF类,测试是否成功    1.3  将HelloUDF类打成jar包。2 创建函数    2.1  创建临时函数    &nbs...

    hz_ganwei Hadoop 1 2018-06-29 17:42:09
  • 【Hadoop】pyhton链接hive

    使用最好的模块pip install saslpip install thriftpip install thrift-saslpip install PyHive[root@ip-172-31-40-242 ~]# more testpyhive.py from pyhive import hiveconn = hive.Connection(host='xxxxxxx', port=10000, database='col...

    小亮520cl Hadoop 11 2018-06-27 21:38:58
  • 【Hadoop】Hive将txt、csv等文本文件导入hive表

    原文地址:https://blog.csdn.net/A632189007/article/details/76077648

    小亮520cl Hadoop 1 2018-06-27 20:38:52
  • MySQL常规使用

    1.数据库主要部分:tables    tableview存储过程 函数索引2.创建一个ruozedb数据库和用户:用户对这个DB有所有权限;create database ruozedb;grant all privileges on ruozedb.* to ruoze@'192.168.137.252' identified by '123456';grant all privileges on ruozedb.* to ruoze@'192...

    烙痕 Hadoop 0 2018-06-27 13:15:39
  • MySQL部署

    https://github.com/Hackeruncle/MySQL/blob/master/MySQL%205.6.23%20Install.txt1.Download [root@ruozehadoop000 ~]# cd /usr/local#选择win7的mysql软件包[root@ruozehadoop000 local]# rz 导入2.Check isnot install[root@ruozehadoop000 local]# ps -ef|grep mysqldroot    &nb...

    烙痕 Hadoop 0 2018-06-27 12:45:24
  • Linux常用命令三

    1.权限读 r  4写 w  2执行 x  1无权限 --rw-r--r--drwxr-xr-x第一个字符 -:代表是文件  d:代表是文件夹rwxr-xr-x: 三组  rwx: 第一组  7(4+2+1)   代表root用户对这个文件或文件夹的权限   r-x: 第二组  5 (4+1)  代表root用户组对这个文件或文件...

    烙痕 Hadoop 0 2018-06-25 18:14:23
  • Linux常用命令二

    1.创建文件夹mkdir file0  创建1个文件夹mkdir file1 file2 file3   同时创建多个同级文件夹mddir -p file1/file2/file3  创建级联文件夹   2.创建文件vi Lynn.log  可自行选择创建空或不空的文件touch Lynn0.log  创建空文件echo "" > ruoze.log      &...

    烙痕 Hadoop 2 2018-06-23 22:31:46
  • 配置固定IP和外网

    1.关闭电脑防火墙和杀毒软件。2.关闭CentOS虚拟机的防火墙service iptables stop3.开启共享网络    3.1 进cmd , ipconfig查看DNS,VM8  3.2配置VM8网卡  3.3进虚拟机配置网卡  3.4虚拟机中编辑文件ifcfg-eth0配置环境变量...

    烙痕 Hadoop 0 2018-06-23 21:17:30
  • Linux常用命令一

    1.Linux常用命令vi命令 用于编辑文件用CRT / Xshell 软件 连接虚拟机,以方便操作pwd命令 可查看当前目录ls 查看   -l  权限信息 用户和用户组  时间   等价于 ll   -a  隐藏文件/文件夹 是以.开头 .xxx   alias命令 起别名 可简化命令语句临...

    烙痕 Hadoop 1 2018-06-22 16:16:17
  • CentOS部署

    1.CentOS部署2.CentOS hostname修改 分为永久修改以及临时修改3.配置CentOS虚拟机的固定ip和访问外网

    烙痕 Hadoop 0 2018-06-22 16:06:53
  • Hive内部函数之聚合函数和分组函数

    1. 常用的聚合函数:       max        最大值       min         最小值       count      总数       sum        和  &nb...

    hz_ganwei Hadoop 3 2018-06-21 15:31:40
点击加载更多

成为大咖

联系我们
itpub
help@itpub.net
010-59127154
扫描二维码联系客服
关于 广告服务 使用条款
京ICP备16024965号
经营性网站备案信息
网络110报警服务
中国互联网举报中心
北京互联网违法和不良信息举报中心