ITPub博客

首页 > 大数据 > Hadoop > 大数据零基础入门需要多长时间?

大数据零基础入门需要多长时间?

原创 Hadoop 作者:xyz蓝月 时间:2019-05-12 17:20:59 0 删除 编辑

很多做其他方向的程序员or工程师对大数据方向很有兴趣,作为从业者我今天捞点干的来聊一聊~

什么是大数据?

大数据单从名字来看,大量的数据,单单从名字来看没有任何技术含量。现在大数据这三个字如此火,不得不说这三个字成为了很好的商业噱头,对于投资人和创业者而言,大数据是个热门的融资标签,各种原由直接成就了现在的大数据盛况,各家企业争先开展大数据业务,大数据人才空前稀缺,人才缺口高大150万。

那对于从业者来说大数据到底是什么呢?狭隘的来说无非就是大量的数据进行清洗处理成规则的数据来进行存储后,再进行系列的计算、建模等最后输出对企业有用的数据/预测来支撑企业的运营。

大数据在企业中都有什么应用?

 大数据平台在企业中扮演的角色是整个公司的数据中枢,最底层的是打通公司所有部门的数据、采集所有有意义的数据、建设统一的数据仓库,基础工作完成后就是建设BI及可视化平台。除此外还有运用数据带来运营的效果,例如大数据风控、大数据推荐、大数据精准运营等等。

我这里截了一张企业正在使用的大数据平台的管理页面的运行截图,最左侧列出的就是企业中常用的基本工具了。


可以看到的组件有:hive、hue、impala、oozie、sqoop、zookeeper等,这些就是组成企业大数据平台最基本的成员了~

转型大数据开发需要掌握的最基本技能有哪些?

1.linux基础和分布式集群的技术 (基础知识:shell)

熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构。这个技能最基础最核心,是大数据开发从业者必备技能。(入门时长:建议3-5天,需简单掌握shell脚本编写。明天赵赵会整理一篇入门Linux的帖子~)

2.离线大数据处理必备技术 (基础知识:java/python/scala都可)

1. 掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发,建议先了解原理,在搭建原生集群来实践,具体搭建方法可以留言获取或等待后续更新哈~(入门时长:建议5天)

2. 掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发,依然是先原理再代码实践(入门时长:根据语言基础而定,有java基础建议5天)

3 .掌握Hive数据仓库工具的工作原理及应用开发,了解清楚数据仓库和普通数据库的工作原理的不同,熟练使用sql进行开发(入门时长:根据sql基础而定)

3.实时计算阶段的技术 (基础知识:java/python/scala都可)

现在主流的实时计算开源框架有strom和sparkstreaming,新手建议学习strom+kafka。需要掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用。具备开发基于storm实时计算程序的技术能力。(入门时长:有语言基础建议10天)

以上是大数据开发最最基础的技术,也是企业大数据实战应用最多的~

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69903766/viewspace-2644075/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-12-25

  • 博文量
    51
  • 访问量
    64031