ITPub博客

首页 > 大数据 > 数据分析 > 大数据面试常见的面试题总结

大数据面试常见的面试题总结

数据分析 作者:chenfeng 时间:2018-04-13 13:16:42 0 删除 编辑
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。


2、在处理大数据过程中,如何保证得到期望值?


3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?


4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?


5、你最喜欢的编程语言是什么?为什么?


6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?


7、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?


8、Spark和Hive的区别,以及Spark和Hive的数据倾斜调优问题?


9、Hive和Hbase的区别?


10、MapReduce的思想,以及MapReduce调优问题?


11、你所了解的开源网站?


12、有两个集群,每个集群有3个节点,使用hive分析相同的数据,sql语句完全一样,一个集群的分析结果比另外一个慢的多,给出造成这种现象的可能原因?


13、Hbase的优化?


14、集群的版本,以及集群的瓶颈问题?


15、CRM项目,怎么跟Spark结合?


16、如何创建一个关键字分类?


17、海量日志数据,提取出某日访问百度次数最多的那个IP?


18、Hadoop和Spark处理数据时,出现内存溢出的处理方法?


19、有一个1G大小的一个文件,里面每一是一个词,词的大小不超过16字节,内存大小限制大小1M,返回频率最高的50个词。


20、你是如何处理缺少数据的?你是推荐使用什么样的处理技术,或者说你是用什么样的技术处理呢?


. . . . .

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/15498/viewspace-2152894/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
交流MySQL,MongoDB和Redis技术。 微信或QQ:410294

注册时间:2015-12-07

  • 博文量
    748
  • 访问量
    1767508