ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 数据挖掘和分析-专业网站的出路和选择

数据挖掘和分析-专业网站的出路和选择

原创 Linux操作系统 作者:oracle_8i 时间:2010-12-17 11:52:57 0 删除 编辑
    OOW大会刚刚落下帷幕,最后给我安排的一场沟通会是淘宝“淘宝构建20节点的RAC系统”的案例访谈,没想到沟通的嘉宾是我早就认识的海元(ningoo).

      淘宝于2004年开始基于Oracle产品构建企业级数据仓库(EDW),最初的数据仓库解决方案在单一服务器上运行,由于这种架构无法提供所需的灵活性和稳定性,淘宝于2007年部署了4节点的Oracle RAC 10g的数据仓库环境,并于2008年将4节点的Oracle RAC 10g的数据仓库环境扩展为12节点,同时另外部署了一个4节点的基于Oracle RAC 11g的数据库集群,用于运行部分数据仓库。2009年,淘宝将12节点Oracle RAC 10g的数据仓库环境扩展为20个节点,组成了规模上全球领先的基于Oracle RAC的数据库集群。淘宝基于Oracle RAC的数据仓库环境全部运行在基于Linux
的普通服务器之上,每天的数据处理量近30TB。

    实施数据仓库和数据挖掘带来的主要效益:
   1 利用Oracle RAC 的跨节点并行计算的技术支持海量数据处理,实现了数据仓库的动态业务查询与分析 计算能力和节点数按线性比例增加,从容应对业务需求快速变化和数据爆炸式增长的挑战;

2 每天处理几亿次的用户行为,日处理的数据量接近30T, 同时每天出具400 张左
右的报表,近500 个ETL 任务能够在每天0:30-9:00 之间全部准时完成,保证了数据集市中数据的新鲜度可以到最近的一天.

 3 提供了基于数据仓库的精确分析的个性化推荐、店铺内推荐、精确邮件定向营销以及购物风尚榜等服务项目实现了根据业务的发展和要求合理地扩容,在满足迅速增长的市场分析和预测需求同时保持低成本.

    ningoo谈到,淘宝未来2-3年会逐渐转变成一家数据服务和数据营销的公司,30T的数据将会产生巨大的商业价值,数据将成为淘宝网未来增长的驱动引擎。
来自 “ ITPUB博客 ” ,链接:https://blog.itpub.net/7311285/viewspace-682022/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2007-11-28

  • 博文量
    37
  • 访问量
    125775