ITPub博客

首页 > 大数据 > Hadoop > Mathematica数据可视化:[28]从网页导入数据

Mathematica数据可视化:[28]从网页导入数据

Hadoop 作者:苦行僧999 时间:2013-08-12 09:38:00 0 删除 编辑

收集数据的途径之一就是通过网页, 我们这次来试着获取网页中的部分信息. 数据地址的来源: 维基百科, 鉴于[百度经验]无法给出链接, 请搜索"Nathan's_Hot_Dog_Eating_Contest" . 

方法/步骤

  1. 1

    观察网页中的表格, 刚开始我想尝试用 Import 函数, 将整个网页中冠军信息导入, 但是在整理的非常棘手, 最后用了另一种简便的多方法 ImportString[...., "Table","FieldSeparators" -> { " "," "} ], 见下面的输出结构. 

  2. 2

    查询每一行数据的长度是多少? 会发现所导入的数据并不是一个矩阵. 嗯, 一般来说矩阵是我们最喜欢的格式, 可以方便进行各种切片, 转置操作, 那这样, 我们先进行一个填充的操作, 整理的结果如下图所示: 

  3. 3

    嗯, 现在矩阵的所有命令都可以作用在 data 上, 那我们取出部分的矩阵, 也就是每一年份, 冠军的名字和记录, 仔细观察数据, 还有整理的工作没完. 看看每一行的模式如何, 找出规律. 

  4. 4

    发现了吗? 某些年份并不是 Integer 类型, 而是 String , 而某些记录则是乱码. Ok, 下面我们定义两个小函数 toYear 和 toRecord 来处理这两者情况, 并分别进行测试. 

  5. 5

    好了, 最后让我们进行一个整理, 这里没有用替换操作, 而是用了 Cases 命令. 

    END

注意事项

  • 搜索一下 "内森杯" 中的常胜冠军: 小林尊, 将会找到一些有趣的信息. 

  • 实际工作中, 数据的格式往往是复杂多变的, 要花费的时间和精力非常多, 但是这些琐碎的任务绝对非常重要, 无法避免. 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22611841/viewspace-1112612/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-09-27