ITPub博客

首页 > 大数据 > 数据分析 > 数据科学与大数据的科学原理及发展前景

数据科学与大数据的科学原理及发展前景

数据分析 作者:sdddda 时间:2013-10-24 12:11:18 0 删除 编辑

数据科学与大数据的科学原理及发展前景


——香山科学会议第462次学术讨论会综述


 


现实世界中的事物是以数据的形式存储到网络空间(CYBER空间)中,数据被大量生产并储存到网络空间而形成数据资源。因而,需要探索网络空间数据奥秘的理论、方法和技术的一门新兴学科,即数据科学。


数据科学是未来发展方向,大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据是数据科学研究的一个方面,大数据的热潮促进了数据科学的发展。目前,数据科学研究受到越来越多的关注,近年来,有关数据科学的会议、期刊、论坛等也越来越多,世界各国纷纷成立数据科学研究机构,这些研究机构的成立推动了数据科学的快速发展。我国面临的问题不是要不要发展数据科学,而是如何开展数据科学研究工作,使得中国的数据科学研究处于世界领先地位。


201352931日,主题为 数据科学与大数据的科学原理及发展前景”香山科学会议第462次学术讨论会在北京召开。会议聘请中国科学院虚拟经济与数据科学研究中心石勇教授、复旦大学数据科学研究中心朱扬勇教授、伊利诺伊大学芝加哥分校Philips S. Yu教授和中国科学院政策所李建平研究员担任执行主席。来自国内外管理、计算机、数学、经济、生物、社会、法律等领域34个单位的46位专家学者应邀出席了本次会议。


石勇教授和徐宗本教授分别作了会议主题评述报告,会议还组织了11个专题报告。与会专家围绕“数据科学的基本问题、大数据挖掘、大数据环境下管理科学领域相关问题探讨及大数据与经济金融安全”四个中心议题进行了深入探讨。


 


一、数据科学与大数据的现状与展望


石勇教授作了题为“数据科学与大数据的现状与展望”的主题评述报告。他在报告中介绍了大数据的发展现状,提出“大数据”时代已经到来。全球对于大数据的探讨和研究已经开始,20123月,美国奥巴马政府宣布了“大数据研究和发展倡议”,投入两亿美元,要求几大科研机构合力研发大数据核心技术。在国内,中国科学院与复旦大学等国内机构于2007年开始先后成立了数据科学研究中心。20125月香山科学会议第424学术讨论会“网络数据科学与工程 ”、20131月中科院组织的“大数据背景下的计算机和经济发展高层论坛”等对大数据的研讨活动相继进行,希望能够推动大数据产、学、研的发展。


石勇教授探讨了大数据的定义——大数据是通过网络与非网络方式生成的形式多样,难于分析且含有高价值的海量数据集。同时指出大数据具有其明显的四个V特性,在此基础上,给出了大数据区别于传统数据集的两个基本特征:(1)分布式:大数据不一定储存于固定的数据库,而是普遍分布在不同地方的网络空间;(2)复杂性:大数据以半结构化或非结构化数据为主,具有较高的复杂性。


他还指出在大数据的研究过程中,有着许多数据科学相关的重要科学问题和研究过程要遵循的科学原则;探讨数据获取的公理存在性或一般科学定律;探讨封闭式数据存储与开源式数据存储如何影响知识发现的规律;探讨异构数据的不同表现形式之间的逻辑关系;从理论上系统地探讨已有数据挖掘方法的全局解及局部解存在性问题;探讨数据结构与决策结构在知识发现中的一般规律等。最后石勇教授给出了大数据产业的展望,例如将产业决策方式改变为“数据驱动的决策”,把传统的产业上升为数据决策的产业;以“跨行业数据挖掘过程标准”建立新型大数据产业;金融交易、网上交易可能成为第一波大数据产业等。


徐宗本教授作了题为“数据科学与大数据研究的科学问题”的主题评述报告。他提到数据科学和大数据的关系,即大数据是数据科学中很小的一个问题。在当前,为了理清数据科学的热点问题,需要关注大数据,要研究以数据为基础的方法论。他还描述了大数据的基本特征:不能集中存储、难以在可接受时间内分析处理和数据整体呈现高价值。他提到大数据的真正价值在于对国家和社会发展的重要性。此外,从研究机制上看,大数据是多学科交叉的综合性研究。所以,希望大家在发挥本学科优势的基础上,进行深度的合作和交流,促进大数据的研究。最后,他总结了大数据研究的若干科学问题,即高维、重采样、分布式计算、异构数据的信息融合和可视分析问题。


二、 数据科学的科学原理


数据是网络空间(Cyberspace)的唯一存在,而物质是宇宙空间中唯一存在,网络空间的数据呈现出不可控、未知性、多样性、复杂性等自然界的特征,进而给出了数据界(Data nature)的概念,数据界是网络空间的所有数据。在数据界中人类面临的主要问题:在数据时代,数据跨越地理疆界,将会有新的国家形态出现,社会、政治和军事也都产生新的形态。数据界的一些科学问题如:数据界有多大、数据以什么方式增长、数据如何传播、数据的真实性如何判断等。这些问题不是自然科学和社会科学的研究范畴,需要一个研究数据的新科学,称为数据科学。数据科学的定义:研究数据的科学或关于数据的科学,是探索网络空间数据奥秘的理论、方法和技术。数据科学主要有两个内涵:一个研究数据的各种类型、状态、属性,组织形式、变化方式和变化规律,即认识数据、掌握数据;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。数据科学的研究内容包括基础理论研究、数据技术及其应用研究、数据科学的学科体系。当前需要建立新的数据科学学科,并需要对知识结构、课程设置、专业设置等学科体系建设,探讨数据科学与自然科学和社会科学之间的关系,数据科学和计算机科学和信息科学之间的关系等。


三、大数据挖掘


从数据挖掘角度看,不同于传统的数据挖掘方式,即协同过滤和众包。如基于大脑影像大数据,将大脑看成一个复杂的系统,采用不确定性子图挖掘方法区分出患有阿尔兹海默病和儿童多动症的病人。当前,到处都有大数据和大数据分析的挑战,到处都有图和网络,将图挖掘算法为大数据分析的主要形式,如子图挖掘算法在基因序列中的应用等。医学健康数据是大数据时代的一个重要研究领域,医学大数据面临三大挑战:海量医学数据的高效动态存储、海量医学数据的高效计算、大医学数据中的知识发现。大数据对国家信息安全的挑战,目前我国的学术界对信息域和认知域的认识和研究比较多,但是大数据对物理域的威胁和挑战认识不足。应该重视大数据对国家信息安全产业的影响和大数据在信息安全方面需要解决的科学问题的研究。云计算是目前大数据处理采集、存储、分析,支撑大数据的主流方式,大数据具有大价值,并在云计算的演化基础上给出大数据挖掘的主要方法,结合数据挖掘云服务实践两点处理大数据,即选择复杂度低的算法和高效并行的策略。


四、大数据中的科学问题及中国大数据发展战略建议


大数据环境下管理科学领域相关问题,涉及大数据的概念、大数据技术与应用的发展态势以及由此驱动的变革三个方面。大数据环境下出现的管理新课题,如以大数据在中国传统医学研究方面的创新与发展为例,中国学者、相关研究人员及政府工作者能够在大数据时代背景下,抓住机遇,应对挑战,凝炼新的科学问题,积极开展应用基础理论研究,突破关键技术,建设应用示范工程,形成面向大数据的整体解决方案,获得符合中国国情、有国际水平的研究成果。


在大数据时代,政府要有效地组织如金融和新华社等资源建立数据中心、大数据平台等,国家有关部门要更加关注经济金融领域。金融数据间的交叉关联性更容易获得,个体微观层面数据更加丰富,金融决策依据数据类型的增加,数据获取信息成本的降低。但也面临多种挑战,如金融机构的复杂关联和金融决策的复杂信息环境、基于大数据的金融产品与交易策略创新及其风险。未来可能的研究问题包括:复杂信息环境下个体金融决策行为、数据环境下的信用评价和金融欺诈分析、微观金融大数据的涌现建模、大数据视角下的体系性金融风险管理、金融大数据整合及分享机制的建立等。决策是管理的本质,而管理最核心的要素就是信息的收集与传递,决策的精确性来自信息对称程度。而大数据的商业价值主要来自于数据服务变革,应用关联价值挖掘,数据深度描述,社交平台的情绪预测,政府的危机管理等,大数据可以发挥出巨大的价值。


五、会议共识与专家建议


经过深入交流、讨论,与会专家达成如下共识:


1.    从科学层面定义大数据为来源多样、类型多样、大而复杂、具有潜在价值,但难以在期望时间内处理和分析的数据集;通俗地讲,大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。因而要抓住机遇,结合领域知识进行理论研究和应用创新,将大数据上升到国家战略;


2.    数据科学是研究数据的科学或关于数据的科学,是探索网络空间数据奥秘的理论、方法和技术,其作为一种新的科学获得与会专家的认可。当前问题是如何做使得中国的数据科学能够获得世界领先的地位。


3.    当前,发改委、科技部、基金委都有大数据方面的立项,国内研究机构在大数据的研究和应用方面做了大量的工作,积累相当丰富的技术和数据资源,但资源共享相关的政策法规体系还不完善,支持力度有待进一步提高;


4.    当前的数据权益保护的法律法规欠缺仍然是一个大问题。数据的权益,数据的流通交易,数据的认证等需要立法对其界定,从法律制度保障其技术的实现,这样才能保障数据产业成为一新兴产业; 


与会专家就如何推动我国数据科学与大数据的研究,推动数据科学这一新兴学科的发展提出如下建议:


1.  在国家有关部门设立国家层面的数据科学和大数据专家组,组织制定国家科研的数据科学和大数据战略规划;


2.  尽快开展数据科学的基础理论研究,建议国家自然科学基金设立数据科学基础理论课题,因与几乎任何学科交叉,建议设立专项课题研究;


3.  加快数据科学学科建设和人才培养,可先行在计算学科或管理类学科建立二级学科;


4.  建议对数据共享进行分级,如政府部门产生的数据为公共社会资源,可根据其保密程度分级共享;各企业行业内可自发联盟进行有条件数据共享;对于科研数据,也可根据保密程度进行分级共享,对于造福全人类的科研数据建议建立数据共享的激励机制和政策。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23703903/viewspace-1118334/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-04-11