运筹学与大数据

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。数据成本的下降助推了数据量的增长,新的数据源和数据采集技术的出现大大增加了数据的类型,数据间复杂的相互联系使大数据的处理变得异常困难。全球信息总量每两年就增长一倍左右,2011年全球被创建和被复制的数据总量有1.8ZB,到2020年全球所管理的数据将达到35ZB,比现在多出50倍。

数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,也改变了科研范式。2012年3月美国政府6个部门宣布启动2亿美元的“大数据研究与发展计划”,使大数据研究上升为国家战略层面。欧盟也有类似的举措,2012年1月截止的预算为5千万欧元的FP7 Call 8专门征集针对大数据的研究项目,并以基础设施为先导。大数据研究已成为科研的热点。数据和信息资源已成为继人力资源和物质资源以外的第三大资源。数据资源的开发和利用将是未来社会和经济发展的主要手段之一。

国际著名的统计软件公司SAS估计,2011年需要使用大量算法的“大数据”分析,为英国经济贡献了251亿英镑,预计到2017年,随着越来越多的公司采用大数据技术,该贡献将达到每年407亿英镑。预计将在今后6年内创造58,000个额外的新职位。据国际著名会计事务所德勤估计,2010年著名脸谱社交平台的广泛影响价值对英国增加值总额的贡献超过20亿欧元。

2012年5月22~24日, 主题为“网络数据科学与工程——一门新兴的交叉学科?”的香山科学会议第424次学术讨论会在北京召开。与会专家认为目前大数据的工程技术研究已走在科学研究的前面,科研人员首先要虚心与各应用领域的科研人员合作,努力解决各领域大数据处理提出的技术挑战问题。这些挑战包括:高效处理非结构化和半结构化数据;合适的数据表示方法;寻找高扩展性的数据分析技术;数据的去冗余和高效率低成本的数据存储;大幅度降低数据处理、存储和通信的能耗;构建融合人、机、物三元世界的大数据系统等。现有计算机系统不能满足大数据的需求,需要对整个IT架构进行革命性的重构。

许多学者甚至认为数据科学要把数据当成自然体来研究,应把计算机科学划归为自然科学。脱离各个领域“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题目前还不清楚。网络空间中的数据背后是数据关系网络,数据网络背后是人。研究数据网络实际上是研究人组成的社会网络。网络数据科学应发现网络数据(信息)产生与传播的规律、网络信息涌现的内在机制以及与其相关的社会学、心理学、经济学和信息科学的机理,利用这些机理研究互联网对政治、经济、文化等各方面的影响。

大数据研究被国外一些学者称之为科研“第四范式”,旨在强调不需要事先给出假设和模型,可以直接从数据的相互关系中求解问题,甚至认为大数据研究方法是“理论的终结”。数据量的增加是否会引起科研模式本质性的改变,相互关系是否比因果关系更能反映事物的本质,还需要更多的科研实践来验证。

大数据往往以复杂关联的数据网络这样一种独特的形式存在,因此要理解大数据就要对大数据后面的网络进行深入分析。从大数据上获得知识需要工程方法,譬如:抽象、分割、学习与泛化等,数据分析的基本方法就是由粗到精、逐层抽象。另外,还要放松对目标的约束,从而使问题变得可解。总体而言,大数据不仅是科学还是工程,依赖于具体的应用。大数据科学致力于从大数据中发现新知识,而大数据工程则是应用大数据知识来构建新的事物。
在2013年科技部发布的国家重点基础研究发展计划和重大科学研究计划2014年重要支持方向中,将大数据计算的基础研究列为一项。旨在面向网络信息空间大数据挖掘的需求,结合1-2种重要应用,研究多源异构大数据的表示、度量和语义理解方法,研究建模理论和计算模型,提出能效优化的分布存储和处理的硬件及软件系统架构,分析大数据的复杂性、可计算性与处理效率的关系,为建立大数据的科学体系提供理论依据。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: