大数据时代的统计学使用

数据量的爆发式增长和硬件存储技术的发展让大量数据成为了潜力无穷的财富,各行各业的人都开始说自己在搞大数据。计算机科学,信息技术,应用数学,计算数学,运筹学,工业工程,电子工程,连政治领域都有人开始拿大数据做文章,只要想拿经费,都声称自己在做大数据。可又似乎唯独听不到统计的声音。

google上"big data"的搜索热度趋势:

"statistics"一词的搜索热度趋势:

大数据时代的到来似乎反而让统计变得边缘化。

但是必须在开头就阐释清楚:大数据并意味着全面,准确和真实。
统计对大数据的生命力和应用价值都有着至关重要的作用。

很多人支持这样一种观点:数据中包含了所有的意义,不需要什么理论。更有甚者把value作为大数据3V定义之后的第四个V ,大数据就意味着价值,是吗?

我们似乎忘了,数据≠信息/知识。大数据很大,这通常是因为它是自动收集的,这也意味着很多的噪声信息。这有时候就被称作DRIP---Data Rich Information Poor 。打个简单的比方,把大数据比作一座煤矿,如果它自身已经包含了全部的价值,那也就不需要统计学家做什么事儿了,不用挖掘直接拿过来就是了。好像只要计算能力足够强大,一种潜在的模式就会显现。还有人说数据量的增加使得显著性在任何时候都很强,p value之类的检验方法已经死亡,这实际上是对统计明显的误解 。大数据不能代表统计的思维,相对于一种“算法倾向”的方法,一种“科学倾向”的方法在处理大数据时往往更加重要。

Google流感病毒预测是大数据应用的标志之一,搜索记录和流感感染的相关性是该模型得以成功的关键。但这些数据模型的成功应用离不开统计思维的支撑。统计学家会告诉你相关性替代不了因果关系,如果你不知道相关关系如何产生,也就不知道它何时会消失。

Data have no meaning in themselves;they are meaningful only in relation to a conceptual model of the phenomenon to be studied. ---George Box

统计学家太习惯处理结构良好的数据,需要对传统的统计方法和研究方向作出调整,以下列出一些方向仅作抛砖:

  • 构造并解决“未定义”的问题。 统计学家往往很喜欢结构良好的数据和明确的统计问题,大数据带来了许多机会,但这些似乎都不在“传统的标准的”统计学框架中,统计学家需要花费力气把未知问题转化为可用统计方法方便处理的问题。
  • 分析不同结构的数据。绝大部分现有的统计方法都局限在处理数字数据上,尽管现在已经有人在做函数数据或者文本数据,但还需要更多启发性的思考。
  • 描述性统计的统计。这可能有些不太好理解,当处理大量问题时,很有可能会有很多的统计结果在其中,如何从中抽取有用的信息?比如当有数以千计的相关关系时,当有数以千计的方差分析时。从这些统计结果种提取我们想要的足够多的信息。
  • 大多数还是极少数。这两个方面都会有重要的应用,需要有对这两个方面的特征获取和模式识别的基本方法。

这是统计的黄金时代,却不一定是统计学家的。 Data science是一门纷杂的学科,大数据相比小样本就像是摩天大楼对比小平房,能将十个人装进平房,也能将更多的人装进摩天大楼。同样的,一座大楼的坍塌带来的灾难比平房损毁要严重的多。 作为统计专业的学生,希望统计能够帮助甚至领导其它学科创造前沿的有用的方法,迎接这个数据时代。

谈到机器学习算法,那已经是统计的东西了。如果你用Naive Bayes,那便是统计学。还有MaxEnt、HMM、MCMC等,又或graphical model,本身都是统计学方法,更明确点说是用概率论的统计学,你要懂各种分佈,要懂Bayes’ rule、MLE,否则便无法明白箇中含义而变成number crunching了。还有一些抽样方法,如Gibbs sampling、metropolis algorithm等,都是统计学的东西。有一些其他算法如neural network、SVM等,本身不是统计,但你在收集结果分析时,你便要统计一下,算一算precision、recall等。

太多东西要学了,不是统计学背景的我每天都在赶路似的。

当然还有一些传统的统计学如t-test、chi-square test、ANOVA(我真的不太懂这些),在大数据中可能用得不多(如果你用得多,请扬声,我站在自己的情况说的了),但这些在科学研究上还用得上,因为这些东西可使我们在抽样数据不多的情况下用以检验模型。这可理解,因为一个图上的一点,在实验上可能是花了九牛二虎之力(和以天文数字计的金钱)才可得出的,那一点可能代表真实世界上的其他大量的点总合起来。在上一世纪,即使有大量数据,我们无电脑辅助处理。但这在大数据的情况下,点太多了,而电脑也有能力处理这些数据,问题反而是我们如何取得有用的资料。所以,问题不是统计学有用或无用,而是我们需要统计学中的范筹可能跟传统的不同了。

在现代,没有任何学科是独立成科的,很多工作和研究都是跨专业的(inter-disciplinary),谈到大数据,这已经是一个跨专业的领域,包括了计算机科学、统计学、数学、语理学,而你所在行业的不同也使你有不同类型的知识。我是唸物理的,但同事中有唸化学、数学、运筹学、商业管理、气象、影像处理等。由于各专业对统计的看法都不一样,所以大家的看法不一样,甚至大家说统计有用或无用之类的可能还跟大家心目中统计学的定义之差异甚大关係。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: