从政治算术到大数据分析

一对大数据的再认识大数据概念之所以在近两年被正式提出并迅速产生全球性的影响,显然有其时代特征,关键点就在于基于现代信息技术的信息记录与储存能力的极大突破、以及各类电子化信息的膨胀式增长。一定程度上看,大数据并不是一个严格的概念,而是一个比喻式的称呼。我曾在“大数据与统计新思维”一文中提出对大数据的初步认识,并基于统计学视角给出了这样一个定义:大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。这一表述还比较笼统,有必要对大数据进行再认识。如何理解大数据的“大”一是“全体”的意思,即大数据就是一定条件下的全体数据,并且数据量必须达到一定的规模。二是“可扩充”的意思,即大数据就是可以不断扩充容量的数据,任何数据一旦发生就可以被记录、被吸收、被储存,理解这一点非常重要。三是“有待挖掘”的意思,即大数据就是有待挖掘的数据。如何理解大数据的“数据”大数据的“数据”除了容量大、多样性、变化快和复杂性的特征外,还具有电子化储存、既可分散也可集中、相互交错等这样一些特性。基于数据的分类,数据储存与管理的工具——数据库也有两种类型:关系型数据库和非关系型数据库,前者需要事先设计一个逻辑型数据库模式,后者则是动态变化模式,用传统的数据库技术无法解决。大数据的特征与价值体现在容量可扩充、类型可多样、动态可积累这三个维度上。当然,在特定的背景下,可以对大数据进行特别的定义或界定。大数据是不是好数据l首先大数据不会自动产生好的分析结果,不会自动把隐藏其中的秘密呈现出来,如果数据不完整、取舍不当或遭受破坏,那么就会产生错误的结论。l其次,大数据是动态的,具有阶段性特征,同样的关联词在不同时段可能具有不同的含义,围绕关联词的话题会随着时间的推移而发生某些变化,从而导致有偏的结论。l第三,我们所关心的研究主题,可能会受到大量没有实际意义、实际内容甚至虚假信息的干扰,大数据变成了大迷惑,甚至变成了大错误。l第四,大数据中有很多小数据问题,这些问题并不会随着数据的增加而消失,反而可能更严重。可见,大数据未必就是好数据,它只是一个工具,既要充分利用又不能过分依赖。二、数据的变化与统计分析方法的发展(一)数据的变化回顾历史可以发现,数据的变化与统计分析方法的发展呈现高度吻合的关系。有一种观点认为,数据的变化过程可以分为三大阶段:数据的产生、科学数据的形成和大数据的诞生。数据产生之初,其根本的功能就是体现事物或现象的量的大小或多少,便于计数与比较,数据大多自然获得、被动利用;科学数据以研究与管理为目的,一般是主动获得、主动利用;而大数据的特征则是丰富的数据资源与主动获得数据相结合,是数据类型的多样化。当然,数据的演变是一个渐进的过程,它不是简单地以一种形式代替另一种形式,而是一个由简单到复杂的各种形式相互包容、不断丰富的过程。(二)统计分析方法的发展如果说数据是表现事物现象特征的精确语言、认知世界的重要工具、治理国家的必备依据和科学研究的必备条件,那么数据分析则是让数据充分说话、最大限度发挥功能、有效满足不同需要的根本要求。在科学数据研究基础上形成的具有通用性质的方法,就是统计方法。统计研究对象的数据大体上经历了这样一个过程:只能收集到少量的数据—尽量多地收集数据—科学利用样本数据—综合利用各类数据—选择使用大数据统计分析大体上经历了计数分析、简单运算分析、分布特征分析、估计推算分析、动态预测分析、评价判定分析、关联关系分析、系统平衡分析、数据挖掘分析等阶段(当然,它们之间存在着相互交叉的关系),相应地产生了不同的统计分析方法,包括大量观察法、统计分组法、综合指标法、归纳推断法、模型方程法和数据挖掘法等,并且对计算机和软件的利用程度也越来越深。统计分析方法是在对各种类型数据进行科学研究的基础上产生的,并在研究与应用过程中不断更新对数据的认识、提出新的数据诉求。所以,大数据分析实际上可以理解为两个过程,一是把数据由大变小的过程,比喻为物理过程;二是从处理过的大数据中提取价值的过程,比喻为化学过程。同时我们应该认识到,大数据不等于能提供所有所需的数据,可会呈现出“一方面数据很丰富、但另一方面信息又很匮乏”的现象,这就迫使人们对数据分析产生强烈的需求催生新的统计分析方法。三统计学的新发展——大数据分析如果说统计学在产生之初发挥了其客观描述现象数量特征的功能,并在长达几百年的科学研究、国家治理和生产管理过程中体现了其在探求现象规律(尤其是因果规律)方面的独特作用,那么如今在新的数据环境下则需在挖掘发现信息知识方面展现出其新的魅力,这就是统计学的新发展——大数据分析。(一)大数据分析是数据科学赋予统计学的新大数据分析的目的就是要通过对历史数据的分析和挖掘,科学总结与发现其中蕴藏的规律和模式,并结合源源不断的动态流式数据去预测事物未来的发展趋势。如果说大数据要求我们改变数据思维、重视数据资产、实现数据价值(数据变现),那么统计学的任务就是通过大数据分析来帮助实现这个目的。数据科学的产生将在不同学科领域催生一批新的研究方向。然而,数据科学的重点是数据的处理技术问题还是数据分析问题?如果说主要是数据处理技术问题,那么它无疑属于计算机科学的范畴,如果说主要是数据分析问题,那么应该主要属于统计学的范畴。我们认为,数据科学既是数据处理问题也是数据分析问题,因此既与计算机科学有关,也与统计学有关,还与数学、逻辑学、系统科学、行为科学等有关,但以数据为研究对象的统计学无疑与之具有最为紧密的关系。统计学业已形成的一些思想与方法在大数据分析中仍有用武之地,例如数据挖掘中的搜索、比较、聚类、分类等归纳分析法都继承了统计学的基本方法论。(二)大数据分析面临的挑战大数据分析显然是一种崭新的挑战。挑战来自于大数据的复杂性、不确定性和涌现性三个方面。复杂性是大数据区别于传统数据的根本所在,它主要表现为类型复杂性、结构复杂性和内在模式复杂性三个方面,从而使得大数据的存储与分析产生多方面的困难。网络大数据通常是高维的,以往的统计学习方法往往难以产生令人满意的效果。大数据的不确定性。数据的不确定性既包括原始数据的不准确,也包括数据处理过程中由各种因素所造成的在不同维度、不同尺度上的不确定性。大数据的不确定性必然带来数据处理与分析模型的不确定性,但要解决这一点非常困难,有人提出了“可能世界模型”,认为应该在一定的结构规范下刻画出数据的每一种状态,但这同样极其困难,在实际应用中不可能存在这样一种通用的模型结构,只能采取简化的模型。模型的不确定性又必然带来学习的不确定性,使得模型参数的学习很难找到最优解,找到一个局部最优解都很困难,通常只能采用近似的方法来替代。涌现性是网络大数据有别于其他数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。总体而言,尽管近些年与大数据研究密切相关的数据库、数据挖掘、机器学习和智能工程等领域都取得了很大的进展,但由于大数据的复杂性、不确定性和涌现性,使得相关研究成果难以被直接应用于大数据分析研究之中。传统的分析方法不能准确表示网络大数据在异构性、交互性、时效性和突发性等方面的特点,传统的“假设—模型—验证”的统计方法受到了质疑,而从“数据”到“数据”的第四研究范式还没有真正建立,因此亟需一个新的理论体系来指导,建立新的分析模型。(三)大数据分析的突破口首先,要系统了解大数据的基础性问题。开展大数据分析,必须以坚实的基础研究为前提。大数据的基础性问题包括:大数据的内在机理——大数据的演化与传播规律、生命周期,数据科学与社会学、经济学等之间的互动机制,以及大数据的结构与效能的规律性(例如社会经济效应)等等。其次,要深入研究大数据的复杂性规律。与传统数据的复杂性相比,大数据的复杂性有什么不同规律?这是开展大数据分析必须弄清楚的地方,包括数据的时间规律、空间规律和数据本身规律。再复杂的数据也有规律可循。就统计学而言,就是要研究大数据在时空维度上的数据分布、内在结构、动态变化和相关相联的复杂性规律,要对传统的表现多元变量分布规律的方法加以改进,







































金牌月嫂输液真的好吗全面停止输液你
高度关注淋巴瘤早期症状



转载请注明:http://www.xcqg58.com/zytd/1615.html