单位信息记录数据
作者简介:
在cpi统计方面,电子商务交易数据、企业数据都是价格统计的新数据源,这些数据量大、更新快,充分利用这些数据有助于减少调查成本,提高指标发布的频次应用大数据进行价格统计的实现途径有3种:一是采用搜索方式收集网上交易价格数据;二是与电子商务企业进行合作,获取交易价格数据;三是建立商场、超市、医院等实行电子计价的采价点向统计部门报送交易记录的制度
从大数据存在的形态看,大数据可分为两类:一类是结构化数据,即可以通过二维表形式反映的数据;另一类是非结构化数据,即不能以二维表的形式来反映的数据,如文本、音频、视频、图片等,需要进行加工整理非结数据库学习资料构化数据占大数据的比重在75%~90%之间
在批发零售业统计中,由于网上电商交易数据的量体非常大,更新速度较快,而且在全社会商品零售贸易中所占比重越来越大因此,充分利用这些信息可以为改善传统的批发零售贸易业统计带来新的思路
行政记录数据是政府部门在行使其行政管理职能过程中,通过审批、注册登记等记录的大量信息数据由于这些数据是各职能部门为自身行政管理需要,通过信息化手段建立开发的信息管理系统,以标准数据库形式存储的,数据类型基本上都是结构化数据此外,行政记录数据的质量相对有保证,连续性较好,政府部门在建立行政记录的过程中能够遵循相关国家标准、行业标准和部门标准等,数据的标准化程度也较高因此,行政记录数据易于被政数据库主要使用那些府统计部门开发应用但是,行政记录数据有时会涉及部门利益,在一些特定情境下,数据有可能受到部门利益的干扰而失真,在使用过程中要特别注意
大数据在政府统计诸多不同专业中都具有可供展望的应用前景,如价格、人口、就业、工业和产出测算等
企业生产经营管理数据
这两个案例表明,包括电子商务交易数据在内的各类大数据将是政府统计新的数据来源,与政府统计传统的调查方式相比,使用大数据的成本更低,计算周期更短,数据质量更高,是未来政府统计发展与变革的重要趋势
姜澍,国家统计局统计科学研究所经济统计研究室副主任,高级统计师
此外,大数据还可以应用在许多其他领域例如,在交通统计中,可以尝试应用物联网技术特别是射频传感器技术,在数据库资料高速公路、铁路、海路、机场及其收费站点分别进行流量统计,并进一步根据不同交通工具所载货物的类型、数量等指标,进行货运量测算再如,利用金融市场的交易数据,以及百度、谷歌等搜索平台中以部分与经济发展相关的重要关键词为基础得到的搜索数据也可以预测经济活动和产出情况
在工业统计中,由于工业统计指标与财务指标联系紧密,部分统计指标可以通过会计数据推算得到因此,合理利用海量的企业数据,特别是财务报表数据进行统计加工整理,既可以减轻企业基层负担,也可以提高统计工作效率和数据质量
自然和资源记录数据
知识产权、海关、出入境管理及资质评定等部门
其他管理记录数据
政府统计中的大数据
近几年,大数据成为风靡一时的全球性话题,数据库特点开启了一轮重大的时代转型,在社会经济生活的各个领域都正在产生深远的影响那么大数据究竟是什么?对政府统计来说,大数据包括哪些数据来源?应用前景如何?这都是政府统计部门当下亟需思考和解答的问题
大数据有何特征
工商、税务、民政和编办等管理部门
看图识大数据
下面两幅图分别是我国和美国利用大数据进行价格统计的案例阿里巴巴基于淘宝网、天猫网、支付宝等网络平台的数据编制了网络零售价格指数(internet shopping price index,简称ispi),该指数体系既包括价格指数系列,又包括实物交易量指数系列,是综合评价国内网络零售交易商品一般价格水平的指标由图1可见,除2009年6月外,在其他几个重要的转折点上,is数据库的历史有哪些pi比cpi均体现了一定的超前性图2中,美国麻省理工学院利用全世界海量网上零售价格计算了“每日网上价格指数(daily online price index)”研究人员每天在网上抓取多于50万条商品价格信息,基本覆盖了所有类别和所有零售商销售的商品平均价格由于价格信息不是用访问数千个实体商店的传统方法获得,因此成本很低而且美国官方公布的居民消费价格数据往往有一周的滞后期,而“每日网上价格指数”每天更新,且月度滞后期只有3天这使得研究人员和政策制定者在官方统计数据发布之前就能够判断价格涨幅形势
互联网每天都产生大量数据信息,如新浪、搜狐网每天有大量用户浏览信息;百度、谷歌等搜索引擎为用户检索出大量需要浏览的内数据库的种类容,并实时记录下关键词的搜索密度互联网信息庞杂,数据量巨大,数据记录易获得,政府统计部门可以利用这些数据进行舆情分析,了解统计的关注点以及辅以统计数据来判断经济形势但是互联网数据也具有不稳定性和非标准化的特点,数据产生随意性较强,所产生的数据也具有不可持续和不稳定的特征
公安、卫生、教育、人力资源和社会保障等部门
商业记录数据
大数据时代下的政府统计
行政记录数据
新闻媒体、广播电台、电视台和出版社等
如果在ppi统计中使用大数据,一方面,可以探索通过搜索方式收集网上相关数据;另一方面,可与相关产业资讯公司进行合作,收集相关行业的价格信息,为ppi统计提供数据评估或印证
大数据的应用前景是广阔的,全面拥抱大数据库的基本概念数据,引领政府统计变革,是当代政府统计工作者肩负的重任,虽然在改革创新的道路上,会遇到多方面的问题,但是只要不断坚定地、持续地向明确的方向和目标前进,我们最终必将建成世界一流的中国政府统计
从数据产生主体的角度来看,政府统计可应用的大数据来源分为行政记录数据、商业记录数据、互联网(包括搜索引擎)数据3大类(见表1)
专业数据库公司,中介咨询机构
百度和谷歌等
搜索引擎数据
国民经济各个行业的企业
商业记录数据是企业对其生产经营管理过程等信息的记录及商业交易数据的记录这些数据具有及时、丰富和多样的优点随着电子商务的不断发展,采用在线管理和进行交易的企业越来越多,使得电商企业的交易价格和商品交易数据的信息数据日益增多,这数据库特点些数据被及时记录在企业数据库中,具有很大的挖掘价值,而且商业记录数据的涉及领域十分广阔,涵盖了国民经济各个行业但是,由于商业记录是不同行业的企业单位根据自身经营活动需要记录产生的数据,其采用的标准也是企业层面的,各种商业记录的元数据、各种分类及数据的计算方法和口径等都没有统一的标准因此,政府统计在应用这部分大数据时,还需要进行标准化处理,转化为具有统一标准的原始数据
数据
姜 澍
媒体数据
电子商务交易数据
大数据的特点可以归纳为“6v”:即数据体量巨大(volume);应用价值巨大(value),大数据对民众消费、企业经营、政府决策、医疗卫生和教育等都具有应用价值和支撑作用;数据类型繁多(variety),当今的数数据库是什么据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等多类型的数据对数据的处理能力提出了更高的要求;处理速度快(velocity),这是大数据区分于传统数据挖掘最显著的特征,对大数据的处理需要采用非传统的技术手段,即对大数据的信息化支持需要引入新的基础架构,消除传统计算和存储的局限;数据获取与发送方式自由灵活(vender);真实准确性(veracity),大数据是一种客观存在,其反映出的的结果是相对准确的,对大数据分析处理后的结果可信度也应该比较高
表1政府统计中的大数据来源分类
互联网(包括搜索引擎)
来源分类
数据信息类型
数据归属
社交网数据
个人信息记录数据
在就业和工资收入统计方面,互联网成为就业数据库优点信息的重要来源之一,谷歌、百度等搜索引擎网站掌握着求职者搜索关键字段的频次等统计数据,数据持续且稳定,并可根据搜索的方位来统计分析全国各省(自治区、直辖市)的求职情况因此,谷歌、百度搜索平台上关于失业、求职的热门关键词的搜索频次可以做为实时指标,来预测预警失业情况而关于工资收入情况,税务部门有各行业、部门、地区人群个人收入所得税缴税的详细行政记录,可以作为收入统计(尤其是高收入统计)的一种辅助数据来源
各网上商城、网店
在人口统计中,公安局、民政局、社保局等网格化精准管理数据库可以为人口普查提供大量信息此外,我国一些发达城区实现了社区的网格化管理,对流动人口能够进行动态的统计监测
信息咨询报告数据
国内各社交数据库资料网站注册的博客、微博、微信、飞信等,国外专门社交网如facebook、twitter等
由于大数据的涉及范围十分广泛,想要认清大数据必须从多个角度进行观察,因为大数据是现象和技术的结合从数据角度看,大数据具有多源头、多类型的特质在大数据时代,世间万物都可以数据化,文字会变成数据,方位会变成数据,交流会变成数据,对这些数据进行整理、加工和分析,从而创造出价值,使其成为大数据从技术角度看,大数据在数据采集、数据预处理、数据存储、数据分析和挖掘、结果展现等诸多方面均突破了传统,具备了处理不同数据源、多种类型海量数据的能力,搭建了从数据到知识转变的桥梁,成就了大数据现象
国土资源、环境保护、气象、地震、海数据库起源洋、测绘等部门