大数据来了 给政府统计带来了机遇与挑战

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

对于政府统计机构来说,没有什么比数据更重要的了。我们研究统计分类标准、统计调查方法、统计数据采集方式、统计数据加工处理方法、统计数据评估技术,都是为了获取真实准确、完整及时、代表性强、分类科学、经济适用的统计数据。

大数据时代的到来,既给政府统计带来重大发展机遇,也带来严峻挑战。

一、大数据在政府统计中的应用

国家统计局高度重视大数据在政府统计中的应用。到目前为止,已经与17家大数据企业签订了战略合作协议。当然,目前大数据在中国政府统计中的应用仍处于起步阶段,主要表现在两个方面:一是大数据成为政府统计数据的部分资料来源;二是大数据成为政府统计数据质量的部分评估依据。

(一)大数据成为政府统计数据的部分资料来源

目前,大数据已经成为中国政府统计数据的部分资料来源,以下是几个有代表性的方面:

1.利用重点网上零售交易平台数据测算网上零售额

为了掌握网上零售交易平台的交易规模和结构,综合测算网上零售数据,从今年1月份开始,国家统计局实施了月度网上零售交易平台调查,调查范围为42家重点网上零售交易平台,包括京东商城、亚马逊、当当网、淘宝网、天猫商城、酒仙网、美团网、中粮我买网、国美在线、大众点评网等。据对上述42家重点网上零售交易平台数据测算,今年1~8月份,全国网上零售额22400.9亿元,同比增长36.5%。其中,实物商品网上零售额18653.4亿元,增长35.6%,占全部网上零售额的83.3%;非实物商品网上零售额3747.5亿元,增长41.1%,占全部网上零售额的16.7%。这对于宏观管理部门和社会公众了解网上零售情况具有重要的参考作用。

2.利用房屋交易网签数据计算全国70个大中城市的新建住宅价格指数

房屋交易网签数据是指买卖双方签订购房合同后,房地产开发企业在房管部门进行备案,并在房产信息网上公布的相关信息,包含地址、楼层、价格、面积和金额等详细信息,基本涵盖了当月新建住宅的全部交易情况。从2011年1月份开始,国家统计局开始采用房屋交易网签数据计算全国70个大中城市的新建住宅价格指数。这对于提高70个大中城市新建住宅价格指数的数据质量起到了重要作用。

3.利用卓创资讯公司提供的价格信息,开展流通领域重要生产资料市场价格监测

国家统计局与卓创资讯公司开展合作,利用该企业提供的价格信息,开展流通领域重要生产资料市场价格监测。从2014年1月开始,按旬共同向社会发布流通领域9大类50种重要生产资料市场价格的检测结果。行业涵盖黑色金属、有色金属、化工产品、煤炭、石油天然气、非金属建材、农产品、农业生产资料、林产品等领域。地区监测范围覆盖北京、天津、河北、山西、内蒙古、辽宁、吉林、上海等24个省区市。这对于宏观管理部门和社会公众了解流通领域重要生产资料市场价格信息起到了重要作用。

(二)大数据成为政府统计数据质量的部分评估依据

国家统计局除了把大数据作为政府统计数据的部分资料来源外,也高度重视利用大数据评估政府统计数据质量。以下是目前比较有代表性的两个方面:一是利用中国银联跨行银行卡消费数据评估社会消费品零售总额数据质量;二是利用大型机械装备企业物联网数据评估固定资产投资数据质量。

二、大数据给政府统计带来的机遇与挑战

对于政府统计来说,大数据既带来了重大发展机遇,也带来严峻挑战。

(一)大数据给政府统计带来重大发展机遇

首先,大数据将不断提高政府统计服务宏观管理和社会公众的能力。随着大数据的不断发展和完善,随着政府统计机构开发应用大数据能力的不断提升,政府统计产品的种类将会不断丰富,政府统计数据的质量和时效性将会不断提升,从而政府统计服务宏观管理和社会公众的能力会不断提高。

其次,大数据将会推动政府统计发生革命性的变化。随着大数据的发展和完善,随着政府统计机构开发应用大数据技术的逐步成熟,政府统计将会发生革命性变化。一是现有的以周期性普查为基础,以抽样调查为主体,综合运用全面调查、重点调查等方法,并充分利用行政记录等资料的统计调查方法体系可能会发生重大变化。长期以来,抽样调查方法,即在总体中抽选样本、利用样本推算总体的方法;普查和全面调查方法,即对总体中所有单位逐一进行调查的方法,在我国政府统计中发挥了重要作用。今后,在较长的时期内这些方法仍然会被政府统计所广泛采用。但在大数据不断发展和完善的情况下,某些领域、某些方面的大数据可能会取代抽样调查、普查和全面调查方法,成为获取统计数据的重要方法,而且这种获取统计数据的方法将会变得越来越重要。二是政府统计中的数据采集方式可能会发生重大变化。长期以来,政府统计机构主要以企业填报、住户记账、调查员入户等方式采集原始数据。在大数据不断发展和完善的情况下,一部分原始数据将通过挖掘大数据的方式获取,而且这种新的数据采集方式将会变得越来越重要。三是政府统计的数据处理模式可能会发生重大变化。在大数据不断发展和完善的情况下,现行的对普查和全面调查数据进行直接审核、汇总、加工处理和对抽样调查数据进行推算放大的数据处理模式可能会发生重大变化。

(二)大数据给政府统计带来严峻挑战

首先,大数据对政府统计能力带来挑战。从大数据本身的产生到发展完善,从政府统计对大数据的初步运用到成熟运用,需要一个较长的时期。在这个过程中,一方面,政府统计中传统的统计调查方法、数据采集方式和数据处理模式将继续运行,否则满足不了宏观管理和社会公众的需求。另一方面,政府统计系统必须投入大量的人力和物力对大数据进行挖掘、加工处理和运用,否则也适应不了大数据时代宏观管理和社会公众的需求。这种双轨运行的模式,对政府统计能力将是一个巨大的挑战。

其次,大数据对传统政府统计理念带来挑战。传统的政府统计有一个约定俗成的理念:抽样调查方法可降低调查成本,提高效率和数据质量。因为抽样调查只对总体中部分抽中的样本进行调查,并非对总体中的每一个单位都进行调查,所以调查单位明显减少,可降低成本,节约时间,提高效率。同时,由于调查单位较少,政府统计机构有能力对基层统计调查人员进行较为扎实的培训和指导,有精力对统计调查数据进行较为严格的检查和审核,从而能够提高统计调查数据质量。随着大数据不断发展完善,政府统计机构将会越来越多地通过大数据企业间接地获取统计数据,不需要对总体中的具体单位进行直接调查,不需要调查员,从而也不需要对调查员进行培训,抽样调查所具有的调查成本低、能够提高统计调查数据质量的优点就不复存在了。

原文发布时间为:2015年10月08日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
存储 监控 NoSQL
Redis HyperLogLog: 高效统计大数据集的神秘利器
Redis HyperLogLog: 高效统计大数据集的神秘利器
127 1
|
SQL 存储 分布式计算
MaxCompute元数据使用实践--项目信息统计
MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。
832 0
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
41 3
|
4月前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
分布式计算 Hadoop 大数据
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
274 1
|
6月前
|
分布式计算 项目管理 MaxCompute
MaxCompute元数据使用实践--数据权限统计
本文主要介绍通过元数据的相关权限的视图进行数据权限的统计。
101622 2
|
6月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day04】大数据排序统计
每天一道大厂SQL题【Day04】大数据排序统计
54 0
|
6月前
|
机器学习/深度学习 分布式计算 大数据
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
75 0
|
分布式计算 大数据 Java
大数据行业部署实战2:环境大数据统计
大数据行业部署实战2:环境大数据统计
148 0
|
SQL 分布式计算 DataWorks
MaxCompute元数据使用实践--作业统计
通过MaxCompute租户级别Information Schema的“TASKS_HISTORY”视图可以统计查看MaxCompute计算作业的元数据信息,方便您进行作业审计以及各类统计,指导作业性能、成本优化。
1624 0
下一篇
无影云桌面