从政府统计到政府大数据统计

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在互联网大数据发展中,要把各种各样的数据链接到具有统计思想、统计标准、统计流程、统计方法的科学过程上,形成互联网云技术状态的大数据统计,从而为创造新的大数据生态提供统计科学理论方法,也为与外部无缝连接成大系统数据体系、推动全社会产业分工合作、创造更大的生产力,提供统计工具。


在互联网大数据发展中,要把各种各样的数据链接到具有统计思想、统计标准、统计流程、统计方法的科学过程上,形成互联网云技术状态的大数据统计,从而为创造新的大数据生态提供统计科学理论方法,也为与外部无缝连接成大系统数据体系、推动全社会产业分工合作、创造更大的生产力,提供统计工具。因此,统计学本身的发展,也要求政府统计成为政府大数据统计。

统计形式主要表现为统计数据和统计分析,统计数据是统计分析的基础,但在政府统计形式上,则主要从数据出发。统计设计、统计调查及数据搜集整理追求的是一个能够描述一个国家全部经济社会活动的数据体系,科学简洁、充分有效,为社会各界直接认知和直接管理服务,也为专门机构的统计分析研究提供数据支持。

如果政府统计从统计分析出发,那么因为重心的移动,虽然其也包括统计调查和数据搜集整理,但因统计工作的层次增加,统计分析体系的决定作用就比较大。如此一来,统计调查、统计数据搜集整理可能就会以统计分析为主要目标,而做出一些相对重点的安排。与主要从统计数据出发的政府统计相比,因统计分析重心变化,统计数据体系的完整性可能会被削弱,历史数据的一致性也会受到影响,即降低时间序列可比有效数据的系列长度。

客观性与科学性的矛盾统一

政府统计内容是统计发展的实质,即客观性与科学性的统一。客观性是指如何把统计体系按照客观存在的最优细节设计出来,科学性往往受学科的核心理论影响,而核心理论则来自对现实的抽象,二者在统计发展中是矛盾统一的过程。从科学性来讲,如何把多学科交叉的优化作用反映到客观存在对象(包括活动)的最优量化解析之中,是统计数据满足各方面需要的根本点。

政府统计范围原则上是公共统计数据,是公共服务的组成部分,目的是满足全社会各种数据需求。纵横的统计范围是很难界定清楚的,而且借助互联网大数据,其无论在广度和深度上都不断扩张发展。强化核心不限范围可能是政府统计逐步收编业务数据、技术数据、行政记录、活动记录、政策数据、专业数据、价值记录、社会数据、环境数据、自然数据等数据信息,并形成标准化统计数据信息,实现政府大数据统计,为政府统计数据实现更强大的公共服务功能提供科学数据支撑的新思维,这将是人类社会发展巨大变革的一个潜在趋势,也是统计学科与统计工作发展的重大机遇和挑战。

“数据+模型”助力政府大数据统计

“数据+模型”对政府大数据统计变革具有重要作用。在互联网大数据云技术的时代,统计学本身要按照“数据+模型”的要求,重新开发统计应用价值。其中,大数据与统计数据的链接,包含着双方的互相推动与抱团裂变新能量。抱团裂变新能量是指完全按照客观存在,把所有量,包括任何一个经济活动、一个部门活动、一个社会活动中所包含的自然、业务、专业、实验、技术、政策、行政中的各种数据,按照统计思维、逻辑与方法整理成互联网云技术状态的大数据统计,以此为各方面开展复杂系统全面的研究提供数据资源的能量。有了这个基础,才可能产生大数据生态的内生智能化研究。在互联网大数据发展中,要把各种各样的数据链接到具有统计思想、统计标准、统计流程、统计方法的科学过程上,形成互联网云技术状态的大数据统计,从而为创造新的大数据生态提供统计科学理论方法,也为与外部无缝连接成大系统数据体系、推动全社会产业分工合作、创造更大的生产力,提供统计工具。因此,统计学本身的发展,也要求政府统计成为政府大数据统计。

抢占互联网大数据领域的核心地位

联系互联网大数据,重新认识统计学家族的作用,有利于统计学科发展上的战略选择。面对互联网大数据,有必要把统计科学概括成“统计数据+统计模型”。尽管许多人将统计学称为数据的科学,但实际上,主要还是指如何用统计模型分析数据。当前,需要把统计科学中的“统计数据”独立出来,其深远意义是探索如何直接对接互联网大数据。

“统计数据”面对人类社会的各种实际活动,发挥定量、描述、关联、网络等作用,物联网智能化数据、实验数据、实物量统计数据、价值量统计数据、业务数据、行政数据、专业数据、文本数据、问卷调查及定性定量化的软数据,以及展示数据说明客观规律的指标及指标体系、统计分布、统计分位、统计分层、统计分类、相关分析、投入产出矩阵关系、网络图模型、描述统计和探索性统计分析等,都是针对“统计数据”的统计科学作用。探索以因果关系及其客观规律的统计模型分析,是统计科学的另一部分——“统计模型”的主要功能,其中,涉及更广泛的概率论与数理统计理论方法。面对互联网大数据的挑战,统计科学首要的是要把“统计数据”的层面讲清楚,追求运用统计科学解析客观存在的复杂系统运行的最优体系和机制,并且根据实际需要,还要探索出其他学科不能及的“统计数据”内涵层面及其理论方法,要让全社会深刻认识到,统计应该能够成为推动互联网大数据发展的重要工具,并且具有扎实的统计科学基础。

统计科学要在“统计数据+统计模型”上,与互联网所推动的现实内容深刻互动,探索满足应用的统计理论方法,包括互联网大数据推动了“数据”范围扩大、内涵和性质多样化的变化,统计科学要主动抢占互联网大数据领域的核心地位。统计的实质是要聚集全社会的所有数据和能够转化为数据的信息。统计要成为互联网大数据生产的核心科学工具,其中社会所有数据包括物联网数据、业务数据、专业数据、行政数据等转化成统计大数据,以及大量文本、音频、视频、图像信息转化成统计大数据,要覆盖全社会可量化并形成有效系统应用的工具。

政府部门数据共享是实现政府大数据统计的一个更高层次,本质是统计与其他学科交叉发展,是社会分工与合作的体现。作为最通用的社会基础又充满智慧为实际服务的统计科学,在渗透到各个学科领域的过程中,都应该把其所对接的学科对应的实际活动与科学精髓认识清楚、准确,并追求全社会既唯一又统一的大数据统计设计,让统计成为聚集全社会认知体系的量化工具。因此,统计与其他学科交叉是必须的,也是彰显统计科学精神与创造社会价值的最好过程和方式。

(作者单位:中国人民大学应用统计科学研究中心、统计学院)

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8月前
|
存储 监控 NoSQL
Redis HyperLogLog: 高效统计大数据集的神秘利器
Redis HyperLogLog: 高效统计大数据集的神秘利器
146 1
|
SQL 存储 分布式计算
MaxCompute元数据使用实践--项目信息统计
MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。
883 0
|
3月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
59 3
|
6月前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
分布式计算 Hadoop 大数据
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
347 1
|
8月前
|
分布式计算 项目管理 MaxCompute
MaxCompute元数据使用实践--数据权限统计
本文主要介绍通过元数据的相关权限的视图进行数据权限的统计。
101651 2
|
8月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day04】大数据排序统计
每天一道大厂SQL题【Day04】大数据排序统计
57 0
|
8月前
|
机器学习/深度学习 分布式计算 大数据
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
84 0
|
分布式计算 大数据 Java
大数据行业部署实战2:环境大数据统计
大数据行业部署实战2:环境大数据统计
160 0
|
SQL 分布式计算 DataWorks
MaxCompute元数据使用实践--作业统计
通过MaxCompute租户级别Information Schema的“TASKS_HISTORY”视图可以统计查看MaxCompute计算作业的元数据信息,方便您进行作业审计以及各类统计,指导作业性能、成本优化。
1686 0