石勇:《大数据时代》三个结论都不完整

简介:

“大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据来源于政府、企业、网络与开源数据(每个人)。我们研究大数据的科学问题还需要时间,大数据应用问题更需要时间。”7月9日,发展中国家科学院院士、中科院虚拟经济与数据科学中心主任石勇在以“新金融规范、创新与发展”为主题的首届紫金峰会上表示。该峰会由浙江大学和泰然集团联合主办。

大数据面临的三大挑战

“十三五”规划纲要提出:实施国家大数据战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。

“去年的大数据战略说的很清楚,首先是提高采集、有效整合,深化政府数据和社会数据关联分析、融合利用,然后是统一共享交换平台,研究制定数据开放、保护等法律法规,完善大数据产业链,加快关键技术攻关,促进大数据软硬件产品发展。”石勇表示。

同时,他指出,目前大数据仍面临着三个挑战:第一,在云存储和云计算基础上,如何利用信息技术等手段对非结构化和半结构化数据进行有效处理已成为各国大数据专家共同关注的前沿科研问题;第二,如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模,这一问题的突破是实现大数据知识发现的前提和关键。第三,研究数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响,由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题,对传统的数据挖掘理论和技术提出了新的挑战。

《大数据时代》结论不完整

“大数据背后是 数据科学 ,而数据科学是关于数据收集、管理、转换、分析与应用的科学,其核心是研究从数据中获取知识。很多人看过《大数据时代》这本书,但书中的三个结论都是不完整的。”石勇表示。

据了解,该书提出,大数据应该既要全体,又要抽样,大数据的抽样比小数据的抽样更具有普适性;大数据应从粗糙中寻求精确;大数据应从相关关系中把握因果关系与必然关系。

对此,石勇称,“大数据应该分析全部,我们能群体吗,这是反科学的。但是大数据来了以后,数据量大了样本就大。大数据粗糙中寻找精确。大数据的主要原理在于预测,这是科学的方法。”

此外,石勇还提到了大数据与金融决策的关系,大数据的应用等。目前中国大型的商业银行和保险公司的数据量已经超过100TB,中国金融行业已经形成共识——数据是重要资产。中国金融行业已步入大数据时代的初期阶段,并且呈现快速发展势头,未来的金融业将开展新一轮围绕大数据的IT建设投资。

“优秀的数据分析能力是当今金融市场创新的关键,资本管理、交易执行、安全和反欺诈等相关的数据洞察力,成为金融企业运作和发展的核心竞争力。”石勇说。

而在大数据的应用方面,石勇说,“我国的个人征信评分系统是世界第一的”。据介绍,我国的个人征信系统基于8.5亿消费人的记录,服务于日常金融活动。截至2010年5月31日,个人征信系统查询次数达6.5亿次,实现了真正意义上的基于大数据挖掘的金融工程理论与实践。





====================================分割线================================


本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 算法 大数据
大数据开发是先学习Hadoop还是spark,看10万程序猿所留下的结论
从目前我遇到过的面试者和看过的简历来看,凡是没有过大数据项目经验的人,简历写出花来都是扯淡。部署一个集群,装一个Hive,HBase什么的根本就不叫大数据(有的公司甚至部署Hadoop只用HDFS,每天处理5GB数据,这是我面过的一个人告诉我的他的工作经验)。
1846 0
|
大数据
《大数据、小数据、无数据:网络世界的数据学术》一 3.6 结论
本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.6节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1066 0
|
大数据
《大数据、小数据、无数据:网络世界的数据学术》一 2.3 结论
本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第2章,第2.3节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1123 0
|
大数据
《大数据、小数据、无数据:网络世界的数据学术》一 1.5 结论
本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第1章,第1.5节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1038 0
|
11天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
11天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
11天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
11天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
27 0
|
11天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
33 1

热门文章

最新文章