四说大数据时代“神话”:从大数据到深数据

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。

在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。文中从三个角度思索了大数据时代的问题并提出了一些建议的做法以改进这些问题。

现今,人们看待数据理应更为深思熟虑,而不是不加刷选地搜集全部可获取的数据来实现“大数据”。我们如今需要让某些数据落实到位,并搜寻数量和质量的多样性。这一措施将产生很多长久的利益。

四种大数据神话:

任何数据都能够而且理应被捕捉和储存。

大量的数据总是有利于创建更精确的分折模型。

存储大量数据的成本基本上为零。

计算大量数据的成本基本上为零。

殊不知:

来自物联网和网络流量的数据明显超出了人们的捕捉能力。许多数据都需要在抓取时进行预处理便于存储和监管。人们需要按照其价值对数据做好归类与筛选。

重复使用一千次同样的数据开展训练并不会提升预测模型的精确性。

储存更多数据的成本不仅是亚马逊网络服务向您收取的以 TB 计费的美金。同时也包含系统在查寻和监管好几个数据源的超额复杂性,及其员工移动和运用该数据的“模拟重量”。这些成本一般高过储存和计算费用。

人工智能算法对计算资源的需求会迅速超过弹性云基础设施能够提供的算力。在沒有专业的管理模式的情形下,计算资源会呈线性增长,而计算需求则会出现超线性增长,乃至指数级增长。

假如轻信了这些神话,你所构筑的信息系统将会看上去会好似纸上谈兵,或从长久角度看上去非常好,但在即时性的架构中实现起来则是繁杂且低效的。

四种大数据问题:

重复的数据对模型无益。在为 AI 构建机器学习模型时,训练样本的多样性尤为重要。缘故是模型试图明确概念界限。比如,假如您的模型试图通过年纪和职业来界定“退休人员”的概念,那么像“32 岁的注册会计师”这样的重复样本对该模型并没什么价值,因为这些人大也没有退休。在 65 岁的概念边界中获得样本并掌握退休怎样随职业而转变则更具备价值。

低质量数据会对模型有害。在 AI 试图学习两个概念之间边界的过程中,如果新数据是不精确的,或存在错误,那么它会混淆这个边界。在这种情况下,更多数据无济于事,并且还有可能会降低现有模型的准确性。

大数据增加了时间成本。针对不一样学习算法,在 TB 级的数据上构建模型将会会比在数 GB 的数据上构建模型多花费约千倍、乃至万倍的时间。数据科学本就是迅速实验,虽不完美却轻量的模型更具备未来趋势。数据科学一旦失去了速度,则失去了未来。

大数据环境下便于实现的模型。任何预测模型的最后目的都是构建一个可用于商业部署的高度精确的模型。有时使用来自数据库深处阴暗面的模糊数据将会会产生更高的精确性,但所使用的数据针对实际部署可能是有风险的。应用一个不太准确却能够快速部署和运行的模型往往更好。

四种更好的措施

学会在准确性和执行性之前权衡。数据科学家大都喜爱将目标定为更精确的模型。事实上,你理应依据准确性和部署速度,测算合理的 ROI 期待,随后再开始你的项目。

应用随机样本搭建每一模型。如果你已经获取了大数据,那么没理由不采用它。假如能使用好的随机抽样方法,那么你可以先使用小样本建立模型,随后在全部数据库上开展训练和调节以获取更精确的预测模型。

丢弃一些数据。倘若你对来源于物联网设施和其它来源的流数据觉得手足无措,请抛下一些数据,不必有太大的负担。如果你没法购买足够的磁盘来储存多余的数据,它会损毁你在计算机科学生产线末期的全部工作。

找寻更多数据源。人工智能近期的很多突破并非归因于更大的数据集,而是能够将机器学习算法成功的应用于这些数据,这在以前是没法实现的。比如,现今普遍存在的大中型文本,图像,视频和声频数据集在20年前并非存在。你理应持续探寻新的数据以找出更好的机会。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9天前
|
存储 人工智能 OLAP
深度|大模型时代下,基于湖仓一体的数据智能新范式
本次文根据峰会演讲内容整理:分享在大模型时代基于湖仓一体的数据产品演进,以及我们观察到的一些智能开发相关的新范式。
|
14天前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
分布式计算 大数据 Java
MaxCompute产品使用问题之是否可以恢复最近两天生命周期清理的数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之删除了某个分区的数据,如何找回
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之表数据大于1w行,如何下载数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
数据采集 分布式计算 DataWorks
MaxCompute产品使用问题之如何确保数据完整性验证有效
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用问题之dts是否支持传输数据到mc主键表2.0
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
分布式计算 大数据 数据处理
MaxCompute操作报错合集之odps数据库T1有几百行的数据,为什么出来只有5行的数据
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
14天前
|
分布式计算 NoSQL 大数据
MaxCompute产品使用问题之数据在redis里可以通过接口调用到大数据计算吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
分布式计算 运维 DataWorks
MaxCompute产品使用问题之数据如何导出到本地部署的CK
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。