大数据与人工智能应用的7个常见误区

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 随着越来越多的组织采用大数据技术处理大量、快速、多变的信息资产,通常很快就会面临如何从中有效地获得洞察力和商业价值的问题,这就涉及到了大数据和人工智能。大数据和人工智能之间存在着紧密的关系,大数据是燃料,人工智能是手段。

随着越来越多的组织采用大数据技术处理大量、快速、多变的信息资产,通常很快就会面临如何从中有效地获得洞察力和商业价值的问题。


Talend公司产品高级总监Jean-Michel Franco为此表示,“大数据技术自然可以带来高级分析措施。但当组织可以捕获有关可以改进业务主题的大量信息时,不要只是了解事物表面,还想发现事物本质,找出根本原因,预测将要发生的事情,并准确地解决问题。而人类在没有机器帮助的情况下独自完成是很难做到的。”而人工智能技术已经成为一种理解所有信息的方式,并且实际上成为一种需要大量数据才能实施的学科。


因此,大数据和人工智能技术总是结合在一起是很自然的。商业转型和外包咨询服务商PaceHarmon公司总监JP Baritugo说:“大数据和人工智能之间存在着紧密的关系。大数据是燃料,人工智能是手段。”


但是在这一过程中,人们对人工智能和大数据如何协同工作产生了一些误解,导致潜在的混乱,IT领导者应在采用数据驱动型策略时进行澄清:


1.某些类型的人工智能可能不需要大数据


例如,一些聊天机器人学习的输入数据集可能比人工智能技术还要少。


Baritugo说,“‘垃圾输入,垃圾输出’的数据分析理念是适用的,因为组织需要足够的良好数据来从其人工智能工作中驱动具有意义的价值。但需要多少数据可能会有所不同。”


Everest集团执行副总裁兼资深分析师Sarah Burnett为此解释说:“大数据意味着由结构化和非结构化数据组成的大数据集,可以为人工智能的一些应用提供数据,例如需要大量数据来训练人工智能、分析信息以发现模式,并用概率来提出问题的答案时,并非所有人工智能都需要大量数据。”


Baritugo 说,“通过设计,人工智能通常需要大型的规范化数据集(即大数据的“清理”子集)来有意义地识别模式并生成必要的输出,其所需的数据量(包括培训和评估数据集)主要由问题的复杂性、需要评估的输入功能的数量以及所使用的算法决定。”


例如,机器学习(ML)通常需要比深度学习(机器学习的另一个子集)更少的数据来进行训练。


2.并非所有大数据都需要人工智能的应用


人工智能可能有助于推动数据分析,但不一定需要从大数据中提取价值。ISG公司认知自动化和创新总监Wayne Butterfield说,“高级分析已成为大多数组织多年来利用的概念。这实际上取决于数据集的大小和需要分析的不同数据集的数量。就算专家拥有最聪明的头脑,也不可能在有限的时间内在一些大型数据集中找到具有洞察力的模式,因此机器学习在完成繁重工作方面具有一定优势,但是并非所有数据集都是庞大而多样的,因此不一定总是需要采用机器学习(ML)才能从中获得洞察力。”


IT组织还可以使用商业智能、分析和数据仓库解决方案来分析数据并可视化见解。


3.高级分析和人工智能并不一样


很多时候,人们使用“大数据”一词来更广泛地描述这些信息资产的高级分析,这并没有什么问题。但是他们可能认为高级分析和人工智能也是可以互换的术语,这种想法是不对的。


Burnett说:“人工智能和高级分析紧密联系在一起,但存在一些关键区别。例如,人工智能可以尝试各种假设、自我学习并增强其分析。尽管人工智能技术可以分析数据,却无法自我学习,只能依靠人类来设置其参数。”


4.大数据可能会扭曲人工智能模型


Franco说,“大数据为人工智能和机器学习奠定了基础。获得的数据越多,模型就越好。但是当数据不受控制时,也会给人工智能和机器学习带来偏差。”


过分关注数据的数量而不是质量往往是罪魁祸首。Franco说:“当人们无法控制基础数据时,人工智能和机器学习不可避免地会遭遇失败。将大量数据收集到数据湖中并不能为人工智能和机器学习的成功奠定足够的基础。”


5.组织可能已经将人工智能和大数据结合在一起但却不知情


Burnett谈到智能文档处理(IDP)软件时说:“有些软件解决方案已经内置了人工智能功能,可以随时安装、训练和使用。这些解决方案加速了人工智能的采用,并帮助组织处理特定的业务需求。在这些情况下,不一定需要了解人工智能技术才能获得收益。”


6. 人类证明了将大数据和人工智能结合起来的必要性


当涉及大数据和人工智能时,信任和透明度是关键。Franco说,“组织需要扎实的数据基础,才能使用人工智能获得正确的见解。而且,组织员工需要参与到数据治理的过程,以控制数据(数据质量、代表性、数据隐私)和算法(使用可解释的人工智能能够理解算法的内容)。”


7.并非所有数据都对人工智能有用


Butterfield说:“与人工智能结合使用时,通常在拥有大量数据和拥有正确数据以提供见解之间有着很好的平衡。人工智能并不是解决所有问题的灵丹妙药,至少到目前为止是这样。企业领导者需要意识到这一点。”

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
人工智能 Java API
Java也能快速搭建AI应用?一文带你玩转Spring AI可落地性
Java语言凭借其成熟的生态与解决方案,特别是通过 Spring AI 框架,正迅速成为 AI 应用开发的新选择。本文将探讨如何利用 Spring AI Alibaba 构建在线聊天 AI 应用,并实现对其性能的全面可观测性。
|
3天前
|
人工智能 边缘计算 运维
容器化浪潮下的AI赋能:智能化运维与创新应用
近年来,容器技术以其轻量、高效、可移植的特性成为云原生时代的基石,推动应用开发和部署方式革新。随着容器化应用规模扩大,传统运维手段逐渐力不从心。AI技术的引入为容器化生态带来新活力,实现智能监控、自动化故障诊断与修复及智能资源调度,提升运维效率和可靠性。同时,AI驱动容器化创新应用,如模型训练、边缘计算和Serverless AI服务,带来更多可能性。未来,AI与容器技术的融合将更加紧密,推动更智能、高效的运维平台和丰富的创新应用场景,助力数字化转型。
|
8天前
|
人工智能 DataWorks 大数据
大数据AI一体化开发再加速:DataWorks 支持GPU类型资源
大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。
81 24
|
1天前
|
人工智能 大数据 云计算
人工智能通识教育与应用实践
人工智能通识教育与应用实践
|
19天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
193 27
|
1天前
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
3天前
|
存储 人工智能 开发框架
Spring AI Alibaba 应用框架挑战赛圆满落幕,恭喜获奖选手
第二届开放原子大赛 Spring AI Alibaba 应用框架挑战赛决赛于 2 月 23 日在北京圆满落幕。
|
12天前
|
存储 人工智能 程序员
通义灵码AI程序员实战:从零构建Python记账本应用的开发全解析
本文通过开发Python记账本应用的真实案例,展示通义灵码AI程序员2.0的代码生成能力。从需求分析到功能实现、界面升级及测试覆盖,AI程序员展现了需求转化、技术选型、测试驱动和代码可维护性等核心价值。文中详细解析了如何使用Python标准库和tkinter库实现命令行及图形化界面,并生成单元测试用例,确保应用的稳定性和可维护性。尽管AI工具显著提升开发效率,但用户仍需具备编程基础以进行调试和优化。
162 9
|
18天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
88 14
|
10天前
|
人工智能 BI
【瓴羊数据荟】 AI x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
瓴羊「数据荟」Meet Up城市行系列活动第四期活动将于3月7日在上海举办,由中国信息通信研究院与阿里巴巴瓴羊专家联袂呈现,共同探讨AI时代的数据应用实践与企业智能DNA的革命性重构。
【瓴羊数据荟】  AI  x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站

热门文章

最新文章