2022 年下半年数据和人工智能技术预测

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 当我们从 2022 年展会的中场休息中脱颖而出时,是时候盘点一下我们今年在大数据、高级分析和人工智能方面取得的进展,并评估我们接下来可能会走向何方。

根据我们在 2022 年到目前为止的情况,Datanami 有信心在今年余下的时间里做出这五个预测。
image.png
数据可观察性继续运行
今年上半年对于数据可观察性来说意义重大,这让客户可以更好地了解数据流的情况并制定相关指标。随着数据对于决策制定变得越来越重要,该数据的健康和可用性也变得越来越重要。

我们看到许多数据可观察性初创公司获得了数亿美元的风险投资,其中包括Cribl(价值 1.5 亿美元的 D 轮融资);蒙特卡洛(D 系列价值 1.35 亿美元);Coralogix(D 系列价值 1.42 亿美元);和别的。其他制造新闻的公司包括推出元数据指标的Bigeye;StreamSets,被Software AG以 5.8 亿美元收购;IBM上个月收购了可观察性初创公司 Databand 。

这种势头将在 2022 年下半年继续,因为越来越多的数据可观察性初创公司走出困境,现有的初创公司寻求巩固其在这个新兴市场中的地位。

实时数据弹出
实时数据多年来一直处于次要地位,服务于一些小众用例,但实际上并未在常规企业中得到广泛使用。但是,由于过去几年的新冠疫情和相关的商业计划重组,实时数据进入主流科技圈的条件现在已经成熟。

“我认为流媒体终于发生了,” Databricks首席执行官 Ali Ghodsi 在最近的 Data + AI 峰会上表示,并指出该公司基于云的数据平台上的流媒体工作负载增长了 2.5 倍。“他们有越来越多的 AI 用例需要实时。”

内存数据库和内存数据网格也准备从实时复兴中受益(如果是这样的话)。RocksDB是一个快速分析数据库,它增强了 Kafka 等基于事件的系统,现在有一个名为 Speedb 的替代品。SingleStore在一个单一的关系框架中结合了 OLTP 和 OLAP 功能,在上个月的一轮融资中达到了 13 亿美元的估值。

还有StarRocks ,它最近获得了基于 Apache Doris的快速新 OLAP 数据库的资助;Imply于 5 月完成了 1 亿美元的 D 轮融资,以继续其基于 Apache Druid 的实时分析业务;DataStax将 Apache Pulsar 添加到其 Apache Cassandra 工具包中,筹集了 1.15 亿美元用于推动实时应用程序开发。Datanami预计这种对实时数据分析的关注将继续下去。
监管增长
GDPR生效已经四年了,让大数据用户受到关注,并加速了数据治理作为负责任数据计划的必要组成部分的兴起。在美国,监管数据访问的任务已经落到各州身上,加利福尼亚州在 CCPA 方面处于领先地位,它在许多方面模仿了 GPDR。但更多的州可能会效仿,这使美国公司的数据隐私等式变得复杂。

但 GDPR 和 CCPA 只是法规的开始。我们也处于第三方 cookie 的消亡之中,这使得公司更难跟踪用户的在线行为。谷歌决定将其平台上第三方 cookie 的终止时间推迟到 2023 年 1 月 1 日,这给了营销人员一些额外的时间来适应,但来自 cookie 的信息将难以复制。

除了数据法规之外,我们还处于关于使用人工智能的新法规的风口浪尖。欧盟于 2021 年推出了人工智能法案,专家预测它可能会在 2022 年底或 2023 年初成为法律。

数据表格式之战
一场经典的技术大战正在形成新的数据表格式,这将决定数据如何存储在大数据系统中,谁可以访问它,以及用户可以用它做什么。

最近几个月, Apache Iceberg作为数据表格式的潜在新标准获得了热潮。云数据仓库巨头Snowflake和AWS今年年初出来支持 Iceberg,后者提供交易和其他数据控制,并从 Netflix 和 Apple 的工作中脱颖而出。前 Hadoop 分销商Cloudera在 6 月份也支持了 Iceberg。

但是 Databricks 的人们提供了 Delta Lake 表格式的替代方案,它提供了与 Iceberg 类似的功能。Apache Spark 支持者最初以专有方式开发了 Delta Lake 表格式,这导致指责 Databricks 为客户设置锁定。但在 6 月的数据 + AI 峰会上,该公司宣布将把整个格式都开源,从而让任何人都可以使用它。

在洗牌中迷失的是Apache Hudi,它还提供了数据的一致性,因为它位于大数据存储库中并且可以被各种计算引擎访问。Onehouse是一家由 Apache Hudi 的创建者支持的企业,今年早些时候推出了一个基于 Hudi 的 Lakehouse 平台。

大数据生态系统喜欢竞争,因此在 2022 年剩余时间里观察这些格式的演变和竞争将会很有趣。
语言 AI 继续令人惊叹
人工智能的前沿逐月变得越来越锋利,而今天,人工智能的矛头是大语言模型,它越来越好。事实上,大型语言模型已经变得如此出色,以至于 6 月份的一位Google工程师声称该公司的 LaMDA 会话系统已经变得有感知力。

人工智能还没有感知能力,但这并不意味着它们对企业没有用处。提醒我们,Salesforce有一个名为 CodeGen 的大型语言模型 (LLM) 项目,该项目旨在理解源代码,甚至以不同的编程语言生成自己的代码。

上个月,Meta(Facebook 的母公司)推出了一个可以翻译 200 种语言的大型语言模型。我们还看到了通过 BigScience 大型开放科学开放访问多语言语言模型或BLOOM等项目使 AI 民主化的努力。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
61 10
|
5天前
|
人工智能 安全 算法
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
2024年12月11日,由中国计算机学会计算机视觉专委会主办的“打造大模型时代的可信AI”论坛在上海举行。论坛汇聚了来自多家知名学术机构和企业的顶尖专家,围绕AI的技术风险与治理挑战,探讨如何在大模型时代确保AI的安全性和可信度,推动技术创新与安全治理并行。论坛重点关注计算机视觉领域的最新进展,提出了多项技术手段和治理框架,为AI的健康发展提供了有力支持。
30 8
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
|
5天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
12天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
16天前
|
机器学习/深度学习 存储 人工智能
【AI系统】离线图优化技术
本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
36 5
【AI系统】离线图优化技术
|
4天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
35 14
|
5天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
37 13
|
3天前
|
存储 人工智能 运维
AI-Native的路要怎么走?一群技术“老炮儿”指明了方向
上世纪70年代,沃兹尼亚克、乔布斯等人成立Homebrew Computer Club,推动个人电脑普及。如今,创原会承袭这一精神,由CNCF执行董事Priyanka Sharma等构建,聚焦云原生和AI技术,汇聚各行业技术骨干,探索前沿科技。2024年创原会年度峰会达成“全面拥抱AI-Native”共识,解决算力与存储瓶颈,推动AI原生应用开发,助力千行万业智能化转型,成为行业创新风向标。
|
5天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
18 6
|
10天前
|
机器学习/深度学习 人工智能 监控
AI视频监控技术的核心优势与实践
AI视频监控技术结合了计算机视觉、深度学习和大数据分析,能够实时分析监控画面,识别异常行为和场景变化。其核心在于从“被动记录”转型为“主动识别”,提升监控效率并减少安全隐患。主要应用场景包括泳池管理、健身器械区域、人员密度预警和异常事件检测。系统架构支持多种摄像头设备,采用边缘计算和Docker部署,具备实时性、高准确率和扩展性等优势。未来将优化复杂场景适应性和实时计算负载,进一步提高系统性能。